第一章对中文信息处理技术的发展状况以及目前现代汉语语法研究的水平进行了宏观分析。以此为背景,确定了本文研究所针对的对象为短语结构,预期的目标是完成一个带有丰富约束条件的现代汉语短语结构规则库。特别值得指出的是,这样的短语结构规则库是以一部对现代汉语词语进行了全面系统的句法语义属性描述的电子词典作为底层支撑的。北京大学计算语言学研究所已经开发了这样一部可直接供计算机使用的现代汉语语法信息词典。本课题研究跟该词典选择同样的语法理论框架——词组本位语法体系——作为开展研究工作的基本立场。从某种意义上说,本课题的研究工作是该词典研究工作的自然延伸。
第二章贯彻词组本位语法理论以功能为原则建立句法范畴的精神,将以往对词的句法功能分类和属性特征的研究进一步全面拓展到短语结构上,得到了一个相对完整的短语结构功能分类体系,并初步确立了一套描述短语结构句法功能属性的范畴体系。同时,本文吸收了汉语配价理论、动词格框架等的具体研究成果并加以拓展,提出了一个面向中文信息处理的综合的语义信息描述框架
——“广义配价模式”。值得说明的是,这个框架的一部分已经在一个汉英机器翻译系统的词典(超过5万词条)中得到了实现。很显然,本章的研究工作是为进一步开发一个短语结构规则库打下坚实的范畴基础。
第三章在上述句法语义属性范畴基础上,对四类主要的现代汉语短语结构:np、ap、vp、dj的组合规则进行了系统而具体的形式化描写。这部分工作可以概括为,将以往面向人所做的有关汉语短语结构的句法语义研究的成果,加上作者本人的研究和实践,组织成了一部可以为计算机分析汉语短语结构提供直接支持的规则库。从形式上讲,一条短语结构规则包括两部分,产生式规则和合一等式。产生式规则用于描述汉语短语结构的一种组合可能性,合一等式则进一步描述一个特定的组合模式的的整体性质及组合条件。以产生式规则条数计,本章总结了有关上述四类短语的规则共89条。
第四章细致分析了计算机处理汉语短语结构时面临的定界歧义和结构关系歧义问题,从不同角度区分了抽象的歧义格式的不同类型:包含终结符的歧义格式与不含终结符的歧义格式;外显型歧
| 相关热词搜索 |
