对抗与联结:生成语法与语料库语言学

蔡颖莹

摘要:随着1957年《句法结构》的出版,语言学研究进入了一个全新的时代,即乔姆斯基语言学革命。而语料库语言学自上世纪50年代以来受到了质疑与挑战。随后,由于计算机技术的快速发展,语料库语言学又逐渐走向复苏。本文旨在通过分析生成语法与语料库语言学在研究理念、研究范围和研究方法等层面的差异,及其存在的局限,阐述二者的对抗关系。同时,通过二者在人工智能领域的应用,剖析生成语法与语料库语言学的联结关系,从而挖掘其合作潜力。

关键词:语料库语言学;生成语法;人工智能;对抗;联结

20世纪50年代,随着乔姆斯基理论改变了语言学研究的实证方向,语料库语言学作为语言研究方法受到了普遍质疑。长久以来,生成语法和语料库语言学被称为两种截然不同、相互对立的研究范式。生成语法和语料库语言学的发展也伴随着双方的互相批判。本文首先通过分析生成语法和语料库语言学在研究范围、研究方法和研究思路上的差异,以及各自存在的优势和不足,阐述二者的对抗关系。同时,本文借助生成语法和语料库语言学在人工智能领域,尤其是自然语言处理层面的互补,揭示两者在一定程度上的联结关系,从而挖掘生成语法和语料库语言学的合作潜力。

一、生成语法与语料库语言学的对抗

生成语法和语料库语言学在研究范围、研究方法和研究程序上有较大的差异。

1957年乔姆斯基《句法结构》的出版标志着生成语法的诞生。生成语法采用数学模拟方式来进行语言研究,使用符号和公式来规定概念,表达规则,以严密的方法把语言机制形式化,以达到用有限的公式来生成无限的句子的目的。生成语法认为,语言学的目的就是要形式化地构造出语法的公理系统,用以精确地描写人的语言能力(沈家煊,2004)。生成语法的研究范围限于人的语言知识或语言能力,而不是语言的运用(徐烈炯 1988)。在研究方法上,生成语法主要采用内省法,即语言学家本人作为资料提供人,将自己的语感作为判断语言现象歧义、正误、可接受性等的依据。在研究程序上,生成语法的研究一般包括九个步骤:定向、选题、发现、描写、解释、推广、论证、批评、反应(Botha 1981)。

语料库语言学是当代语言学与计算机科学交叉的一門新兴学科。它用计算机手段对巨量的语料库进行高速检索、统计和展示,以揭示真实语言使用的倾向性规律及其所传递的意义、功能乃至思想意识(何安平 2012)。Hunston(2002)曾指出,语料库语言学无论对语言研究还是语言的应用研究都具有革命性的作用。语料库语言学研究自然语言的使用,在研究范围上一般涉及语言定量分析、词典编纂、自然语言理解等领域。在研究方法上,主要包括两个步骤:对自然语言进行加工、标注;对已经标注好的语料,采用数理统计的方法进行研究。在研究程序上,语料库语言学内部有两个不同的取向:“基于语料库”和“语料库驱动”,两者在语料库的性质、语料库建设以及语料库分析方面有较大差异。

生成语法和语料库语言学在研究理念上的本质差异造成了两者的对抗关系。乔姆斯基强调区分语言能力和语言应用两个概念。他认为,语言学研究的对象应当是人脑的语言能力而非语言应用。乔姆斯基(1965)指出,“任何自然语料都是偏颇的”,由于自然语料会受到各种因素的影响,因而以自然语料为研究对象、对语言应用进行分析的语料库语言学无法揭示语言本质。然而,Sinclair(1991)认为,语料库的研究方法“能够系统地对大数量的文本语料进行审视,使我们有可能发现一些以前从未有机会发现的语言事实。”同时,生成语法具有高度的抽象性复杂性。虽然乔姆斯基一再强调短语结构规则和转换的简单化,然而深层结构自身显得抽象和复杂。再者,生成语法只能揭示人类语言能力的某些比较狭窄的方面,无法进行语言的历时研究以及对创造性语言的研究(如诗歌)。最后,生成语法的研究语料存在先验论的特性。例如在《句法结构》中,乔姆斯基分析了28个自造的例句,这样的语言数据脱离了语境,而语境恰恰在判断句子是否合乎语法或是否可接受上具有重要作用。

二、生成语法与语料库语言学的联结:人工智能

(一)人工智能的产生与发展

对人工智能(Artificial Intelligence,简称AI)的正式研究发轫于1956年的达特茅斯会议。在此次会议上,约翰·麦卡锡首次提出了“人工智能”这一概念。也是在这次会议上,模拟人的启发式搜索问题解决的计算机程序“逻辑理论家”证明了《数学原理》中的38条逻辑推理。这一事件被认为机器执行认知任务的第一个实例,因而1956年也被称为“AI诞生年”。

20世纪60年代,人工智能的研究活动越来越受到重视,研究者对求解、博弈、机器视觉、自然语言理解等领域进行了深入研究,人工智能进入高速发展时期。从20世纪80年代开始,经过六十余年的发展,原先作为计算机科学领域分支的人工智能已成为跨领域的交叉学科,甚至成为人类科技历史发展上的本质奇点。

(二)生成语法与语料库语言学的联结

人工智能的核心在于“智能”和“自动化”,一般根据“智能”和“自动化”程度将人工智能的发展分为三个阶段即:机器学习、机器智能、机器意识。实现“智能”和“自动化”的关键技术主要包括自然语言处理(Natural Language Processing,简称NLP)、自动推理(Automated Reasoning)、机器学习(Machine Learning)等。其中,NLP涉及对语言的处理能力,是人工智能的高级表现形式。NLP的实现离不开语言学,尤其是生成语法与语料库语言学。

1.生成语法在AI领域的应用

在1956年达特茅斯会议召开的同时,乔姆斯基也在同年提出了生成语法,后发表在1957年出版的《句法结构》中。生成语法的要领是:某一语言的全部合乎语法的句子是从一组抽象的符号通过一套规则的操作而生成出来的。当今大多数用计算机来模拟人类认知过程的系统都是基于这种“符号操作”模式,整个人脑被视为一部按程序操作符号的巨型计算机。可见,人工智能在发展初期就吸收了生成语法的观点。同时,传统NLP涉及一个重要的步骤,即句法分析。生成语法在这一层面发挥着无可替代的作用。对于如:“今天晚上去吃火锅吧,不,去吃烧烤吧。”这样的句子,机器本身无法意识到句子中自我纠正这一环节。那么,利用句法树便可以对句子成分之间的结构进行简化,帮助机器在识别和理解句子的过程中,对说话人的真正意图进行识别。

2.语料库语言学在AI领域的应用

NLP实现的前提是对机器的大量训练。通过对自然语言进行词语解析、信息抽取、时间因果、情绪判断等技术处理,最终达到让计算机“懂得”人类语言认知。在NLP的底层数据层,语料库功不可没。例如,作为NLP基本步骤之一的分词就需要语料库技术的支持:

a.她凭她的才能得到了这份工作。

b.她这样的人才能够留下来,是我们的幸运。

在上述两个句子中,a句中的“才能”明显是一个词,而b句中的“人才”和“能够”却应该分开。在训练分词模型的过程中,针对固定词表进行“一刀切”显然不可取。这时就需要大量的语料输入帮助模型达到更好的准确率。与之类似,现行的聊天机器人、机器翻译等基于NLP开发的人工智能,在建设初期都离不开语料库作为语义识别的基础。

总而言之,生成语法和语料库语言学在人工智能的发展过程中均发挥着重要作用。一方面,基于语料库训练的机器,学到的是大概率下最可能的说法,因而生成的语言常常令人感到乏善可陈,丢失了人类语言的创造性。另一方面,纯粹依靠生成语法的人工智能,虽然能生成无限多的句子,却无法保证句子的正确性。由此可見,生成语法和语料库在人工智能领域,尤其是NLP技术层面,存在互补的作用。

三、结论

本文通过分析生成语法和语料库语言学在研究范围、研究方法和研究思路上的差异,解释了生成语法和语料库语言学的对抗关系。同时,本文以生成语法和语料库语言学在人工智能领域,尤其是自然语言处理层面的互补关系,厘清了两者的联结关系。因而,生成语法和语料库语言学并非传统观点中单纯对立关系,而是既对立又统一的复杂关系,共同寓于语言学研究中。

事实上,许多语料库语言学家积极投入语言理论的研究,而许多生成语法学家也十分关注作为理论研究基础的数据。而其在人工智能领域的联结或将预示着生成语法和语料库语言学将在更多领域碰撞出意想不到的火花。

参考文献:

[1]Botha,R.The Conduct of Linguistic Inquiry[M].The Hague:Mouton,1981.

[2]Chomsky,N.Aspect of the Theory of Syntax[M].Massachusetts:The MIT Press,1965.

[3]Hunston,S.Corpora in Applied Linguistics[M].Cambridge:Cambridge University Press,2002.

[4]Sinclair,J.Corpus,Concordance,Collocation[M].Oxford:Oxford University Press,1991.

[5]何安平.语料库语言学[J].中国外语,2012(5):19.

[6]沈家煊.人工智能中的“联结主义”和语法理论[J].外国语,2004(3):2-9.

[7]王琦.语料库语言学的发展及其与生成语法的关系[J].西北师大学报(社会科学版),2007(6):110-114.

[8]徐烈炯.生成语法理论[M].上海:上海外语教育出版社,1988.

[9]徐愚.机器与语言——对人工智能语义问题的探寻[D].北京:中共中央党校,2016.

《对抗与联结:生成语法与语料库语言学》来源:《北方文学》2018年19期 ,作者:蔡颖莹。

诗文坊小程序

上一篇:

下一篇: