文:陶己 出处:中国图书评论 2007年第8期
在如此丰富的语词密林中,在如许迅捷的信息季风中,能与这样安详静谧的大块头专著《中文信息处理现代词汇研究》(许嘉璐、傅永和主编,广东教育出版社)不期而遇,或许是我等左手执笔、右手击“键”、靠文字过活之人的大幸。同样也只有在它面前,我自惭“语词的贫困”。拥有如是之感慨的人中我肯定不是第一人,这般的鼓与呼更不会是最后的激情与喝彩。这也许只是个开始,一切都可以从这里开始,打通文字与信息之间的脉脉络络,加快人“机”之间的进一步合作。
参照常规的粗线条分类标准来断定,这是一部典型的汉语语言学术论著,其术业专攻语言学和计算机科学两大领域,颠覆了传统的格物致知和人文之分野,属前沿阵地的新锐学科;其论域海纳百川,包罗万象,语料翔实,论证严谨,立论奇警,堪称发醍醐灌顶之功效,得振聋发聩之大势。但终因我才疏学浅,虽通览数遍,只能算得上是管窥蠡测,仅凿得一孔穴,坐而论道,“大胆假设,小心求证”,以抛砖引玉。这似乎应验了钱钟书一句谦辞:“盲目无知往往是勇气的源泉。”
细读许嘉璐先生《序》,首当其冲的关键词即为“语感”,其要义概言有二。其一是人对语言其核心构造为词,所表达的意义与语言环境(包括主观客观、显性隐性的种种语言之外的因素)的关系的一种不言而喻的直接感觉;其二是这种感觉可以大大补充语言表面所未能表达的意思和情感。这里,细究考量一下,所蕴含的关键词亦不外乎两个——意义和表达。“意义”与“表达”名为二实为一,其辩证关系可表述为:意义是表达,意义寓于表达之中,表达体现意义。考察“意义”的特性又有二,一是表现在它的静与动的辩证统一;二是意义的相关呈网状模型,这种网状结构是多层次、多维度,而不是只有一个平面或向度的。至于“表达”的认知模块,需植入到“语言处理”的切片中才能透视到。语言(其基础构造为语词)的常态处理可分解为“分析”和“生成”两个相辅相成的过程,分析相当于“理解”或“读”,生成相当于“表达”或“写”。倘从“分析”的视角来厘清脉络,其次序相异则质料亦异,可标识为面向人的“先理解,后分析”以及面向机器的“先分析,后理解”两类行为过程。具体而言,理解是在事件的关联中去探寻意义的奥妙,这一动态设计便是意义的生成机制,即施与者对面向对象施予影响力的互联装置(这里可具象为语感生成说)。整个行为体系可凝炼为两个字“读”与“写”,同时也昭示了一种理想境界:“读他人所写之书,写他人必读之书”。倘如是,读与写两主题便处于良性互动状态,身受他人影响、濡染,进而又因了自身去影响、浸染他人,历经求同、辩异,回旋往复,以至复杂净化提升,无穷尽也。
追本溯源, “语感”可谓是人在学习和使用语言过程中,与使用同一语言的人达成的默契,是民族传统影响下形成的心理能力。基于人与机器的根本区别——人是有知性的历史颗粒,即有语感和类推(算计)能力;机器有的只是大容量的存储和快速计算的本领。人因为有语感,定性式的知识就可以满足人的相当程度的需要。人还有逻辑类推的能力,给一个定义,几个例证,人就可以举一反三、融类旁通地信息化处理,其中主要是语言信息的处理。而计算机呢,是按照人所提供的条件(知识)进行工作(计算)的,条件不足,从“计算”机到“算计”机或称“认识”机的转变便随之搁浅了。到底,这里的“条件”其蕴涵又如何呢?或者说知识是什么?这一提问方式本身即暗藏了一个预设的前提――“知识”集合体已然存在那里,俨然治装待发的待询对象。于是命题便转换为,实现这一根本转向所预设的必要条件为:教给计算机必要的语言规则,对语言环境(即语言之外)的知识和“语感”。计算机归根到底是为人服务并且为人所用的,工具性是其 的灵魂和基本品格,所以其语言工程“自动化”处理还要与大众心目中“朦朦胧胧”但又确乎存在的认知模式(约定俗成定律)尽量兼容。不另起炉灶,人为地将面向计算机与面向人割裂开来,两者的统一是我们刻意追求的境界。“走出贫困的语词密林”,吁求落地而成长为行为,从“词汇”开始,从语言工程的角度,寻觅一个贯穿始终的解决方案,而不必虑及其细枝末节而失之完美、失之千里。
基于此,依凭当下的语料库,我们似乎只能应答这样的设问:人类为什么需要知识(其核心要素具象化为语词)?换言之,知识集合体对于人类的意义是什么?从技术角度来观察,如何去“读”且“写”呢?干脆挑明来说,究竟跟着谁的“语感”走呢?此“谁”即言说主体(基本单元表征为语词块)将取得怎样的“身份”呢?其角色隐喻不是与生俱来的,而是“成为”的。只有计算机对语言(其基本元素为语词)的理解不囿于形式和表层的意义时,语言工程的“信息化”处理才更接近人类的需要和期待。这一点已渐露端倪,一个中文信息处理的自由时代行将不期而至。