如何利用电脑辅助中文阅读
陆丙甫
(南加州大学东亚语言文学系)
一.兴趣导向的实用阅读
学习语言,从根本上说,是通过使用而掌握的。因此如何使学生尽早进入实
用阅读阶段,然后在广泛的阅读这一具体使用中不断提高运用语言的能力,是
提升语言教学效率的一个重要途径。
所谓实用阅读,是相对纯粹以语言操练为目的的阅读而言的,就是指学生能
从中获得语言知识之外的知识或得到享受的阅读。同相对来说单调枯燥的纯语
言技能训练的阅读训练而言,这种实用阅读也可以说是兴趣导向的阅读,或知
识导向的阅读。
“实用阅读”的读物材料,由于具有趣味性、知识性,学生在阅读的过程中
享受到乐趣并且感到有收获,学习语言的枯燥性就被掩盖了。这就如体育锻炼
必需赋予竞赛、游戏的形式,才能使多数人都乐此不疲,是一样的道理。大自
然将繁衍后代、保留物种的严肃使命赋予爱情和性爱的形式,可以说是这一策
略最成功的运用。
但是,中文的一些特殊情况,使尽早进入兴趣导向的实用阅读很难落实。首先
是汉字本身的结构复杂、难学,根本上限制了阅读材料的选择。其次,汉语书面
语的写法以字(语素)为单位,而不是像拼音文字那样以“词”为单位。最后,
汉语极为经济,比起其他世界主要语言,他所使用的专门的语法标记(形态成分)
极少。可以说,繁难的汉字、书面不分词,缺少显形语法标记,这中文的三大特
点是阅读训练的拦路虎,它们使习惯於拼音文字的西方学生很难适应。现在大学
的汉语教科书,知识性方面不过相当于小学的程度。这种情况下必然导致内容空
洞、单调的纯语言操练,而这种操练必然使兴趣广泛、求知欲强烈的大学生感到
极其乏味。
为了克服上述阅读阻力,在南加州大学东亚系语言学教授李艳惠教授主持下的中
文阅读和写作课程中,正在进行一项旨在克服上述三点论难,借助于电脑推动中文
阅读和写作的计划。以下我们对其中阅读部分作如下简单的介绍。
二.上下文敏感的电脑自动词典
电脑技术的发展为中文教学尽早进入实用阅读阶段创造了许多前所未有的便利。例
如,中文软件《南极星》中内存了一套“在线(on-line)”的汉英双向自动词典,
可以让学生阅读中文文件时随时地“随手”按键查看生字、生词的读音和英语解释。
南极星的在线词典含有 48,000 条目,其规模大致相当于北京外国语学院编写、
商务印书馆出版的《汉英词典》,对于解决一般的汉字困难是完全管用的。这样,
利用南极星去阅读初等中文读物,内容上就不那麽受到生字、生词的限制,可以达
到较大的趣味性、知识性。
并且,南极星内存词典的查阅过程能自动识别上下文,根据上下文的组合选择
针对性的词项。
例如,如果要查出现在“美国会通过某某法案”中的“国”字,只要将光标指向
这个字的下方,按 alt
(这是初始键位,具体按键方式用户可以自己设定,如笔者将其设定为连按两下
滑鼠右键)启动词典检索,屏幕上方就会出现本字及其同前后文可能组合的词项:
国 【gu'】 country, state, nation; of the state, national; of our country,
Chinese; a surname.
国会 【gu'hu崱 parliarment; <美> Congress; <日>Diat.
美国 【m噄gu'】 The United States of America.
而在没有上下文的情况下(所要查的字不同任何字直接相连,被空格或标点所
隔开),启动词典后,屏幕上就只出现一项。
国【gu'】 country, state, nation; of the state, national; of our country,
Chinese; a surname.
若要进行上下文自由的检索,可以将所选择的字或词在反相标示(highlight)
以后,再启动词典检索。此时词典会进行超越上下文的全面搜索,将所有包含
该字和该词的词条列出。如查“国”字,就会看到 150 条左右所有包含“国”字
的词项。读者可以按Page-Down 键读下去。
国 【gu'】 country, state, nation; of the state, national; of our country,
Chinese; a surname.
国宝【gu'b僶】 national treasure.
国标【gu'bi刼】 GB; Guobiao; Chinese National Standard.
国标码【gu'bi刼m儭 GB code; National Standard Coding of Chinese characters.
……
爱国【卛gu'】 love one's country; be patriotic.
……
岛国【d僶gu'】 country consisting of one or more islands; island country.
……
最惠国【zu峢u峠u'】 most-favoured-nation.
在查好词典之后,只需一按“退出(Esc)”键,就可以使词典解释消失,重新出
现读物内容,学生得以继续阅读。
现在全球已经有大约有近三十份电网中文杂志,内容百花齐放、极为丰富,同步
地反映了激变中的当代中国的种种现象(其中最早创办也是至今为止影响最大的是
已经有六年历史的《华夏文摘》周刊)。这些电网杂志都能方便地通过国际联网
(Internet)获取,它们为电脑上阅读中文提供了取之不尽的材料。
除南极星之外,其它一些海外中文软件也开始增加词典功能。但是在规模和
方便程度上都还没有达到南极星的水平。例如在双桥(TwinBridge)最新4.0 版
本的所谓翻译功能,也有辅导阅读的功能,但是词条解释过於简略,收词也
少,没有成语;并且步骤较复杂,查词时需要退出正在阅读的本文,对阅读干
扰较大,还没有到“随手”查阅的方便程度。远没有达到可以方便应用的实用
阶段。但是我们相信,随着中文软件的发展,越来越多的中文软件将具备越来
越完善、方便的词典功能。
三.电脑编辑下的分词连写
但是,这些电网读物的内容,比较适合中文高年级的学生和研究中国问题的
博士生,对於低年纪的中文学生,仍然是太深了。因此,我们就必须专门编写
一些文字浅显而内容上仍有一定趣味性的初级读物(见本文所附样品)。
并且,为了使阅读中文变得更加轻松愉快,还可以对文字的排印形式进行一些
适当的处理。这方面,便利的中文电脑输入和编辑也提供了前所未有的方便。
例如,可以将电脑中的中文读物进行“分词”的处理。这对于以拼音文字为第一
语言而习惯於以“词”(word, 而不是“字”)为基本语言单位的学生是很大的
便利。
古代中文连标点也没有,这显然为阅读造成了很大的困难。古人要用“十年寒窗”
的时间学文章,相当多的精力是用在掌握“句、逗”方面。自从在中文中引进了
新式标点之后,学习中文的时间就缩短了不少。中国大陆曾经组织了数百万专家,
历时二十多年对《二十四史》进行了标点和注解的整理,可见标点是如何重要。如
果古代中文就采用标点符号,后代人阅读古文就方便得多。
拼音文字的分词连写,就其本质而言,其实就是标点功能的扩展和深化。空隔
表示词和词之间的分界,就像句号表示句子和句子之间的分界一样。
如果现代中文采取了分词连写,理应大大方便阅读。首先是可以消除许多歧
义。例如“一个半劳动力”究竟是“ 0.5个 劳动力”(一个 半-劳动力)呢还是
“ 1.5个 劳动力”(一个-半 劳动力),通过分词连写,就能解决。“美国会通过
某某法案”的两个意思“美国 会 通过 某某 法案”和“美 国会 通过 某某 法案”,
也能通过分词连写得到分化。
在没有歧义的情况下,分词连写也能因减少“边读边猜”的程度而提高阅读速度。
对於我们已经熟悉了中文的人来说,分词连写的好处可能不明显,因为我们“生
在繁中不知繁”,已经习惯成自然了。但是对於初学中文或者中文程度不高的人,
这种分词连写的效果也许会很明显。正像古人不特别埋怨没有标点的麻烦,但
习惯了标点符号的我们阅读没有标点的读物简直感到无从下手。合理的分词连写
可以使阅读变得更加轻松愉快!
美国大学生学习中文,一个普遍的情况是口语能力远远超过阅读能力,这同中
国人学英语往往阅读能力远远超过口语能力形成鲜明的对比。其中原因,除了汉
字的难学之外,不善於分词也是一个重要的原因。
有鉴于此,我们探索在读物中采用适当的分词连写手段,作为一个过渡阶段的读
物,以减少学生阅读的困难和增加阅读兴趣。我们着手编写了一套采用分词连写的
中文读物,供大学中文一、二年级使用(见附录)。
《南极星》的自动词典用于分词连写的读物,运用起来就更方便了。例如,
“美国 会 通过 某某法案”中,学生在查“国”字时,就只会出现
“国”和“美国”两条,而不会多此一举地出现“国会”的词条,因为在
“国”和“会”之间有一个空格,消除了把两者组成一个词的可能性。
四.电脑编辑增加语法信息
我们的分词连写方法大致上以1988年7月国家教育委员会和国家语言文字工作
委员会联合公布的《汉语拼音正词法基本规则》为准。
但是,《基本规则》也有一些不明确的地方或者前后不一致的地方,我们对此
作了一些新修改。以下具体讨论。
《基本规则》之所以某些地方不能做到明确,是因为词的定义在语言学中至今
没有一个精确的定义,而汉语中词的定义尤其不明确。
但从实用的角度来看,这问题的解决同“词”的定义并没有必然的联系。英语、
法语等拼音文字中也不是完全按照“词”的划分去决定分连的。如英语的 cannot
未尝不可看作两个词。此外,“I'll”代表两个词 I 和 will,但是却是半连写的。
法语“c'est(这是)”也是同样的情况。虽是一个词(主要是复合词)而分开写
的情况也到处可见。
从有助於阅读的角度出发,是否连写应该取决于口语节奏中的“连读”情况。文
字最基本的功能是让人去读:读起来合乎自然节奏,顺口,意思就自然容易理解了。
反过来,能够读得节奏正确,也说明读者是基本理解了文章的内容。古人把正确掌
握句逗看作理解文章的主要标准,道理也是如此。
因此,要方便诵读,文字的连写形式应该同口语节奏尽量一致,这样才能使文
字处理的视觉过程和听话的听觉过程这两个语言信息处理通道的结构形式取得一致。
例如“住在山上”,从照顾外国学生的习惯来说“住 在 山 上”四个词,
分别相当于英语的“ live in mountain above ”。但是从汉语的节奏和语感来
说,应该是“住在 山上”两个词,或说两个段落、音步。这种场合,
原则上可以采用采用似连非连的“半连写”去处理,既可以反映口语节
奏,又不至于完全掩盖“词”的分界。
但这样一来,需要半连写的场合就十分多。如果半连写只采用传统上的
加短横(连接号)“ - ”一种形式,可能会使短横兼职过多而功能不明。
为了满足汉语中丰富多样的半连写需要。我们在短横之外,再引进英语
“I'm”和法语“c'est (这是)”等等写法中的隔音号,并且又增加了
使用小点“·”的半连写。这三种半连写有语法上的分工,从而增加了
文字的语法信息。大致上说来,短横用於传统的一些半连格式,主要是
名词性的单位;小点专用於双音节动宾结构;隔音号用於其余场合,主
要是有省略、压缩的场合。以下我们具体举例。
1.双音组合
双音节组合尽量连写,以反映汉语节奏。如“不能”连写,但“不可
能”就可以分写为“不 可能”。这也是目前比较通行的拼音写法。
但双音节方位结构用加短横的半连写,例如“山-上 、-里 、天-上、地-下”。
双音动介(动词+介词)结构用隔音号连写,如“住'在(农村)”“生'於
(哪一年)”。
双音节动宾结构用小点“.”半连写。如“种田、看信”写为“种.田、看.书”。
至於像“洗衣机”、“加油站”,似不必写成“洗.衣机”“加.油站”。因为
这的动宾结构已完全成为凝固的构词结构,不能自由扩展变化。
《基本规则》第0.2条说“表示一个概念整体的双音节和三音节结构,连写”,
举例中有“zhongtian 种田、kaihui 开会”。但是第2.2条又说“动词和宾语,分
写”,举例有“kan xin 看信”、“吃鱼”。这里面的界线显然非常含糊。
有人主张“吃饭”和“读书”作“用餐、进食”和“上学”解时连写成词,
作“吃米饭”和“阅读书籍”解时分写成词组。但是两个意义的“吃饭”和
“读书”在语法性质上并无差别,况且许多上下文中是模糊甚至两可的,那
又怎么办?
《规则》这方面表现出来的不一致,反映了这类结构在词汇、语法和口语
节奏间的矛盾:从词汇和语法角度看,动词和宾语应该是两个相对独立的成
分;但是从口语节奏上看,通常被感知为一个单位。事实上,双音节动宾结
构也是所有各类汉语拼音读物中写法混乱的一个最大来源。现在我们使用半
连写的折中处理,就可以对所有双音动宾结构作一致的处理,比较容易掌握
和运用。并且使用小点的半连写,也可以使这类结构同其他的半连写结构区
分开来。
《规则》在处理双音节方位结构时也同样地不一致。1.2 条规定说“名词和
后面的方位词,分写”,举例是“山上、河里”分写为 shan shang、 he li。
不过,同时也说“但是,已经成词的,连写”,如“天上、地下”连写
为 tianshang、dixia。这里的区分也不易掌握。
至于动介结构,《规则》规定为分写。但是作为《规则》前身的由中国文
字改革委员会1984年10月发表的《汉语拼音正词法基本规则(试用稿)》则
规定为连写。两个版本的不一致,也同样反映了词汇、语法和口语节奏间的
矛盾。
现在我们折衷地统一处理成半连写,就比较容易把握。并且不同的连写也可
以在阅读是帮助区分不同的语法结构。
2.三音节组合
从节奏上看,三音节有两种情况:“双音节+单音节”的 2 1 组合和“单音
节+双音 节”的 1 2 组合。其中 2 1 组合比 1 2 组合在韵律上紧密得多,原则
上 2 1 组合应该全连写或半连写,而 1 2 组合通常可以分写。以下具体举例分析。
2 1 节奏的三音节的“名词+方位词”2 1 组合处理成短横连写,如“天空上、
桌子下”写为“天空-上、桌子-下”,因为其中的单音节节奏上没有独立性的粘
着语素,必须紧跟前面的名词。同样,21 组合动介结构处理成隔音号连写,
如“战斗'在 前线”。
2 1 节奏的三音节的“定语+名词”全部连写,如“骆驼毛,复印件,运输品”
等等。事实上,其中的后置单音节往往是粘着语素,例如“复印件、运输品”中
的“件、品”。
21 combinations of modifier+noun should be linked as one word, such as 骆驼毛,
复印件 and 运输品. In fact, the postpositive monosyllables are more often than not
bound morphemes, such as 件 and 品 in 复印件 and 运输品.
1 2 节奏的三音节结构基本分写。但是其中有少数的前置单音节是带有前缀性质的
粘着语素,可以用短横连写,如“副-厂长、总-经理、半导体”。动补结构可以用小
点连写,如“看'清楚、想'明白”。
4.四音节组合
四音节有三种节奏,22、13 和 31。两个双音节组成的四音节结构基本可以写成两
个双音单位,如“桌子 底下、解决 问题”。
1 3 节奏取决於前置单音节是否粘着语素。如“总-指挥员、副-董事长”
用短横连写,而“大 会议厅、看 旧 小说、新 副-经理”等等分写(后面的三音节按
照三音节写法规则去写)。
3 1 节奏名词性单位用短横连写,如“研究生-院、鱼腥草素”。但是动宾结构
分写,如“看完了 书、看不起 他”。
此外,所有四字格成语都连写,这可以明确提示学生要当着一个整体的成
语去查词典,避免不必要的猜测。《规则》第7.1条规定“四言成语可以分为
两个双音节来念的,中间加短横”。这是因为四言成语写成拼音后字母较多,
超过了一目了然的范围,加了短横后音节界限就比较明显。但是汉字连写不
存在这个问题,四字组合仍在一目了然的范围内,就不必用短横了。更重要
的是,电脑词典在上下文敏感的运作中,只能识别全连写的成语。如检索
“一目了然”中的“然”,屏幕上就会出现:
然【r n】 right; correct; so; like that; <书> <连> but; nevertheless; however.
了然【li or n】 understand; be clear.
一目了然【y媘條i僶r n】 be clear at a glance.
但是检索“一目-了然”中的“然”时,屏幕上就只会出现“然”和“了然”
两项解释。
最后,像“高不高兴”、“应不应该”这样的组合,分写成“高 不 高兴”
这样的形式显然不便阅读,也不能反映第一个“高”不是“高低”
的“高”,而是“高兴”的省略的事实。因此,不妨写作 “高'不 高兴”。
事实上英语中的隔音号,基本作用可以说是表示“压缩”,如 o'er(over)
“can't”(cannot)。
五音节结构中,41 节奏的可以短横连写,如“古生物学-家”。其余大
部分可以拆开成14,23,32 作两个单位处理。但是少数第一字为粘着语
素而结合比较紧密的 14 节奏,如“副总工程师”可以在第一个音节后加短横
写成“副-总工程师”。
从上述例子中可以看出,汉语的节奏组合具有很强的规律性。例如,
歧义的“复印 文件”,作名词时只能省略成“复印件”,作动宾结构
时只能省略成“印 文件”。四音节的“骆驼绒毛”,可以有“驼毛”
和“骆驼毛”两种形式,但是不能省略为“驼绒毛”。大体上说来,
除了宾语是单音代词的场合,21 节奏的动宾结构极为少见。“阅读 书”
“阅读 报”都不是自由的形式,但是“阅读 书、报”就可以。
由此可见,汉语虽然没有像西方语言那样比较明确的词划分和显形语法
标记,但是她的节奏规律往往反映了一定的语法类型,在汉语中有着相当
的语法意义。这或许正是汉语缺乏显形语法标记的一种补偿。一个其母语
中有着丰富的显形语法标记(派生、变化形态)的学生,在学习汉语时,
必然对于汉语的极少显形语法标记感到极大的不适应,在分析、理解句子
结构时感到极大的困扰。上述这样对半连写的语法分化,也许会在相当程
度上会有助于对语法结构的把握。
用专门的书写形式区分意义范畴,在各种语言中都有:如多数拼音文字都
用大写突显专有名词,德语中所有名词都用大写,日语中用片假名表示外来
语,等等。用不同连写符号区分不同的语法关系,是针对中文特点而设计的
一种增加语法信息的手段。
在说明上,只要向学生说明凡是用半连写的地方,就应该得像一个词,
就可以了。隔音号的作用类似英语中的情况,学生不难自己体会。间隔号
用於双音节动宾结构,也是很容易掌握的。由於这只是阅读的标记,不
要求学生写作中文时也照办,所以不至於成为学生的负担。
五.余言
除了帮助阅读之外,电脑在辅导中文学习方面还有多方面的作用。例如,
由于南极星有极其简单的繁简转换功能(只要按一下功能键),学习掌握
繁简字之间的转换关系就很方便。看完一篇繁体(或简体)的文章,一按
键就可以将全文转换成简体(或繁体),在看一遍,或者看的过程中随时
转变,这样次数一多,自然就掌握繁简之间的对应。
象南极星这样的软件,也有极其方便的根据英文查中文的功能。这样就可
以方便学生早日摆脱汉字的束缚提高写作能力。例如学生不知 TV 或 television
在中文怎么表达,只要在屏幕上打出 TV 或 television,然后一按某个键位
(通常是 Alt-E),屏幕顶上方就出现:电视【di卬sh崱縯elevision; TV.
然后按一下“enter”键,“电视”就出现在文中英语单词的右边(如果需要,
也可按一下空格键将整个条目会被复制在正文中)。
总之,利用中文软件辅导中文学习,是大有潜力的。
附录:汉字分词连写示范
《每天一幽默》
※ ※ ※ § 名人逸事 § ※ ※ ※ ※
◇ 阮籍 ◇
晋朝(The Jin dynasty 265-420)的 名士(famous intelectual,usually
unconventional and self-indulgent)阮 籍,在 家- 常常 不穿 衣服。有时候 连
接待 客人 也 这样。人家 嘲笑 他,他 回答:“天-地 就是 我的 屋子,房间
就是 我的 衣服,你 为什麽 钻进 我的 衣服- 来?”
◇ 马克 吐温(Mark Twin) ◇
美国 著名 作家 马克 吐温 非常 健忘。有 一次,他 坐'在 火车-上 考虑
问题,列车员 走到 他 跟前,请 他 拿出 车票。可是 他 却 忘记 车票 在 哪儿
了。这个 列车员 认识 他,就 说:“先生,别 着急,您 慢慢 找 吧!找不到
也 没 关,这 是 小事。”
“不!这 很 重要?”马克 吐温 说,“我 必须 找到 这'张 车票,否则
我 怎么 知道 我 应该 到 哪 下.车 呢?”
◇ 萧伯纳(Bernard Shaw) ◇
医生 给 萧伯纳 作完了 一个 重要的 手术,希望 萧伯纳 多 付 一些 手术费,
对 他 说:“这 是 用 最新的 技术 作 的 手术 啊。”
萧伯纳 说:“那麽,你 应该 给 我 多少 试验费 呢?”
◇ 威尔逊(Wilson) ◇
有人 问 美国 第28任 总统 威尔逊,他 准备 一份 10分钟 的 讲稿 要 用
多少 时间? 威尔逊 回答:“两个 星期。”
“准备 一份 1小时 的 讲稿 呢?”
“一个 星期。”
“两小时 的 讲稿?”
“不用 准备,马上 就 可以 讲。”
◇ 丘吉尔(Churchill) ◇
有 一次,英国 首相 丘吉尔 叫了 一辆 出租汽车 要 去 议院 作 一个 重要的
演说。到了 议院 以后,他 对 司机 说:“我 在 这 大约 耽搁 一个 钟头,你
等 我 一下 吧。”
“不行,”司机 坚决地 拒绝:“我 要 赶快 回.家 去 收听 丘吉尔 的 演说。”
首相 听到 这 话,非常 高兴,於是 给了 他 很多的 小费。司机 拿到 这麽 多
钱,马上 改变了 主意,说:
“我 想了 一下,还是 在 这 等着 送 你 回去 吧。管他妈的 什么 丘吉尔!”
◇ 杜鲁门(Truman) ◇
一九四八年 纽约(New York) 州长 杜威(Dewey)和 杜鲁门(Truman)
竞选 美国 总统,民意 调查 显示 杜威 会 胜利。公 选举 结果 的 前一夜,
杜威 充满 信心 地 问 他 太太:“你 就'要 跟 美国 总统 一起 生活 了,你 高'
不 高兴?”
“太 高兴 了,”她 回答,“简直 等不及 了。”
可是 开票 之后,出乎意料 的 是 杜鲁门 胜利了。第二天 早晨,杜威
夫妇 在 旅馆- 一面 吃 早餐,一面 看.报。杜威 太太 问 丈夫 :“请问,
是 我 到 华盛顿 去,还是 杜鲁门 到 这 来?”
◇ 赫鲁晓夫(Khrushchev) ◇
赫鲁晓夫 作 报告 揭露 斯大林 暴行 的 时候,从 听众-中 传上来 一张 纸条,
上面 写着:“当 斯大林 在 犯罪 的 时候,你 当时 在 哪?”。
赫鲁晓夫 问:“这张 纸条 是 谁 写 的?请 写 的 人 站出来!”
等了 好长 时间,没有 人 站出来。於是 赫鲁晓夫 笑着 说:“现在 我 可以
坦率地告诉 这'位 提问 的 同志,当时 我 就 在 你 现在的 位子-上。”
◇ 里根 (Reagan) ◇
里根 总统 对 一个 股票 经纪人(stock broker)说:“现在 经济 情况 很好,
如果 我 不是 总统 而 是 一个 普通 老百姓,我 就 会 买进 很多 股票。”股票
经纪人 回答:“是的,如果 不是 你 当 总统,我 就 会 去 买 很多 股票。”
◇ 克林顿(Clinton) ◇
克林顿 总统 和 夫人 一起 出.门,经过 一个 加油站,第一 夫人 和 一个
加油站 工人 亲切地 交谈了 好 一会。
事后,总统 问:“你 认识 那个 工人 吗?”
夫人 回答:“他 是 我 从前的 男朋友。”
总统:“幸亏 你 没有 同 他 结婚,否则 你 现在 就 不是 第一 夫人 了。”
夫人:“幸亏 你 同 我 结婚了,否则 现在的 总统 就 不是 你 而 是 他 了。”