吴语五地词汇相关度的计量研究
吴语五地词汇相关度的计量研究
零 概念的界定(一)词段:从话语语流中抽取出来的语言单位,是词的音段表现形式,包括一个声母和一个韵母,不包括超音段的声调。虽然在同一语音系统中不能辨义,但在不同语音系统的比较中,在词目确定的前提下,语义已经确定。(二)词的相关度:词的相关指同一个词目在不同地区说法异同的程度:所有的词段都相同则说这个词在这些地区的说法相同,相关度为1;完全不同的,相关度为0;部分词段相同或某些词段在语音上有相关的对应,则说这个词在这些地区有相关性,相关度可以通过一定的计算方法求出。(三)词的读法:指一条词目在某地的语音表现形式,包括所有语素的语音表现形式。记录时,用国际音标表示,不用汉字表示。一 词汇相关度计量研究述评对方言间和不同语言间词汇接近率的计量研究,曾有过下述六种方法:1.1 语言年代学(glottochronology)日本学者王育德1960年发表用语言年代学方法研究汉语五大方言接近率及其分化年代的成果。该研究主要对比词的文字表现形式的异同,不涉及语音的对比。王育德所使用的统计工作包括两部分。第一部分是比较二百个基本词汇在各方言中的异同数,所用的方法是算术统计法。第二部分根据M.Swadesh提出的计算公式,计算五大方言分化的年代。1.2 相关系数统计法这种方法由郑锦全于1973年最早提出。他用“皮尔逊相关”和“非加权平均系联法”计算不同方言的字音和词汇文字表现形式的亲疏程度,同时提供方言分区的方案。参加比较的词目共905条。在相关系数统计结果的基础上,再做聚类分析。郑锦全的相关系数统计法利用计算机处理庞大的方言资料,用树形图对18种方言间的亲疏程度作出直观而细密的描写。显然,相关系数统计法比算术统计法要精密、合理得多。不过它有两个主要缺点:一是没有考虑词频这个重要因素;二是比较词汇异同,只考虑词形异同,并不顾及词内部词根或中心语素的异同。如“太阳”和“日头”词形不同,两者的相同率为0;“太阳”和“太阳佛”词形不同,两者的相同率也为0。实际上“太阳佛”的中心语素跟“太阳”完全相同,将两者的相同率当作0来处理是不合理的。1.1中所述的算术统计法也有这两个缺点。王士元和沈钟伟于1992年撰文批评郑锦全的方法在语言学上和计算上的不合理性,提出在汉语方言分类上,计算的基本单位应该是语素,而不是词。他们进一步完善了相关系数统计法和聚类分析法,并且对吴语内部三十三个点的方言词汇的亲疏关系进行了计量研究。1.3 算术统计法这种方法将不同方言的词汇的同或异,用加减法进行统计,然后以百分比计算接近率。詹伯慧和张日升曾根据他们所编《珠江三角洲方言词汇对照》(1988)的材料,比较北京话和粤语词汇的接近率。参加比较的词汇有1001个,两者相同的只有140多个,仅占10.4%。王育德和詹伯慧等人使用的方法都是算术统计法,但是所得结果相差甚远。原因显然是两者参加比较的词汇的数量不同,王育德所用是两百个基本词汇(结果70.77%),詹伯慧等人所用的词汇则有一千个至八千个。可见基本词汇相同率较高,一般词汇相同率较低。1.4 概率法借词和同源词向来是比较难区分的。陈保亚在《论语言接触与语言联盟》(1996)中试图用概率的方法解决这个问题。陈保亚认为,语音对应规律不能作为确定同源关系的充分条件,这是因为语音对应规律本身不能说明最早时间层次的关系词是同源词还是借词。但语音对应规律的另一个重要作用是排除偶然相似。当两种语言的一系列词在语音上有对应时,很难用偶然巧合加以解释。于是,他根据声母、韵母和声调的对应规则,用卡方分布和泊松分布,计算出某词在两地属于同源词的概率。陈保亚采用M.Swadesh1952年从印欧语言中挑选出的人类语言中最稳定的200个词和1955年从这200个核心词中筛选出的100个更稳定的核心词作为分析材料,并把100个最稳定的核心词称为第一阶词,把第二个100词称为第二阶词。通过概率计算,陈得出结论:侗台语和南岛语的关系词第100词高于第200词,应当承认侗台语和南岛语有同源关系。这种计量法将词汇和语音的因素结合在一起考虑,从音类的必然变化和音素的偶然变化入手,运用概率将这两种变化区分开,将同源词在语音上的变化归为音类的必然变化;借词则归为偶然变化,有一定的创意。但是它把声调当作和声韵母同样重要的因素考虑却值得探讨。我们认为考虑“有共同语义的词段”这个因素比较合理。1.5 矩阵分解(matrix decomposition)这是Sanzheng Qiao和William Shi-Yuan Wang于1998年提出的方法。这种方法是用一对矩阵分解任何的无根双叉树。这个方法也可以用矩阵生成树。作者以欧洲语言基本词汇的接近率计算为例,阐述了这一研究方法。矩阵分解是应用计算机,在所有的合成可能中寻找一种最佳的树行合成图。这与早先的聚类分析不同。1.6 加权平均法游汝杰、杨蓓在《广州话、上海话和普通话词汇接近率的计量研究》(1999)一文提出了加权平均法。这种方法改进了上述统计方法,以广州话、上海话和普通话为例,提出方言间词汇接近率计量研究的新方法。这个新方法有三个特点:(1)用加权法统计不同方言词汇的异同,以词频作为权数。(2)以中心语素为基准比较词汇的异同,分级加权统计。(3)多人次测验方言词汇的口语可懂度。所用词频数据参考北京语言学院语言教学研究所编的《现代汉语词频词典》(1986)。1.7 小结 综上所述,可以归纳出以下几点:(1)对于语言的计量来说,材料是至关重要的。一般来说,选用词作为计量的材料比较多,而且也比较妥当。因为词是语言最基本的载体,联系着语音和语法,在整个语言系统中占有举足轻重的地位。但是,选择什么样的词,选用多少数量的词,这对计量的结果会产生很大影响。目前,用语言年代学的200个基本词汇作研究的比较多,但问题的关键在于这二百个词是否适合汉语?除了语义上的解释,还有什么其它证据可以证明这些词的稳定性?上述各家的研究表明,选择的词汇数量和相关度成反比,所以在研究相关度时,词汇的数量必须适中。(2)如果研究的材料被确定为某些词后,接下来的问题就是从哪个角度进行计量研究。就一个词而言,词段是相当重要的。一般来说,一个词有文字表现形式和语音表现形式两种。对印欧语来说,这两种表现形式的差别并不大,因为它是拼音文字,文字直接联系语音。但汉语就不同了,汉字和汉语词的语音没有直接的关系。一个词在两地的文字表现形式相同或相似(这里的相似指的是一个词中部分字相同),说明语素相同或相似。但这并不表明其在语音上必然相同或相似,两地如果相差很远,或其语言已经分化了很长时间,那么在语音上很可能已经截然不同,而这种不同在文字上是无法表现的。同样,一个词在两地的文字表现形式不同,并不能说明语素不同,或许它们在语音上会有联系。所以,在研究汉语词汇的相关度时,需同时考虑语素和语音两个要素。(3)很多人认为,对语言进行量化研究,会忽视许多文化的、历史的因素。但是,语言本身就包涵了许多历史的、文化的因素。只要材料确切、详实,对语言进行量化,其实同时就是对许多文化的、历史的甚至是现实的因素进行量化。如果我们对杭州话的词汇进行量化,可以发现其儿化音所占的比重很大,这实际就是一个历史的因素:南宋末年的迁都临安,造成今天的杭州话和北方话的相似。二 语音相关系数2.1 韵母相关系数的确定两个韵母进行比较,完全相同的,相关系数为1;不同的则在通过计算求出它们的相关系数;听感上没有相识点的,其相关系数则为0。首先要确定单元音的相关系数。这里有一条基本原则,就是两个元音必须在听感上相似。换言之,只有在听感上相似的两个元音,我们才会给它们确定相关系数。附图Lade foged型声学元音图(引自Catford,1981)利用元音舌高点的位置可以绘制元音舌位图;利用共振峰频率可以绘制声学元音图。这两种图会有所差别,但基本相似。声学元音图有精确的数据,所以,我们选用声学元音图作为确定元音相关系数的基础。我们选用Ladefoged型声学元音图。Ladefoged(1976)主张以F1作纵坐标,线性标度;F2-F1横坐标,对数标度,如图。Ladefoged的整个元音图接近于平行四边形,像Carmody的舌位图一样。但是展唇后元音的排列与传统的元音图有不一致的地方。但这不会影响我们的计算,因为除了,基本没有后圆唇和展唇元音相似。根据此图,我们可以算出几个基本单元音的相关系数。具体计算方法如下:首先,将这幅图中的横坐标和纵坐标分别平均为10个等份,单位刻度为1;然后计算图中任何两个元音的距离。我们将距离的倒数定为这两个元音的相关系数。如I和i两个元音,其距离为1.2083,所以它们的相关系数即为82.8%。在计算相关系数中,有一点要注意,这就是当两个元音的距离在单位刻度以内,也就是说小于1时,我们认为它们的相关系数为1。以下是用此方法算出的几个基本单元音的相关系数:附图以这几个单元音作为基本的相关系数,每增加一项要素,就在这些基本相关系数的基础上做一次根式计算。这些要素包括:鼻化、复韵母、鼻音、喉塞。如:ie-iE,增加了一个复韵母的要素,也就是增加了一个"i"的介音,由于介音相同,所以这两个韵母的相关系数就会更大一点。将31.6%开根号,得到的56.2%就是ie和iE的相关系数。又如:增加了介音和喉塞两个相同的因素,他们的相关系数就是14.1%开三次方根,得到52%。2.2 声母相关系数的确定两个声母进行比较,完全相同的,相关系数为1;不同的则通过计算求出它们的相关系数;听感上没有相似点的,其相关系数为0。附图辅音腭位与舌位的调音部位对应示意我们以辅音腭位与舌位的调音部位对应示意图为基础,制作声母的相关系数。图(A)是口腔中正面仰视的腭位,按上齿的分布来分区的图解。图(B)是口腔中正面平视的腭位,这是根据牙科材料脱模而描出的上腭拱形图。图(C)是侧面的X光照相所得的腭位。这种和工程画差不多的三面图,用虚线将各对应的区域连接,可以对舌位作比较准确的测量。并可根据上齿部位来给上颚发音部位分区。如:两对门齿部分为齿音,侧门齿与第一前臼齿之间为齿龈区,第一前臼齿与第二臼齿之间为硬腭区,支持部分为软腭音区等。在分区上,各家略有出入,但基本上是按上颚的部位来分的。此外,我们知道,舌位和上颚也有一定的对应关系,传统方言学中的舌尖音和舌叶音对应齿龈音,硬腭音对应舌面音,舌根对应软腭音。所以,根据此图,我们将齿龈前定位在3的位置;硬腭和齿龈交界的地方(基本上是舌叶的位置)定位在3.75的位置;硬腭的前部(舌面前)定为4.5;硬腭的后部(舌面中)定为5.25;软腭(舌根)定位在6的位置。计算两个声母的相关系数时,首先要有相似的听感,然后在图中找到这两个声母中辅音所在的位置,位置靠前,数值小的做分子,数值大的做分母,分子、分母相除的结果即为这两个声母的相关系数。由于没有复辅音,这里不需要进一步的计算。此外,需要补充一点,有两个韵母的鼻韵尾需要在这里定义相关系数,因为它们是用辅音符号表示的,而且其差别在于舌尖前和舌根,以及舌根与舌面中,它们是:。三 方法与步骤3.1 语料的采用和收集本文计算了吴语五个代表点:上海、温州、衢州、金华、临海的784条词汇的相关度。现代吴语区分为六片:太湖片、宣州片、瓯江片、婺州片、丽衢片和台州片(《中国语言地图集》)。宣州片由于缺少语料,暂不涉及。784条词目在吴语五地的语音表现形式是通过查寻方言词典和田野调查得到的。上海话的资料选自《上海方言词典》(1997)。词典上没有的词汇,采用作者(上海人)的发音。温州话的资料选自《温州方言词典》(1998)。词典上没有的词汇,由游汝杰(温州人)做了增补。金华话的资料选自《金华方言词典》(1996)。临海和衢州两地的词汇资料是通过笔者实地调查获得的。临海的发音人:张一伦,63岁,退休教师;蒋林寿,60岁左右,退休教师。衢州的发音人:邵永平,24岁,研究生;金锭铃,57岁,家庭主妇;孔祥枝,60岁左右,退休鞋匠。3.2 五地词汇相关度的计算首先,用加权法算出每条词目任意两地间的相关度,方法如下:(1) 先将每词在每地的读法分解为词段,两地分解的结果有可能不同。附图(2) 将该条词在一地分解的词段和另一地分解的词段进行所有可能的排列组合。如:仍以上海话和衢州话“打雷”这个词目为例。先给词段编号:附图(4) 在每组组合中,相对应的词段包括对应的声母对和韵母对,将该词段中声母的相关系数和韵母的相关系数进行算术平均计算,所得结果即为该词段的相关度。承接上述的例子:sh1-qz1的相关度为(1+0.523)\2=0.762;sh2-qz2的相关度为(1+0.607)\2=0.804。(5) 计算两地词段的平均个数。以上海话和衢州话“打雷”这个词目为例:上海话为ta和le两个词段;衢州话为三个词段,平均词段数为2.5。(6) 在(4)的基础上,将对应词段的相关度相加,再除以平均词段数,可得每组组合的相关度。承接(4)的例子:(7) 算出每词所有组合关系的相关度,选出数值最大的那个作为该词的相关度。仍以上海话和衢州话“打雷”这个词目为例:附图每种的相似度为:1:62.4%;2:30.5%;3:0;4:0;5:0;6:32.2%。所以,“打雷”这个词目在上海话和衢州话中的相关度为62.4%。按上述方法计算出每词两地之间的相关度后,再用算术平均法求出五地的两两相关度。四 词汇变化的趋势4.1 相关度与词频的分布关系根据每条词目任意两地的相关度,我们可以做出每条词目的相关度与词频的分布关系图
,其中所用词频数据见北京语言学院语言教学研究所编《现代汉语词频词典》(1986)。x轴为相关度,y轴为频次。图上每一点表示一个词,可用(x,y)标出(见图一)。附图从图中可以看出,高频词都集中在相关度为0.35-0.4这个范围附近。以这个范围为基点,词频随着相关度的减少和增大而急速减少。为了进一步看清问题,我们作出以相关度0.05为单位的相关度和词频分布的方框图(见图二)。从这两幅图中可以看出,在共时平面中,常用词相关的程度并不大。4.2 相关度与词数的分布关系根据每条词目任意两地的相关度,我们还可以作出相关度与基本词汇词数分布的方框图。x轴仍以相关度为变量,y轴以词数为变量。我们以相关度0.05为单位作图(见图三)。相关度与词数分布图非常有规律。我们可以看出,在相关度为0.3-0.4这个范围附近,词汇分布的密集度最高;在0.3-0.4以外的区间,词汇分布数逐渐减小,在相关度[0,1]闭区间的两端,词汇分布数最小;大部分词分布在相关度为0.25-0.55这个区间。附图4.3 基本词汇的变化趋向词汇的变化受各种因素的影响,其中有语言交流产生的借贷;历史文化甚至是政治的影响;移民、交通的影响等等。一条词只要是用于交际,就会受到各种因素影响而发生变化。同一方言区不同地点的词汇不尽相同就是词汇受到各种因素的影响发生变化的结果。从上面两类图中,我们可以得到这样的结论:(1)高频相关、低频无关性。基本词汇是根据日常生活中的常见概念定义的,而常见的事物并不一定是常常挂在嘴边说的。比如“月亮”,我们常常会看见,但这并不表示我们常常会说。所以,我们可以把基本词汇分为两部分,常用的和非常用的。常用词的词频高,集中在相关度为[0.35,0.45]这个区域。非常用词的词频低,相关度比较分散,没有很大的规律。(2)抗衡的过程。在实际生活中使用的每条词都会产生变化。但每一条词不会全部变化或者完全不变。一般情况下,只有一部分发生变化,有的是声母发生变化、有的是韵母发生变化,有的是从其它方言中借用了完全不同的语素而发生变化;变化的方向可能趋同,也可能趋异。因为每个词在使用过程中,都会受到两种相反的力的作用:维持交际的趋同的力和交际过程中因使用个体的不同而使词产生差异的趋异的力。在基本词汇中,无论词频高低,大约有70%左右的词的相关度在[0.25,0.55]之间,这说明大部分基本词汇是朝着同一个方向变化的,而这种方向是一个词内部因素趋同和趋异两种趋向抗衡后的结果。(3)结果:趋向一个区域。相关度所显示的只是共时平面上的一个结果,或者说,只是一种平均趋向。我们并不知道相关的部分是趋同的结果还是原来就相同。但大部分基本词汇变化的结果并不是均匀或随机分布的,而是趋向一个区域的。如果用相关度来标示这种结果的话,词频和词汇个数的分布,在相关度上就会趋向某个共同的区间。也就是说,无论各地方言如何变化,大部分词在变化后,虽然在同一方言区内不同方言点的语音表现形式会参差不齐,但每个词总会有一部分相关的成分,如果将这部分相关的成分量化,就会发现它们趋向一定的区间。如果在不同的共时平面上,这个区间在数值上基本相等的话,我们可以解释为什么很多年后,同一方言区中不同点的方言仍能保持许多共性;如果在不同的共时平面上,这个区间在数值上不等的话,我们就能看出语言的变化速度。五 接近率5.1 任意两地相关度的分析在第四节中,我们利用每条词的相关度,从横向的角度对每条词的变化趋向作了分析。这里,我们从纵向角度对所有基本词汇每两地总的接近率作一分析。通过上述计算,我们得到一个上海、临海、衢州、金华和温州词汇相关度的矩阵。吴语五地784词接近率比较表 上海 临海 衢州 金华 温州上海0.59270.54460.41620.3531临海 0.48030.39380.3318衢州0.39320.3208金华 0.3011温州
从这张矩阵图中可以看出:(1)上海和其它地方的接近率最高,其次是临海、衢州、金华,最低的是温州;(2)矩阵从左到右,从上到下的排列顺序十分整齐,都是由大到小排列的;(3)五地两两相关度的平均值为0.4132,和上海、金华的接近率最为相近。而矩阵的中心——临海与金华的接近率与平均接近率的相近程度则仅次于上海和金华的相关度。基于上述分析,我们可以得到以下结论:(1)因为上海是经济中心,在各地方言中,上海话处于优势方言的地位,各地方言不知不觉地会受到上海话的影响。所以表现在这个矩阵中,上海话和其他地方的接近率最高。(2)由上述结论可以推出:优势方言的词汇扩散比较容易。(3)以临海、金华的接近率为矩阵的中心接近率,中心接近率左面和上面的接近率与中心接近率的比值要比右面和下面的大得多。同时,与优势方言接近率高的那些方言,与其它方言的接近率也高。这说明词汇扩散是有方向性的,其速度是随着优势方言的词汇扩散范围的增大而递减的。5.2 词汇异同比较的分析游汝杰曾利用《浙江方言词》提供的材料,选择其中200个词,比较各片异同,结果见下表。表的上端列出七个地点方言,其中绍兴、金华、丽水、临海和温州分别依次代表吴语的太湖片、婺州片、丽衢片、台州片和瓯江片;苍南在浙南,属闽语,淳安在浙西,属徽语,皆与吴语区比邻,录此以资比较。吴语各片二百词接近率比较表 绍兴金华丽水临海温州苍南淳安绍兴200金华85 200丽水68 83 200临海64 74 67200温州59 66 9072 200苍南47 50 5442 63 200淳安73 84 71 68 60 48200
说明:(1)温州跟丽水接近率最高,为45%。(2)温州跟绍兴接近率最低,为29.5%。(3)绍兴跟金华、丽水、临海和温州四地的平均接近率为34.5%。(4)温州、金华、丽水和临海四地相互间的平均接近率为38%。(5)温州跟苍南的接近率高达31.5%,
超过跟绍兴的接近率。(6)金华跟淳安的接近率高达42%,超过跟吴语内部各片的接近率。根据上述分析,游的结论为:相邻方言片的接近率较高,词汇向邻近地区的扩散较容易。5.3 两种结论的比较得出“词汇向邻近地区的扩散较容易”和“优势方言的词汇扩散比较容易”这两个不同结论的原因在于:(1)所用的词汇不同;(2)选用的代表点不同:游选的“绍兴”和“丽水”,本文用的是“上海”和“衢州”;(3)游从方言地理角度进行分析总结;本文从共时平面的经济、文化方面进行分析、总结。[收稿日期]2002-02-01【参考文献】[1] 赵元任.现代吴语研究[M].清华学校研究院印行,1928.[2] 桥本万太郎.语言地理类型学[M].北京:北京大学出版社,1985.[3] 陆致极.汉语方言间亲疏关系的计量描写[J].中国社会科学,1987,(1).[4] 周振鹤,游汝杰.方言与中国文化[M].上海:上海人民出版社,1986.[5] 许宝华,汤珍珠.上海市区方言志[M].上海:上海教育出版社,1988.[6] 郑锦全.汉语方言亲疏关系的计量研究[J].中国语文,1988,(2):87-102.[7] 郑锦全.汉语方言沟通度的计算[J].中国语文,1994,(1):35-43.[8] 马希文.比较方言学中的亲疏计量方法[J].中国语文,1988,(2):348-360.[9] 袁家骅.汉语方言概要[M].北京:文字改革出版社,1989.[10] 吴宗济,林茂灿.实验语音学概要[M].北京:高等教育出版社,1989.[11] 徐通锵.历史语言学[M].北京:商务印书馆,1991.[12] 沈榕秋,陶芸.上海现代方音的速度变化[J].复旦学报1992,(4):109-113.[13] 王士元,沈钟伟.方言关系的计量表述[J].中国语文,1992,(2):81-92.[14] 游汝杰.汉语方言学导论[M].上海:上海教育出版社,1992.[15] 游汝杰.温州方言词典[S].江苏教育出版社,1998.[16] 曹志耘.金华方言词典[S].江苏教育出版社,1996.[17] 陈保亚.论汉语接触与语言联盟[M].语文出版社,1996.[18] 许宝华,陶寰.上海方言词典[M].江苏教育出版社,1997.[19] 丁邦新.丁邦新语言学论文集[C].北京:商务印书馆,1998.[20] 游汝杰,杨蓓.广东话、上海话和普通话词汇接近率的计量研究[J].汉语计量与计算机研究,1998,(12):57-77.[21] 王福堂.汉语方言语音的演变和层次[M].语文出版社,1999.[22] Sanzheng Qiao & William Shi-Yuan Wang,1988,Evaluating Phylogenetic Trees by Matrix Decomposition.Anthropological Science 106(1),1-22,1998.[23] John Sinclair,1992,Corpus Concordance Collocation.Qxford University Press.[24] John Qhala,The Phonetics of sound change.Historical Linguistics:Problems and Perspectives 237-278