作者:信凝
《红楼梦》是中国古代一部优秀的长篇小说,并以此为中心而形成“红学”了这一门学问。现学术界多认为流传于当世的程高本百二十回《红楼梦》前八十回为曹雪芹所写,后四十回为高鄂所续。历史上大多数红学研究者以索引、考证等方法研究《红楼梦》,并提出很多独具特色的见解。运用数理统计方法可作为研究红楼梦的一种不错的辅助手段。
一般而言,一个作家如没有什么重大的变故,都会保持自己的固有写作风格。反映在文章中则表现出特定的句子长短,名词、形容词、语气助词等使用频率的不同,某些使用较高频率的特定的字、词的不同。使用数理统计方法可定量地表现出这种差异。
现先以与《红楼梦》创作年代大体相同的《儒林外史》为例来具体说明。《儒林外史》共计56回,我们不妨将其分为1—28回与29—56回这两部分比较。其中“也”字与“的”字出现的频率较高,而且它们与作者的写作习惯有关,与具体的文章内容无关。故不妨以它们为基准进行统计。
现列表如下:
注:以上数据均是本人用word2003中的“查找与替换”功能统计的,其中1—15回的材料来源于“中青网”,16—56回的材料来源于“书路网”(因“中青网”上无16—56回的《儒林外史》,而且书路网上的前15回材料与中青网基本一致)。又因数据较多,限于篇幅,不一一列出。为了计算的方便,以频率的倒数作为标准,可理解为平均每隔多少个“中文和朝鲜单词数”就出现一次“也”或“的”, ty =M/ my,td=M/ md
通过计算我们可以得到:
对于“也”字 1—28回 样本平均值Ty=(∑ty)/n=212.1
样本标准差Sy=√[∑(ty - Ty)/n]=45.7
对于29—56回,我们可以第56回多是文言文,而非白话文。且大幅罗列人名,是十分特殊的一回。故去掉第56回。则
对于“也”字 29—55回 样本平均值 Ty′=218.3
样本标准差Sy′=66.9
定性地看,我们可以看到1—28回与29—55回中的“也”字出现的频率十分接近。现用t检验法定量地表示:
检验假设:H0: μ1=μ2 H1: μ1≠μ2
取显著水平 α=0.05 拒绝域|t|=|Ty –Ty′|/[sw√(1/n1+1/n2)]≥tα/2(n1+n2-2)
其中tα/2(n1+n2-2)= t0.025(53)≈z0.025=1.960
sw=√{[(n1-1) Sy2+(n2-1 )Sy′2]/n1+n2-2}=57.1
∴ |Ty –Ty′|/[sw√(1/n1+1/n2)]=0.40《1.96= t0.025(53)
故接受H0,即认为“也”字在1—28回与在29—55回中出现的频率无明显差异。
类似地,对于“的”字1—28回其样本平均值 Td=64.0
样本标准差 Sd=13.6
29—55回 样本平均值 Td′=64.0
样本标准差 Sd′=13.6
用t检验法得 |t|=0.71《1.96
故接受H0,即认为“的”字在1—28回与在29—55回中出现的频率无明显差异。
所以我们可以认为《儒林外史》的1—28回与29—55回应出自同一作者之手。这也与我们已有的认识即《儒林外史》为吴敬梓一人所写相吻合。
通过这个例子我们可以知道用数理统计方法作为一种手段。其结果是比较可信的。须注意的是应先进行3σ法则检验、剔除异常值。可多统计其它出现较高频率的字,结果则更为可信。
同样地,与上面类似,可列出有关《红楼梦》的表格:
注:以上资料均来源于中青网,用word2003中的“查找与替换”功能统计的。
对于“也”字 1—40回 样本平均值Ty=(∑ty)/n=147.5
样本标准差Sy=√[∑(ty - Ty)/n]=52.2 根据3σ法则,则|ty-Ty|/Sy 》 3时,则把ty看作异常值,即ty《9.1或 ty》304.1的数为异常值,则删去第18回(第18回中ty=334.1)重新计算得Ty=142.7, Sy=43.1 再根据3σ法则,删去第3回(第3回中ty=274.4)。再重新计算得Ty=139.2, Sy=37.8
同理 对于41—80回,根据3σ法则,删去第53回。(第53回中ty=231.4) 得 Ty′=116.8 Sy′=26.9
对于81—120回,根据3σ法则,删去第106回。(第106回中ty=190.0) 得 Ty//=117.4 Sy//=19.8
直观地看,41—80回与81—120回中“也”字出现的频率十分接近。但它们都与1—40回中“也”字出现的频率有些差异。现用t检验法表示。
对于41—80回与81—120回 假设检验H0: μ1=μ2 H1: μ1≠μ2
|t|=|Ty′- Ty//|/[sw√(1/n1+1/n2)]=0.11 《 1.96
故接受H0,即认为“也”字在41—80回与在81—120回中出现的频率无明显差异。
同理,对于1—40回与41—80回|t|=2.99 》 1.96 故拒绝H0,即认为“也”字在1—40回与在41—80回中出现的频率无明显差异。
以上结果与我们被告知的《红楼梦》前八十回为曹雪芹所写,后四十回为高鄂所续相矛盾。那么对于“的”字又如何呢
“的”字 1—40回 根据3σ法则,删去第1回(第1回中td=206.9),第18回(第18回中td=117.0)则 Td=54.1 Sd=17.5
41—80回 Td′=48.0 Sd′=12.3
81—120回 删去第91回(第91回中td=68.6)Td//=43.0 Sd//=6.3
对于用41—80回与81—120回,用t检验法得 |t|=2.44 》 1.96
对于用1—40回与41—80回,用t检验法得 |t|=2.03 》 1.96
这又是一个令人惊异的结果,这三部分好像出自不同作者之手。再对《红楼梦》中的“他”字进行统计。
‘他“字 1—40回 Tt=73.1 St=28.8
41—80回 Tt′=73.3 St′=18.6(舍去了53、68、69三回)
81—120回 Tt//=66.6 St//=18.9(舍去了105回)
对于用41—80回与81—120回,用t检验法得 |t|=1.56 《 1.96
对于用1—40回与41—80回,用t检验法得 |t|=0.04 《 1.96这一组就符合的比较好,没有出现大于1.96的情况。但对于“也”与“的”字1—40回为何与其它章节相差较大呢?
我们现将《红楼梦》的前40回再细分,即每20回为一部分。
对于“也”字 1—20回 Ty=158.6, Sy=46.9(删去了第18回)
21—40回 Ty=118.6, Sy=21.8(删去了第23回)
21—40回与41—80回81—120回中“也”字出现的频率十分接近,|t|《 1.96 但1—20回与41—80回81—120回中“也”字出现的频率差异较大,|t|》1.96
对于“的”字 1—20回 Td=62.1, Sd=24.6(删去了第1回)
21—40回 Td=49.7, Sd=12.1
21—40回与41—80回和81—120回中“的”字出现的频率比1—20回与41—80回和81—120回中“的”字出现的频率差异较小。
再来比较《儒林外史》与《红楼梦》。
对于“也”字,用《儒林外史》的1—28回与《红楼梦》的41—80回比较。得|t|=10.61》1.96
对于“的”字,所用章节同上,得|t|=4.68》1.96
可以看到它们都较1.96大了许多。
在比较《红楼梦》41—80回与81—120回时,|t|为2.44。与1.96偏差不大。而在比较《儒林外史》与《红楼梦》中的“的”字时|t|为4.68,显然比大1.96了许多。考虑到后40回由程伟元收购时就已经有些残缺了,经过友人“细加厘剔,截长补短”,补充修改了一小部分,而且小说受人的主观性影响较大 ,对于41—80回与81—120回中的“的”字|t|=2.44这个结果是可以接受的。并且41—80回与81—120回中的“也”字|t|=0.11 《 1.96,41—80回与81—120回中的“他”字|t|=1.56 《 1.96。故可以认为《红楼梦》的41—120回来源于同一作者之手。
有些人可能会有这样一个疑问:如果续书者极力模仿曹雪芹的写作风格,那么岂不是不能辨别后40回为曹雪芹所著的了?确实在清代就有许多人在续写《红楼梦》。以其中梦梦先生的《红楼圆梦》为例。《红楼圆梦》共计31回,所续内容为百二十回本《红楼梦》之后发生的事情。同样列出与前面类似的表格,可求得:
对于“也”字 Ty=278.9, Sy=103.8
对于“的”字 Td=142.5,Sd=45.8
将它们与《红楼梦》的41—80回相比较,得到:
对于“也”字 |t|=9.48 》1.96
对于“的”字 |t|=9.43 》1.96
两组数据都远较1.96大,说明《红楼圆梦》与《红楼梦》之间的差异非常大,即它们来源于不同作者之手。这可以说明一点:一位作家即使极力模仿别人的风格,在统计上一般也能显出他们的差异,哪怕他们写的是同一体裁,内容相关。
实际上,清代的《红楼梦》续书几乎都为百二十回本的续书,而非八十回本的续书。这也从另一个方面揭示了在清代人们一般还是认可当时流行的百二十回“程高本”是曹雪芹一人所写这种观点的。若不然,如果他们认为后四十回为高鄂所续,恐怕他们一般都会写八十回本的续书,而非百二十回本的续书了。清代的这些续书者距曹雪芹生活年代并不远,当时社会上可能还保存了不少的资料、证据说明当时流行的百二十回“程高本”为一人所著。他们的生活内容和思想也比现代人更接近曹雪芹,应该说他们更有资格去评定《红楼梦》的后四十回问题了。
我们再看一下《红楼梦》的前20回与后100回的差距。造成这种情况的原因可能有以下几个原因:(1)庚辰本第22回的脂砚斋评语道:“此回未成而芹逝矣,叹叹。”这就是说曹雪芹在修改到《红楼梦》的第22回时去逝的。而修改小说一般是从前到后修改的。如曹雪芹是在痛失亲子的情况下批阅前20回的话,那么他的心理变化不可谓不大,甚至有可能使他的文风改变了一些。这使得他所修改的前22回与未在这种情况下修改的其它章节有些差异,这也与我们所统计的前20回与后100回有些差异相吻合。这种情况在历史上也有诸多例子。比如北宋后期时词人大多崇尚婉约,但靖康之难后许多词人如张元斡等人词风一跃而变得慷慨激昂。(2)《红楼梦》的前20回可能经过他人较大的修改,而由于某些原因对20回之后的内容未做大量修改。或者是对《红楼梦》的后100回经过较大的修改,而由于某些原因前20回未做大量修改。(3)由于只统计了“也”、“的”,故可能存在着统计量过少,存在一定的偶然性这种原因。而且在“他”字的统计中虽然前40回与后80回符合的很好,但前20回与后80回,21—40回与后80回都存在着一定的差异。(4)前20回未形成作者的固有风格,20回之后才固定下自己的风格。
有些红学研究者认为贾宝玉不应在后40回参加科举,因为他是反对科举的,后40回写贾宝玉参加科举高中显然违备了曹雪芹的的本意。让我们看看《儒林外史》,吴敬梓在这本小说中对科举大加讽刺鞭挞,可以说达到了前无古人,后也鲜有来者的境地,但小说的最后却是以皇榜公布,多人高中科举结束的。可见作者对科举还是有些期冀的。在《红楼梦》中,当贾府衰败之后,振兴贾府的重任必然要落在贾宝玉身上,贾宝玉对贾府不可能无情,对父母不可能不孝,在封建社会,参加科举被认为是通向光明前途的一条“康庄大道”,如果科举高中,会让家族极其荣耀。贾宝玉借科举以报父母养育之恩也是无可厚非的。曹雪芹饱读圣贤之书,虽然性格有些叛逆,但不可能不重视孝道。同样的,他也不可能让书中的主角背上一个不孝之名,不可能变成一个见贾府兴旺发达之时就在“大观园”里享乐,见其败落之际便将它抛弃的自私之辈。宝玉对科举的不屑,既是天性使然,又是一个养尊处优的富家公子哥所发的牢骚。当大观园不在时,他只能选择现实。
程伟元在“程甲本”的序中说他先是通过“竭力收罗,自藏书家甚至故纸堆中无不留心,数年以来,仅积有廿余卷”,后来又“偶于鼓担上得十余卷”,并与友人“细加厘剔,截长补短,抄成全部”。从上面的统计中,我们可以看到后40回与前面并无多大差距,如果程伟元想与友人篡改后40回的情节内容,那么由于改动情节需大规模的改动文章,反映在数理统计上,则应有明显的差异。而我们发现它们的差异很小,这可以说明程伟元与友人就只是小规模的“截长补短”而已。程伟元的话应该是比较可信的。《红楼梦》的后40回理应就是曹雪芹的原著,而且只经过别人很少的改动,基本保留了原貌。
我们还可以发现一个有趣的规律。在上面每40回为一单元统计中,《红楼梦》中被3σ法则剔除掉的异常值远较《儒林外史》多。其中统计“也”字时异常值为第3、18、53、106回。其中统计“的”字时异常值为第1、18、91回。其中统计“他”字时异常值为第53、68、69、105回。合起来则有第1、3、18、53、68、69、91、105、106回。笼统地看,这些数值呈现周期为17或18的规律。我们可以把相近的的章回数求加权平均值,如第1、3回可得平均值为2,第68、69回可得平均值为68.5.这样我们可求得大约是在第2、18、53、68.5、91、105.5回出现异常值。不妨认为它们呈线性关系。设异常回数U = K N + C(N为整数)。则列出下表:
利用最小二乘法可得K = 17.47 C=1.09
所以U = 17.47 N + 1.09
利用这个式子可求得如下:
这与实际的异常值很接近。故我们认为《红楼梦》中异常值的出现规律是以17.47为周期的。而且在第36回左右也应出现异常值,这可能会通过其它字的统计检验出来。这种规律可能也会出现在其它小说中,只不过它们的K、C值不同而已。这似乎也说明了《红楼梦》的后40回为曹雪芹一人所写。