作者:信凝
《红楼梦》是中国古代一部优秀的长篇小说,并以此为中心而形成“红学”了这一门学问。现学术界多认为流传于当世的程高本百二十回《红楼梦》前八十回为曹雪芹所写,后四十回为高鄂所续。历史上大多数红学研究者以索引、考证等方法研究《红楼梦》,并提出很多独具特色的见解。运用数理统计方法可作为研究红楼梦的一种不错的辅助手段。
一般而言,一个作家如没有什么重大的变故,都会保持自己的固有写作风格。反映在文章中则表现出特定的句子长短,名词、形容词、语气助词等使用频率的不同,某些使用较高频率的特定的字、词的不同。使用数理统计方法可定量地表现出这种差异。
现先以与《红楼梦》创作年代大体相同的《儒林外史》为例来具体说明。《儒林外史》共计56回,我们不妨将其分为1—28回与29—56回这两部分比较。其中“也”字与“的”字出现的频率较高,而且它们与作者的写作习惯有关,与具体的文章内容无关。故不妨以它们为基准进行统计。
现列表如下:

注:以上数据均是本人用word2003中的“查找与替换”功能统计的,其中1—15回的材料来源于“中青网”,16—56回的材料来源于“书路网”(因“中青网”上无16—56回的《儒林外史》,而且书路网上的前15回材料与中青网基本一致)。又因数据较多,限于篇幅,不一一列出。为了计算的方便,以频率的倒数作为标准,可理解为平均每隔多少个“中文和朝鲜单词数”就出现一次“也”或“的”, ty =M/ my,td=M/ md
通过计算我们可以得到:
对于“也”字 1—28回 样本平均值Ty=(∑ty)/n=212.1
样