首页 -> 2001年第8期
中国传统文献与研究的现代转换
作者:蒋宗福
字体: 【大 中 小】
中华民族在人类历史发展的长河中,创造了辉煌灿烂的优秀传统文化,形成了我们民族特有的品格和精神风貌,以及浩如烟海的古典文献。这既是中华民族,也是全人类取之不尽,用之不竭的文化宝库。在人类进入21世纪,在信息社会悄然到来之时,如何发掘利用中华民族优秀传统文化,为人类的和平与发展、文明与进步做出应有的贡献,是摆在我们面前的重要任务,不能不引起我们的关注和思考。
一、中国传统文献与研究的现状
所谓中国传统文献,是指纸质的中国古典文献,是中华民族优秀传统文化的主要载体。凡是对传统文化感兴趣的人,或者是从事传统文化研究的人,如何把有限的精力和时间,投入到最大限度地发掘和利用最有价值的传统文献研究中去,是古往今来许多人曾经面对或必须面对的难题之一。
中国古典文献,从先秦到“五四”以前产生并流传下来的究竟有多少,现在还很难说清楚。有人估计约8万种,也有人说在15万种或20万种以上。到目前为止,真正对这些文献典籍进行过研究的只占其中很少一部分。还必须指出的是,在19世纪末20世纪初,中国文化史上有两件引人注目的大事。一是1898年在河南安阳殷墟出土了甲骨文,改写了中国文字学史。另一件是1900年敦煌莫高窟藏经洞的发现,出土了约5万卷文书,并很快形成了一门国际性学问——敦煌学。后又陆续出土了敦煌汉简和居延汉简、银雀山汉简、长沙三国吴简等一大批出土文献。金石碑志历代续有发现,现存数量很大,经整理拓印出版的只是其中的一少部分。至于明清档案,有相当部分也还未进行整理。面对如此浩瀚的传世文献和出土文献,一个人在短暂的一生中,即使孜孜,兀兀穷年,也难博精于万一,只能就部分典籍进行研究。
当然,我们应该看到,改革开放20年来,人们从事传统文化研究的条件已大为改善。相继出版了一大批古典名著,古籍整理与研究取得了举世瞩目的成就。《四库全书》、《丛书集成初编》和《古今图书集成》等大型丛书和类书的重新出版,《四库全书存目丛书》、《续修四库全书》的编辑出版,使以前束之高阁的文献典籍,得以方便地置于案头,供人们阅读研究。国家重点文化建设项目《汉语大字典》、《汉语大词典》的编纂出版;“九五”国家重点科技攻关项目“夏商周断代工程”的开展和最近《夏商周年表》的公布,填补了中华民族5000年文明史上1229年的空白;教育部全国高校古籍整理研究工作委员会重点项目《全宋文》、《全宋诗》等“七全一海”的编纂整理出版,《中华大藏经》的问世,《中华大典》的编纂等等,在短短20多年时间里完成或即将完成,如此众多的浩大工程是历史上绝无仅有的。
以上这些重大的文化建设工程,除了“夏商周断代工程”外,基本上是无数文史工作者呕心沥血,积数年甚至数十年时间用手工完成的。面对科学技术日新月异的飞速发展,传统文化研究各领域中还有许多没有解决的问题正待我们去探索,还有类似于“夏商周断代工程”这样事关中华民族5000年文明史的重大课题正待我们去攻克。我们是仍然承袭前辈学者在研究过程中靠手工花费大量时间和精力去搜罗剔抉材料,还是把主要精力集中在对重大问题的思考和研究之上呢?
二、中国传统文献的现代转换
自1946年世界上第一台电子计算机问世以来,就标志着人类信息的自动化处理揭开了新的一页。计算机在科学研究和社会生活中所起的巨大作用,决定了计算机科学技术在文化领域中也必然会引发一场深刻的革命。
(一)中国传统文献的现代转换:电子文献
电子计算机信息处理技术出现之前,纸本是传统文献的主要载体,古籍善本自然而然地被视为重要文物。电子计算机技术使文献有了全新的载体,如磁盘、光盘和Internet等,各种信息通过键盘录入或扫描、手写、语音录入等方式存贮在磁盘或光盘上,或送上Internet。电子文献比起纸质文献来,具有占据空间小,存贮量大,检索方便,传输迅速,易于复制,可以长期保存等诸多优势。
目前,电子文献主要有两种形式,即文本文件形式和图形文件形式。文本文件是把文献典籍或各种信息和数据录入计算机并转换成数字形式而形成;图形文件是通过扫描的方式输入计算机,以真实的图像存贮形式而形成。因此,电子文献借助计算机阅读,仍然是一种非常直观的信息载体。
电子文本文献和图形文献虽然只是存贮形式有区别,但在制作和利用时也各自表现出不同的优势。文本文献可以利用计算机进行立体的、多角度的快速检索、查阅、排序、分析归纳、自动生成新的数据,并可随意编辑、打印,充分挖掘利用相关信息,使用非常方便。图形文献则具有高度保真的特性,尤其适合对各种古籍善本的复制和存贮,大凡古籍的字体墨色、行款格式、纸质的优劣、书写的工拙、刊刻的精细、文字的错讹等文献学属性莫不妍媸毕现。但图形文献所占的存贮空间大,目前还不能像文本文献那样可以任意检索,除非另编可供检索的数据库配合使用,否则只能按页阅读查检。
(二)中国传统文献的现代转换已有的代表性成果
从五六十年代开始,西方国家就开始了计算机语料库的建设。到了90年代,步伐大大加快,许多大学和研究机构把大量西方传世经典著作转换为电子文献。
我国的计算机语料库建设和电子文献的研制虽然起步较晚,但已取得丰硕成果。国家图书馆的专题数据库已建成的有中国年鉴数据库、方志类数据库、中国博士论文数据库等等。最近几年正以百余台计算机和扫描仪不停地进行文献的数字化转换,到2000年初在网上为读者提供了3000余万页共15万本的数字化文献的免费浏览。国家“863”计划中国数字图书馆示范工程项目——超星数字图书馆,由北京世纪超星信息技术发展公司投资兴建,设文学、历史等数十个分馆,电子文献以每天600种的速度增加,免费供读者在线阅读,凭超星数字图书馆发行的“超星读书卡”可下载所需资料。
台湾在1984年7月开始古籍计算机数据化研究,十多年来已完成包括《二十五史》、《十三经注疏》、“古籍十八种”、“古籍三十四种”、先秦两汉诸子、《大正新修大藏经》等数亿字的古籍资料库,其“瀚典全文检索系统”已在Internet上提供了约116亿字的古籍电子文献的检索服务。台湾元智工学院研制的“唐宋词多媒体网络”,收唐五代词2500多首、宋词2万多首;另外,台湾东吴大学陈郁夫研制了“先秦语料库”,内容包括《十三经》、《荀子》等诸子和《楚辞》,共计166多万字。台湾所藏敦煌文献,最近也将在Internet上公布,以供查阅研究。
香港中文大学中国文化研究所从1988年起开始中国古典文献资料库建设,现已完成“先秦两汉及魏晋南北朝一切传世文献”共900余种典籍计3300万字、9种出土简帛文献计100万字、《甲骨文合集》所包含的卜辞计86万字的建库工作,其“华夏文库”现已提供魏晋南北朝经部文献149种、史部正史类文献5种、子部释家类文献38种及补遗89种、集部别集类文献64种共计1100万字的网络检索服务等。
大陆方面,中国古籍电子文献的研制取得了可喜的成就。如前文所述的《四库全书》原文电子版。香港迪志文化出版公司和北京书同文电脑技术开发公司也联合研制了“文渊阁《四库全书》电子版”,是国家“九五”重点电子出版项目,分“原文及标题检索版”和“原文及全文检索版”两种,后者计168张光盘,除约8亿字的全文主体资料外,还附加了182万多条卷内标题资料、近3000名著者资料以及联机字典等,并提供多种检索手段和辅助研究工具,代表了目前国内外中文古籍电子版的最高水平,大大提高了原书的文献资料利用价值。
“原文电子版《古今图书集成》及索引数据库”,是国家新闻出版署“九五”重点电子出版物,将全书1万卷、80多万页、16亿字的我国现存最大的百科性类书,采用电子扫描和高度压缩技术,以图形文件形式储存在27张光盘中,保持了原书所有资料的真实面貌。另外,为配合充分利用该书的文献资料,在把握《古今图书集成》的分类特点和电子检索功能的基础上,研制者还编制了36个索引数据库,约37万多条数据,总计1200万字,可以从不同角度多方位地进行检索。
中国社会科学院文学研究所研制的《全唐诗》、南京大学等单位联合研制的《全宋词》、陕西师大古籍信息研究所研制的《全唐五代文》(在《全唐文》的基础上增收1万余篇,其中新出土的碑刻、墓志、造像700多件)、河北大学电子与信息工程系研制的《续资治通鉴长编》、山东大学中文信息研究所研制的《中华五千年文史精华电子文库》等,都是非常重要的古籍电子文献。
另外,北京大学中文系研制的“《全唐诗》检索系统”、上海师大“《全宋词》检索系统”、陕西师大历史系“《二十五史》全文检索系统”均系古籍全文检索的电子文献。还有一些比较专门的电子文献数据库,如北师大汉字与中文信息处理研究所研制的“《说文解字》计算机研究系统”,包括“小篆构形属性数据库”、“《说文解字》意义训释数据库”、“《说文解字》‘读若’与古音韵数据库”等;深圳大学与北京大学联合研制了“《广韵》电子检索系统”,可通过字头或训释等从不同角度进行多功能检索;深圳大学研制的“《龙龛手鉴》、《集韵》电子检索系统”,华中理工大学研制的“《古今字音对照手册》计算机分析系统”,既是电子文献,又具有应用软件的性质。四川大学“211工程重点建设学科汉语史与中国古典文献学”的大型集体项目——中古汉语语料库,已经录入重要语料近1亿字。
以上这些电子文献,都是我们在研究传统文化时要经常用到的。有的可以购买,有的可与有关单位或个人互相交流,有的则可通过网上下载。
三、中国传统文献研究手段的现代转换
从事中国传统文化研究的人,特别讲究要有旧学根底,往往需积数十年之功,方有所成。但是,有了国学修养,并不能保证一定可以在某一领域作出成绩,因为能够读懂原著,并能发现问题,分析问题,直至最后解决问题,毕竟是一个复杂的过程。加之传统学问重考据实证,所谓例不十法不立,就是要花很大力气从群书中广泛搜罗材料,其结果往往是劳而少功,徒费时日。造成这种情形的根本原因就在于原始的手工操作,要在浩如烟海的文献典籍中去钩稽材料,的确无异于大海捞针。从秦汉时期我国第一部工具书《尔雅》开始,以后陆续编创了许多不同体例和用途的工具书,说明前人很早就意识到搜罗资料的艰难,认识到编纂工具书为他人提供便利的重要。而历代编纂工具书,就是在当时的条件下的一种积极思变、追求更高效率的可贵的科学探索。
今天,计算机信息处理技术已发展到很高水平,文献载体也已发生根本改变,传统文化研究的手段理应有一个大的现代转换。
(一)充分利用计算机进行辅助研究
最近几年,电子计算机在社会生活的各个领域已基本普及,在自然科学研究、文化传播、远程教育和多媒体教学等诸多领域,计算机的作用更是举足轻重。但在传统文化研究中,由于学科的特殊性和研究手段的滞后,能充分认识到利用计算机进行辅助研究的必要性和迫切性的还不是很多。这就需要我们转变观念,紧跟时代步伐,利用先进的科学手段,提高传统文化研究的效率和水平。
首先,我们可以把繁重的资料搜集工作交给计算机去做。例如,要查找明末以前的人物传记资料,通常的办法是尽可能利用已有的工具书,有的可以比较快捷地从人名大辞典提供的线索查到,有的则查不到。如果漫无目标地靠手工从某些文献典籍中去找,何啻千难万难。但是如果利用“电子版《古今图书集成》及索引数据库”,其《人物传记数据库》共收155960条数据资料,比《中国人名大辞典》多出几倍,利用计算机则可在几秒钟内查到某人的相关资料在某典某部、线装本或精装本的某册某页,并按提示插入第几张光盘,马上可以查到你所需要的材料,另外还可从人名、字号、籍贯、朝代、书名、所在部名等字段分别进行检索。我们知道《古今图书集成》是一部无所不包的百科全书,从事传统文化研究各个领域的人都可从中找到自己所需要的材料。又如,“电子版《中国古典名著百部》”收《史记》、《吕氏春秋》、“三言二拍”、《三国演义》等经典名著50种,利用其全文检索功能查找某个字符串,查遍1000多万字仅需几秒钟,并立即显示共有多少项,还可排序打印或逐一翻看。我们经常见到报刊载文批评某部词典的某词没有溯到源头,所举书证晚了几百年甚至上千年。其实一点也不奇怪,一个人读书的范围毕竟有限,现有的一些词典都是靠人力穷年累月收集材料编成的,如果当初编这些词典有大量的电子文本,利用计算机进行检索查找书证,恐怕诸如此类的问题就不会存在了。
其次,数据分析和统计工作让计算机去做,可以比人做得更好。例如,从事专书语言研究的人,有时为了彻底弄清某一书的词语总量、每一词的使用频率等,往往需要先做逐词卡片,如果一句话有20个词,则需要做20张卡片,这一句话就要重复写20次,并且每张卡片都要注明篇卷出处,以便分析归类和排序引用,仅这项工作就会耗费大量时间,还难保没有遗漏。如果利用计算机做这些工作,只要把切分出来的词语加上标注,全书的词语总量很快就会统计出来。如果加上简单编程,计算机还可根据需要对这些词语或数据进行系统分析,得出令人信服的科学结论。
至于利用计算机进行文字处理和激光照排所具有的种种方便,人们已经非常熟悉了,此不赘述。需要强调一点的是,传统文化研究工作者如果使用计算机写论文或书稿,可以随心所欲地进行修改编辑,直到满意为止,而不需要假手于人。并可随时把新材料、新观点补充到备份的文件中去,假以时日,一篇文章或一部书稿的修订就算完成了。
(二)充分利用Internet提供的资源共享
凡是从事研究工作的人,图书资料、图书馆对他们来说是非常重要的。因为有了Internet,数字图书馆已经成为现实。人们把各种图书资料信息转换成电子文献,通过Internet传输给读者,读者可以安坐家中而查到自己所需要的资料。例如,由于众所周知的原因,敦煌文献有相当部分散佚国外,20世纪30年代,王重民、向达等老一辈敦煌学家远涉重洋,亲赴英国和法国去查阅过这些文献,经历的艰辛非常人所能想象。现在好了,正如前面已经说过,英国国家图书馆第一个在Internet上发布敦煌文献,现已有6000多张高清晰度的敦煌文献图片可供世界各国的敦煌学者远程访问和下载使用。我们同样可以安坐家中,通过Internet看到远在伦敦的敦煌文献而不必漂洋过海。这种便利条件,以前是根本不能想象的。
又如,一些古籍善本是很珍贵的文物,由于年代久远,纸质变脆,稍一翻动,就容易损坏,典藏的图书馆一般是不轻易示人的。但从事古籍整理研究的人,尤其是从事版本研究的人,又不能不看实物。很多时候会为寻找这些资料而大伤脑筋,往往费尽周折而不可得,最终只能放弃某一研究。现在利用电子扫描方式,可以把重要古籍的珍善本送上Internet,供人们研究利用。台湾中央图书馆现已着手建立古籍善本扫描图像资料库,其“善本丛刊影像先导系统”,已提供17种明人文集善本扫描图像的网上浏览,这是一个很好的开端。相信在不久的将来,人们对于善本、珍本古籍访书难、看书难的问题可望根本解决。
四、中国传统文献与研究的现代转换应注意的问题
前面我们说明了电子文献、计算机辅助研究、Internet等在传统文献研究中的重要性。但是,任何事情都有一个“度”,我们不能夸大其辞地只强调这些新事物的积极作用,而忽视人的主观能动性在传统文献研究中的主导作用。因此,我们认为以下几个问题值得注意:
(一)关于电子文献
电子文献在检索、携带、保存和复制等方面的确给人们带来了极大方便,但目前的电子文献的研制还没有统一的规范,质量参差不齐,因此还不尽如人意。总的说来,科研机构或专家学者制作的电子文献可靠程度大些,而一些公司为商业目的制作的电子文献问题就多一点。例如,规范而科学的电子文献,应该包括所选文献的版本说明、整理情况及体例、作者、整理者、篇章、卷次、页码、足本或节本等文献学属性,并且校对精审,没有错误,或错误极少,以便读者使用。但现在的一些电子文献,往往不注意这些方面的问题,有相当部分没有标注所用版本,更不要说是否选用了善本或经专家学者整理过的精校精注本,用起来总叫人提心吊胆。
电子文本文献一般是由打字员通过键盘录入的,为了快捷,有的设置了词组输入功能,由于古籍中单音词占相当比重,原文可能是一字一词,输入的结果可能是词组。不管打字员采用哪种输入法,都有敲错键的时候。近似码或错码,必然会造成文本误脱倒衍的现象。这种错讹与古籍抄刻本中的错讹有很大不同。此外,目前通用的GBK,也只有20902个字,用于制作古籍电子文献,仍然不敷使用。加之繁简对应、异体字、古今字和新旧字形处理等也较棘手,问题就更多一些。有学者强调,古籍的电子化,必须经过整理。这是非常必要的。没有古籍整理专家参与制作而又校对不精的电子文献,其学术水平和质量不能不令人担忧。读者在使用时,最好能核查原书。
由于电子文献的制作没有统一的规范,基本上是各行其是,缺乏协调沟通,因而重复研制开发的现象非常突出。如《四库全书》,就有三家公司研制了三种电子版,《二十五史》、《十三经》等有若干单位研制电子版。研制单位不同,目的不同,制作的电子文献虽然互有优劣,但浪费了大量的人力物力。这种现象亟须改变。
如上所述,电子文献是信息载体发展的必然趋势,国家有关部门应制定相应的规范措施,加强协调沟通,避免重复研制开发。特别是要加强传统文献研究各领域和语言学界的专家学者与计算机方面的专家大力合作,共同研制电子文献。另外,从事传统文献研究的中青年学者,也要在计算机编程方面具备一定能力。即使达不到自己动手编程的水平,也至少能把自己的想法比较准确地告诉计算机程序员,相互配合沟通,才能研制出比较科学实用的古籍电子文献。
(二)关于计算机辅助研究和Internet
我们之所以把利用计算机进行传统文献研究称之为计算机辅助研究,是因为目前的计算机还不是完全智能化的,它必须在人的操作下进行工作。虽然计算机具有强大的检索功能,在数据资料的分析处理速度方面是人所无法企及的,但是它并不能取代人的主观能力。例如,查找某一个词语,利用计算机可以在很短的时间内查遍上亿字的文献并给出结果,但它会把只是字面形式相同的紧挨在一起而根本不是一个词的字符串一股脑儿地混在一起。这种结果,最终还得靠人去一一甄别是否是你需要的材料。*/
【作者单位:西南师范大学文献所】
(摘自《四川大学学报》2001年第3期)