破茧成蝶:古籍数字化的窘境与生机——第三届中国古籍数字化国际学术研讨会侧记

发布时间:2019-08-09 18:13:15


破茧成蝶:古籍数字化的窘境与生机

——第三届中国古籍数字化国际学术研讨会侧记

《 光明日报 》林晓山

编者按:,看做是建设优秀传统文化传承体系的重要手段。推进古籍数字化的研究与开发,对于加强优秀传统文化思想价值的挖掘和阐发,建设中华民族共有精神家园具有重要的战略意义。本期刊出的两篇古籍数字化文章,从不同角度展示了我国古籍数字化取得的成就,同时也分析了存在的问题、困难。我们期待广大读者给予古籍数字化工作以更多的关注。

数字化是一场巨大的革命,正深刻影响着我们的生活,每个领域几乎都被卷入其中,即便是甘守寂寞的古籍,也概莫能外。20世纪70年代末古籍数字化最早开始于的美国;80年代,港台地区探路于前;90年代,中国继踵于后。进入21世纪,古籍数字化已呈星火燎原之势,发展之迅猛超乎意料。

然而近两年,古籍数字化的步伐却有所放缓,呈现瓶颈效应,又仿佛一只即将破茧的蝴蝶,在静静积蓄力量。

金秋时节,50余家学术及出版机构的60余名专家学者,从海内外各个角落齐聚北京,第三届中国古籍数字化国际学术研讨会如约举行。古籍数字化突破瓶颈,期待同业者的集思广益群策群力;会上,新观点、新思想的碰撞,新技术、新成果的涌现,无不呼应着古籍数字化前进的步伐。

窘 境

人人都羡慕阳光下蝴蝶的美丽,又有谁知道黑暗中蜕变的痛苦滋味。

(一)标准之争——标准缺乏,各自成理

会议伊始,原国家古籍整理出版规划小组办公室主任许逸民便把一个大家最关切的问题提了出来——汉字简繁转换问题。如何处理转换过程中的异体字,是所有古籍整理者都望而生畏的难关,因为这不仅牵涉到全文检索,更会引发学术争议。繁体字正字表至今尚无国家标准,致使同一字在古籍出版物和数据库中出现不同字形,如“為”和“爲”,“劍”和“劒”,孰正孰异,莫衷一是,天下扰攘,乱相遂生。

当前最迫切需要的便是建立古籍数字化的国家标准,奈何主管部门碍于诸般顾虑,始终未能着手制定。首都师范大学中国诗歌研究中心主任赵敏俐感慨:古籍数字化的发展过程中,民间的积极性非常高,不断有学者呼吁建立国家标准;或退而求其次,先由民间建立通用标准,再得到国家认定也可。但如果这套民间标准真的推出,国家是否会予以认定,他对此深表怀疑。

首都师范大学周文业研究员形容当前中国大陆的古籍数字化现状为“春秋战国,群雄割据”。上世纪90年代古籍数字化在中国刚兴起之际,政府未能及时介入,徒然错失先机,如今争霸局面已成,再想统一,为时晚矣!

尽管如此,大多数学者还是希望古籍数字化能有一套起码的标准通行。会议主办方、首都师范大学电子文献研究所所长尹小林提出了建设古籍数据库的八条标准:其一,有确定的底本和书目提要;其二,文字差错率小于万分之一;其三,有简繁体两种文字,并实现相互对应;其四,应带有新式标点;其五,含高清版的底本图像(可实现8倍缩放);其六,提供智能化的全文检索(Unicode内核);其七,具有智能数据分析统计工具;其八,可实现多种数据格式的转换和输出。这八条标准都是在古籍数字化工作过程中逐渐总结形成的,具有很强的专业性和实用性,因而获得了与会专家们的一致认可。

与建立标准息息相关的还有资源整合问题,河南新乡学院文学院副教授毛建军认为,资源整合是一项庞大而长期的工程,非朝夕之间能够完成,建立古籍数字化资源导航库将不失为一种方便快捷、切实可行的整合方式,并建议从数据库类型、建置单位和数据库主题三种途径进行导航设计。

标准如纲,导航如网,纲振网举,方可尽揽群籍。

(二)版权之争——天下公器,安能独私

由于古籍真正的作者皆已作古,无法穿越时空来捍卫自己的原创地位,因此古籍早已作为文化遗产被纳入了公共知识的范畴。所谓古籍的版权,实际是针对整理者而言的。

如今常见的古籍绝大多数都已被点校出版,版权握于传统出版社之手。为了避免纠纷,数字出版者们只好舍近求远,返择古本为底本,重起整理之炉灶,可还是难免“抄袭”嫌疑。

古籍整理犹如积薪,后来居上,一代又一代学者无不是站在前人的肩上,向着理想中的最佳版本一步又一步迈近。前人遇到的坎,后人学会跨过。前人走错的路,后人不必再走。如果因为整理在先,传统出版便将大批古籍资源垄断在手;如果因为点校相似,数字出版便被想当然地认定有侵权之嫌;那么古籍的命运就当真堪忧了。

中华书局编审刘尚慈不无遗憾地说:“真正的最佳版本存在于当下,就是那些经过专家标点校勘过的本子。我们的古籍最应该数字化这些本子,可惜却受到版权限制,没有办法进行。而真正拥有版权的出版社,却又没有能力进行。”

,“怎么能够在共享和利益之间找到平衡,让大多数的学者都愿意把自己的成果投入进来”,是这个平台建立的关键。

生 机

一只蝴蝶扇动翅膀,不久的将来会在遥远的彼岸掀起一场飓风。

古籍数字化发展至今,坐拥海量古籍资源,除了全文检索、联机字典、图文对照、繁简转换之外,数字化究竟还能做些什么?

本届会议为这个问题带来了几种可能的答案。

(一)版本比对与辅助标点——人力有尽,天道无穷

人类智慧无敌,机器效率无敌,人机合一,所向披靡。这正是古籍数字化孜孜以求的理想境界,虽然目前尚无法达到,却依然不乏希望。会上首都师范大学电子文献研究所演示的古籍智能版本比对和辅助标点系统,便让人眼前一亮。

所谓智能版本比对,指能自动进行多种版本的逐字比对,完成后即可标示出文字和符号的任何差异。所谓智能辅助标点,则使用了前沿的人工智能算法和多种资源库,理想状态下自动标点准确率在99.5%以上,机器无法完全识别的情形下会自动提示专家进行人工干预。“单凭肉眼,很难分辨文字上的一些细微差异。”尹小林说,“如‘礻’和‘衤’、‘曰’和‘日’等,即使底本就在眼前,只怕也会误认,但对于电脑而言,却是完全不同的两个编码,识别起来绝无含糊。其实,比对的目的还是为了查错,在这方面,电脑的优势远非人眼所能比拟。”