张小亚 侯 磊
摘要:本文首先阐述高校历史档案的价值、特点和进行数字化保护的必要性,以及当前进行全文数字化的发展趋势,进而从实际工作中总结出高校历史档案数字化过程中一些经验,最后就此项工作中一些疑难问题进行探讨。
关键词:高校历史档案 数字化 实践
一 高校馆藏历史档案的价值、特点和数字化保护的必要性
高校历史档案(本文指1949年以前)是一个学校历史的真实写照,也是其独特的办学传统和优良学风得以形成、继承和发扬的物质载体。尤其是一些保存百年以上的珍贵档案更是研究我国高等教育起源、发展和改革的第一手资料。因此,利用一些日臻成熟的计算机信息技术,更好地保护、存储,以达到开发利用历史档案,为校内外用户服务的目的,是目前档案馆馆藏档案资料数字化工作的重中之重。
随着信息社会的发展,档案作为一种信息交流的方式越来越体现出它的重要性。长期以来,传统的文档管理一直存在着保管困难,查阅、流通不便,资源难以共享等诸多问题。具体从历史档案的特点来看,历史档案资料一般以纸质文档和老照片形式存在(本文主要探讨的高校历史档案),保存时间较久,纸张脆化,发黄,有的甚至磨损破坏严重,而且清代和民国的许多公文资料基本是古汉语,没有标点符号,需要断句。书写时基本是软笔手写体,即便是油墨印刷品也多以繁体字、旧体字出现。从其利用特点来看,一般有三方面用处,其一,提供复制件给学校或相关单位作展览之用;其二,供研究教育学、科技史、相关学科发展史的学者查阅资料文献;其三,学校内部宣传、编写史志。笔者所在的西安交通大学档案馆历史档案资料(1949年以前)共有6千多卷/件,其中清代档案资料100多卷/件,这部分案卷因年代久远,数量稀少,辗转几地,目前破损严重,但利用率比较高,因而迫切需要很好地加以保护,以备利用。
在馆藏历史档案资料数字化的实践中,我们认识到,在充分考虑以上档案资料的特点和实际的基础上,购置合适的硬件设备,运用先进有效的管理方法,构建完善的数据库,实现历史档案资料的数字化管理、传输,最终达到通过网络实现远距离检索、传输、利用的目的。对于数字化处理后档案资料实物的原件则永久封存,妥善保管,尽量延长其寿命。
二 高校馆藏历史档案数字化的发展方向
历史档案数字化是指将各种纸质、照片、声像、胶片等传统介质的档案信息通过相应的计算机技术转换为数字信息,并通过高速宽带通信网络设施相连接和提供利用,实现真正意义上的资源共享。一般包括两个不同层次:一是档案目录的数字化,二是档案全文的数字化。虽然目录级档案的检索、调卷比以前传统手工检索大大提高了管理效率,节约了人力和时间,但对于具有上述特点的历史档案来讲,仅仅做到目录级数字化管理相对其研究、保存和利用价值是远远不够的。档案全文数字化能够全面系统地显示历史当档案的全文内容,尤其是当要了解研究某一具体历史事件或专题时,数字化的全文内容就显得很必要。在不触动档案原件的前提下,数字化处理的档案内容,可提交至海量存储设备(磁盘阵列或光盘库等),然后利用Internet或Intranet、磁盘、阅览器等工具,实现查询、阅览和信息资料交流与共享,有效拓宽高校历史档案资料信息的利用空间。因此,实现档案全文的数字化才是高校历史档案数字化管理的基本方向。在实践工作中,我们认识到,如果先目录级后全文,分两步走实现档案资料的数字化,看似简单易行,节省人力财力,但实际做起来,大量的重复工作和设施设备投入不管是对于档案的保护,还是人力财力反而是一种更大的损失与浪费。这是因为:
1. 历史档案全文数字化处理是目前其最佳的技术保护手段。高校现存的历史档案大多由于经历战争、自然灾害等原因,本身就很脆弱,许多一旦稍微触动,就会不断掉落纸屑,甚至掉页,页面开裂,从减少翻阅原件次数的角度讲,一次性对其卷名、目录和内容进行处理,就会使数字化工作对历史档案的破坏程度降到最低。从现有的技术和设备水平上讲,数字化处理后,不再翻阅档案原件,对于许多珍贵的历史档案可以达到一劳永逸的保护效果。
2. 数字化工作需要对计算机软硬件比较大的投入,因而需要的经费也比较大。就以历史档案来说,因为大多是手写体,因而一般都会处理成图片格式,为了忠实还原档案原件,达到各种利用目的,满足利用要求,图片的像素和分辨率在生成时一般都调得比较大,普通配置的电脑操作起来速度非常慢,甚至出现操作失败或死机。存储、处理、读取图片要求电脑的内存和显卡配置要比较好,加之外接的扫描仪、著录、读图、备份、存储检索设备等也要求计算机的处理能力比较好。可以说,虽然数字化对保护历史档案原件是最好的手段之一,但经费上的投入必须有充分的保障,因此可以有选择地逐步对历史档案进行数字化处理。
三 高校馆藏历史档案数字化实践
历史档案的数字化从技术层面讲,程序一般如下:
历史档案资料预整理 扫描/数码拍摄 著录与数据处理加工 提交数据库 数据库后续维护与管理 利用服务(来馆或远程服务)
实际操作起来主要注意以下几方面的细节:
1 馆藏历史档案数字化实践的前期准备工作
笔者所在的西安交通大学档案馆馆藏历史档案主要是1956年迁校时,从上海运抵西安的大批解放前的珍贵档案,有近万卷/册/张档案资料和照片,我们依照办学时间顺序,先清朝后民国逐步对这些档案进行数字化处理。在确定要数字化的档案案卷以后,采取先把卷皮封面复印,编号,其中有的装订比较深,遮住文字或者比较厚不易扫描的卷本,要先拆卷。检查卷内档案内容,如果没有页码的,先要用铅笔轻轻写上页码,以免卷内页码在扫描、著录过程中发生混乱。扫描、拍摄完成后,在预备好的纸袋内装好每卷档案,袋子上贴上相应的复印好的卷皮封面,以便将来保存查询。
2 扫描或数码拍摄历史档案的技术参数
考虑到平时利用的情况,对历史档案的扫描一般设置到400——600dpi,具体视幅面和字体大小而定,幅面和字体大小与扫描分辨率的设置高低成反比。如文件是名人手迹等比较珍贵的文件,则扫描的分辨率设置还要更高。虽然从理论上讲,分辨率越高,扫描的图像质量越好,但数据量会随着分辨率的提高而急剧地增加,一方面扫描速度会大大降低,另一方面图片容量会大幅度增加,占用更多的存储空间,再次使用时也会比较慢,所以,对扫描的分辨率来说,应权衡自身的实际条件和使用目的合理加以选择。采用数码拍照则是针对一些幅面较大或不宜拆分的档案资料,用专业翻拍架固定好相机,出于同样的考虑,目前我们拍摄时,像素一般选择在500——1800万像素之间。
3 档案资料数字化处理的文件格式要求
目前,对档案数字化的图像进行存储可选择BMP、TIFF、JPEG等多种格式,但历史档案加工后图像比较大,要求存储空间容量大,而且要求在一般普通电脑上运行速度比较快。因此,在我们采用图像的格式处理历史档案时,综合各种存储格式的转换和浏览、编辑、检索的优缺点,采用Adobe公司推出的PDF格式,是因为这种电子图书式的格式可以支持多页图像,同样又得到微软公司的大力支持,在WINDOWS及IE中都自带有浏览软件,任何一台安装Windows操作系统的电脑都可以直接浏览这些文件格式,通过浏览器打开时,由于是矢量图,放大到百倍图像都不会变形。更重要的是,PDF格式文件所占空间比较小,存储、浏览快捷方便,后期也有利于网上的信息传输和提供利用。
4 数字化档案的分类、编辑和著录规范
历史档案主要是文档和照片形式存在,对它们进行数字化处理时,先以文档和照片两类分别进行,然后关键是文件的著录,在实践中,我们发现数据库的利用检索速度和准确率主要取决于著录的规范程度。换句话说,决定历史档案数字化工作效果的很大程度上在于著录的水平,这就要求著录人员的古汉语语言文字水平要比较高,因为历史档案多数属于文言文或半白半文言文,文字多为繁体字或异体字,书写上多为毛笔行书和草书,有时著录文件题名还需要对原文档的内容进行归纳总结才能做到准确无误。只要著录清楚规范,才有可能做到快速准确地检索利用。还有,照片档案只要著录上做到位,将来检索时,就可以做到相同事件或主题的文档和照片一同展现在利用者眼前,避免目前查阅查阅历史档案时文档和照片两套手工检索繁冗和不完全的弱点,大大提高历史档案的利用效率。在著录时依照《档案著录规则》(DA/T18)和《明清档案著录细则》的标准,著录格式力求做到统一规范。
另外,我们不主张采用OCR软件,是因为,历史档案大多数属于手写体、繁体字,此软件汉字的识别率很低,后期的校对补录反而会更费时费力。为了便于利用者认识手写的草、行书文件,编辑时在图片文件后再做一全文Word,将所有历史档案的图片上的手写文字输入到Word里面,利用PDF的优势,将Word文件转换成PDF格式,作为整个案卷图片的附录,这样,扫描的图像保持了档案原件的本来面目,可以使利用者在看到文字内容的同时,也能看到纸质档案的其他一些特征,如原件的纸色、墨迹、印章、圈点、批注等各种原貌,使利用者可以获得更多的线索,开展一些更深入的研究与开发。
5数字化档案的存储、备份
对于纸质档案数字化转换以后检验合格的完整数据库应及时进行备份,及时刻录光盘或存储于能脱机保存的载体上。目前一般推荐采用的存储载体是硬磁盘、一次性光盘、可擦写光盘等。备份过程中也应进行备份质量的检查,检查图像文件能否打开、图像信息是否完整、文件数是否准确等。数据备份后应在载体上标注好文件内容、类别、存入日期及磁盘标号等,如需保密的还要标明密级。
6 历史档案数据库的汇总、关联和验收
将历史档案数字化过程中的产生目录数据库和全文数据库进行技术上的关联,注意档号、文件名、页数、图像总数等著录项目上达到一致,通过每一份图像文件名与档案目录数据库中该份文件的档号的一致性和唯一性,建立起一一对应关系,为实现历史档案目录数据库和全文数据库的批量挂接提供条件。
一个稳定的数据库要达到检索利用的目的,必须保证其运行稳定并有专人维护。只有经过严格的验收标准检验合格的数据库,实施备份后,才可以投入实际的应用阶段。
7 数字化处理后,档案资料实物的保管利用
在数字化处理的过程中,有些档案资料被拆卷,那么后期这些被拆卷的档案资料如何保存,又成了一个新问题。很明显,重新再组卷装订已经不可能,因为这样对这些本来就脆弱的文本伤害会更大。为了使这些档案延长保存时间,最好的办法是,装进特制的塑料袋里,充入惰性气体,然后封存,延缓它的氧化速度,尽可能地延长它们的寿命。但由于高校各级领导重视程度不同,因而在经费上有时会制约此种手段的技术保护。介于这种情况,可以先放在纸袋里,妥善摆在原来案卷所在位置,然后积极协调,资金设备到位以后,再作处理。平常的利用一般都不用再触动原件,转而去数据库里查阅利用电子版文件。
四 历史档案数字化实践中值得探讨的问题
1 实施数字化的历史档案定位选择原则
档案数字化要求购置大量的设备,需要花费的人力多、时间长,而且对人的技能和知识素质要求比较高,比如,要求此项工作组的成员不但要掌握档案管理知识和历史档案的相关背景知识,还要有一定的古汉语语言功底,且熟悉计算机及其配套设施的运用、高速扫描仪操作、数码相机、数据库的使用维护等等。因此应该在选取那些历史档案要进行数字化处理时,应综合考虑资金、人力以及人员的素质、馆藏档案的特点、级别或时间等因素,依照轻重缓急原则分批进行。
2数字化档案资料著录中存在的问题与思考
历史档案在著录过程,其实就是对信息特征的分析,选择和记录。著录的规范与准确,是确保档案数据库质量和计算机检索效果的重要基础。就历史档案而言,著录人员既要有辨别繁体字、手写行书、草书以及旧体字的能力,又要具备一定的历史、校史和古代汉语知识,同时还要有一定的逻辑推理、综合判断和文字表达能力。因此著录在历史档案数字化过程中对人员的素质要求比较高,档案馆在实施这项工作时,应提前着手引进或专门培训这方面人才。
3 历史档案数据库的维护和更新
数据库的维护和更新是历史档案数字化管理利用的重要一环。数字化处理后,档案原件基本上不会再被利用,在利用时要从数据库中去检索、浏览、打印或复制。一个运行稳定、检索准确迅速的数据库需要经常地维护和更新,才能达到有效利用的最终目的。历史档案只有在传递与利用中才能体现它的价值,由于目前存储的光盘一般寿命是5——10年,我们建议除了要由专人负责历史档案数据库的日常维护和管理外,还要实施在线和异地保存光盘,多套备份,并在3到5年内采用最新介质更新数据存储的载体,做好标签标注,确保其安全、完整和长期可用。
4 历史档案数据库信息的安全问题
安全是档案资料数字化建设不可忽视的一个重要方面,图书馆的信息是面对普通公众,而档案信息则对安全保密有严格的要求,有相当一部分档案信息是需要有控制地使用的,所以历史档案数字化过程中必须采取一系列措施保证档案信息的保密和安全。目录级的数据库完全可以通过网络对外公布,方便利用者查询和检索。利用PDF格式文件自身的一些功能,可对全文图像数据库管理设置相应的权限,也就是说,一般用户是不能随意下载或打印历史档案文件的。
参考文献:
1. 裴燕生:历史档案数字化管理的基础,档案学通讯[J],2004.5
2. 向立文:馆藏档案信息数字化建设应坚持的几个基本原则,档案学通讯[J],2004.1
3. 冯惠玲:拥有新记忆——电子文件管理研究[M],中国人民大学出版社,2005
4. 李咏梅:论高校档案信息工作者信息素养及其培养,兰台世界[J],2006.3
5. 颜祥林等:档案数字化转换中的著作权问题分析,档案学通讯[J],2004.4
6. 李继业:馆藏纸质档案数字化,陕西档案[J],2005.3