房 荣 军
数字化是今天在档案学、图书馆学、以及IT领域刚开始研究的一个概念。建设数字化档案馆就需要收集存贮一些数字化形式的内容,并在网络环境下供档案利用者使用。数字化档案馆就是将传统的各种原始档案(如纸张、照片、录音、录像、磁带、电子文件等)通过扫描、转换、转化、压缩、加密,存放于各种海量存储介质上(如硬盘、硬盘阵列、光盘库、光盘塔、磁带等),并通过局域网、广域网、企业内部网、国际互联网向档案利用者提供查询信息。
一、档案数字化的定义
档案数字化是指转换大量的档案资源信息为计算机位(bit)信息,位是计算机系统中信息基本单位,转换信息到这些二进制数字就称为数字化(Digitization)。
二、数字化的类型
1)纸质档案数字化
纸介质资料,静态图像等的数字化方法主要是采用手工录入、扫描、数码相机等一些常用方法。目前数字化大多针对纸介质资料,将其扫描位图像文件,通过计算机网络向利用者提供查询服务。
2)音频档案数字化
在各级档案馆可能收集有一定的音频档案,如磁带、 VCD,录音带、录像带等,将这些介质上的模拟音频信息转换为各种数字格式,在通过定义名称,序列号,创作日期,收藏日期,质量等级,存取限制,播放时长,是否有乐谱,乐谱是否为手抄本,文件格式等一些描述内容,通过索引机制,就能实现根据这些内容字段进行检索。
3)视频档案数字化
VHS制式的模拟视频资源可以通过在一个Apple Mac 或Windows的视频工作站来进行数字化,工作站内置视频采集卡。采集后的视频文件可以是Quick格式或MPEG格式存放,当然也可以用RealVideo这种软件来处理制作视频流文件,这种技术在Internet/Intrant上已经成熟。在Internet/Intrant网络环境下,对视频文件的应用可以采用两种方式,其一是在Internet带宽足够有限的情况下,以压缩的视频格式下载到本地浏览;另一种则是在Intrant这种带宽和空间都比较好的局域网环境下,以流媒体的格式实时播放。
三、档案数字化的方法
目前常见的档案数字化方法有以下几种:
1)扫描
扫描是目前比较成熟,也是采用最多的一种方法。基本上是一种电子化的数据拷贝。扫描方法处理相对简单,成本较低,但其扫描结果的图像文件占用计算机存储空间较大,结果不具备可检索性。因此,对扫描的资源应采用适当格式进行压缩存储。当然,也可采用元数据描述或通过附加一些描述性的文本以及对电子资源进行标引来实现检索机制。
2)扫描+OCR
通过对扫描的文件进行光学字符识别转换(OCR:Optical Character Recognition),其文件大小减少到未进行OCR转换文件的1/10左右,对扫描图像进行OCR从而使其具备可检索性。
3)数码相机
数码相机在价格和产品质量及能力上相差比较大。低档一些的产品存储很少的照片,价格基本在几千元左右。这一档的产品精度通常在700*500左右。中档次的数码相机则可以拍摄数兆大小的文件,有的可直连计算机而不受存贮空间限制。高档次的设备则是一些专业的数码相机。
4)Kodak Photo CD
Kodak Photo CD是一种多种技术混合产品,它将数字化存取的方法和存贮的媒体合在了一起,Photo CD既被当作常规的数字化项目,也可作为专业的数字化产品使用。
四、数字化处理过程
数字化处理过程包括对传统纸介质档案的数字化,也包括将模拟音频,视频档案数字化成计算机可处理的数字格式。在档案馆中目前也保存了不少这些格式的资料,因此,需要采用一定的手段对这些不同形式的档案都进行数字化处理。
目前,纸介质型载体已经遇到较多的数字化挑战。基于档案馆的数字化应用技术的应用,包括硬件,软件都处于发展的初期,属于第一代的产品,对数字化信息的高效检索也仍然是一个巨大的挑战。
与数字化相关的技术与概念是复杂的。但不同的硬件却有着一个基本相同的处理过程。只不过是采用的技术或数字化的目的稍有不同而已。其通常的处理为:
原始档案->数据捕获->数据处理->存贮->检索与显示
1)原始档案
是指要转换为数字档案的原始档案。
2)数据捕获
可以通过扫描仪、数码相机等数字化设备将原始档案转换成一定的数字格式。
3)数据处理
捕获到的数据需要进行一定的加工处理,才可以较好地利用,包括标引、描述、图像调整、缩放与数据压缩,以及根据不同需要进行的数字格式的转换等等。
4) 存贮
指采用适当的方法使数字化的档案存贮在各种海量存储介质上(如硬盘、硬盘阵列、光盘库、光盘塔、磁带等)。数字化档案的存贮要充分考虑这些信息应用时的I/O(输入输出)瓶颈,存贮备份,数据安全等诸多问题。
5)检索与显示
采用一定的索引技术使这些数字化的档案可以被检索,特别是在网络环境下快速检索,能在不同的显示器,打印机等显示设备上显示出来,并要求较好的效果和质量。
五、档案数字化需要注意的几点问题
数字化技术和应用正处于发展的初期,还没有完全成熟的解决方案和产品,而数字化项目的工作量和经费要求又往往比较高。因此,在做数字化项目时,一定要借鉴国内外一些比较成功的数字化项目的经验,才能少走弯路,避免错误投资,有利项目的成功。同时也要注意以下几点问题:
1)标准化问题
项目建设中,一定要遵循相应的国际通行的标准协议,标准的文件格式,标准的平台等等,这样建成的系统才会成为一个开放化的系统,可以与其它系统进行通讯和文件交换。随着技术的发展,系统的升级或移植,软件的升级等都有可能。尽量不要采用封闭式的技术和标准,这样的会缺少通用性和开放性,容易导致项目失败。
2)存贮问题
采用目前的数字化方法,如扫描的图像文件,数码相机的图像文件,音频和视频的数字文件,由于压缩存贮的技术所限,所占用的空间都比较大。所产生的数字化档案占用的存贮空间通常比较大。因此,在进行数字化的项目之前,一定要考虑是否需要备份,存贮空间是否够用,采用什么样的存贮空间(磁盘阵列、磁带机、服务器硬盘、光盘)方法等问题。
3)设备、人员配置及经费、工作量估计
数字化项目需求的设备较多,要针对项目选择适当的产品组合,以发挥各产品的最好性能。数字化不是少数几个人就可以做好的事情,需要组织一定的人员,合理配置,使工作能按计划进行,另外,对整个项目的工作量估计、项目涉及的设备费用,软件费用,工作量费用等都应提前预算,进行估计,以保证项目完成所需求的基本资金。
4)档案数字化处理过程
档案数字化处理过程包括原始档案、数据捕获、数据处理、存贮、检索与显示等一些基本的环节,如世纪科怡数字档案馆方案就包含对档案的数字化加工、数字档案信息的采集、处理、存储、归档、组织、发布、利用和数字管理全过程。准确的说,数字化只是其整个处理过程中的一部分。不能只重视纯数字化工作,而忽视了其它一些更为重要的处理环节。纯数字化的过程不是数字化工作的主要内容,而要管理、存贮、检索与显示等环节并重,才能保证项目成功。
参考文献:
①杨公之.档案信息化建设导论.北京;中国档案出版社,2001
②王艳明《网络环境下档案信息资源的组织与建设》《档案学研究》2000年3期