一、介绍
随着计算机和计算机网络技术的发展和计算机网络的普及应用,档案的利用面临新的机遇和挑战。如果能够将档案发布于网络之上,在对其进行相应的权限控制,则档案的查阅将进入一个新的历史阶段。它将大量的节省人力物力和维护档案可用的资金投入。
为了实现和利用计算机网络的优势,面对大量存储的纸介质档案,首先需要做的是对档案的数字化工作,其次才是档案的上网利用。本方案将详细阐述我国目前档案数字化面临的挑战和解决这些问题的办法。
二、档案数字化现状和面临的挑战
2.1历史的状况
档案在中国,无论是专管档案的档案馆还是企、事业单位的资料室,最大多数的档案资料是以纸介质的形式存在,自八十年代以来,很多的档案资料被翻拍成缩微胶片的形式,节省了大量的存储空间,同时解决了纸介质档案资料随时间推移可用性不断降低,维护成本不断增加的问题——也就是档案资料长期保存的问题。但是档案资料的最终价值是需要通过人们的广泛利用来体现的,纸介质和缩微胶片都没有很好的解决档案利用的问题,相反为了使之可用,需要不断的进行资金设备的投入——这些资金可能用于库房扩建、温控、杀菌防霉,库房管理人员的工资等等。
目前网络和计算机设备硬件价格逐渐降低,中国经过十几年的计算机和网络设备的建设,在各个档案馆、企事业单位中都有了各自的局域网,在各个部委或是行业,甚至是一些大的企业都各自有了自己的全国范围内的广域专用网络。这些网络目前面临的最大问题是网上数据量太小,没有太多的可用数据,使得投资巨大的网络显得得不偿失。如果反过来看,这些网络的建成和投入使用,恰恰为档案资料的数字化后的成功应用奠定了坚实的基础。那么档案资料的数字化是不是购置一些硬件设备——扫描仪计算机就可以完成数字化的工作呢,答案是否定的。为什么?让我们先看看我们的档案资料在没有数字化之前是什么样的。
2.2数字化面临的挑战
无论是档案还是资料,通过上面的分析,它们之所以被保存并能被利用,是因为人们收集档案资料进行保存时,对其进行了逻辑化的归类存储,同时建立了索取这些被归类的档案资料的目录索引信息。当人们需要某种信息时,负责管理档案的人员通过查阅这些索引信息,找到这些档案资料所在的位置后,将原件取出,供借阅人使用。显然这种方式是我们熟知的方式,它的缺点也为人们所公认的:速度慢,对原件损害程度大,不能实现多人对同一份档案的同时共享。
如果能够将这些纸面上的档案资料信息数字化,那么上述公认的缺点将不复存在。数字信息在网络上以光的速度进行传输,复制一份电子文件只需要几秒钟,而上百万卷的档案资料——要几个库房才能够放下,现在只需要床头柜大小的设备,就能够存储完毕,甚至还又可能显得绰绰有余,对这些档案的查询速度,无论你是在地球的这边还是那边,几秒钟你就可以获得您想要的档案资料,当然前提是你有足够的权限能够访问这些信息。
事实的确如此,因而档案资料的数字化,以一种不可逆转的潮流席卷全球,无论是政府机关,工矿企业,还是学校和私营公司都在进行数字化的工作,与此同时数字化的设备也层出不穷。当我们用文档扫描仪或者胶片扫描仪对每一份档案资料进行扫描时,我们必须像收集纸件档案资料那样,建立相应的索引信息,以便我们将来能够对我们所描出的电子文件进行检索利用,而扫描仪不能像人一样对扫描出的电子影像进行组卷编目归档存储,所有这一切还必须有人来完成,至少在一定的软件帮助下建立这些索引信息。
显然,档案资料数字化的困难在于:
首先是由于档案资料的数量巨大,少则上万页,多则上千万页,乃至上亿页。在扫描的过程中,都需要保证影像清晰,工整,对于档案还要尽可能的保持档案的原始风貌,对于资料则尽可能的清新易于利用;
第二是档案组卷后,有卷皮,卷内目录,文件,和备考表,资料可能有章、节、参考书目、关键字,中英文摘要等等,在扫描成电子影像的同时,必须保证这些逻辑结构。用于数据库查询所用的各类条目信息,都是花费了大量人力物力获得的宝贵信息资源,如何将这些资源充分利用起来,当查阅这些信息的同时就能够查到相应的电子影像的文件,这是数字化面临的另一巨大挑战;
第三是档案一旦数字化,档案管理的对象不再是单纯的纸质档案单一的载体,人们已经习惯了打开翻看就知道内容的纸质档案,如何管理看不见摸不着,只能借助于计算机设备和相应的软件才能知道它是什么的电子档案资料,是摆在档案管理人员面前的另一大挑战,不仅于此,如何保证各种档案资料各种介质的统一或者说一致性,更是档案管理的难题所在。
无论是数字化还是档案资料的管理,都不是我们的目的,我们的目的是为了更好的利用档案资料,档案资料的数字化和数字化的管理,都是保证更好的利用的前提和手段。
总结起来,档案资料数字化的困难分三个阶段,首先是如何解决好不同纸质,不同装订形式,不同幅面的纸质档案资料,能够被快速的扫描,并保证扫描出的电子影像是优质的——即没有黑边、不偏、不斜内容清晰完整,适合阅读;第二个阶段如何保证扫描出的电子影像保持与纸介质相一致的逻辑结构;第三个阶段是如何保证这些电子档案资料被方便的利用——和数据库里的信息进行衔接,能够被利用者方便的查阅和使用;第三个则是档案的安全性。
三、解决方案
面对数量巨大的档案资料,数字化能行得通的唯一办法,是批量处理流水作业。就目前计算机技术而言,相当多的后处理工作可以交给软件系统来处理,根据各自保管的档案资料选取适合的扫描设备,通过软件系统把这些设备处理出的结果进行串联和加工后,就能够非常快的进行档案资料的数字化。
对于把纸件档案资料直接数字化的用户,可能面临的问题是:
一、一卷档案一本资料无法用一种扫描仪完成每一页的扫描任务。特别是在工程类的档案中,一卷档案中有很小幅面的发票收据,也含有整个楼宇的建筑结构图,它可能是幅面超过A0或者A1的大型图纸;一本资料中也可能含有超过书本幅面的图纸、示意图等,为了保证完成档案资料的数字化工作,可能需要不同幅面的扫描仪参与数字化的工作。
二、为了保证尽可能快的扫描速度,我们必须区分被扫描纸件的特征;对于纸质优良,拆解后再装订对原有的档案资料无重大损害的,应当采用相对高端的商用扫描仪,这类扫描仪能快速的完成扫描任务,而且包含了对影像质量的即时处理的功能。而对于无法拆解的档案资料,只能用平板的扫描仪进行扫描,而这类扫描仪的扫描速度往往很慢,且不包含对影像质量的即时处理功能。
三、考虑到查阅和利用的方便性,必须保证档案资料查阅最小单元的完整性和顺序性。扫描设备在进行扫描的过程中,有些能够保证将扫描完成的几页合并成一个包含多页的影像文件,但这需要人工干预,而这种人工干预对扫描速度会有很大的损伤。此时需要软件进行后续处理,在扫描过程当中加入适当的隔离标识。
四、 对于只能用低端扫描仪进行扫描的档案资料生成的电子影像,能够在后期对影像进行批量的质量处理——纠偏,去黑边,去麻点,调整对比度等等设备性能的补偿处理。
五、需要软件辅助对扫描的电子影像进行逻辑化的处理,并提供逻辑化处理出的结果进行质量检验的手段,和对发生错误后进行调整的办法。
六、提取归档的数字化档案资料的检索信息,如果用户已经具备了大量的条目信息,则必须实现电子影像位置信息和数据库条目信息的对接。对于没有条目信息的用户必须提供用户录入条目信息的窗口和操作界面,对于信息不完整的索引信息应能进行索引信息的批量补充工作,以实现对数据条目及全文的查阅。
综上所述,纸件扫描数字化,必须根据自己的数字化对象具体分析,选取适应的设备和相应的后处理软件,并结合自己对数字化后的档案资料的利用方式,保证数字化后的电子影像和提取的索引信息能够被检索系统所利用。