【赛数案例】高质量数字化促进报纸文献资源用于科学研究
2021-04-21 来源:
48人观看
1人喜欢
从2019年开始,由德国研究基金会(Deutsche Forschungsgemeinschaft-DFG)赞助,萨克森-安哈尔特州立图书馆在赛数公司的帮助下,启动了《总督》《萨勒日报》等报纸的数字化项目。在两年的时间内,一百万页的报纸得以数字化,并通过网络免费向公众开放。所有这些数字化的报纸都可以像Google搜索一样,以全文检索的形式简单快速地找到目标内容。

萨克森-安哈尔特州立图书馆的报纸库房

       报纸包括着对于一个时代的政治、经济、文化和社会的重要见解,是与历史相关的所有学科的重要信息来源。德国萨克森-安哈尔特州立图书馆是德国最大的报纸存放地之一:包括1945年前出版的1300多种报纸,其中大约800种来自德国中部。

       这些报纸对于当今德国的研究有着重要的意义。举例来说,在研究德国中部的经济和社会史时,《总督》和《萨勒日报》具有非常重要的意义。因此在上个世纪90年代,出于再生性保护的考虑,萨克森-安哈尔特州立图书馆对馆藏报纸进行了缩微胶片拍摄,以满足读者的使用。然而到了今天,读者不再满足于用缩微胶片阅读器查阅报纸,而希望采用一种更加智能和高效的方式。

       因此,从2019年开始,由德国研究基金会(Deutsche Forschungsgemeinschaft-DFG)赞助,萨克森-安哈尔特州立图书馆在赛数公司的帮助下,启动了《总督》《萨勒日报》等报纸的数字化项目。在两年的时间内,一百万页的报纸得以数字化,并通过网络免费向公众开放。所有这些数字化的报纸都可以像Google搜索一样,以全文检索的形式简单快速地找到目标内容。

       为了实现这个目标,图书馆使用了先进的文本识别软件(OCR)Tesseract。借助AI学习,该软件能够正确区分报纸上看起来很相似的字母,并学习识别不同的字体。然而,要充分发挥文字识别软件的作用,对图像质量的要求很高。这一问题通过使用赛数的两款扫描仪得以解决。

       赛数OS14000扫描仪扫描幅面最大可达超A0,适用于扫描大幅面字画、报纸、图纸、地图等,其高精度、真彩色扫描镜头可以获得极高的色彩还原度,完美再现原件的所有可见细节。OS14000的扫描速度相较于同类型扫描仪有很大优势,A0幅面的文档只需小于6.5秒便可完成扫描。此外,其人性化的设计为用户提供了安全、可靠并符合人体工程学的操作环境,从而进一步提升了工作效率。

工作人员使用赛数OS14000扫描仪扫描报纸

       对于馆藏的大量缩微胶片,则使用赛数OM1800缩微胶片扫描仪进行数字化处理。OM1800搭载新研发的摄像机和照明系统,可提供高达600dpi的真实光学分辨率和至少12位灰度,从而以高质量将缩微胶片有效地数字化,数字化结果的文字识别准确率极高。OM1800还可以自动对齐各个页面,并将页边距减小到最小,以优化存储空间的使用。

使用赛数OM1800缩微胶片扫描仪对缩微胶片进行数字化处理

       赛数扫描仪和文本识别软件的结合提供了出色的结果,精度达到95%以上,这个成绩对于历史报纸文献来说是突破性的。