客户服务中心

您可以直接拨打我们的客户服务热线或者把您的意见发送至我们的邮箱

010-82684401

mingdedata@163.com

北京市昌平区宏福国际创新中心A座4030室

当前位置:企业新闻
带你了解-国产操作系统下的OCR技术实现档案数字化


现如今,在众多工具软件、应用软件、数据库软件以及各类接口类程序都在慢慢接入国产化的操作系统,助力国内的IT环境的搭建与运维,也有了可以在国产化操作系统平台下使用的OCR文档文字识别技术开发包了。

目前国产化操作系统下的OCR技术可以OCR识别简体中文、繁体中文以及中英文混排的文档图片,文件PDF,OFD格式都可以识别。

OCR软件只需提供与扫描仪的接口,利用扫描仪驱动软件即可。OCR识别软件是开发工具包,实际操作中有两种方式:

1.支持接口挂接,可一天24小时不间断的进行OCR识别处理,输入JPG、PDF文件,输出TXT、双层PDF或者OFD文档结果格式的文件。

2.使用数据加密线的授权方式,进行单机授权使用,麒麟或者UOS的电脑连接好扫描仪接收文档的扫描件图片就可以进行单机OCR授权使用。

OCR开发包支持双层PDF文件的OCR识别结果输出;也支持识别导入的图片PDF文件,所以功能很强大。也能够导出国产化操作系统下的专用格式.ofd文件。

随着信创的大环境下,接下来会铺开国产化的应用,档案管理,档案数字化,就是其中一块必不可少的应用场景,同样OCR也是档案数字化不可缺少的工具模块。

拓展小知识

OCR软件主部分组成。图像输入、预处理:预处理:主要包括二值化,噪声去除,倾斜较正等。

图像输入:对于不同的图像格式,有着不同的存储格式,不同的压缩方式,目前有OpenCV,CxImage等开源项目 。

二值化:对彩色图片进行处理使图片只前景信息与背景信息,可以简单的定义前景信息为黑色,背景信息为白色,这就是二值化图了。

噪声去除:对于不同的文档,根据噪声的特征进行去噪。

倾斜较正:对拍照出来的产生倾斜图片,这就需要文字识别软件进行较正。

版面分析:将文档图片分段落,分行的过程就叫做版面分析。

字符切割:由于拍照条件的限制,经常造成字符粘连,断笔,因此极大限制了识别系统的性能,这就需要文字识别软件有字符切割功能。

字符识别:这一研究,已经是很早的事情了,比较早有模板匹配,后来以特征提取为主,由于文字的位移,笔画的粗细,断笔,粘连,旋转等因素的影响,极大影响特征的提取的难度。

版面恢复:人们希望识别后的文字,仍然像原文档图片那样排列着,段落不变,位置不变,顺序不变地输出到word文档、pdf文档等,这一过程就叫做版面恢复。

后处理、校对: 根据特定的语言上下文的关系,对识别结果进行较正,就是后处理。