客户服务中心

您可以直接拨打我们的客户服务热线或者把您的意见发送至我们的邮箱

010-82684401

mingdedata@163.com

北京市昌平区回龙观东大街336号4号楼

当前位置:服务 > 繁体中文识别校对

  • 数据加工的文件格式

文字格式:TXT、DOC、RTF、XML、HTML、Excel数据表、Access数据库等;图像格式:TIF、JPG、BMP、GIF、PDF、DJVU、CEB等;电子书格式:双层PDF、双层DJVU、双层CEB、OEB、EPUB、XML、HTML网页格式等。

  • 数据加工的质量保障

★保障体系:OCR智能识别、人工一二三校、人机结合对比校方式保障数据质量的万无一失;

★文字录入:错误率控制在千分之三以内,外校质量可控制在万分之三或万分之一,根据客户要求而制定;

★扫描识别:图书、期刊、报纸、文档等印刷品错误率控制在万分之三或万分之一,根据客户要求而制定;

★原样录入:质量控制在五万分之一、十万分之一乃至零,根据客户要求而制定。

  • 数据加工流程

1.图像扫描:

采用科技光学仪器对数据进行扫描,生成TIFF、JPG、PDF等图像文件。

2.图像处理:

对扫描后的图像进行纠偏、去黑边、分页、拼图等处理,更高的还原原图像。

3.影象输入:

将通过扫描仪等光学仪器扫描并已人工处理过的图像链接到OCR软件中,我们所用的先进扫描仪等硬件设备使影像更清晰、扫描的质量更增进OCR处理的效率。

4.图像分析:

利用OCR对图像进行版面分析,比如文字的横向纵向、图片与表格等进行进行区分处理。

5.文字识别:

将分析好的图像OCR进行智能识别并进行人工校对(可先进行纵校再横校),保证质量减少错误率。

6.结果输出:

经过人工的一二三校,将数据按客户要求的格式输出并根据不同要求排版处理等。

  •  古籍识别案例

《中华大典》,是一部可以和明朝《永乐大典》相媲美的中国古典文化的集成。。《中华大典》的编纂出版,是在继承、弘扬中国类书优良传统的基础上,参照现代科学的图书分类法,以古文献汇编的形式,进行梳理汇编,提供准确的古籍分类资料。是国家重大文化出版工程。我公司参与识别、排版制作电子文件等工作。


810a19d8bc3eb1359d147ca9a41ea8d3fc1f44d5.jpg1153573561-1_w.jpg
C5F2.tmp.jpg

 

我公司针对古籍识别的古繁体字专门有自己的字库,现已更近或没有的字,我们用自己的造字系统造出与原文中一样的字,以更高的还原原文件。例:


111.jpg