档案数字化----文通TH-OCR资料数字化系统
一、软件简介 北京文通科技有限公司作为一家拥有自主知识产权,以清华光学字符识别TH-OCR及手写识别两大核心技术为先导的独立软件开发商及行业解决方案提供商,一直致力于文字识别技术的发展。依托清华大学强大的技术后盾,沉淀、积累了卓越的识别技术,为我国信息化建设做出了巨大的贡献。 文通TH-OCR资料数字化系统是一套专业的档案、图书、期刊、报纸等纸介质文档以及电子版图像资料的数字化加工工具。 二、详细介绍 2.1拓扑结构
2.4.1图像处理
2.4.2版面分析、识别、校对、生成双层PDF文件 2.4.2.1版面分析 可以对档案、图书、公文、报纸等进行自动版面分析。将版面分为横排文本、竖排文本、图像、表格四种类型。用户也可以根据需求,进行手动版面分析。 2.4.2.2识别核心 识别核心 2.4.2.3校对 2.4.2.3.1横向校对 1.在识别结果区域中,通过人工逐字逐句比较识别结果与原始图像,找到错误的地方并修改。 2.4.2.3.2集字校对(纵向校对) 1.查错率高,集字校对编辑器把识别结果相同的文字对应的图像显示在一起。由于少数错误的字与大量正确的字有差别,可以比较容易地发现错字,不易漏掉错误。 2.4.2.3.3双路校对 对一次识别结果进行两路的校对,分别为一路校对和二路校对,最终两个人的结果会进行双路的比对.一路和二路的识别采用横向校对方式.双校比对每行文字,如果两次校对结果不一样会反红显示. 2.4.2.4生成双层PDF文件及多种文件格式 识别结果经修改编辑后,可根据需要将文档存为RTF、双层PDF、 TXT格式。
2.4.3题录数据录入 题录著录:根据题录项要求录入题录数据 -----咨询来电:13146317170 廖仁君 ; QQ:121176730 微信:13146317170 |