日本語 中 文 网站地图  
rss  
表单识别录入系统解决方案
第一部分 表单识别技术简介
1.OCR和表单识别技术
OCR(Optical Character Recognition),即光学文字识别技术,就是通过光学技术对字符进行识别,主要用于文字和表格的电子化输入及相关的应用系统。此项技术在国际于上个世纪70年代初开始研究。随着市场的需求增长于80年代后期快速发展起来。国内的研究起步也很早。但由于研究方法和算法的不足,早期很少有实用的成果。后来由于新的算法的出现和计算机技术的发展,使得OCR技术在90年代中期之后得到了真正的、有实际应用意义的发展。但目前在国内外坚持在这个领域研究和应用的单位屈指可数,主要是由于大量的投资和技术的难度使得大部分公司望而却步。目前计算机领域的大型公司如IBM、微软仍然把它列为重点的研究课题。通用OCR技术还有待于新的研究成果、新的突破。
在OCR的应用领域里,人们对文字识别的运用比较了解,如:名片通、掌上电脑PDA、计算机手写板输入、数字图书馆等等。相对来说,这方面的技术也比较成熟。而表单识别由于其特殊性,需要集成多项技术才能达到实用的目的。现实的情况是:一些大公司不做这样的应用,而一些小公司由于投资和技术能力不足,在先期做了一些努力后逐渐退出了这个市场。
实际上,表单识别需要的不仅仅是光学识别技术,还需要与一些其它计算机技术领域的融合,有以下几个方面:
 高速的文档自动分类技术
 领先的图象处理技术
 印刷体,手写体和判断体的识别技术(OCR/ICR/OMR)条码识别等
 整体系统的快速性,精度和安全可靠性
 产品的升级能力和对新需求的支持、应变能力
 协同作业和对网络的支持
 不同计算机系统间的可移植性
 其它等等
所以说,表单识别的应用是一个复杂的系统工程,需要有坚实的综合技术能力。
2. 表单识别流程
从应用的角度看,主要包括以下几个过程:
(1).表单的扫描:对原始凭证和票据的各种扫描驱动支持,是将纸质表单或票据输入计算机的过程。在实际应用中,特别有意义的是高速(达到每分钟数十张、甚至数百张)、不同规格、不同质地的表单或票据的扫描,而不出现停机、性能下降、撕扯或漏扫、重扫的意外。这个过程是表单识别的基础过程。
(2).表单的识别:在这个过程中,又可分为几个阶段:
 首先,各种不同表单经过快速扫描后,系统对多种不同类型的表单先进行自动分类。
 其次,对原始表单进行图像预处理。系统可以同时对多类表单进行图像的预处理。
 然后,再根据各种识别要求进行手写体和印刷体数字与字符的识别及其它。
 最后,将识别结果按照系统的设计、以一定的应用结构和逻辑保存起来。这里,通常采用的是(关系)数据库的技术。这个过程是表单识别的核心过程。
(3).表单的校对:提供完善的在线实时或离线校对支持,解决误识和拒识的快速自动校对。方便、实用的校对,能把识别的各个区域与识别的结果进行直接对照检查,方便了用户的使用。系统可提供的提示信息,能准确的指出问题所在,也会大大提高录入的效率。这个过程是表单识别的验证过程。
(4).表单(数据)的导出:根据用户需求格式或内容导出、传送数据。可以供计算机阅读和查询检索的TXT、RTF、PDF、HTML、SGML/XML格式的文档。这个过程是表单识别的目的过程。
(5). 表单的存储:保存原始凭证和各类票据的扫描图像,达到对原始表单快速电子化及存档的过程。这个过程是表单识别的支持过程。
第二部分 表单识别系统简介
2.硬件配置
系统计算机:
 单机系统
CPU:PIII 1.5G以上
内存:128M以上,建议256M
硬盘: 20G以上 
扫描仪:符合Twain32接口规范(一般为高速扫描仪)
 网络系统
CPU:PIII 1G以上
内存:128M以上,建议256M
硬盘: 20G以上
扫描仪:符合Twain32接口规范(一般为高速扫描仪)
 高速扫描仪有多种选择:
通用产品。市场上常见的是日本富士通、美国柯达,也有一些国内品牌,但性能尚待完善。
3.系统软件
 操作系统的选择
考虑到性能价格比以及实用性/稳定性,
单机操作系统:
选用Windows 2000 Professional Server作为系统服务器和可视编码校对机
网络操作系统:
选用Windows 2000 Professional作为系统服务器
选用Windows 2000 Professional/Windows 98作为可视编码校对机
 前端开发工具的选择
主要使用Microsoft VC++、Microsoft VB、Delphi等常规软件开发语言,以便于维护和保证技术支持,且具有升级换代的潜在优势
 数据库管理系统的选择
选用Microsoft SQL Server,为其通用性、普遍性、性能价格比等诸方面原因
4. 系统功能
 系统的功能描述
1. 对现有的表单进行快速扫描输入,支持高速扫描仪,快速实时输入,识别及处理。
2. 对表单进行自动快速分类,对同类业务数据进行汇总和归集。允许不同票据的交混扫描,实现票据的软件自动实时分类。
3. 对票据表单图像的指定内容进行识别。
4. 对识别后有疑义的数据进行人机交互校对,并提供友好,必要的人工录入手段。同时对校对好的数据按预先定义的数据格式导出并放入指定的数据库。
5. 对各种票据之间带有钩稽关系的提供自动效验功能:对扫描支出票据与支出套打模块提供自动效验功能。
6. 对扫入的原始票据建立条件查询。
7. 提供票据自动识别的学习记忆功能。
8. 对导入指定数据库的数据,直接导入博科财务软件,并进行帐务处理。
9. 开发支出信息数据库及支出票据套打功能。
10. 校对好的数据导出并放入指定的数据库或者对处理好的数据直接生成博科财务软件里的会计分录。
11. 提供用户实施使用权限管理功能。
5.系统指标
 核心OCR的性能指标有:
在票据图象质量满足清晰,规范,无严重干扰像素的条件下,要求基于一定的数据关联时,该系统对业务票据的处理达到如下各种性能指标:
手写体数字(基于2,000,000以上字符):
识别率97%; 误识率1.4%;
拒识率1.6%; 速度100字符/秒
西文和数字印刷体: 识别率98%; 速度400字符/秒
中文印刷体: 识别率96%
条型码和判断框: 准确率99.99% 票据通过率95%以上。
以上速度测试采用的是PII, 内存64M的计算机系统
 系统的性能指标:
1. 对手写体数字识别精度不低于97%;
2. 票据的整张处理速度不低于1张/秒;
3. 提供简单快捷的手写体汉字的录入支持;
4. 通过特定的校对方式提供准确的数据;
5. 如果配备25张/分钟的一般高速扫描仪和使用一台PC,考虑到校对及管理所需要的时间,2个人每天用6个小时应能处理完6000张票据的扫描录入(如配备一台高档专业高速扫描仪,还可以用更少的时间);
6. 如果采用2台扫描仪器和配置2台计算机,4人用3个小时左右的时间应能完成同样的工作量。

第三部分 成功案例----某财政社保中心
1.项目的必要性
某财政社保中心承担着全市社保资金的归集和支出等管理工作,在社保资金核算与管理过程中,由于日单据录入量高达五千张之多,使大量的人力资源在有限的工作时间内,忙于简单的凭证录入工作,而不能专心于其核心业务。而且,随着社保制度的不断完善,交费单位会越来越多,每日需要录入的单据量也会越来越多,这种人工录入速度的瓶径,将会制约人们在其他方面智力潜能的发挥,使人们陷入简单的重复劳动,而无力顾及其他重要的工作,造成人才资源的巨大浪费。
目前,财政社保中心每天通过下属各单位集中到财政社保中心的原始票据与各类凭证有十几种,总量为6千多张,所有这些票据与凭证通过近10人、每月大约15天左右的手工录入,当出现处理高峰期时,还要加班加点,因此票据与凭证录入工作成为财政社保中心数据处理与管理的瓶颈。由于大量人力投入在手工录入上,不但影响了效率,浪费了资金。另一方面,由于手工录入的质量得不到有效的保证,数据的核对使得大量核心业务积压,因此无法实时地对数据进行监管,制约着财政社保中心的管理工作。
2.项目的可行性
表单的电子识别系统在国外已有广泛的应用,国内近年也已经在一些领域开始应用,Uniwex技术在速度和精度,以及复杂图象处理能力等多项综合指标方面具有世界先进水平。
Uniwex平台的先进性和强大的功能,为解决财政社保中心的会计凭证,电子化录入提供了可靠的技术保证。系统对文件图象的质量问题,例如,黑色边框,图象不正,图中黑线,黑斑等问题,能够进行识别和过滤,快速消除无用图象,自动矫正偏角,保证原文图象的清晰度。
系统对扫入的文档自动分类,对图象进行自动处理和矫正,用户可自定义字符,OCR/ICR,可视编码校对等。
该系统利用先进快速的扫描设备扫描原始凭证,然后将扫入的图像进行分类、识别、校对、转换,并将有用数据直接集成到财政局社保中心的财务软件管理信息系统,从而代替人工录入。这样,可以大大提高工作效率,让有限的人力资源发挥更大的作用。同时,还可以在社保中心的信息系统中保存一份原始的电子化社保交费单据图像,即将原始单据转换为电子文档,为日后单据查询、存档、保管提供方便、简捷和安全的手段,也为财政局社保中心的信息化建设打造一个良好的基础。
3.需求分析
针对目前的现状和存在的问题,财政社保中心从工作的角度设想:如果能够通过先进的科技技术,把票据的手工录入改为半自动机器录入,那么就会有效地减少社保中心原始票据的手工录入工作量,把业务人员从繁琐低效的劳动中解决出来,将能大大提高工作效率,更好地保证社保工作的开展。同时采取的IT解决方案,还能够提高社保中心的信息化程度,为客户开发诸如查询、检索等新的服务项目。
4.系统效果
 如果配备每分钟扫描25张一般高速扫描仪和使用一台计算机,即便加上校对及管理所需要的时间,2个人每天用5-6个小时就能处理完毕6000张票据扫描录入(如配备一台高档专业高速扫描仪,还可以节省更多时间)
 如果采用2台扫描仪器和配置2台计算机,2-4人用3个小时左右的时间就可能完成同样的任务,通俗的讲,就是根据具体需求确定系统的数量与配置,以达到合理、有效、节约的目的。
另外,还可以根据需求进行优化设计,即满足社保中心的当前工作需求,又能针对以后业务量的变化,随时调整或增加系统与设备,保护前期投资并保证同样的实效性。
最后更新时间:2008-8-20 12:59:51   来源:创造科技
 
 
公司概况 | ERP实施 | 网站建设 | 企业邮箱 | 软件开发 | 系统集成 | 新闻动态 | 招聘人才 | 联系我们 | 网站建议 |

Copyright 2004-2005 Creation Technology Company All Rights Reserved

深圳市创造科技有限公司 www.ctc-cn.com 版权所有