OCR手持终端PDA功能的应用
什么是光学字符识别技术
光学字符识别(OCR)是指对文本材料的图像文件进行分析和识别,以获取文本和版面信息的过程。
与图像识别和机器视觉技术类似,OCR技术的处理过程也分为输入、预处理、中处理、后处理和输出。
输入
对于不同的图像格式,有不同的存储格式和压缩方式,目前主要有OpenCV、CxImage等。
初步处理——二值化
如今,数码相机拍摄的图片大多数都是彩色图像。彩色图像包含的信息量巨大,不适合OCR技术。
对于图像的内容,我们可以简单地将其分为前景和背景。为了让计算机更快更好地进行OCR相关计算,我们需要先对彩色图像进行处理,使其只剩下前景信息和背景信息。二值化也可以简单理解为“黑白”。
图像降噪
对于不同的图像,噪声的定义可能是不同的。根据噪声的特性去噪的过程称为去噪。
倾斜校正
由于普通用户很难对文档进行完全水平和垂直的拍摄,因此不可避免地会产生倾斜,这就需要图像处理软件进行校正。
中期处理,布局分析
将文档图像划分为段落和行的过程称为布局分析。由于实际文档的多样性和复杂性,这一步仍需优化。
字符切割
由于摄影和书写条件的限制,文字常常粘在一起或笔断了。直接使用这样的图像进行OCR分析将大大限制OCR的性能。因此,需要进行字符分割,即分离不同的字符。
字符识别
前期的重点是模板匹配,后期的重点是特征提取。文本位移、笔划粗细、笔划断裂、粘连、旋转等因素对特征提取的难度有很大影响。
布局恢复
人们希望识别出的文本仍能像原始文档图像一样排列,并能将其段落、位置和顺序输出到Word文档、PDF文档等。而不改变。这个过程称为布局恢复。
后期处理
根据具体的语言背景对识别结果进行校正。
输出
以一定的格式输出已识别的字符。
基于OCR技术的手持终端有哪些应用?
通过配备OCR字符识别软件的手持终端PDA,可以实现汽车牌照识别、集装箱号识别、进口牛羊肉重量标签识别、抄表识别、钢卷喷漆字符识别等多种场景应用。