OCR介绍
OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本,通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据, 通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。
Quick Start
tensoflow-ocr是谷歌开源的一个ocr文字识别功能,本次介绍的OCR如何与其他语言之一Java的结合调用,需要已经有tenslow-ocr的安装环境。
pom依赖
1 | <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" |
需要的文件
- 需要分析的图片文件
- 创建tessdata文件夹,并放入模型文件chi_sim.traineddata (训练集的制作在这里不做讲解)
测试代码
实际使用过程中,可能还需要对图像进行相关处理,如二值化、灰度化,文字图像捕捉等相关操作
1 | /** |
结束
有其他不足的部分,日后再做补充。