光学字符识别意思解释

光学字符识别(英语:Optical Character Recognition,OCR),是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。

过程

输入

对于不同的图像格式,有着不同的存储格式、不同的压缩方式,目前有OpenCV、CxImage等。

前期处理

二值化

如今数码摄像头拍摄的图片,大多数是彩色图像,彩色图像所含信息量巨大,较为不适用于OCR技术。

对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的、更好地进行OCR相关计算,我们需要先对彩色图进行处理,使图片只剩下前景信息与背景信息。二值化也可以简单地将其理解为“黑白化”。

图像降噪

对于不同的图像,噪点的定义可能不同,根据噪点的特征进行去噪的过程,称为降噪。

倾斜校正

由于一般用户,在拍照文档时,难以拍摄得完全符合水平平齐与竖直平齐,因此拍照出来的图片不可避免的产生倾斜,这就需要图像处理软件进行校正。

中期处理

版面分析

将文档图片分段落,分行的过程称为版面分析,由于实际文档的多样性、复杂性,此步骤目前仍待优化。

字符切割

由于拍照、书写条件的限制,经常造成字符粘连、断笔,直接使用此类图像进行OCR分析将会极大限制OCR性能。因此需要进行字符切割,即:将不同字符之间分割开。

字符识别

早期已模板匹配为主,后期以特征提取为主。由于文字的位移、笔画的粗细、断笔、粘连、旋转等因素的影响,极大地影响特征提取难度。

版面还原

人们希望识别后的文字,仍然像原始文档图片那样排列,段落、位置、顺序不变地输出到Word文档、PDF文档等,这一过程称为版面还原。

后期处理

根据特定的语言上下文的关系,对识别结果进行校正。

输出

将识别出的字符以某一格式的文本输出。

主流实现

  • CNN+RNN+CTC
  • CNN+RNN 基于 Attention 的方法。
  • 机器视觉
  • 人工智能与模式识别
  • 图像处理
  • 自动光学检查
  • 开放源代码计算机视觉库:OpenCV
  • 艾伦·图灵
  • 图灵测试
  • 人工生命
  • 人工智能哲学
  • 认知神经科学
  • 电脑围棋
  • 恐怖谷理论
  • 电子世界争霸战
  • 电脑科学
  • 认知科学
  • 意识
  • 语义学
  • 技术奇异点
  • 集体智慧
  • 控制论
  • 心理学
  • 生物化学计算机(例:人脑)


  • 计算智能
  • 数据挖掘
  • 模式识别
  • 自主控制机器人
  • 归纳逻辑编程
  • 决策树
  • 神经网络
  • 强化学习
  • 贝叶斯学习
  • 最近邻居法
  • 计算学习理论
  • 深度学习
  • 机器学习控制


  • 机械电子学
  • 控制论
  • 无人航空载具(俗称无人飞机)
  • 认知科学
  • 动力服
  • 个人电脑
  • 超级计算机
  • 互联网
  • 机器人三定律(Three Laws of Robotics)

带光学字符识别字词语

带光学字符识别字成语


上一字:手写识别
下一字:机器视觉

相关汉字解释: