OCR深度神经网络入门论文及参考项目

博主5月份时有一个小程序的点子,其在实现时会非常依赖OCR,因此当时熟悉了一些神经网络在图像识别方面的论文,打算自己实现。

在经过将近一个月的学习、找数据集、编码、测试之后,终于...决定还是直接使用百度的OCR API =-=,毕竟准确率没法比^_^。

这里博主记录一下在此期间看过的几篇相关领域的论文和不错的项目,万一今后还得自己实现时可以依照着本文快速回忆起来(=-=应该不会有这天的...)。

论文

Scene Text Detection and Recognition: The Deep Learning Era

论文地址 [1]

这篇论文是个综述,介绍了深度神经网络在图像识别领域今年的进展。文中介绍了在Detection/Recognition/End-to-End/Auxliary Technologies四个方面深度学习领域的最新方法,同时也介绍了一些在深度学习进入这个领域前的学习方法。由于是个综述,因此非常适合没有这个领域基础的同学入门。

Very Deep Convolutional Networks for Large-Scale Image Recognition

论文地址 [2]

这篇论文是CNN用于图像识别的必读论文,博主看的相关论文中基本都会引用此论文,尤其是VGG16,VGG19等,都是指代这篇论文中的不能层数的神经网络结构。VGG指的是此论文作者所在的组织Visual Geometry Group。

Rich feature hierarchies for accurate object detection and semantic segmentation

论文地址 [3]

这篇论文给出了R-CNN的构造,这里的R指的是Region Proposal。 其思路其实比较简单:先通过Region Proposal给出可能的区域,接着通过CNN(例如上面的VGG16)计算得到一维向量,然后将其放入SVM做分类。该文是后面几篇论文的基础。

Fast R-CNN

论文地址 [4]

这篇论文对R-CNN做了一定的优化,通过一个ROI的网络,同时进行分类和回归计算,得到目标的类别和位置。

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

论文地址 [5]

这篇论文对Fast R-CNN做了一定的优化。其分析了Fast R-CNN的运行瓶颈,然后提出了一个RPN(Region Proposal Networks)的概念,用于提供Region Proposal。

Detecting Text in Natural Image with Connectionist Text Proposal Network

论文地址 [6]

这篇文章提出了一个CTPN的网络用于文字识别,此文博主只是简单看了一遍,其综合了CNN和RNN。

参考项目

CHINESE-OCR

项目地址 [7]

CHINESE-OCR是一个非常完善的中文OCR项目,作者是个中国人,其个人博客是 http://xiaofengshi.com/ 。博主的论文都是沿着这个项目的参考资料,及其参考资料的参考资料入门的。

calamari

项目地址 [8]

calamari是一个比较新的OCR项目,博主当时学习它主要是由于如今由于神经网络这块发展太快很多项目使用的技术都有些 '过时',不过calamari由于其出现的比较晚,因此使用的模型框架等基本都是业内目前指标最好的。另外其实现时直接基于tensorflow的gpu版本,因此博主的台式机本地训练起来会快很多。

[1] https://arxiv.org/abs/1811.04256
[2] https://arxiv.org/abs/1409.1556
[3] https://arxiv.org/abs/1311.2524
[4] https://arxiv.org/abs/1504.08083
[5] https://arxiv.org/abs/1506.01497
[6] https://arxiv.org/abs/1609.03605
[7] https://github.com/xiaofengShi/CHINESE-OCR
[8] https://github.com/Calamari-OCR/calamari
本文微信分享二维码


本文由60 X 60整理编写。
如需转载请注明出处并保留文章所有引用的资料来源。
欢迎关注 本心小晴 微博[微博搜索 本心小晴 或扫描下方二维码]。