Skip to content

huanzhenzhang0923/investigation-on-handwriting-chinese-character-recognition-

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

26 Commits
 
 

Repository files navigation

#Investigation On Handwriting Chinese Character Recognition

1.传统方法

任务分类: 单字识别、多行输入 online character recognition offline character recognition
结构识别法:笔画分析一综合法(ABS法)、笔画序列识别法、属性关系图法(ARG)与多边形近似轮廓法
统计识别特征:变换特征、笔画密度特征(SDF)、笔画方向特征(S-DCD)、背景特征、细胞特征、方向线素特征
行切割:对二值图像从上到下逐行扫描,同时计算每扫描行的像素,以获取图像的水平投影。利用文字行间空白间隔造成的水平投影空隙,即可以将各行文字分割开来
行切割的问题:在图像输入时,有时会出现纸张倾斜,造成文字行的倾斜。少量的倾斜对行切割以及后面的字切割和识别影响都不大。但倾斜严重时,相邻两行文字图像的水平投影可能互相重叠,使它们之间的空白间隙被填满而无法实现行切割
字切割:字切割的作用是从行切割后得到的文字图像行中将单个汉字的图像分割出来,它利用字与字之间的空白间隔在图像行垂直投影上形成的空白间隙,将单个汉字的图像切割出来的
字切割的问题:汉字中有相当数量的由左、右两部分构成的二根字和由左、中、右三部分组成的三根字。二根字有:八、北、非”等;三根字也不少,如“川、排、衍”等。这些字的图像垂直投影在一个单字内部也会出现空白间隙,因而单纯使用垂直投影空白间隙切分单字的切割算法会产生误分
单字识别中的匹配判决:是把待识汉字的特征和字典中的标准特征逐一比较,按照特征之间的距离把某一个标准特征所代表的汉字判定为识别后输出的汉字。
“拒识字”:若特征距离虽然是最小、但其绝对值大于规定值的标准特征对应的汉字,则判决为“拒识字”
词条匹配:利用汉语上下文关系来校验字符串是否合乎语法的方法之一。如双字词模式匹配,需要建立双字词库。除双字词外,还可以利用三字词、四字词等,但词条字数越多,搜索匹配越复杂,目前已有的汉字OCR很少采用。

过切分+动态规划寻优

找到所有可能是切点的位置,然后再将所有切片和可能的切片组合统统送给单字识别模块,通过在各个识别结果中间进行“动态规划”,寻找一条最优路径,从而确定切分和识别的结果。在寻优过程中,往往还需要结合文字的外观统计特征以及语言模型(若干字的同现概率)。
过切分+动态规划寻优

2.数据集以及表现优异的模型

CASIA-HWDB
基于Tensorflow的单字识别

3.基于深度学习的手写体识别

###端到端不定长文字识别
两大主流技术:CRNN OCR和attention OCR
CRNN
CRNN
网络结构包含三部分,从下到上依次为:
1.卷积层,使用CNN,作用是从输入图像中提取特征序列;
2.循环层,使用RNN,作用是预测从卷积层获取的特征序列的标签(真实值)分布;
3.转录层,使用CTC,作用是把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果;
CRNN算法最大的贡献,是把CNN做图像特征工程的潜力与LSTM做序列化识别的潜力,进行结合。它既提取了鲁棒特征,又通过序列识别避免了传统算法中难度极高的单字符切分与单字符识别,同时序列化识别也嵌入时序依赖(隐含利用语料)。
CTC的意义
RNN进行时序分类时,不可避免地会出现很多冗余信息,比如一个字母被连续识别两次,如下图将ab识别为aaabb,这就需要一套去冗余机制,但是简单地看到两个连续字母就去冗余的方法也有问题,比如cook,geek一类的词,所以CTC有一个blank机制来解决这个问题。
ctc blank机制 Attention OCR
Attention可以分为hard attentionsoft attention
Hard attention
Hard attention能够直接给出hard location,通常是bounding box的位置,优点是直观,缺点是不能直接bp。
Soft attention通常是rnn/lstm/gru encoder-decoder model可以bp。


其他网络结构:
EDA:Encoder+Decoder+attention model


EDA 网络结构

About

中文手写体识别调研

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages