关于[中文混合拼音]的长文本OCR方案请教（eg: 灿烂的笑róng） #13106

robotJie · 2024-06-17T15:53:43Z

robotJie
Jun 17, 2024

如题，要识别的样例图片如下：

总体思路是：找一个已有的可识别中英文的model，再用拼音数据去做finetune。

然后参考的这个项目基于PaddleOCR的小学生手写汉语拼音识别，用的预训练模型和配置如图

配置文件除了必要的数据路径，其它基本都没动。数据用的参考项目的。

训练完之后，首先用训练集的数据测试，都能正确识别。但是用新的数据，无法正确识别。比如
infer_img为：

，输出结果为：

出现上面这种情况，一种可能原因是不是过拟合？我的epoch用的默认800，但是数据集只有500（所以800是否过大了？）
这个思路（找一个已有的可识别中英文的model，再用拼音数据去做finetune）是否可行？是否有更推荐的预训练model，比如v3？或者更好的实现方案呢？
我用官方的预训练模型，去测试一个很正常的图片，结果也是错的，这是为什么？
python tools/infer_rec.py -c ch_PP-OCRv2_rec.yml -o Global.pretrained_model=pretrain_models/ch_PP-OCRv2_rec_slim_quant_train/best_accuracy Global.infer_img=./train_data/pinyin_image_data/self_data/beizhu.png

beizhu.png

输出结果（每次识别结果不同）：

4.我发现对于大段的文字，比如像样例图片这种，识别结果只会输出零星的几个字，是需要对文字检测作什么调整么？

--------------- 任何回复，不甚感激！ ----------------