文字识别模型的训练数据来源 #280

fourierer · 2023-11-14T06:28:40Z

大佬您好，感谢您的工作，请问文字识别模型ch_rec_server_crnn_res34.pth是用什么样的数据训练的呢，我自己加载您的开源模型然后在我自己场景数据上finetune分类层，得到的模型在特定场景比较好，但是同时失去了原先的通用文字识别能力，请问原版模型是用什么样子的数据训练的呢

WenmuZhou · 2023-11-20T00:26:26Z

公开数据集加生成数据集，具体参考paddleocr

fourierer · 2023-11-22T02:52:13Z

公开数据集加生成数据集，具体参考paddleocr

感谢～，想再请教下具体的数据比例和训练方式，请问公开数据集是指360w开源数据集么，合成数据的量大概是多少呢，最后就是训练方式是混在一起train的，还是说先在合成数据上train然后在360w开源数据finetune什么的，我发现您的模型训练的效果很好，我这边总是复现不出来

WenmuZhou · 2023-11-24T07:40:53Z

我也记不得了，你翻一下paddleocr的issue

WenmuZhou closed this as completed Nov 24, 2023

Provide feedback