Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

识别效果与字体大小有关吗? #5

Closed
phoebushe opened this issue Oct 10, 2018 · 12 comments
Closed

识别效果与字体大小有关吗? #5

phoebushe opened this issue Oct 10, 2018 · 12 comments

Comments

@phoebushe
Copy link

我这边识别一张发票上的区域图片,完全识别不出来,我稍微resize得大一些就识别出来了,再大一些又识别得很差,请问是否和字体的大小有关呢?

@Sierkinhane
Copy link
Owner

和你的训练集有关,训练集如果加入小字体的话训练之后测试应该会很好

@Sierkinhane
Copy link
Owner

模型最好根据自己的识别场景利用数据集finetune

@phoebushe
Copy link
Author

@Sierkinhane 知道了,谢谢

@black107
Copy link

@Sierkinhane 你好,我在测试时发现对于字体小且图片很小的图识别效果差,比如图片大小只有329,测试时被resize成12832。
针对这种情况,训练集是不是也需要加入尺寸比较小的图片,训练时再resize成w=32,h按比例放大,还是生成字体较小的280*32大小的图片就可以了?

@haneSier
Copy link

两种方法应该都可以,只要神经网络学习到了小字的参数就行

@laughing429
Copy link

Hi@haneSier @Sierkinhane ,因为我在识别文字前做了文字提取的操作,发现模型对小号字体的效果比较差,于是做了一些字体很小的样本,想对模型继续进行训练,可是不知道为啥在训练的时候,我的训练集的loss一直在下降,可是测试集的准确率一直都接近于0,而且loss也在150左右波动。我猜想可能是出现了过拟合,于是调低了lr,可是结果还是一样的。请问下有什么好的思路吗?

@haneSier
Copy link

你的train loss是多少,Traning loss比较小的时候才有预测的能力

@laughing429
Copy link

train loss目前是0.2左右
image

@haneSier
Copy link

用的都是你自己制作的训练集吗?

@laughing429
Copy link

嗯啊,是的。我可以发部分数据给你看下。

@haneSier
Copy link

过拟合了,可能你的训练集过于单一,不能泛化到验证集过测试集,

@laughing429
Copy link

@haneSier ok, thanks bro.那我再去自己研究下,谢谢了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants