Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

为什么把中英文实验分开做呢? #6

Open
JacobianTang opened this issue Oct 30, 2017 · 7 comments
Open

为什么把中英文实验分开做呢? #6

JacobianTang opened this issue Oct 30, 2017 · 7 comments

Comments

@JacobianTang
Copy link

JacobianTang commented Oct 30, 2017

在中文实验上很明显backbone(特征提取网络)增强之后,结果变好了。但是真是情况应该是中英文混合,或者整个测试集里面既有英文也有中文,以我的经验来看,感受野大了之后,对英文来说未必是好事。所以backbone的那一栏实验结果,不知道在混合数据集上表现如何?

方便透漏下个人邮箱吗?希望和你通过邮箱有进一步交流。

@senlinuc
Copy link
Owner

不太清楚你说的backbone是什么意思。中英混合的情况这里确实没有考虑。另外你说的感受野也确实是影响精度的重要因素,感受野太小的话每个时刻的特征就难有很好的代表性和区分性,感受野太大的话又容易带来混淆和漏字,这个要根据实际数据的情况来调整。191238062,我的QQ,欢迎一起讨论。

@JacobianTang
Copy link
Author

有验证的哦

@jxlijunhao
Copy link

@senlinuc 我也发现了这个问题,第一次做ocr,经验不是很丰富,现在我的做法是在中文的数据集dataset1中训练得差不多后,更新数据集dataset2(加入英文+数字,注:dataset1中也存在英文,数字,只不过dataset2增强了英文,数字样本比例),不知道你们怎么看。 @JacobianTang @senlinuc

@senlinuc
Copy link
Owner

我生成的中文数据集里也有少量英文和数字,这种中英混合我感觉只要总量足够,比例调整好,应该可以一次训练。

@fendaq
Copy link

fendaq commented Oct 30, 2017

@senlinuc @jxlijunhao @JacobianTang 我也在做crnn 中文识别,我建了一个Q群:274634783 ,有兴趣的加一下,讨论问题方便一点。

@xiaomaxiao
Copy link

@senlinuc 试验过 英文CNN+LSTM+CTC 没有出现丢字符的情况。
是不是 英文太少,或者语料中 中英应该在一起、?

@Nic-Ma
Copy link

Nic-Ma commented Aug 4, 2018

Hi Senlinuc,

我是英伟达上海研发部Nic,你的QQ加不上,方便加微信吗?
谢谢!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants