为什么把中英文实验分开做呢？ #6

JacobianTang · 2017-10-30T08:37:15Z

在中文实验上很明显backbone（特征提取网络）增强之后，结果变好了。但是真是情况应该是中英文混合，或者整个测试集里面既有英文也有中文，以我的经验来看，感受野大了之后，对英文来说未必是好事。所以backbone的那一栏实验结果，不知道在混合数据集上表现如何？

方便透漏下个人邮箱吗？希望和你通过邮箱有进一步交流。

senlinuc · 2017-10-30T08:56:34Z

不太清楚你说的backbone是什么意思。中英混合的情况这里确实没有考虑。另外你说的感受野也确实是影响精度的重要因素，感受野太小的话每个时刻的特征就难有很好的代表性和区分性，感受野太大的话又容易带来混淆和漏字，这个要根据实际数据的情况来调整。191238062，我的QQ，欢迎一起讨论。

JacobianTang · 2017-10-30T09:01:27Z

有验证的哦

jxlijunhao · 2017-10-30T09:12:21Z

@senlinuc 我也发现了这个问题，第一次做ocr，经验不是很丰富，现在我的做法是在中文的数据集dataset1中训练得差不多后，更新数据集dataset2（加入英文+数字，注：dataset1中也存在英文，数字，只不过dataset2增强了英文，数字样本比例），不知道你们怎么看。 @JacobianTang @senlinuc

senlinuc · 2017-10-30T10:42:03Z

我生成的中文数据集里也有少量英文和数字，这种中英混合我感觉只要总量足够，比例调整好，应该可以一次训练。

fendaq · 2017-10-30T15:13:53Z

@senlinuc @jxlijunhao @JacobianTang 我也在做crnn 中文识别，我建了一个Q群：274634783 ,有兴趣的加一下，讨论问题方便一点。

xiaomaxiao · 2017-10-31T12:17:33Z

@senlinuc 试验过英文CNN+LSTM+CTC 没有出现丢字符的情况。
是不是英文太少，或者语料中中英应该在一起、？

Nic-Ma · 2018-08-04T14:00:33Z

Hi Senlinuc,

我是英伟达上海研发部Nic，你的QQ加不上，方便加微信吗？
谢谢！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

为什么把中英文实验分开做呢？ #6

为什么把中英文实验分开做呢？ #6

JacobianTang commented Oct 30, 2017 •

edited

senlinuc commented Oct 30, 2017

JacobianTang commented Oct 30, 2017

jxlijunhao commented Oct 30, 2017

senlinuc commented Oct 30, 2017

fendaq commented Oct 30, 2017 •

edited

xiaomaxiao commented Oct 31, 2017

Nic-Ma commented Aug 4, 2018

为什么把中英文实验分开做呢？ #6

为什么把中英文实验分开做呢？ #6

Comments

JacobianTang commented Oct 30, 2017 • edited

senlinuc commented Oct 30, 2017

JacobianTang commented Oct 30, 2017

jxlijunhao commented Oct 30, 2017

senlinuc commented Oct 30, 2017

fendaq commented Oct 30, 2017 • edited

xiaomaxiao commented Oct 31, 2017

Nic-Ma commented Aug 4, 2018

JacobianTang commented Oct 30, 2017 •

edited

fendaq commented Oct 30, 2017 •

edited