模型训练中的收敛问题 #31

Bobo1204 · 2022-09-16T09:53:34Z

咨询波哥一个问题哦。
对比测试了几个模型，比如分类，序列标注，文本生成等。使用bert4torch和hugging face中的tokenizer和model load，

hugging face版本的会在五六轮左右出现一个比较好的效果
bert4torch需要20轮以上效果才可以
而最终的模型评估效果是hugging face略高1～2个点
对比代码，暂时没找到原因。比较疑惑

Tongjilibo · 2022-09-16T10:21:21Z

我给的示例代码，学习率固定，没有weight_decay，额外增加的网络结构我是随机初始化，这些一致不？我之前也跑了实验结果在performance里面，你跑的结果差不多嘛？方便的话可以把hugging face的代码发我，我这也排查下？防止是我的代码问题

Tongjilibo · 2022-09-16T15:06:12Z

我猜想是不是你的预训练模型有部分权重没有正确加载，使用bert4torch时候你warning提示吗

Bobo1204 · 2022-09-17T03:41:38Z

早上拉取了bert4torch的最新代码，测试了开源情感数据和一个我们自己的标注数据分类模型，收敛很快，3～6轮之间基本上达到最佳表现。

上面的问题我大概是五六月份用bert4torch测试的时候出现的，然后工作中就都用hugging face的tokenizer和model。尴尬...大佬牛逼

预训练模型加载，如果是hugging face上面的bert-base，'LayerNorm.gamma'， 'LayerNorm.beta'和框架不一致，会有warning。以前我改了bert4torch/models.py中的映射，后来看到convert_scripts,改了权重里面的名称。改完效果提升在2～3个点之间。

Tongjilibo · 2022-09-17T03:55:49Z

嗯嗯，预训练权重有的不匹配，目前是convert脚本来修改后适配的

Tongjilibo · 2022-09-17T04:36:32Z

刚刚发现前两天修改的一个tokenizer读vocab.txt有个bug，刚刚已经修复，后续使用建议重新拉最新代码哈~

Tongjilibo closed this as completed Oct 13, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

模型训练中的收敛问题 #31

模型训练中的收敛问题 #31

Bobo1204 commented Sep 16, 2022

Tongjilibo commented Sep 16, 2022

Tongjilibo commented Sep 16, 2022

Bobo1204 commented Sep 17, 2022

Tongjilibo commented Sep 17, 2022

Tongjilibo commented Sep 17, 2022

模型训练中的收敛问题 #31

模型训练中的收敛问题 #31

Comments

Bobo1204 commented Sep 16, 2022

Tongjilibo commented Sep 16, 2022

Tongjilibo commented Sep 16, 2022

Bobo1204 commented Sep 17, 2022

Tongjilibo commented Sep 17, 2022

Tongjilibo commented Sep 17, 2022