-
Notifications
You must be signed in to change notification settings - Fork 469
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
LOSS:nan 微调时LOSS异常 #298
Comments
可能有脏数据 |
我也遇到了这个问题,而且用官方提供的处理好的数据集也会这样,请问问题解决了吗 |
你好,我已经收到来信,会尽快查看~
|
我也遇到了类似的问题,有解决方法麻烦踢我一下~ |
我把accum_freq这个参数设置为1之后就莫名其妙好了,也可能和batch size有关,我把单卡batch size设置成了200 |
请问你有用自己的数据集吗,我这边遇到的问题是使用自己的数据集,loss一直不收敛,和题主的还不太一样,不知道是不是我标签什么的做错了 |
我用的是自己的数据,当时的情况是开始几个batch的loss正常,精度有七十多,后面loss就变为了non,精度变成三十多。 |
我是用2*v100,单卡显存32g, 单卡batch size设置了128,我自己的数据集,其实只有三种文本标签,只不过我对应了不同的文本id,大概类似于这样: |
应该没问题吧,可能是因为他这个模型已经训练的很好了,我后面的训练在验证集上的loss下降不多,不过一直训练下去在训练集上的loss倒是能下降到很低。 |
模板也已经加了,但是不管我怎么调整数据,结果都是一样,请问你的id是从0开始的吗,这个有没有影响啊?id是不是得从他们训练的id接着来 |
ID应该没影响吧 |
好吧,我已经想不到从哪里找问题了哈哈哈,还是谢谢你啦 |
我的问题和你一样,有时候正常,有时候nan,正常的时候从整体来看,只看正常的话是在收敛的 |
你好,我已经收到来信,会尽快查看~
|
请教一下在进行微调时不管我的lr设置多小,这里的loss总会在第一个batch后变成nan是怎么回事
使用的是sh文件中提供的默认参数
context_length=52
warmup=100
batch_size=128
valid_batch_size=128
accum_freq=1
lr=5e-5
wd=0.001
The text was updated successfully, but these errors were encountered: