-
Notifications
You must be signed in to change notification settings - Fork 40
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
cpm ant++ tune训练之后infer不出想要结果 #254
Comments
可以贴一下推理的阶段的关键代码 |
(https://github.com/OpenBMB/CPM-Live/tree/cpm-ant-plus/cpm-live/examples/scripts)/LCSTS.sh,把tune部分注释掉了,官方例子运行 |
test.jsonl 文件如下: |
训练50轮之后得到了十几M的best.pt,但是infer推理的结果好像不对,只显示了英文,还有很多----------- |
您这边是否明白我调用的代码在哪 |
我用你昨天贴的几条训练数据,few shot训练了一下模型,在测试集上至少能正常生成文章,如果训练数据更多则会有更好的效果。输出结果如下: bash脚本如下:
所以请检查下你的使用方式是否有问题,比如检查下是否正确加载了config、checkpoint、训好的best.pt等。 |
好的,我检查一下,训练集我这边用了几十万数据 |
我知道原因了,之前训练时间太短了,没有训练完,现在跑到了220多iter还没停 |
train和eval数据集的大概比例是多少,train如果是10万条的话,eval多少比较合适 |
的确不知道问题出在哪了,前晚和昨晚的训练都是提前停止,然后推理结果不对,能辛苦看看我的配置吗 |
early stop是因为你在验证集上的loss连续20次高于之前的最低loss。你需要看下验证集上的最低loss是多少(按你当前的配置,应为停止时的步数的前1000步),然后看下和训练集上loss的差距。 |
如果总数据量在10万,训练集和验证集的比例多少合适 |
你现在的比例就可以。但是你需要确定验证集和训练集格式一样,并且验证集是从整体数据集里随机抽取的。剩下的就是需要你自己调节超参数,特别是学习率,让模型更好的收敛,在验证集上的loss尽可能低。 |
好的,感谢回复,我看您例子 --lr 1e-2,官方例子是2e-2 |
另外,确认下你的 |
还真不是,pip install 的时候提示只有0.1.8版本,我换一个试试,难怪模型一直训练不出来 |
bmtrain没有升级到0.1.8.post1之前,使用了8卡进行训练,结果是train的loss每个epoch都下降明显,但是eval的loss下降2个epoch之后不降反升,感觉是过拟合了(8卡使用batch是48,lr是1e-02) |
现在有点摸不准到底该用几张显卡,然后batch和lr究竟设置成啥比较合适了 |
|
cpm ant++ 使用几十万级别的素材tune训练之后得到best.pt文件,但在推理阶段输入对应的input,得不到想要的结果,全是英文字符和---------这种符号,不知道哪块环节出了问题
The text was updated successfully, but these errors were encountered: