-
Notifications
You must be signed in to change notification settings - Fork 63
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
实验 MFTCoder 的效果总是不尽人意 #64
Comments
您好 我也想用mistral_v0.2 模型进行微调,但是遇到了一点问题,可以加个联系方式交流一下吗?我的邮箱是791785837@qq.com |
我使用自己场景的数据集(每个任务数据量 1k ~ 20k)微调,四个任务的收敛速度、收敛效果也是更差,或许需要使用更多epoch 训练? |
你好,我使用了三个开源问答数据集,分别为 Squad、Commonsense、ai2_arc 来进行多任务微调,但我迄今为止微调三次试验结果都不如单次微调甚至不如混合微调,我使用 mistral_v0.2 模型对三个数据集分别进行微调、混合微调、不微调、MFTcoder 微调进行比较,下面是我的实验结果:

所以我在怀疑是我微调参数是否出了问题,或者说这三个问答子任务相关性并不强所以导致这种现象。所以在此提出 issue 来向你们请教。
此外你的配置选项中有一些参数并没有说明,例如 data weight 等,我觉得对于框架使用者来说还是完善一些更好。
下面是我的第三次 mftcoder 微调配置:
The text was updated successfully, but these errors were encountered: