Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

用qlora微调后,好像没有发现什么变化?附数据集+微调运行结果 #46

Closed
samchaolau opened this issue Sep 5, 2023 · 6 comments

Comments

@samchaolau
Copy link

a268f67c3f588494e4df33206beee7f
以上是微调的参数。
训练数据集:https://hh-image.oss-cn-beijing.aliyuncs.com/tmp/train.csv
微调后的相关结果:
image
image
image
image
image
image
image
image
image
image
image
image

@samchaolau
Copy link
Author

微调完成后进行推理,
image
问数据集第一个问题:编号18655236.32616的内容是什么?
还是回答的不沾边,想知道为什么,哪里出了问题

@Jintao-Huang
Copy link
Collaborator

我看数据集第一个问题是下面这样, 好像数据集不太对嘛, 你看看

编号18655236.32616的内容是什么,,"目前支持的meta文件格式为csv或者jsonl。如果是csv格式的,需要用逗号分隔来组织元数据,如果是jsonl格式的,则每行是一个合法有效的json串。元数据用于描述数据文件的一些其他属性,标签等。meta文件统一上传到“元数据文件”tab下。 以csv格式为例,首行为header, 采用 逗号分隔, 每个字段 采用 {字段名}:{类型} 作为标识, 类型可选为Value/FILE,可缺省, 默认文本(Value), 字段名不允许有重复。 第二行开始为具体的数据,依然采用逗号分隔,字段数和header保持一致,如果类型为FILE,则填写文件在zip包中的相对路径,如果不是zip包(而是一个文件夹或者散装文件),也可以填写相对数据文件根目录的相对路径。"

@samchaolau
Copy link
Author

这是我特意写成这样的,我想训练后,我如果问“编号18655236.32616的内容是什么” , 希望他能够回复我教给他的内容,如:“目前支持的meta文件格式为csv或者jsonl。如果是csv格式的,需要用逗号分隔来组织元数据,如果是jsonl格式的,则每行是一个合法有效的json串。元数据用于描述数据文件的一些其他属性,标签等。meta文件统一上传到“元数据文件”tab下。 以csv格式为例,首行为header, 采用 逗号分隔, 每个字段 采用 {字段名}:{类型} 作为标识, 类型可选为Value/FILE,可缺省, 默认文本(Value), 字段名不允许有重复。 第二行开始为具体的数据,依然采用逗号分隔,字段数和header保持一致,如果类型为FILE,则填写文件在zip包中的相对路径,如果不是zip包(而是一个文件夹或者散装文件),也可以填写相对数据文件根目录的相对路径。"”

@evanguard
Copy link

我也遇到了類似的問題, QLora SFT過程一切順利, Infer時也成功加載ckpt, 但答案就和完全沒學習過一樣。。。 不知道是什麼原因

@Jintao-Huang
Copy link
Collaborator

可以贴一下infer的图片嘛

@Jintao-Huang
Copy link
Collaborator

我想看一下效果情况,我这里测试都是正常的

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants