Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

预训练语料问题 #41

Closed
psy-mas opened this issue Nov 7, 2023 · 10 comments
Closed

预训练语料问题 #41

psy-mas opened this issue Nov 7, 2023 · 10 comments
Assignees
Labels
dataset doc-not-needed Your PR changes do not impact docs. question Further information is requested sft

Comments

@psy-mas
Copy link

psy-mas commented Nov 7, 2023

预训练阶段放入了大量的CoT数据吗。
全量微调了34b版本的模型,发现模型非常倾向于输出CoT过程。
这也导致经常得不到我想要的prompt对应的格式要求输出。

@itsliupeng
Copy link

"发现模型非常倾向于输入CoT过程。" 这里是指输出 CoT 过程吗?

@QiongsK
Copy link

QiongsK commented Nov 7, 2023

"发现模型非常倾向于输入CoT过程。" 这里是指输出 CoT 过程吗?

我觉得他的意思是,模型对非CoT的输入,敏感度较差

@ZhaoFancy
Copy link
Contributor

预训练阶段放入了大量的CoT数据吗。

具体用到的数据会在接下来的报告中详细阐述。

全量微调了34b版本的模型,发现模型非常倾向于输入CoT过程。

方便透露下具体怎么微调的么?

这也导致经常得不到我想要的prompt对应的要求输出。

可以发一些具体的 case 么?

@psy-mas
Copy link
Author

psy-mas commented Nov 7, 2023

预训练阶段放入了大量的CoT数据吗。

具体用到的数据会在接下来的报告中详细阐述。

全量微调了34b版本的模型,发现模型非常倾向于输入CoT过程。

方便透露下具体怎么微调的么?
使用fastchat方法微调的。

这也导致经常得不到我想要的prompt对应的要求输出。

可以发一些具体的 case 么?

@psy-mas
Copy link
Author

psy-mas commented Nov 7, 2023

"发现模型非常倾向于输入CoT过程。" 这里是指输出 CoT 过程吗?

sft完以后,我使用任务prompt期望模型输出我想要的的格式的内容,但是它输出完以后,就是会输出一大段CoT的过程。

@renxiaoyi
Copy link
Contributor

预训练阶段放入了大量的CoT数据吗。

预训练没有刻意放入 CoT 数据.

@LiuChen19960902
Copy link

预训练阶段放入了大量的CoT数据吗。 全量微调了34b版本的模型,发现模型非常倾向于输出CoT过程。 这也导致经常得不到我想要的prompt对应的格式要求输出。

请问您34B模型微调用了多少张卡呢,之前没有训练34B的经验,我的8张A100 80G的训不起来

@jiangchengSilent
Copy link
Contributor

"发现模型非常倾向于输入CoT过程。" 这里是指输出 CoT 过程吗?

sft完以后,我使用任务prompt期望模型输出我想要的的格式的内容,但是它输出完以后,就是会输出一大段CoT的过程。

在输出结果的时候,配置tokenizer.decode(skip_special_tokens=False),看看截止符是否输出,以及这个截止符、和你SFT数据的截止符、以及model.generate里的截止符是否一致

@jiangchengSilent
Copy link
Contributor

预训练阶段放入了大量的CoT数据吗。 全量微调了34b版本的模型,发现模型非常倾向于输出CoT过程。 这也导致经常得不到我想要的prompt对应的格式要求输出。

请问您34B模型微调用了多少张卡呢,之前没有训练34B的经验,我的8张A100 80G的训不起来

参考finetune/scripts/run_sft_Yi_34b.sh里边的配置,8张A卡是可以训练的,但如果开了offload要注意CPU内存使用,一般CPU内存需要900G以上,同时通过CUDA_VISIBLE_DEVICES来限制分布式并发量为4。
在这个script的配置下,一般单卡显存使用约80G,总内存使用量800G左右,如果还不行,考虑减小max_seq_len,从64开始慢慢往上加

@LiuChen19960902
Copy link

预训练阶段放入了大量的CoT数据吗。 全量微调了34b版本的模型,发现模型非常倾向于输出CoT过程。 这也导致经常得不到我想要的prompt对应的格式要求输出。

请问您34B模型微调用了多少张卡呢,之前没有训练34B的经验,我的8张A100 80G的训不起来

参考finetune/scripts/run_sft_Yi_34b.sh里边的配置,8张A卡是可以训练的,但如果开了offload要注意CPU内存使用,一般CPU内存需要900G以上,同时通过CUDA_VISIBLE_DEVICES来限制分布式并发量为4。 在这个script的配置下,一般单卡显存使用约80G,总内存使用量800G左右,如果还不行,考虑减小max_seq_len,从64开始慢慢往上加

十分感谢回复,我去试一试~

@Yimi81 Yimi81 added the doc-not-needed Your PR changes do not impact docs. label Mar 8, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
dataset doc-not-needed Your PR changes do not impact docs. question Further information is requested sft
Projects
None yet
Development

No branches or pull requests

8 participants