-
Notifications
You must be signed in to change notification settings - Fork 421
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
finetune 报错,配置是:单张RTX4090 24G显存,语料是:从百度网盘下载下来的 663M大小的 merge.json 文件 #4
Comments
finetune.sh 脚本内容是这样的:
|
@ZenXir 你试试用单卡的配置跑会不会报错,因为单卡没有必要使用ddp。或者在运行的python脚本前面加上TORCH_DISTRIBUTED_DEBUG=DETAIL看有没有更详细的报错信息返回。或者试试将TrainingArguments中的ddp_find_unused_parameters=False if ddp else None改成ddp_find_unused_parameters=True看能不能运行成功 |
把finetune.sh 脚本加了一行:TORCH_DISTRIBUTED_DEBUG=DETAIL finetune.sh内容是:
把 finetune.py 的 ddp_find_unused_parameters=False if ddp else None, 改成了ddp_find_unused_parameters=True, finetune 时仍是报错大佬老师:
另外大佬老师 我在 vicuna.cpp/CMakeList.txt 文件的最会两行加了 pthread 库
解决make时链接 pthrea_xxx 库函数找不到的问题,这修改可以不? |
非常感谢你的提醒,我们已经更新了 |
大佬老师 有时间了 帮我看看如果用 RTX4090 24G 单卡 finetune吧 我尝试了几次,一直报上面的错误 |
可以直接 |
可以训练大佬老师,应该是我指定 --test_size 10000 太大了 默认是200 就可以 正常训练了### checkpoint-8000 4000 3800 这个数字含义是什么? 这个是finetune 的参数:
这个是 generate 时 evaluate 函数参数
|
checkpoint-8000的8000代表我们目前训练的步数,
设置的是批次大小、梯度累积、训练轮数、学习率和我们训练使用的文本长度
是lora相关的配置,详细可以看这里 generate的参数来源于huggingface,文档的位置在这里, 另外,我们使用单卡3090,使用与你相同的环境
如果你这边用torchrun还不能够运行, 并且有这方面需求的话,可以给我们一份你的环境配置
|
好的 可以运行了 非常感谢大佬老师 |
大佬老师 finetune 663M 语料时,需要什么样的显卡配置?
The text was updated successfully, but these errors were encountered: