-
Notifications
You must be signed in to change notification settings - Fork 46
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
用qlora做二次预训练merge后推理极慢 #23
Comments
@valkryhx 我觉得不是推理慢,是陷入输出循环了,如果用stream_chat的方法应该能看出来。 |
好的 我等会用stream方法看看。 config = PeftConfig.from_pretrained(peft_model_path) base_model = AutoModel.from_pretrained(config.base_model_name_or_path, add adaptermodel = PeftModel.from_pretrained(base_model, peft_model_path) # 这里就报错了 |
@valkryhx 各个库的版本和我的一致吗?我这里这部分一直没有报过错的。 |
我看您设置的bnb_4bit_compute_dtype=torch.float32 |
另外 我也看到您和bash99 讨论的帖子 THUDM/ChatGLM2-6B#141 (comment) |
这个问题排查出来了 我使用adapter推理那一步提前把peft版本回退到0.3.0了 所以报错 ,使用正确的peft==0.4.0dev就好了 |
@valkryhx 主页的对应的不是4,主页的模型没有merge,方案4的模型首先要:
获得一个合并后的fp16模型,然后这个模型可以直接加载,那就是fp16的推理,也可以按照训练脚本里那样,用bitsandbytes的config,以 |
那主页的方案相当于方案几呢? |
主页相当于方案1,也就是inference_qlora.py这个脚本的方式,没有把base model和lora model合并 |
谢谢! |
我用qlora的方式先做了一次sft
没有merge 推理速度还行。
又用qlora做了二次pretrain 看影响的层除了qkv之外dense层也影响了 结果把二次预训练的glm2 6b基座模型和qlora adapter做完merge之后,推理速度极慢,一个问题五分钟还没出答案,不知道大佬有没有遇到过这个情况
The text was updated successfully, but these errors were encountered: