Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

使用zero3以后的模型加载问题 #30

Open
hepj987 opened this issue Apr 17, 2023 · 2 comments
Open

使用zero3以后的模型加载问题 #30

hepj987 opened this issue Apr 17, 2023 · 2 comments

Comments

@hepj987
Copy link

hepj987 commented Apr 17, 2023

  • 结合此项目的示例方法成功进行预训练、增量训练,推理(generate_chatllama.py放不下,使用的generate_lm_deepspeed.py)环境应该是没有问题的。

  • 由于保存的模型都是zero_pp_rank_XX_mp_rank_XX_optim_states.pt和zero_pp_rank_XX_mp_rank_XX_model_states.pt这种格式的,无法利用训练后的模型进行 推理 、增量训练。利用保存模型路径下的脚本zero_to_fp32.py进行转换python zero_to_fp32.py . pytorch_model.bin

  • 这里使用的是7B的模型,cpu内存从16G增长到90多G,之后进程就死掉了。目前看着像是cpu内存不够导致的,模型保存文件-best是70多G,请问有什么方法能够转换成bin格式的模型么?

  • 同时疑惑,现在可能是自己cpu内存不够导致的进程kill,如果之后用13B 30B 65B的模型(7B保存的模型75G,并且128G的cpu内存都不够用),难道要一直增加cpu内存来解决这个问题嘛。有没有大佬可以可以帮忙解决这个问题,感谢!

@ydli-ai
Copy link
Member

ydli-ai commented Apr 17, 2023 via email

@hepj987
Copy link
Author

hepj987 commented Apr 19, 2023

  • 看到你们新的更新了,但由于我们用的是AMD的卡,所以目前还无法使用新版本的推理方式,目前使用的还是旧版的deepspeed zero3的方式进行的推理,期待你们对cuda外的支持。

  • 之前模型转换的问题确实是由于内存不够导致的,zero_pp_rank_XX_mp_rank_XX_到bin格式的转换代码里也有可以优化的地方,不需要加载全部的文件进行转换,加载新文件时释放旧文件可以减小缓存压力。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants