-
Notifications
You must be signed in to change notification settings - Fork 441
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
CPU offload режим для GPT3XL #59
Comments
Я дико извиняюсь, похоже сам нашел как забороть проблему.
Надеюсь больше не будет подводных камней. |
@exelents добрый день. На этапе теста
|
Не могли бы вы привести полный стек ошибки? А заодно какую команду вы запускаете? |
@exelents в Colab это помогло мне продвинуться дальше, но теперь вылетает с такой ошибкой:
А у вас без проблем всё заработало? UPD Я подумал, Colab же периодически меняет окружение, возможно у меня что-то скомпилировано было для другого уже, попробую пересобрать, например apex.
|
на счёт памяти - не подскажу, у меня-то как раз памяти много, с OOM не сталкивался. |
А насколько много? В Colab сейчас у меня GPU Tesla P100-PCIE 16GB и соответственно 24GB ОЗУ. Как-то досадно, ведь вроде бы выложен Colab ноутбук как раз с примером, и у меня вроде максимум того, что возможно на Colab... PS читаю ваши комментарии на github у Deepspeed :) |
Очень много. Б/у серверное железо с кучей оперы, гораздо больше чем на коллабе. Видюха RTX3090 на ней соответственно 24 ГБ памяти. Тренируете на deepspeed? Попробуйте конфиг дипспида поставить тот который я вам сейчас прикреплю. |
Да, на Deepspeed, иначе бы offload в ОЗУ не получился (хотя я сейчас смотрю, есть вроде флаги отдельные у трейнера, например
К сожалению, не помог конфиг. Для будущих поколений приложу что добавлено в сравнении с моим. В любом случае, спасибо! |
Добрый день.
Недавно при попытке файнтюнить самую большую GPT3XL столкнулся с ошибкой нехватки памяти. Попытался в конфиге deepspeed включить режим cpu_offload и обломался - выдаётся ошибка, см стек по ссылке:
https://gist.github.com/exelents/dd64ddd745bfa732a809a6b3e9af678d
RuntimeError: expected input to be on cuda
Вопрос - что нужно сделать чтоб данная модель завелась в режиме cpu offload и возможно ли это вообще?
The text was updated successfully, but these errors were encountered: