В этом разделе приведены примеры создания и отправки задач для обучения моделей на платформе ML Space.
На схеме примеры сгруппированы по инструментам для обучения. Ниже находятся ссылки на каждый пример для Jupyter Notebook с кратким описанием.
Использование Training Job API здесь не рассматривается. Подробнее об API ML Space, в том числе для задач обучения — в быстром старте по API и пользовательской документации.
При таком варианте обучения максимальное количество выделенных GPU — 16. Подходит для пользователей, не знакомых с библиотекой Horovod.
Оплата взимается, пока Jupyter Server не будет удален, даже если он не используется.
-
Обучение модели в Jupyter Server показывает, как обучать модель напрямую из Jupyter Notebook, подключенного к GPU, задействуя
Pytorch
,Tensorboard
иMLFlow
.В примере решается задача классификации на учебном датасете MNIST.
Подробнее о создании Jupyter Server — в документации.
При таком варианте обучения можно задействовать до 1000 GPU. Оплата происходит за фактическое время исполнения задачи: от старта до окончания обучения.
-
Обучение модели на GPU с применением Tensorflow 1 показывает, как создать и запустить задачу распределенного обучения (training job) на
Horovod
иTensorFlow 1
.В примере решается задача классификации на учебном датасете MNIST.
-
Обучение модели на GPU с применением Tensorflow 2 показывает, как создать и запустить задачу распределенного обучения (training job) на
Keras
,Horovod
иTensorFlow 2
.В примере решается задача классификации на учебном датасете MNIST.
-
Обучение модели на CPU показывает, как создать и запустить задачу, не требующую GPU.
В примере решается задача предсказания цен домов.
Подробнее о работе с client-lib
— в документации.