# Обучение модели с использованием PyTorch Elastic Learning

PyTorch Elastic Learning при обучении моделей позволяет масштабировать вычислительные ресурсы в зависимости от их доступности и повышает отказоустойчивость.

Подробнее об использовании можно посмотреть в [нашей документации](https://cloud.ru/docs/aicloud/mlspace/concepts/guides/guides__mt/environments__model-training__training-with-elastic-learning-example.html#pytorch-elastic-learning) и в [документации PyTorch](https://pytorch.org/docs/stable/elastic/run.html)

Чтобы не потерять результаты обучения при перезапуске задачи, необходимо реализовать в коде сохранение чекпоинтов и запуск обучения с последнего чекпоинта. Инструкцию по сохранению чекпоинтов можно найти в [документации](https://cloud.ru/docs/aicloud/mlspace/concepts/guides/guides__mt/environments__model-training__save-intermidiate-results.html)

## 1. Подготовка

Импортируем библиотеки.

In [1]:
import client_lib
import pathlib

Working dir: /home/jovyan/mls_examples/elastic


Устанавливаем переменные.

In [None]:
BASE_DIR = pathlib.Path().absolute()
print(f'Working dir: {BASE_DIR}')

# 2. Запуск задачи обучения

Запускать задачу в регионе будем с помощью класса `client_lib.Job()`. 

Для запуска укажем следующие параметры:
- `script`– путь к запускаемому скрипту;
- `base_image` – базовый образ, в котором будет исполняться скрипт обучения модели;
- `instance_type` – конфигурация вычислительных ресурсов, используемых для решения задач;
- `type` - тип распределённых вычислений;
- `n_workers` — количество рабочих узлов;
- `elastic_min_workers` — минимальное количество рабочих узлов;
- `elastic_max_workers` — максимальное количество рабочих узлов.



In [None]:
REGION = 'SR006' # Region
INSTANCE_TYPE = 'a100plus.1gpu.80vG.12C.96G' # Instance_type
N_WORKERS = 2
BASE_IMAGE = "cr.ai.cloud.ru/aicloud-base-images/cuda12.1-torch2-py39:0.0.36"

In [58]:
job_run = client_lib.Job(
    base_image=BASE_IMAGE,
    script=f'{BASE_DIR}train_ddp_elastic_example-torch2.py',
    region=f'{REGION}',
    instance_type=f'{INSTANCE_TYPE_1GPU}',
    flags={"epochs": 10},
    type="pytorch_elastic",
    n_workers=N_WORKERS,
    elastic_min_workers=1,
    elastic_max_workers=3,
    pytorch_use_env=True,
)

In [52]:
job_run.submit()

'Job "lm-mpi-job-c9dc3677-c018-4369-b407-cda8f10e2117" created.'

In [54]:
job_run.status()

'Job status=Pending'

In [56]:
job_run.logs()

2024-07-31T07:41:47.983158288Z master_addr is only used for static rdzv_backend and when rdzv_endpoint is not specified.
2024-07-31T07:42:20.682725776Z 
2024-07-31T07:42:20.693024444Z * 'schema_extra' has been renamed to 'json_schema_extra'
2024-07-31T07:42:20.697520054Z Working dir: /home/jovyan/mls_examples/elastic
2024-07-31T07:42:20.996554606Z local rank = 0, rank = 0
2024-07-31T07:42:21.198105919Z Continue training from 19 epoch
2024-07-31T07:42:21.198765739Z lm-mpi-job-c9dc3677-c018-4369-b407-cda8f10e2117-mpimaster-0:72:72 [0] NCCL INFO Bootstrap : Using eth0:10.232.32.193<0>
2024-07-31T07:42:21.204995868Z lm-mpi-job-c9dc3677-c018-4369-b407-cda8f10e2117-mpimaster-0:72:72 [0] NCCL INFO NET/Plugin: Failed to find ncclNetPlugin_v6 symbol.
2024-07-31T07:42:21.205006568Z lm-mpi-job-c9dc3677-c018-4369-b407-cda8f10e2117-mpimaster-0:72:72 [0] NCCL INFO NET/Plugin: Loaded net plugin NCCL RDMA Plugin (v5)
2024-07-31T07:42:21.205010414Z lm-mpi-job-c9dc3677-c018-4369-b407-cda8f10e2117-mpimas