<a id='section-id0'></a>
# Обучение моделей в Yandex DataSphere

1. [Фоновый запуск операций](#section-id1)
2. [Early Access Version: Фоновый запуск последовательности операций](#section-id2)
3. [Делегирование вычислений на кластера Data Proc](#section-id3)
4. [Распределенное обучение](#section-id4)
5. [Индикаторы загрузки памяти, CPU и GPU](#section-id5)
6. [Поддержка TensorBoard](#section-id6)
7. [Узнать о Yandex DataSphere больше](#section-id7)

<a id='section-id1'></a>
## 1. Фоновый запуск операции

В Yandex DataSphere можно запустить операцию асинхронно. Вы можете запустить, например, процедуру оценки или обучение модели, и продолжить работу в ноутбуке. Выполнение операции будет происходить в фоне. Возможно, что фоновые операции будут выполняться на прерываемых виртуальных машинах и ресурсах, и поэтому займут больше времени, чем обычные операции. Зато и тарифицируется исполнение таких операций  <a href="https://cloud.yandex.ru/docs/datasphere/pricing#async">по другим правилам.</a> 
Чтобы выполнение операции происходило в фоновом режиме, в ячейке укажите **#pragma async**. Диск в фоновых ячейках доступен только в режиме read-only.

In [None]:
#Рассмотрим применение фоновой операции в обучении модели
#Установим обновленную версию TensorFlow. После этого шага не забудьте рестартовать kernel.
%pip install tensorflow -U

**Важно:** чтобы tensorflow > 2.4.x был совместим с CUDA, нужно собрать докер-образ c новым драйвером. Как это сделать, описано в [документации](https://cloud.yandex.ru/docs/datasphere/operations/user-images) и в ноутбуке [Настройка рабочей среды в Yandex DataSphere](environment_ru.ipynb#section-id0).

In [None]:
#Импортируем нужные библиотеки
import tensorflow as tf
import datetime

In [None]:
#Задаем модель
mnist = tf.keras.datasets.mnist

(x_train, y_train),(x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

def create_model():
  return tf.keras.models.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(512, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation='softmax')
  ])

In [None]:
#Запускаем обучение модели в фоне
#pragma async
model = create_model()
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
model.fit(x=x_train,
          y=y_train,
          epochs=5,
          validation_data=(x_test, y_test))
model = create_model()
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

In [None]:
# Пока в фоне происходит обучение модели, 
# мы можем выполнять операции в основном потоке вычислений в ноутбуке
a = 5
print(a)

Чтобы прервать выполнение фоновой операции, нужно выделить ячейку, в которой она выполняется, и в главном меню выбрать **Kernel** ⟶ **Interrupt selected cell(s)**  

![](https://storage.yandexcloud.net/onboarding-notebooks/screenshots/interrupt-selected.png)

In [None]:
#После окончания вычисления фоновой операции ее результат может понадобиться явно замержить
#Нам поможет команда %apply_state и идентификатор состояния, указанный в warning
%apply_state <checkpoint id>
#В результате увидим сообщение "State merged!"

<a id='section-id2'></a>
## 2. Early Access Version: Фоновый запуск последовательности операций

В режиме [Early Access Version](welcome_ru.ipynb#section-id3) доступен фоновый запуск не только для одной операции, но и для последовательности операций.
Фоновый запуск посдедовательности операций также может выполняться на прерываемых виртуальных машинах, и тарификация фонового запуска последовательности операций происходит <a href="https://cloud.yandex.ru/docs/datasphere/pricing#async"> по тем же правилам</a>, что и тарификация одной фоновой операции. 

В отличие от фонового запуска одной операции, для запуска последовательности нужно указать желаемое количество запусков, периодичность сохранения промежуточных результатов и правило выбора конечного результата. Для фонового запуска последовательных операций в ячейке нужно указать команду **#pragma repeat**.

Запустим обучение модели, рассмотренной [выше](#section-id2). В этом примере мы запускаем обучение модели 20 раз и сохраняем результат каждые 5 итераций. В состояние попадет модель, которая показала лучший результат на тестовых данных.

In [None]:
#pragma repeat --iterations 20 --checkpoint-period 5 --max-by "model.evaluate(x_test, y_test, verbose=0)[1]"

model.fit(x_train, y_train, epochs=1, verbose=0)

In [None]:
#Как и в случае однокраnной фоновой операции, замержим результат, используя идентификатор состояния (result id) нужной попытки
%apply_state <checkpoint id>

<a id='section-id3'></a>
## 3. Делегирование вычислений на кластера Data Proc
Бесшовная интеграция DataSphere с сервисом Yandex Data Proc позволяет делегировать вычисления на кластерах Apache Spark™ прямо из ноутбука. Можно использовать уже существующий кластер, а можно создать его прямо из ноутбука DataSphere.
Чтобы вы могли создавать кластеры Data Proc из DataSphere или запускать уже существующие кластеры Data Proc, у проекта должны быть указаны:
- [сервисный аккаунт](https://cloud.yandex.ru/docs/iam/concepts/users/service-accounts), от имени которого будут производиться все операции с кластерами Data Proc.
- подсеть, в которой будет создаваться или из которой будет подключаться уже существующий кластер Data Proc. В рамках интеграции доступны только подсети, созданные в зоне доступности **ru-central1-a**.
Эти параметры можно выбрать в дополнительных настройках проекта в консоли.

![](https://storage.yandexcloud.net/onboarding-notebooks/screenshots/project-settings.jpg)

Давайте создадим кластер прямо из ноутбука DataSphere. В главном меню выберите **File** ⟶ **Data Proc Clusters**. В открывшемся окне создания кластера задайте имя и размер нового кластера.
     
![](https://storage.yandexcloud.net/onboarding-notebooks/screenshots/data-proc-clusters.jpg) ![](https://storage.yandexcloud.net/onboarding-notebooks/screenshots/new-data-proc-cluster.png)

Чтобы запустить вычисление на DataProc, укажите **#!spark --cluster <имя кластера>**. В примере ниже мы запустим вычисление на созданном нами кластере с именем **new**.

In [None]:
#!spark --cluster new
import random

def inside(p):
    x, y = random.random(), random.random()
    return x*x + y*y < 1

NUM_SAMPLES = 1_000_000

count = sc.parallelize(range(0, NUM_SAMPLES)) \
             .filter(inside).count()
print("Pi is roughly %f" % (4.0 * count / NUM_SAMPLES))

<a id='section-id4'></a>
## 4. Распределенное обучение — Training as a Service

Training as a Service дает возможность быстро обучить модель, используя распределенное обучение "под ключ". Чтобы использовать TaaS в DataSphere, не нужны специальные навыки: платформа поможет оптимально масштабировать обучение, написанное для одного GPU, на несколько ускорителей одной или нескольких виртуальных машин.

Подробности о распределенном обучении читайте в [документации](https://cloud.yandex.ru/docs/datasphere/concepts/taas). 

<a id='section-id5'></a>
## 5. Индикаторы загрузки памяти, CPU и GPU

Они видны в ноутбуке в верхнем правом углу.

![](https://storage.yandexcloud.net/onboarding-notebooks/screenshots/mem-indicators.jpeg)

<a id='section-id6'></a>
## 6. TensorBoard

DataSphere поддерживает TensorBoard. 

In [None]:
#Запустим еще раз обучение модели, описанной выше
model = create_model()
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

log_dir = "logs/fit/" + datetime.datetime.now().strftime("%Y%m%d-%H%M%S")
tensorboard_callback = tf.keras.callbacks.TensorBoard(log_dir=log_dir, histogram_freq=1)

model.fit(x=x_train, 
          y=y_train, 
          epochs=5, 
          validation_data=(x_test, y_test), 
          callbacks=[tensorboard_callback])

In [None]:
#Теперь мы можем наблюдать прогресс на TensorBoard
%tensorboard --logdir logs/fit

Помимо отрисовки TensorBoard прямо в ноутбуке, можно воспользоваться панелью слева, где отображены все сессии TensorBoard, и перейти к графу TensorBoard в отдельной вкладке.   

![](https://storage.yandexcloud.net/onboarding-notebooks/screenshots/tensorboard.jpeg)

<a id='section-id7'></a>

## 7. Узнать о Yandex DataSphere больше
У нас есть подробная [документация](https://cloud.yandex.ru/docs/datasphere/).

**Еще три полезных ноутбука**  
- [Добро пожаловать в Yandex DataSphere](welcome_ru.ipynb#section-id0)
- [О работе с данными и версионировании кода, переменных и состояния в Yandex DataSphere, а также о том, как поделиться результатами](dataflow_ru.ipynb#section-id0)
- [Настройка рабочей среды в Yandex DataSphere](environment_ru.ipynb#section-id0)

**Видео о DataSphere:**
- <a href="https://www.youtube.com/watch?v=udZcoKwb6aM&lc=UgyYeJGhB1WX-FvyqTJ4AaABAg"> вебинар "Новое в Yandex DataSphere для ML-разработки" (февраль 2021) </a>
- <a href="https://www.youtube.com/watch?v=_haQTawg940"> практический вебинар по DataSphere (ноябрь 2020) </a>
- <a href="https://youtu.be/1px5ZoN44cE"> доклад на Yandex.Scale 2020 о возможностях DataSphere (сентябрь 2020)</a>
- <a href="https://youtu.be/5y2-x9GcITs"> рассказ на Yandex.Scale 2020 о технической реализации DataSpher (сентябрь 2020)e</a>
- <a href="https://youtu.be/5o5OJOwDfaU"> практический вебинар, работа в DataSphere на примере публичных данных (август 2020)</a>
- <a href="https://www.youtube.com/watch?v=MtXpZ4RZAjk"> рассказ о DataSphere на конференции about:cloud  (май 2020) </a>

