Существует множество методологий для управления Data Science-проектами. Яркие примеры — SEMMA и Knowledge Discovery in Databases.

![dst-prod-container-4-2.png](attachment:dst-prod-container-4-2.png)

Однако наиболее популярной и распространенной является методология Cross-Industry Standard Process for Data Mining, или сокращенно CRISP-DM.

![dst-prod-container-4-4.png](attachment:dst-prod-container-4-4.png)

Процесс, согласно методологии CRISP-DM, состоит из следующих ключевых фаз: 

1. Понимание бизнес-целей (Business Understanding)

↓

2. Изучение данных (Data Understanding)

↓

3. Подготовка данных (Data Preparation)

↓

4. Моделирование (Modeling)

↓

5. Оценка (Evaluation)

↓

6. Внедрение (Deployment)

↓

возвращение к п. 1…

КАК ВИДИТЕ, ПРОЦЕСС ЦИКЛИЧЕН, ВЕДЬ МЫ СТРЕМИМСЯ ПОСТОЯННО УЛУЧШАТЬ РЕЗУЛЬТАТ!

На многих из этих этапов нас поджидают коварные подводные камни.

Во-первых, важно задаться вопросами о доступности данных:

- Что у клиента с данными?
- Как они хранятся?
- Они уже агрегированы?
- Оцифрована ли документация?
- Есть ли справочники и прочее?
- Какие каналы связи?
- Предполагается ли ручной ввод?

Во-вторых, мы должны спросить себя: 

- Можно ли вообще решить задачу?
- Есть ли опыт в подобных задачах? 
- Существуют ли способы решения задачи без использования ML? 

При оценке результатов мы должны убедиться, что все факторы учтены, а результаты статистически значимы.

На этапе внедрения мы должны понять, будет ли происходить деградация модели во времени в связи с изменением распределений входных данных, и возможно ли автоматизировать оценку качества, обновление моделей и их деплой. 

→ В следующей главе мы поговорим об инструментах, которые помогут улучшить, стандартизировать, упростить и автоматизировать процессы, происходящие в рамках реализации различных Data Science-проектов. 

Обзор инструментов: DVC и MLFlow

Действительно, на текущий момент нет единого сформировавшегося стандарта и соответствующего инструмента. Каждый день умирают старые фреймворки и появляются новые. Список инструментов действительно бесконечный: DVC, MLflow, Metaflow, Ebonite, Kedro, Kubeflow, BentoML, allegro.ai, seldon.ai, flyte, pachyderm, trains, plynx, valohai и ещё пара десятков библиотек с не очень понятной судьбой и историей…

Сама отрасль Data Science развивается настолько стремительно, что инструменты быстро становятся неактуальными или просто перестают удовлетворять требованиям. Однако мы считаем своим долгом рассказать о некоторых популярных инструментах и задачах, которые они помогают решать. 

DVC

Одним из таких инструментов является DVC (акроним от Data Version Control). Этот инструмент позволяет управлять версиями данных и обученных моделей.

Вы уже знакомы с системой управления версиями Git. Слабая сторона этой системы состоит в том, что она не предназначена для работы со слишком большими файлами, например данными и моделями. Наверняка вы уже успели столкнуться с тем, что модель может занимать достаточно много места на диске, особенно когда мы говорим о глубоких нейросетях.

Представьте, что вы работаете над Data Science-проектом, в котором постоянно меняются входные данные для моделирования, потому что коллеги в вашей команде параллельно настраивают сбор данных и их предварительную обработку. Вам просто не обойтись без системы, которая поможет версионировать их. 

DVC позволяет управлять версиями файлов и каталогов данных, промежуточными результатами и моделями ML с использованием системы управления версиями Git. При этом в репозитории сохраняется не содержимое файлов, а только их метаданные. 

Для фактического хранения данных DVC поддерживает различные типы удаленного хранилища. Например, можно использовать обычные сервера при помощи SSH-доступа или облачные, такие как Amazon S3, Microsoft Azure, Google Диск и многие другие. Это позволяет легко сохранять данные и обмениваться ими вместе с кодом.

MLFLOW

Следующий довольно популярный инструмент — это MLflow, платформа с открытым исходным кодом. Она позволяет мониторить эксперименты, обеспечивает воспроизводимость и помогает развёртывать модели. 

MLflow в настоящее время предлагает несколько компонентов:

- MLflow Tracking позволяет логировать эксперименты и сохранять для каждого код, данные, настройки алгоритмов и результаты обучения.
- MLflow Projects требуется для упаковки кода обученных моделей в собственный специальный формат.
- MLflow Models отвечает за деплой обученных моделей машинного обучения.
- Model Registry — это, по сути, хранилище для моделей. В нём можно сохранить информацию и метаданные для каждой модели и управлять ими.

Однако основная фишка MLflow заключается в трекинге экспериментов: мы фиксируем модель и её параметры и сохраняем метрики на выходе.

Однако деплой с его помощью нельзя назвать production-ready. В этом инструменте нет, например, мониторинга запущенных образов.

→ В следующем видео мы познакомим вас с Ebonite — инструментом, разработкой которого занимаются авторы этого модуля. Он позволяет быстро и легко автоматизировать сборку сервисов моделей машинного обучения. 

Обзор инструментов: Ebonite

Мы давно поняли, что управление жизненным циклом моделей машинного обучения — процесс рутинный, но тривиальным его не назовёшь.

При разработке модели недостаточно сделать просто fit-predict. Нужно несколько важных вещей:

- Создавать и запускать сервисы на основе моделей одной строчкой кода (или почти одной).
- Обеспечить быструю доставку модели в продакшн-среду и существующую инфраструктуру.
- Отслеживать метрики и следить за их деградацией.

Если моделей больше, чем одна, это становится настоящей головной болью для Data Scientist. Фокус его внимания смещается от моделирования и анализа данных к инжиниринговым задачам. 


Мы в компании Zyfra разрабатываем систему управления жизненным циклом моделей машинного обучения Ebonite. Он становится нужен в следующих случаях:

- У вас больше одной модели в продакшне.
- Необходимо добавлять новые модели.
- Требуется строить сложные multi-staging (многофазные) модели.
- Нужно переобучать существующие модели.
- Нужно отслеживать деградацию моделей.
- Несколько разных команд работают с моделями.

Основная задача Ebonite — избавить Data Scientist от инженерной рутины и помочь автоматизировать их. Ebonite решает следующие задачи: 

- Оборачивает модели и запускает их как сервис. 
- Позволяет управлять сервисами на основе созданных моделей.
- Обеспечивает быструю доставки моделей в продакшн и их интеграцию в существующую инфраструктуру.

В будущем (уже скоро!) позволит отслеживать метрики моделей и быстро сравнивать их.

Давайте посмотрим, как устроен Ebonite? 

![dst-prod-container-4-19.png](attachment:dst-prod-container-4-19.png)

КАК ЭТО РАБОТАЕТ?

1. Пользователь выбирает модель и тип сервера.
2. Из модели достается список зависимостей, дополнительный код, артефакты.
3. Из сервера достаются зависимости и дополнительный код.
4. По шаблону генерируется DockerFile.
5. Все складывается в папку для Docker-контекста и собирается.

Это описание встроенного сборщика сервисов. Его можно расширять, например кастомизировать шаблон DockerFile или собирать другие объекты.

Ниже вы можете посмотреть скринкаст с записью практической работы с Ebonite. Обратите внимание, что в скринкасте использована версия Ebonite 0.5.2.

In [None]:
! pip install -U ebonite flask flasgger==0.9.3 scikit-learn ebonite==0.5.2

In [None]:
from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression

X, y = load_diabetes(True)

lr = LinearRegression()
lr.fit(X, y)

In [None]:
import ebonite

In [None]:
model = ebonite.create_model(lr, X, model_name='diabetes_model_1')

In [None]:
model

In [None]:
from pprint import pprint

In [None]:
from pyjackson import serialize

pprint(serialize(model))

In [None]:
ebnt = ebonite.Ebonite.local(clear=True)

In [None]:
task = ebnt.get_or_create_task('my_prj', 'diabetes_task')

In [None]:
task

In [None]:
pprint(serialize(task))

In [None]:
task.push_model(model)

In [None]:
pprint(serialize(model))

In [None]:
! ls -la .ebonite/artifacts/0

In [None]:
model.id

In [None]:
del model

In [None]:
model = ebnt.get_model('diabetes_model_1', task)

In [None]:
model

In [None]:
from ebonite.runtime import run_model_server

In [None]:
from ebonite.ext.flask.server import FlaskServer

In [None]:
run_model_server(model, FlaskServer())

In [None]:
image = ebnt.build_image('nb_example_diabetes', model, FlaskServer(), force_overwrite=True)

In [None]:
instance = ebnt.create_instance('nb_example_diabetes', image, ports_mapping={9000:80})

In [None]:
instance.is_running()

In [None]:
instance.run()

In [None]:
! docker ps

In [None]:
instance.is_running()

In [None]:
from ebonite.ext.flask.client import HTTPClient

In [None]:
client = HTTPClient('localhost', 80)

In [None]:
client.methods

In [None]:
import numpy as np
client.predict(np.array([[1.,2,3,4,5,6,7,8,9,10]]))

In [None]:
def is_bad(data):
    preds = lr.predict(data)
    return preds > 50


In [None]:
model2 = ebonite.create_model(is_bad, X, 'diabetes_model_2')
task.push_model(model2)

In [None]:
pprint(serialize(model2))

In [None]:
image2 = ebnt.build_image('nb_example_diabetes2', model2, FlaskServer(), force_overwrite=True)

In [None]:
instance2 = ebnt.create_instance('nb_example_diabetes2', image2, ports_mapping={9000:81})

In [None]:
instance2.run()

In [None]:
client2 = HTTPClient('localhost', 81)

In [None]:
client2.predict(np.array([[1.,2,3,4,5,6,7,8,9,10]]))

In [None]:
client2.methods