Базовые этапы работы над задачей машинного обучения:

![](ML_scheme.jpg)

В зависимости от задачи (обучение с учителем или без, задача регрессии или классификации) и особенностей алгоритмов, последовательности шагов могут быть разными. Однако есть общие базовые принципы, достойные вашего внимания.
Постановка задачи
Определяет дальнейшую судьбу вашей модели. На этом этапе вы переводите определённую бизнес-задачу в плоскость математики, аналитических инструментов и машинного обучения. Убедитесь, что вы хорошо понимаете стоящую перед бизнесом проблему — от этого зависит выбор модели, алгоритма и метрик.

EDA

Прежде чем отправить данные на вход модели и получить прогнозы, проводят «разведку данных» — EDA (англ. explоratory data analysis), или исследовательский анализ данных. На этом этапе вы изучаете распределения отдельных признаков и целевой переменной, строите корреляции между величинами, исследуете специфику датасета. Бывает полезно построить гистограммы признаков. В библиотеке seaborn такие графики отрисовывают функцией distplot() (от англ. distribution plot, «график распределения»):
Разведка данных позволит сформулировать первые гипотезы относительно качества данных и аномалий в них. Уже на этом шаге можно предположить, какие признаки станут ключевыми для модели, а какими можно и даже нужно пренебречь. EDA способен вдохновить вас на генерацию новых признаков на основе имеющихся. Такой анализ важен с точки зрения как бизнеса, так и качества будущей модели. Вы погрузитесь в природу данных, увидите за цифрами смысл и сделаете ценные предположения.



Подготовка данных

Когда в вашем распоряжении пара часов, а построить базовую модель (англ. baseline, «базовый уровень») нужно срочно, без подготовки данных можно обойтись. Однако на практике данные часто предобрабатывают, а именно:
обрабатывают пропущенные значения;
преобразуют отдельные признаки (например, переводят категориальные признаки в количественные);
нормализуют или стандартизируют данные (эту операцию подробно разберём в следующей теме);
создают новые признаки (фичи) на основе уже существующих. Этот этап ещё называют feature engineering (англ. «проектирование признаков»), и иногда он может вывести вашу модель на совершенно новый уровень качества.



Выбор валидационной стратегии

В прошлом уроке вы разделили выборку на обучающую и валидационную и узнали, почему важно оценивать метрики именно на отложенной части наблюдений. В зависимости от типа данных и особенностей задачи, на этом этапе следует выбрать способ формирования валидационного множества. Вы изучите это подробнее в третьей теме курса.
Также на этом шаге важно убедиться, что распределение величин на обучающей выборке близко к тому, с которым модель будет работать в реальности. Иначе всё это не имеет смысла.


ВАЖНО  
Если у нас данные имеют временные ряды, то нельзя разбивать выборки случайно.  
Нужно валидационную выборку брать из конца данных.  
Иначе модель будет как бы  "заглядывать в будущее".

Тут важно сравнить распределение обучающих и валидационных выборок.

In [None]:
# разделяем модель на обучающую и валидационную выборку
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
# гистограмма целевой переменной на train
sns.distplot(y_train)# напишите ваш код здесь
# гистограмма целевой переменной на test
sns.distplot(y_test)# напишите ваш код здесь


Выбор алгоритма

В зависимости от типа задач (с учителем или без) и поставленной проблемы, у вас есть целый арсенал различных алгоритмов со своими достоинствами и недостатками. Одни алгоритмы точнее, но их сложно интерпретировать; другие — быстрые, но притом слабее. Вот основные критерии выбора алгоритма:
Точность;
Скорость;
Интерпретируемость;
Индивидуальные особенности алгоритмов: на разных типах признаков они работают по-разному.
Даже у самого простого алгоритма есть множество настраиваемых параметров. Иногда они могут повлиять на качество и скорость обучения вашей модели. Чаще всего выбор параметров происходит итеративно. Вы обучаете модель с одними параметрами, оцениваете метрики, видите, что они так себе — меняете параметры, снова обучаете и проверяете качество. Это можно делать бесконечно, но мы научим вас останавливаться вовремя.
В следующей теме курса вы изучите алгоритмы более подробно.



Выбор метрик

Прежде чем обучать алгоритм, определитесь, как будете оценивать его качество.
Для каждого типа задач (классификация, регрессия, кластеризация) есть стандартный набор метрик. Однако важно не просто «прогнать» результаты через этот набор, а понять, какая метрика лучше всего отражает суть бизнес-процесса.
Во второй теме вы узнаете, какие бывают метрики и чем они отличаются. Когда-нибудь вы даже придумаете свою метрику, чтобы убедить коллег, что модель действительно помогает бизнесу и вообще приносит пользу.
На этом же шаге полезно узнать, какие способы решения задачи уже применяют в компании. Это позволит честно оценить, действительно ли машинное обучение даёт вам преимущество в сравнении с более консервативными инструментами (англ. baseline).


после выбора приоритетной метрики можно так настроить процесс обучения, чтобы он эту метрику оптимизировал. Скажем, решая задачу регрессии и используя RandomForestRegressor(), задаёте интересующую вас метрику напрямую при оптимизации обучения алгоритма:

In [None]:
model = RandomForestRegressor(criterion='mae')

Так алгоритм не столь чувствителен к случаям, когда модель сильно ошибается на отдельных наблюдениях — будете оптимизировать обучение, сводя к минимуму модуль ошибки. А если вы зададите модель таким образом:

In [None]:
model = RandomForestRegressor(criterion='mse')

модель за ошибки будет «оштрафована» сильнее, так как разница реального и спрогнозированного значений здесь возводится в квадрат, а не просто считается по модулю.


Обучение и прогнозирование

Вы прошли все шаги, дальше вступает алгоритм с традиционным fit-predict. На стадии fit вы передаёте ему подготовленную порцию данных (train-выборку), он на ней обучается и строит взаимосвязи между признаками.
Переходим к predict. У вас осталась отложенная порция данных, для которых вы знаете признаки и ответы. На этом этапе вы берёте только признаки, передаёте их на вход обученной модели и сохраняете предсказанные значения.
Оценка качества результатов и выбор лучшей модели
На этом шаге вы определяете, насколько спрогнозированные вами значения для объектов из валидационной выборки отличаются от реальных. Часто оценивают не один, а несколько алгоритмов и на основании выбранных метрик выбирают лучший.



Оценка важности признаков

Вы выбрали самый успешный алгоритм, который показывает лучшие в сравнении с baseline и другими алгоритмами результат. Чаще всего этого недостаточно, чтобы начать использовать вашу модель в бою. Нужно ещё раз убедиться, что модель отразила правильные паттерны и взаимосвязи между данными. Как это сделать? Например, применив анализ важности признаков. Этот набор подходов позволяет оценить не только что предсказала модель, но и почему. Оценка важности признаков позволяет коллегам из других подразделений поверить в модель и взять её на вооружение.



Что дальше?

Вы нашли данные, преобразовали их, разделили на обучающую и валидационную выборки, выбрали несколько подходящих алгоритмов. Дальше fit-predict. Выбрали лучшую модель, проинтерпретировали важность признаков и даже сами поверили в то, что она работает. Вы прекрасны! Внедряем модель в текущие рабочие процессы и реализуем в продуктивной среде?
На самом деле всё не так просто: вы проходите пайплайн один раз, а потом чаще всего возвращаетесь на предыдущие этапы, что-то меняете и смотрите, как преобразился результат. Это совершенно нормально. Как нормально и то, что иногда, как бы хороши ни были вы, данные и модель, в применении машинного обучения смысла никакого.

Важно понимать достаточно ли у нас данных для обучения модели.

Минимально необходимое количество наблюдений в выборке линейно связано с числом признаков. То есть минимальная выборка может быть рассчитана по формуле s = k * n, где n — число признаков для каждого наблюдения, а k — коэффициент, который из опыта часто считают равным 10. Если на одного пользователя приходится 20 признаков, то для обнаружения зависимостей нужно как минимум 200 пользователей. А вот если признаков 150, то и тысячи пользователей не хватит.

Pipeline ML

Постановка задачи  
- Самый важный момент в разработке моделей машинного обучения — корректная постановка задачи. Сначала детализируйте её с точки зрения бизнеса, а уже потом переходите к математической формулировке.

Формулирование бизнес-задачи  
Основные вопросы, на которые важно ответить:  
- Что мы прогнозируем и какую бизнес-задачу этим решаем?
- Какие данные для этого есть?
- Кто и как будет использовать вашу модель (как она встраивается в бизнес-процесс)?
- Какие результаты вы хотите получить?
    - как в компании до вас решали эту проблему и насколько успешно?
    - какой бизнес-эффект может дать ваша модель?
    - достаточно ли у вас ресурсов (время, люди, финансы, вычислительные ресурсы)?
    - по каким метрикам вы будете оценивать качество работы вашей модели?
    - есть ли успешные бенчмарки (примеры с рынка) использования машинного обучения в подобных задачах?
    
Формализация задачи и её перевод на язык машинного обучения  
Если вы смогли чётко ответить на все эти вопросы и убедиться в том, что вам действительно нужно использовать инструменты машинного обучения, переводите бизнес-постановку задачи в термины ML. Что это значит:  
- определение типа задачи (обучение с учителем/без, классификации/регрессии/кластеризации)
- признаки:  
    - какие данные выбрать в качестве признаков?
    - каков размер выборки?
    - за какой период?
    - каково качество этих данных?
    - есть ли в данных временная структура?
- какие метрики вы будете использовать при оптимизации и оценке качества модели  
- есть ли у модели ограничения?  
    - скорость
    - интерпретируемость результатов
    - точность
    - время на разработку
- какие алгоритмы вы планируете использовать? На этот вопрос вы сможете ответить с учётом предыдущих пунктов