**Искусственный интеллект** (Artificial Intelligence, ИИ) — это способность компьютерной системы имитировать когнитивные функции человека, такие как обучение и решение задач. ИИ позволяет компьютеру моделировать рассуждения людей для получения новых сведений и принятия решений.
Цель этой науки — понять, как устроен мозг человека и научиться моделировать его работу с помощью компьютера. 
В области искусственного интеллекта есть несколько подразделов:

* робототехника (Robotics),
* компьютерное зрение (Computer Vision),
* обработка естественного языка (Natural Language Processing),
* машинное обучение (Machine Learning).

**Машинное обучение** (Machine Learning) — это один из разделов науки об искусственном интеллекте. Машинное обучение заключается в построении моделей с помощью поиска закономерностей в данных и использовании их для того, чтобы спрогнозировать характеристики новых данных.
Всё машинное обучение держится на трёх очень важных столпах:
1) Набор данных (dataset) — это множество примеров (выборка), на котором происходит обучение модели. Это могут быть табличные данные, с которыми мы уже работали, текст, аудио, изображения (видео) и т. д.
2) Признаки (features) — это свойства, характеристики, которыми описываются наши объекты. Для недвижимости это могут быть площадь, этаж, район; для автомобиля — пробег, мощность двигателя, цвет и т. д.
Признак, который мы хотим предсказать, называется целевым признаком (target feature). Иногда признаки, на основе которых мы хотим предсказать целевой, могут называться факторами (factors).
3) Модель машинного обучения (ML-model) — это некоторый математически формализованный метод (алгоритм) описания зависимости в данных. Как правило, модель имеет настраиваемые (регулируемые) параметры.
В простом понимании модель — это математическая формула, которая связывает факторы с целевым признаком. Вспомним пример из школы: формула y = kx^2 связывает целевую переменную y и фактор x квадратичной зависимостью, а коэффициент k — это параметр.
В более обширном понимании модель может выражаться не формулой — это может быть математически описанная последовательность действий (алгоритм).

За управление параметрами отвечает некоторая функция ошибки, или, как её ещё называют, функция потерь (loss function). Это некоторая математическая функция, которая показывает различие между фактическими ответами и предсказаниями модели.

Самый простой пример функции ошибки — MSE (Mean Squared Error), средний квадрат разницы между ответами. Формально она записывается следующим образом:![image.png](attachment:image.png)

Примечание. Рассмотренная схема называется обучением на основе минимизации ошибок, или, говоря более научным языком, минимизацией эмпирического риска (риска ошибки).

Стоит отметить, что такая схема обучения далеко не единственная и подходит не для всех моделей. Однако она является наиболее популярной.

Помимо обучения на основе ошибок, существуют следующие схемы:

* на основе прироста информации (используются в деревьях решений);
* на основе «сходства» объектов (используется в методе ближайших соседей);
* на основе вероятностных законов (например, метод максимального правдоподобия).

Более того, мы увидим, что бывают задачи, где нет правильных ответов, то есть мы не можем подсчитать функцию ошибки. Этот класс задач называется обучением без учителя.

Очень часто функции ошибок сложно интерпретировать: например, существует функция ошибки log loss (логистическая функция потерь), она может изменяться от 0 до бесконечности. Непонятно, что считать хорошим качеством, а что — плохим, где эта грань. Например, 15.332 — это хороший результат? А 1.67 — это хороший результат? К тому же, если вам надо узнать, как часто ваша модель угадывает правильный ответ, log loss вам этого не скажет.

Поэтому для оценки качества модели вводится ещё одно понятие — метрика.

Примечание. Метрика ≠ функция потерь.

**Метрика** (metric) — это численное выражение качества модели (или её ошибки). Иногда метрика может совпадать с функцией потерь, но чаще всего они различны. Метрика, как правило, должна быть интерпретируемой и понятной — в этом её главное отличие от функции потерь.

**Глубокое обучение** (Deep Learning) — подраздел машинного обучения. Глубокое обучение основано на изучении и применении в качестве инструмента для решения задач искусственных нейронных сетей. Данные алгоритмы основаны на имитации работы человеческого мозга.
Самым важным качеством любой нейронной сети является её **архитектура** (набор и порядок её слоёв). От неё зависит качество и скорость обучения. В настоящее время миру известно множество различных архитектур, многие из которых объединены для решения целых классов задач.
![image-2.png](attachment:image-2.png)
в данных и особенностей обучения выделяют следующие виды машинного обучения:

* обучение с учителем (supervised learning),
* обучение без учителя (unsupervised learning).
В отдельную категорию, не похожую на предыдущие, выделяют ещё один вид машинного обучения — обучение с подкреплением (reinforcement learning).
При этом обучение с учителем и обучение без учителя содержат в себе отдельные типы задач машинного обучения, такие как регрессия, классификация, кластеризация, понижение размерности и ассоциация.
# **ОБУЧЕНИЕ С УЧИТЕЛЕМ**
![image-3.png](attachment:image-3.png)
Данный вид обучения основан на том, что у машины есть некий учитель, который сообщает ей, как поступать правильно, рассказывает, что на этой картинке изображена кошка, а на этой — собака. То есть мы заранее разделили все данные на кошек и собак, а машина учится на конкретных примерах и правильных ответах к ним.

Данные, в которых содержится информация о целевом признаке, называются размеченными.

Разметка данных — это, как правило, довольно сложный и длительный процесс, если его нельзя автоматизировать. Особенно сложна разметка текстов, звука и изображений. Причём легко догадаться, что от качества разметки зависит и качество финальной модели.

Например, для решения задач классификации, детектирования и сегментации объектов на изображениях разметку выполняют вручную.
На этом же примере можно выявить главную проблему обучения с учителем. Эта проблема называется возможностью **переобучения**. Это ситуация, когда модель полностью подстраивается под данные, на которых происходит обучение, но на реальных данных показывает значительно более низкое качество. Борьба с переобучением — очень важная задача, о которой мы поговорим отдельно.

Вид обучения с учителем включается в себя два основных типа задач: регрессия — предсказание числа и классификация — предсказание категории объекта.
##  **Регрессия**
Задача регрессии (regression) — это задача, в которой мы пытаемся предсказать вещественное число на основе признаков в наборе данных. То есть задача сводится к предсказанию целевого признака, который является числовым.
Классическими методами регрессии являются линейная (Linear) и полиномиальная (Polynomial) регрессия. Но они являются далеко не единственными.
Полиномиальная регрессия использует в качестве модели полином (многочлен), который отражает нелинейную зависимость.
![image-4.png](attachment:image-4.png)
Нередко в качестве отдельного подвида задачи регрессии выделяют задачу прогнозирования. 

**Прогнозирование** (forecasting) — это задача регрессии, в которой мы пытаемся предсказать будущее поведение временного ряда, то есть целевая переменная является числовой и зависит от времени. Причём каждому моменту времени соответствует одно конкретное значение. Можно сказать, что прогнозирование — это частный случай регрессии.
## **Классификация**
**Задача классификации** (classification) — задача, в которой мы пытаемся предсказать класс объекта на основе признаков в наборе данных. То есть задача сводится к предсказанию целевого признака, который является категориальным.
Чаще всего мы сталкиваемся с бинарной классификацией: целевой признак имеет две возможные категории («да» — 1 или «нет» — 0)
Когда классов, которые мы хотим предсказать, более двух, классификация называется мультиклассовой (многоклассовой). Например, предсказание модели самолёта по радиолокационным снимкам, классификация животных на фотографиях, определение языка, на котором говорит пользователь, разделение писем на группы.
Для решения задачи классификации может использоваться множество моделей:

* логистическая регрессия (Logistic Regression),
* метод опорных векторов (SVM),
* деревья решений (Decision Tree),
* наивный байесовский классификатор (Naive Bayes),
* метод ближайших соседей (kNN).

# **ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ**
Обучение без учителя подразумевает, что у вас нет правильных ответов. То есть признак, который вы хотите предсказать, вам недоступен. Подход основан на том, что алгоритм самостоятельно выявляет зависимости в данных только на основе схожести объектов в данных между собой.
Данный вид машинного обучения разбивается на несколько самостоятельных типов задач:

* кластеризация,
* понижение размерности,
* ассоциация.
![image-5.png](attachment:image-5.png)
## **Кластеризация**
**Задача кластеризации** (clustering) — это задача, в которой мы разделяем данные на группы на основе признаков в данных.
На первый взгляд может показаться, что эта задача идентична классификации, но в задаче кластеризации у нас нет правильных ответов. То есть у нас нет учителя: мы пытаемся разделить данные на категории, опираясь только на «близость» объектов. Причём результаты каждого из алгоритмов кластеризации могут быть разными, потому что «близость» — понятие относительное и её можно измерять различными способами.
Цель обучения — построить модель, которая наилучшим образом объединит «похожие» объекты в группы.

Самая сложная часть в задаче кластеризации — проинтерпретировать полученные кластеры, понять, что именно объединяет объекты, попавшие в тот или иной кластер.

Типичные методы кластеризации при известном заранее количестве кластеров:

* *етод k-средних (k-means),
* EM-алгоритм,
* агломеративная кластеризация.
![image-6.png](attachment:image-6.png)
## **Понижение размерности (обобщение)**
**Понижение размерности** (dimensionality reduction) — задача, в которой мы пытаемся уменьшить количество признаков, характеризующих объект. Обычно мы уменьшаем количество признаков до 2-3 для того, чтобы получить возможность визуализировать данные.
* Практическая польза этих методов состоит в том, что мы можем объединить несколько признаков в один и получить абстракцию.

Например, собаки с треугольными ушами, длинными носами и большими хвостами объединяются в полезную абстракцию «овчарки». Да, мы теряем информацию о конкретных овчарках, но новая абстракция точно полезнее этих лишних деталей.

* Ещё одно проявление пользы таких алгоритмов — увеличение скорости обучения. Мы уже говорили о проклятии размерности: «чем больше признаков в данных, тем сложнее модели обучиться на них». Методы понижения размерности позволяют свести эту проблему к минимуму. Однако точность моделей может сильно упасть, поэтому необходимо уметь находить баланс.

* Ещё один приятный бонус — мы автоматически избавляемся от мультиколлинеарности признаков. Методы понижения размерности устроены так, что в первую очередь объединяют между собой наиболее коррелированные признаки.

Инструмент на удивление хорошо подошёл для определения тематик текстов (Topic Modelling). Благодаря понижению размерности можно абстрагироваться от конкретных слов до уровня смыслов даже без привлечения учителя со списком категорий. Алгоритм назвали «латентно-семантический анализ» (LSA), и его идея состоит в том, что частота появления слова в тексте зависит от его тематики: в научных статьях больше технических терминов, в новостях о политике — имён политиков.

Другое популярное применение метода уменьшения размерности — рекомендательные системы. Оказалось, если обобщать оценки пользователей, получается неплохая система рекомендаций кино, музыки, игр и чего угодно вообще. У Яндекса есть хорошая лекция, посвящённая данной тематике. 
![image-7.png](attachment:image-7.png)

Основные алгоритмы понижения размерности:

* метод главных компонент (PCA),
* сингулярное разложение (SVD),
* латентное размещение Дирихле (LDA),
* латентный семантический анализ (LSA),
* t-SNE.

## **Ассоциация (бонус)**
**Ассоциация** (association) — это задача, в которой мы пытаемся найти правила и законы, по которым существует последовательность действий. 
Примеры использования: прогноз акций и распродаж, анализ товаров, покупаемых вместе, расстановка товаров на полках, анализ паттернов поведения на веб-сайтах.

Основные ассоциативные модели:

* Apriori,
* Eclat,
* FP Growth.

# **Виды машинного обучения: обучение с подкреплением**
![image-8.png](attachment:image-8.png)
Обучение с подкреплением кардинально отличается от обучения с учителем и без него, поэтому его выделяют в отдельный вид обучения.

Это не задачи, связанные с анализом данных и предсказанием, а задачи взаимодействия со средой и «выживания» в ней. 
Средой может быть видеоигра: в такой искусственной среде «выживают», например, роботы, играющие в Mario, или интеллектуальные боты во множестве других игр.

Средой может быть и реальный мир, точнее — его часть: в такой среде существуют, например, автопилот Tesla, роботы-пылесосы или беспилотные летательные аппараты.

Объект, который взаимодействует со средой (например, играет в игру), называется агентом.
![image-9.png](attachment:image-9.png)
Данные о среде могут быть полезны агенту, но они не являются главным фактором обучения. Неважно, сколько данных соберёт агент, — у него всё равно не получится предусмотреть все возможные ситуации.

Поэтому цель обучения — не рассчитать все ходы, а построить оптимальную стратегию для взаимодействия со средой и максимизировать финальную награду.
В математике уже давно известны методы, которые позволяют находить оптимальную стратегию. В основе обучения с подкреплением лежат теория игр, теория динамической оптимизации и ещё множество математических дисциплин.

Например, классический метод обучения с подкреплением — **Q-learning** — основан на уравнении Беллмана.

В Q-learning рассматриваются все состояния, в которых может находиться агент, и все возможные переходы из одного состояния в другое, которые определяются действиями.
Уравнение Беллмана помогает определить следующее оптимальное действие, такое, что значение Q-функции для определённой пары состояние-действие будет максимальной.

**Цель Q-learning** — приближённо найти (аппроксимировать) Q-функцию, которая ответит на вопрос, как нужно правильно играть, чтобы получить максимум награды.
Для сложных задач — сложные решения. В таких случаях для поиска сложных Q-функций привлекаются нейронные сети, а такое обучение носит название **Deep Q-Network (DQN)**.

На идеях Q-learning основаны и другие алгоритмы, например алгоритм SARSA.

Отдельный пласт в сфере обучения с подкреплением — **генетические алгоритмы**. Их идея отличается от идей Q-learning и состоит в следующем: мы бросаем множество агентов в среду и заставляем их идти к цели. Затем мы выбираем лучших из них — тех, кто прошёл дальше всех, скрещиваем, добавляем мутации и бросаем в среду ещё раз. Такие манипуляции мы проделываем огромное количество раз. В итоге по законам эволюции должно получиться разумное существо. Главный вопрос — сколько времени на это может понадобиться.

# **Процесс разработки**
Любая задача машинного обучения (классификация, регрессия, кластеризация и так далее) — это по сути обычная оптимизационная задача. 

Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию дата-сайентиста одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно чёткой последовательности действий.

Эта последовательность действий по работе над проектом называется **методологией разработки** (моделью процесса разработки).

## **МЕТОДОЛОГИЯ WATERFALL**
**Водопадная методология** (Waterfall model, «Водопад») — модель процесса разработки ПО в виде потока последовательных фаз. Схема разработки согласно этой модели представлена на схеме ниже:
![image-10.png](attachment:image-10.png)
Особенности методологии:
* Разработка происходит строго последовательно, этап за этапом. Переход на предыдущий этап не предусмотрен или требует формального процесса, например подачи заявки на изменения в организационный комитет и её одобрения.
* Планирование ведётся на всю длительность проекта в самом его начале.
* Все действия максимально регламентированы и спланированы до мелочей. Установлены чёткие сроки окончания каждого из этапов.
* По окончании каждого из этапов происходит формальная сдача результатов именно этого этапа в виде большого числа документов. Например, после этапа анализа требований заказчика рождается техническое задание (ТЗ), а после этапа тестирования — документ, который называется «Программа и методика испытаний». В РФ для содержания большинства документов предусмотрены ГОСТы.
* Результаты каждого из этапов тщательно проверяются на наличие ошибок. Только после исправления всех ошибок на текущем этапе команда может перейти на следующий этап.
* Готовый продукт передаётся заказчику только один раз в конце проекта (второй попытки не предусмотрено). У команды есть только один шанс на сдачу проекта, поэтому внимание к деталям и документации максимально пристальное.
*Waterfall* используется в проектах, где отсутствует неопределённость в требованиях заказчика: проект достаточно понятный и его можно спланировать в самом начале. То есть результат можно чётко представить заранее.

Это проекты в больших организациях и компаниях, в которых уже есть опыт разработки аналогичных проектов и есть чёткое понимание, через какие этапы нужно пройти и какое время они могут занять.
Методология особенно необходима в проектах, которые сопровождаются высокими затратами в случае провала. Это связано с тщательным отслеживанием каждого из этапов и уменьшением риска допустить ошибку. Уменьшение риска особенно критично в проектах оборонной и космической промышленности.

## **МЕТОДОЛОГИЯ AGILE**
**Гибкая методология** (Agile) — это модель процесса разработки ПО с гибким возвратом к любому этапу: если тест спроектированной модели не дал нужного результата, то разработчик может начать с самого начала.
Проект реализуется не как последовательность длительных этапов (как это было в Waterfall), а как ряд коротких временных отрезков — **спринтов**, на каждом из которых прогоняются все этапы.
![image-11.png](attachment:image-11.png)

Особенности методологии:
* Разработка происходит по итерациям. В конце каждой итерации промежуточный результат демонстрируется заказчику. Заказчик даёт обратную связь (устраивает ли его эта часть функционала). Итерации заканчиваются, когда готов финальный продукт и он устраивает заказчика. 
* Проект планируется только на один спринт. Длительность спринтов — от одной до четырёх недель. То есть вам необходимо продумать задачи только на короткий промежуток времени, что сильно повышает точность планирования.
* В случае если у вас что-то не получилось (например, модель показывает низкое качество), вы просто переходите на новую итерацию и теряете только время, потраченное на один спринт, а не на весь проект в целом.
* Agile не предусматривает множества формальных документов, в отличие от Waterfall.
* Команда полностью вовлечена в процесс, так как отсутствует формальная иерархия. Методология считается демократичной. Главный принцип — люди важнее процессов и инструментов.
* Заказчик видит продукт на протяжении всей разработки и может вносить коррективы (не выходящие за рамки изначального задания). Проект сдаётся, когда выполнены все требования и они устраивают заказчика.

Agile используется в тех случаях, когда в проекте есть неопределённость. Ни заказчик, ни пользователи, ни разработчики пока что полностью не представляют, что должно получиться в итоге.

Это разработка новых продуктов, которые требуют постоянной обратной связи. Вы и заказчик делаете эксперименты-расследования, маленькими шагами узнавая что-то новое о своём проекте. Это может быть новое мобильное приложение или облачный сервис, аналогов которому нет на рынке.

Недостатки Agile:
* Agile — это общая модель процесса разработки продукта, причём не только из сферы IT. Методология не учитывает особенности работы Data Science команды. Например, видите ли вы в процессе Agile-разработки такие этапы, как подбор параметров модели или расчёт метрик её качества? Куда их включить — в этап разработки или, может быть, в тестирование? Agile об этом не говорит.
* DS-команда может сдерживать Agile-разработку команды разработчиков ПО, потому что дата-сайентисты долго перебирают возможные модели. Постоянная настройка модели иногда может сдерживать ощутимый прогресс.
* Документирование не регламентировано. В DS-проектах документация и история всех используемых моделей очень важна, позволяет экономить время и облегчает возможность вернуться к изначальному решению.
Существуют специальные методологии, по которым работают именно Data Science команды. Например, это уже знакомая вам по модулю «Введение в профессию» модель CRISP-DM.

## **МЕТОДОЛОГИЯ CRISP-DM**
**CRISP-DM** (Cross-Industry Standard Process for Data Mining) — наиболее распространённая и проверенная методология по работе с проектами, завязанными на данных. Модель жизненного цикла исследования данных в методологии состоит из шести фаз, а стрелки обозначают наиболее важные и частые зависимости между фазами.
![image-12.png](attachment:image-12.png)
Особенности методологии:
* Методология CRISP-DM разработана специалистами по работе с данными и учитывает особенности DS-проектов.
* Иногда говорят, что CRISP-DM является обобщением методологии Agile на DS. В частности, методология является итеративной (проект состоит из спринтов).
* Последовательность этапов строго не определена, некоторые этапы можно менять местами. Возможна параллельность этапов (например, подготовка данных и их исследования могут вестись одновременно). Предусмотрены возвраты на предыдущие этапы.
* Фиксирование ключевых моментов проекта: графиков, найденных закономерностей, результатов проверки гипотез, используемых моделей и полученных метрик на каждой итерации цикла разработки.

Каждый из этапов методологии CRISP-DM разбивается на несколько подэтапов.
1. Анализ требований
Анализ производит специалист уровня Senior или Lead. Он контактирует с заказчиком и формализует его требования.
 
 1.1 Постановка цели проекта
 Знакомимся с заказчиком и пытаемся понять, чего он на самом деле хочет. Какой показатель бизнеса мы будем пытаться улучшить?

 Например, цель нашего заказчика — уменьшить отток клиентов банка с помощью заблаговременного определения шанса ухода.

 Важно заранее определиться с терминологией, чтобы говорить на одном языке.

 Так, если наша цель — уменьшить отток, то что мы понимаем под оттоком? Например, отсутствие значительных начислений по счёту в течение двух месяцев подряд.
 
 1.2 Оценка текущей ситуации
 Обсуждаем, существует ли уже разработанное средство решения задачи. Если да, то какое и чем оно не устраивает заказчика.

 Есть ли доступное железо, на котором будет работать модель, или его надо закупать?

 Какие данные нам понадобятся и доступны ли они? Где сейчас хранятся данные и какой доступ к ним будет представлен?
 Очень часто оказывается, что в текущих условиях не имеет смысла применять машинное обучение и задачу можно решить более успешно без него. Важно заранее дать заказчику понять эту мысль.

 Необходимо заранее определиться, как будет функционировать модель, нужна ли дополнительная разработка приложения. В противном случае в конце проекта может случиться так, что модель есть, а места, куда её поставить, нет.
 
 1.3 Постановка задачи с точки зрения аналитики
 После того как задача поставлена в бизнес-терминах, необходимо описать её в технических терминах.

 В первую очередь определяем тип задачи машинного обучения: классификация, регрессия, кластеризация или что-то ещё.
 Для каждого типа задач характерны свои метрики, по которым мы будем оценивать качество модели. Мы с вами ещё не говорили об ML-метриках, но стоит отметить, что их есть великое множество и каждая из них имеет свою интерпретацию.
 Далее мы должны определить, что считается хорошим показателем качества.
 
 1.4 План проекта
 Как только получены ответы на все основные вопросы и ясна цель проекта, время составить план проекта. План должен содержать оценку всех этапов внедрения модели.

2. Исследование данных
Цель этого шага — понять слабые и сильные стороны предоставленных данных, определить их достаточность, предложить идеи, как их использовать, и лучше понять процессы заказчика.
 
 2.1 Сбор данных
 Необходимо проанализировать все источники, доступ к которым предоставляет заказчик. Если заранее очевидно, что собственных данных недостаточно, возможно, стоит закупить сторонние или организовать сбор новых данных.
 Первая итерация цикла разработки обычно выполняется без привлечения дополнительных данных. Сначала пытаются оперировать только теми данными, которые есть в наличии у заказчика.
 
 2.2 Описание данных
 Считаем ключевые показатели статистики по всем признакам (среднее, разброс, минимум, максимум и т. д.).

 С помощью графиков и таблиц исследуем данные, чтобы сформулировать гипотезы относительно того, как эти данные помогут решить задачу.

 В мини-отчёте фиксируем, что интересного нашли в данных, а также список атрибутов, которые потенциально полезны.
 По окончании этого этапа делаем промежуточный вывод. Хватает ли нам всех данных, чтобы решить задачу? Есть ли хоть какая-то взаимосвязь между факторами и целевым признаком, или моделирование даже бессмысленно начинать? А может, мы нашли какую-то непонятную для нас закономерность, которую мы не можем понять без пояснений специалистов.

 Согласно методологии, мы можем вернуться к заказчику, обсудить с ним все проблемы, запросить больше данных или обсудить изменение требований.

3. Подготовка данных
Цель этого этапа — подготовить обучающую выборку для использования в моделировании.

 3.1 Оценка качества данных
 Важно ещё до моделирования оценить качество данных, так как любые несоответствия могут повлиять на ход проекта. Помним, что данные могут содержать пропуски, ошибки, различные кодировки и прочие виды ошибок. 
 
 3.2 Очистка данных
 Здесь мы уже знаем, что делать: разобраться с пропусками, исправить ошибки и кодировки в данных, искоренить выбросы в данных.
 
 3.3 Проектирование признаков
 Пользуемся уже знакомыми нам методами Feature Engineering для генерации новых признаков, которые мы рассматривали в модулях по EDA.

 Однако помним, что генерация новых данных — творческий процесс, он может занимать время. К тому же идея о новом признаке может посетить вас в любой момент, но благодаря гибкости методологии вы сможете вернуться к этому этапу на следующей итерации вашего процесса разработки.
 Если принято решение использовать дополнительные данные, производим интеграцию данных из внешних источников.

 Производим кодирование категориальных признаков, если таковые есть.

 Не забываем про нормализацию (стандартизацию) числовых признаков. В дальнейшем мы увидим, что она особенно необходима для линейных моделей и нейронных сетей и может существенно влиять на их качество.
 
 3.4 Отбор признаков
 Убираем из данных ненужные признаки.

 Вспоминаем о методах отбора признаков, которые мы рассматривали в модулях по EDA: логика и здравый смысл, мультиколлинеарность, статистические тесты. В следующих модулях мы с вами познакомимся с ещё одним методом на основе деревьев решений.
 Помним и о том, что в наборе данных могут быть неинформативные признаки

4. Моделирование
На четвёртом шаге начинается самое интересное — обучение моделей. Как правило, оно выполняется итерационно (в несколько заходов).
 
 4.1 Выбор алгоритмов
 Необходимо определиться, какие модели мы будем использовать. Выбор зависит от решаемой задачи (регрессия/классификация/кластеризация и т. д.) и требований по сложности.
 
 4.2 Планирование тестирования
 Далее необходимо решить, на чём мы будем обучать, а на чём — тестировать нашу модель.

 Традиционный подход — это разделение выборки на три части (обучение, валидация и тест) в примерной пропорции 60/20/20. В этом случае обучающая выборка используется для подгонки внутренних параметров модели, валидационная — для подбора внешних параметров, а тестовая — для оценки качества.
 
 4.3 Обучение моделей
 Запускаем цикл обучения и после каждой итерации фиксируем результат с помощью логирования экспериментов. На выходе получаем несколько обученных моделей.
 
 4.4 Анализ результатов
 После того как была сформирована группа обученных моделей, нужно ещё раз их детально проанализировать и выбрать модели-победители. На выходе неплохо иметь список моделей, отсортированный по объективному и/или субъективному критерию.
 Задача данного шага — определить, готова ли какая-то из моделей к внедрению, достигаются ли заданные критерии качества. Необходимо оценить результаты с точки зрения достижения бизнес-целей, что, как правило, обсуждается с заказчиком.

 Если критерий успеха не достигнут, можно либо улучшать текущую модель, либо пробовать новую.

 Прежде чем переходить к внедрению, необходимо убедиться, что результат моделирования понятен и логичен.

5. Оценка модели
Результатом предыдущего шага является построенная математическая модель (model), а также найденные закономерности (findings). На пятом шаге мы оцениваем результаты проекта.
 
 5.1 Оценка результатов моделирования
 Для начала переводим результат в бизнес-термины. Бизнесу гораздо легче общаться в терминах прибыль и инвестиции, чем в абстрактных recall, lift и прочих ML-метриках.

 Как правило, этим шагом занимается аналитик, если такой имеется в команде: он рассчитывает ваши результаты в денежном эквиваленте.
 
 5.2 Разбор полётов
 Команде стоит собраться, проанализировать текущую итерацию цикла проекта и сформулировать её сильные и слабые стороны. Что можно сделать, чтобы ускорить работу? Какие были допущены ошибки? Какие гипотезы остались непроверенными? Есть ли потенциал к улучшению качества? И так далее.
 
 5.3 Принятие решения о внедрении
 Далее необходимо либо внедрять модель, если она устраивает заказчика, либо, если виден потенциал для улучшения, попытаться её улучшить.

 Если принято решение в пользу дальнейшего улучшения, переходим к первому шагу методологии и проделываем новую итерацию, пытаясь внести больше улучшений на всех этапах: подключить больше данных, сгенерировать новые признаки, по-другому предобработать данные, построить другие модели и т. д.
 Если на данном этапе у нас есть несколько моделей, удовлетворяющих требованиям, отбираем из них те, которые будем далее внедрять.

 Кроме того, нужно определить, достаточно ли всех ресурсов (время, деньги, кадры) для внедрения.

6. Внедрение
Перед началом проекта с заказчиком всегда оговаривается способ поставки модели. В одном случае это может быть просто «проскоренная» база клиентов, в другом — SQL-формула, в третьем — полностью проработанное аналитическое решение, интегрированное в информационную систему, в четвёртом — целая веб-страница, реализованная для работы с моделью.

На данном шаге осуществляется внедрение модели (если проект предполагает этот этап), причём под внедрением может пониматься как физическое добавление функционала, так и инициирование изменений в бизнес-процессах компании.

 6.1 Планирование развёртывания
 Важно зафиксировать, что именно и в каком виде мы будем внедрять, а также подготовить технический план внедрения (пароли, явки и прочее).

 Необходимо продумать, как с внедряемой моделью будут работать пользователи.
 Следует определить принцип мониторинга решения и, если нужно, подготовиться к опытно-промышленной эксплуатации.
 
 6.2 Настройка мониторинга модели
 Очень часто в проект включаются работы по поддержке решения. Необходимо определиться, как мы отслеживаем качество модели в процессе её работы.

 Какие показатели качества модели будут отслеживаться и как понять, что с моделью стало лучше?

 Например, в банковских проектах часто используется метрика PSI.

 Для сравнения результатов до и после внедрения новой модели можно использовать A/B-тестирование.

 Как нам понять, что модель устарела?

 Например, мы договариваемся о пересчёте качества раз в три месяца.

 Если модель устарела, достаточно ли будет её переобучить или нужно организовывать новый проект?

 При существенных изменениях в бизнес-процессах (например, меняется структура информации, которую предоставляют клиенты) простой перенастройки модели недостаточно, нужен полный цикл переобучения.
 6.3 Отчёт по результатам
 По окончании проекта, как правило, формируется отчёт о результатах моделирования, в который добавляются результаты по каждому шагу, начиная от первичного анализа данных и заканчивая внедрением модели. В этот отчёт также можно включить рекомендации по дальнейшему развитию модели.

 Так как, согласно методологии, в отчёте должна быть информация обо всех шагах, проще всего использовать инструменты для логирования всех этапов, например Comet.ml.

 Передаём отчёт заказчику и получаем обратную связь о работе нашей команды. Проект завершён!

**ПРОБЛЕМЫ ПРИ РАЗРАБОТКЕ**
Проблема № 1
→ Непонятно, сколько времени закладывать на разработку модели. На первый взгляд простая задача может отнять очень много времени и сорвать сроки.

Предобработка данных, выбор и обучение модели, анализ результатов занимают много времени, но точно определить конкретные промежутки невозможно. Какие-то процессы могут потребовать возврата и доработки, возможен откат на старт.

Проблема № 2
→ Невозможно с первого раза сделать идеальную рабочую модель.

Идеальная модель — это модель, которая решает задачу с нулевой ошибкой или 100 %-ой точностью. Очевидно, что такой модели не существует в природе. Мы можем лишь пытаться повысить качество моделирования и приблизить его к максимальному, что может потребовать множества итераций разработки.

Проблема № 3
→ Модель начинает приносить бизнес-пользу только после этапа внедрения.

Пока ваша модель не введена в эксплуатацию, она никому не нужна. Если у вас стартап, завязанный на машинном обучении, то деньги он начнёт приносить только после разработки самой модели.

Проблема № 4
→ Не уделили внимание подготовке данных.

Если процесс предобработки занимает подозрительно мало времени, то, скорее всего:

* не учтены бизнес-требования;
* не проведена работа по исследованию данных;
* недостаточно опытные разработчики/аналитики;
* недостаточно данных.
**СОВЕТЫ И ЛАЙФХАКИ**
* Распределяйте роли. В идеале в команде разработчиков необходимо иметь разных специалистов — Data Engineer, Data Scientist и Data Analyst. Каждый из них лучше разбирается в конкретных процессах.
* Выберите правильную метрику (сколько пользы бизнесу принесёт ML). Разберитесь, какая метрика лучше подходит для какой задачи, как её можно улучшать.
* Правильно пользуйтесь инструментами. Не усложняйте, ищите готовые решения и библиотеки и адаптируйте под свои цели.
* Будьте терпеливы. В Data Science-разработке обычно невозможно заранее сказать, какие гипотезы подтвердятся. Не торопитесь — неверно подобранная гипотеза может дорого обойтись позже. Уделите время тщательному подбору.
* Чётко формулируйте требования разметки, если нанимаете фрилансеров. Распишите правила принятия решения, покажите на примерах. Лучше всего будет показать на видео, как вы размечаете данные.
