# Жизненный цикл ML-модели и роль EDA в машинном обучении

*В прошлом юните мы узнали, что такое EDA, и сформировали цели на модуль. В этом юните мы рассмотрим полный жизненный цикл модели машинного обучения.*

*Тот, кто занимается машинным обучением, обычно проходит следующие этапы: формулировка бизнес-проблемы, сбор данных и их очистка, разведывательный анализ данных, разработка и построение модели, внедрение модели в продакшен.*

*Всё это называется* ***жизненным циклом модели машинного обучения.***

![image.png](attachment:image.png)

*Мы можем выделить несколько этапов жизненного цикла модели машинного обучения.*

## 0. Постановка проблемы

*Жизненный цикл нашей модели начинается с определения проблемы для бизнеса. Мы будем рассматривать все этапы цикла на одном примере.*

***Микрокредитная организация решила автоматизировать процесс выдачи кредитов и обратилась за помощью к специалистам по машинному обучению. Вместе с аналитиками компания выяснила, что им необходима прогностическая модель, которая определяла бы по данным клиента вероятность его дефолта.***

***Дефолт** — *невыполнение обязательств договора займа, например неоплата процентов или основного долга в установленный период.*

*После того как задача была поставлена, начинается процесс построения модели.*

## 1. Сбор данных

*Модель машинного обучения напрямую зависит от количества и качества передаваемых в неё данных. Чтобы получить в итоговой модели более качественные данные, на этапе сбора нам необходимо собрать максимальное их количество.*

***Дата-аналитики микрокредитной организации запросили у сотового оператора информацию о перемещениях клиента. Так компания сможет проверить, верно ли клиент указал место проживания и работы или предоставил ложную информацию, что, по мнению аналитиков, может стать полезным признаком.***

## 2. Очистка данных

*После сбора данных мы должны избавиться от «мусора» (некачественных данных), и именно от этого этапа будет зависеть качество финальной модели машинного обучения.*

*Garbage in — garbage out (GIGO), в пер. с англ. «мусор на входе — мусор на выходе».*

*На этапе очистки данных мы определяем пропущенные значения, аномалии и выбросы в данных.*

*Данные с пропусками в большинстве случаев нельзя передать в модель*

***В случае с микрокредитной организацией на ранних этапах работы компании в анкете клиента не заполнялся регион проживания. Аналитики пытаются по адресу заполнить значения, а там, где это невозможно, просто проставляют значение ‘unknown’, как делали это вы в модуле PYTHON-14. Очистка данных.***

***Дублирующиеся данные и выбросы, аномальные значения не приносят пользу алгоритму.***

***Слишком высокие значения зарплат чаще всего являются ложной информацией среди заемщиков и могут сбивать алгоритмы с толку, поэтому для таких признаков проводят обработку выбросов. Эти действия вы выполняли в модуле PYTHON-14. Очистка данных, тем самым подготавливая почву для последующего анализа данных.***

## 3. Разведывательный анализ данных 

*Данные ценны не сами по себе, а только если приносят пользу. Разведывательный анализ данных похож на работу детектива: имея под рукой данные, вы ищете подсказки и идеи для извлечения из них полезной информации для бизнес-задачи, которую вы пытаетесь решить. Вы исследуете одну переменную, затем две переменные вместе, а затем сразу несколько переменных. Если ваша модель показывает неудовлетворительные результаты, то почти всегда виновником является набор обучающих данных, содержащий ошибки. Они и создают потолок качества для вашей модели.*

***Дата-сайентисты обнаружили, что очень важным параметром является балл из кредитной истории заёмщика. Он действительно содержит в себе очень много информации о поведении заёмщика в предыдущих кредитах. Такая информация будет скорее всего полезна модели. Специалисты по данным приняли решение раскрыть этот важный признак на несколько составляющих, поскольку полагают, что новые, более сильные признаки сделают модель лучше.***

## 4. Этап моделирования и вывода модели в продакшен

*На этом этапе ведётся построение предсказательных моделей, проверка качества и публикация модели. Эти этапы вы будете подробно изучать далее в курсе в блоках по машинному обучению.*

***❗️ Важно!*** *На самом деле цикл машинного обучения редко имеет линейную структуру. Он представляют собой повторяющийся цикл улучшения данных и модели. В любой момент мы можем вернуться на этап разведывательного анализа данных или даже на этап формулирования бизнес-проблемы, если качество модели неудовлетворительное.*

![image.png](attachment:image.png)

## А теперь про работу…

*В реальной жизни не всегда полный цикл проводится одним человеком. На данный момент мы можем выделить три направления в машинном обучении.*

1. ***Дата-аналитики*** *проводят предварительный анализ данных и их очистку, ищут закономерности в данных и ответы на запросы бизнеса.*

*Предварительный анализ и очистку данных вы выполняли в модуле PYTHON-14. Очистка данных и в модулях и PYTHON-11-12. Базовые и продвинутые приёмы работы с данными в Pandas. Определению проблем бизнеса вы научитесь позже в курсе в блоках машинного обучения в бизнесе.*

2. ***Дата-сайентист*** *работает с большими объёмами данных, создаёт рекомендательные алгоритмы и прогнозные модели. Эти этапы вы будете подробно изучать далее в курсе в блоках по машинному обучению.*

3. ***Дата-инженер** *обеспечивает сбор и хранение данных. Дата-инженер также занимается внедрением финальной модели машинного обучения в работающую систему.*

***В нашем примере дата-аналитики подумали, что хорошо было бы собирать информацию об устройстве пользователя, поскольку это может оказаться важным признаком для формирования списка личных рекомендаций. Дата-инженеры ставят задачу и с этого момента в базу данных будет записываться информация об устройстве каждого пользователя. Через некоторое время её можно будет анализировать и использовать в моделях.***

*Эти этапы вы будете подробно изучать далее в курсе в блоках по инжинирингу данных.*

*Однако зачастую границы очень размыты: аналитик, например, также может заниматься сбором данных, а дата-сайентист — строить визуализацию и искать закономерности в данных.*

*Это часто зависит от размера компании. В небольших компаниях вы скорее всего будете совмещать сразу несколько направлений. В больших корпорациях за эти направления могут отвечать целые отделы.*

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

![image-3.png](attachment:image-3.png)
