# МЕТОДОЛОГИЯ CRISP-DM

CRISP-DM (Cross-Industry Standard Process for Data Mining) — наиболее распространённая и проверенная методология по работе с проектами, завязанными на данных. Модель жизненного цикла исследования данных в методологии состоит из шести фаз, а стрелки обозначают наиболее важные и частые зависимости между фазами.

### Особенности методологии:

* Методология CRISP-DM разработана специалистами по работе с данными и учитывает особенности DS-проектов.
* Иногда говорят, что CRISP-DM является обобщением методологии Agile на DS. В частности, методология является итеративной (проект состоит из спринтов).
* Последовательность этапов строго не определена, некоторые этапы можно менять местами. Возможна параллельность этапов (например, подготовка данных и их исследования могут вестись одновременно). Предусмотрены возвраты на предыдущие этапы.
* Фиксирование ключевых моментов проекта: графиков, найденных закономерностей, результатов проверки гипотез, используемых моделей и полученных метрик на каждой итерации цикла разработки.

# ЭТАПЫ РАЗРАБОТКИ ПРОЕКТА ПО DATA SCIENCE:

# 1. Анализ требований

Анализ производит специалист уровня Senior или Lead. Он контактирует с заказчиком и формализует его требования.

Данный этап разбивается на следующие подэтапы:

## 1.1 Постановка цели проекта

Знакомимся с заказчиком и пытаемся понять, чего он на самом деле хочет. Какой показатель бизнеса мы будем пытаться улучшить?

Например, цель нашего заказчика — уменьшить отток клиентов банка с помощью заблаговременного определения шанса ухода.

Важно заранее определиться с терминологией, чтобы говорить на одном языке.

Так, если наша цель — уменьшить отток, то что мы понимаем под оттоком? Например, отсутствие значительных начислений по счёту в течение двух месяцев подряд.

Оценка текущей ситуации

Обсуждаем, существует ли уже разработанное средство решения задачи. Если да, то какое и чем оно не устраивает заказчика.

Есть ли доступное железо, на котором будет работать модель, или его надо закупать?

Какие данные нам понадобятся и доступны ли они? Где сейчас хранятся данные и какой доступ к ним будет представлен?

Например, у нашего заказчика уже есть некоторая модель на основе деревьев решений, но у банка появился новый функционал, который позволяет собрать о пользователях новую информацию, и заказчик хочет, чтобы модель учитывала эту информацию при прогнозе.

Данные хранятся в базе данных клиентов банка. Доступ будет предоставлен только по идентификаторам клиентов, ФИО и контакты клиентов предоставляться не будут.

Очень часто оказывается, что в текущих условиях не имеет смысла применять машинное обучение и задачу можно решить более успешно без него. Важно заранее дать заказчику понять эту мысль.

Необходимо заранее определиться, как будет функционировать модель, нужна ли дополнительная разработка приложения. В противном случае в конце проекта может случиться так, что модель есть, а места, куда её поставить, нет.

## 1.3 Постановка задачи с точки зрения аналитики

После того как задача поставлена в бизнес-терминах, необходимо описать её в технических терминах.

В первую очередь определяем тип задачи машинного обучения: классификация, регрессия, кластеризация или что-то ещё.

В нашем случае это будет задача бинарной классификации: целевой признак имеет два возможных исхода — уйдёт клиент или нет.

Для каждого типа задач характерны свои метрики, по которым мы будем оценивать качество модели. Мы с вами ещё не говорили об ML-метриках, но стоит отметить, что их есть великое множество и каждая из них имеет свою интерпретацию.

Например, в данной задаче классификации, где группы не сбалансированы (ушедших клиентов обычно значительно меньше, чем лояльных), будет лучше использовать метрику под названием precision (также можно взять ROC-AUC). Почему? Обсудим это в следующих модулях.

Далее мы должны определить, что считается хорошим показателем качества.

Precision изменяется от 0 до 1, и чем метрика ближе к 1, тем лучше. Будем считать, что мы хотим достичь precision = 0.7. Тогда модель будет считаться оптимальной.

## 1.4 План проекта

Как только получены ответы на все основные вопросы и ясна цель проекта, время составить план проекта. План должен содержать оценку всех этапов внедрения модели.

Мы не будем подробно рассматривать планирование, так как этой частью занимается лидер команды разработки или Product Manager, если таковой имеется.

# 2. Исследование данных

Цель этого шага — понять слабые и сильные стороны предоставленных данных, определить их достаточность, предложить идеи, как их использовать, и лучше понять процессы заказчика.

Этап разбивается на несколько шагов:

## 2.1 Сбор данных

Помним, что данные могут быть собственными или дополнительными.

Необходимо проанализировать все источники, доступ к которым предоставляет заказчик. Если заранее очевидно, что собственных данных недостаточно, возможно, стоит закупить сторонние или организовать сбор новых данных.

Например, в нашем случае база данных с информацией о клиентах — это собственные данные. Дополнительные данные, которые мы потенциально можем привлечь, — данные об экономической обстановке в стране, изменении рейтинга и акций банка во времени.

Первая итерация цикла разработки обычно выполняется без привлечения дополнительных данных. Сначала пытаются оперировать только теми данными, которые есть в наличии у заказчика.

## 2.2 Описание данных

Считаем ключевые показатели статистики по всем признакам (среднее, разброс, минимум, максимум и т. д.).

С помощью графиков и таблиц исследуем данные, чтобы сформулировать гипотезы относительно того, как эти данные помогут решить задачу.

В мини-отчёте фиксируем, что интересного нашли в данных, а также список атрибутов, которые потенциально полезны.

Если проект краткосрочный, то особенно полезны методы EDA в одну строку кода, которые мы с вами рассматривали в модуле по введению в EDA. Эти методы существенно сэкономят время.

Например, в процессе описания данных мы увидели подозрительные значения в признаке возраста клиентов: 14-летние и 100-летние клиенты.

Также мы заметили, что чем больше денег на счету у клиента, тем выше вероятность его ухода. Возможно, ушедшие клиенты могут быть недовольны процентной ставкой по вкладам в банке, поэтому они переходят в более выгодный для них банк. Этот факт может помочь банку разработать стратегию по уменьшению оттока.

Проверить эту гипотезу можно, например, с помощью z-теста на пропорции.

По окончании этого этапа делаем промежуточный вывод. Хватает ли нам всех данных, чтобы решить задачу? Есть ли хоть какая-то взаимосвязь между факторами и целевым признаком, или моделирование даже бессмысленно начинать? А может, мы нашли какую-то непонятную для нас закономерность, которую мы не можем понять без пояснений специалистов.

Согласно методологии, мы можем вернуться к заказчику, обсудить с ним все проблемы, запросить больше данных или обсудить изменение требований.

# 3. Подготовка данных

Цель этого этапа — подготовить обучающую выборку для использования в моделировании.

Мы уже неоднократно говорили, что подготовка данных — это традиционно наиболее затратный по времени этап проекта.

Неслучайно мы с вами уже неоднократно занимались подготовкой данных в курсе: вспомните проект по вакансиям на hh.ru. Судя по опыту студентов, этап подготовки данных был самым сложным.

## 3.1 Оценка качества данных

Важно ещё до моделирования оценить качество данных, так как любые несоответствия могут повлиять на ход проекта. Помним, что данные могут содержать пропуски, ошибки, различные кодировки и прочие виды ошибок. 

Например, мы выяснили, что признак с полом из-за разных версий приложения банка кодируется несколькими способами: F и Female, M и Male.

## 3.2 Очистка данных

Здесь мы уже знаем, что делать: разобраться с пропусками, исправить ошибки и кодировки в данных, искоренить выбросы в данных. Вспомнить методы очистки данных вы можете, вновь обратившись к модулю PYTHON-14.

Удаляем подростков и клиентов слишком преклонного возраста из нашего набора данных. Исправляем все неправильные кодировки.

## 3.3 Проектирование признаков

Пользуемся уже знакомыми нам методами Feature Engineering для генерации новых признаков.

Однако помним, что генерация новых данных — творческий процесс, он может занимать время. К тому же идея о новом признаке может посетить вас в любой момент, но благодаря гибкости методологии вы сможете вернуться к этому этапу на следующей итерации вашего процесса разработки.

Например, мы могли разработать новые признаки для наших данных об оттоке, такие как длительность сотрудничества с банком, коэффициент ежегодного пополнения счёта и т. д.

Если принято решение использовать дополнительные данные, производим интеграцию данных из внешних источников.

Производим кодирование категориальных признаков, если таковые есть.

Не забываем про нормализацию (стандартизацию) числовых признаков. В дальнейшем мы увидим, что она особенно необходима для линейных моделей и нейронных сетей и может существенно влиять на их качество.

## 3.4 Отбор признаков

Убираем из данных ненужные признаки.

Вспоминаем о методах отбора признаков, которые мы рассматривали в модулях по EDA: логика и здравый смысл, мультиколлинеарность, статистические тесты. В следующих модулях мы с вами познакомимся с ещё одним методом на основе деревьев решений.

Например, в результате анализа на мультиколлинеарность выяснилось, что некоторые признаки имеют между собой корреляцию выше 0.9, что плохо скажется на линейных моделях, если мы будем их использовать. Избавляемся от таких признаков.

Помним и о том, что в наборе данных могут быть неинформативные признаки; о них мы тоже говорили в модуле по очистке данных.

Например, признак с идентификатором пользователя или признак с адресом отделения банка не будут участвовать в моделировании. Однако из последнего можно извлечь интересную информацию (например, район отделения).

**Примечание:** Этапы, которые мы рассматривали ранее, уже нам известны, и мы не раз практиковались в них.

Обратите внимание, что этапы 2 и 3 могут пересекаться друг с другом или иметь другую последовательность. Всё зависит от вашего стиля разработки проекта и характера задачи.

Например, вспомните данные о вакансиях на hh.ru: все признаки в наборе данных были представлены в виде текста и не поддавались исследованию. Перед тем как проводить исследование и очистку, нам было необходимо сначала произвести форматирование данных (извлечь из текста важные признаки, например информацию о возрасте и поле соискателя).

В методологии нет жёстких правил относительно последовательности, с которой вы должны производить данные этапы. Главное правило состоит в том, что в модель нужно подавать предварительно исследованные и предобработанные данные.

Этапам, которые пойдут далее, будет посвящён весь блок по машинному обучению.

# 4. Моделирование

На четвёртом шаге начинается самое интересное — обучение моделей. Как правило, оно выполняется итерационно (в несколько заходов).

Этап разбивается на следующие шаги:

## 4.1 Выбор алгоритмов

Необходимо определиться, какие модели мы будем использовать. Выбор зависит от решаемой задачи (регрессия/классификация/кластеризация и т. д.) и требований по сложности.

Например, мы решили, что в качестве моделей возьмём дерево решений, логистическую регрессию и метод ближайших соседей (всё это — классификационные модели).

## 4.2 Планирование тестирования

Далее необходимо решить, на чём мы будем обучать, а на чём — тестировать нашу модель.

Традиционный подход — это разделение выборки на три части (обучение, валидация и тест) в примерной пропорции 60/20/20. В этом случае обучающая выборка используется для подгонки внутренних параметров модели, валидационная — для подбора внешних параметров, а тестовая — для оценки качества.

Но существуют более сложные стратегии, о которых мы тоже отдельно поговорим.

Представим, что мы разделили нашу выборку на три части и готовы проводить обучение.

## 4.3 Обучение моделей

Запускаем цикл обучения и после каждой итерации фиксируем результат с помощью логирования экспериментов. На выходе получаем несколько обученных моделей.

Итак, мы подаём в наши модели данные, производим подбор параметров и фиксируем результаты обученных моделей с помощью инструментов логирования, например с помощью знакомого нам Comet.ml.

## 4.4 Анализ результатов

После того как была сформирована группа обученных моделей, нужно ещё раз их детально проанализировать и выбрать модели-победители. На выходе неплохо иметь список моделей, отсортированный по объективному и/или субъективному критерию.

Например, если моделей много, можно собрать их результаты в виде таблицы, отсортировать и построить столбчатую диаграмму.

Задача данного шага — определить, готова ли какая-то из моделей к внедрению, достигаются ли заданные критерии качества. Необходимо оценить результаты с точки зрения достижения бизнес-целей, что, как правило, обсуждается с заказчиком.

Если критерий успеха не достигнут, можно либо улучшать текущую модель, либо пробовать новую.

Прежде чем переходить к внедрению, необходимо убедиться, что результат моделирования понятен и логичен.

Например, если мы прогнозируем отток клиентов и получили precision, равный 0.98, то это слишком хороший результат для данной задачи — есть повод проверить модель ещё раз.

# 5. Оценка модели

Результатом предыдущего шага является построенная математическая модель (model), а также найденные закономерности (findings). На пятом шаге мы оцениваем результаты проекта.

## 5.1 Оценка результатов моделирования

Для начала переводим результат в бизнес-термины. Бизнесу гораздо легче общаться в терминах прибыль и инвестиции, чем в абстрактных recall, lift и прочих ML-метриках.

Как правило, этим шагом занимается аналитик, если такой имеется в команде: он рассчитывает ваши результаты в денежном эквиваленте.

Классический пример диалога аналитика и бизнеса:

— Наша модель показывает десятикратный lift!

— Я не впечатлён...

— Вы заработаете дополнительные 100 тысяч долларов в год!

— С этого и надо было начинать!

## 5.2 Разбор полётов

Команде стоит собраться, проанализировать текущую итерацию цикла проекта и сформулировать её сильные и слабые стороны. Что можно сделать, чтобы ускорить работу? Какие были допущены ошибки? Какие гипотезы остались непроверенными? Есть ли потенциал к улучшению качества? И так далее.

Например, по результатам разбора полётов мы выясняем, что наша модель ещё далека от идеала. Мы ещё не проверили гипотезу о том, что экономическая обстановка в стране влияет на отток клиентов, так как не произвели интеграцию внешних данных.

Кроме того, мы использовали очень простые модели. Возможно, стоит попробовать более сложные подходы: композиции из алгоритмов, нейронные сети или другие методы.

## 5.3 Принятие решения о внедрении

Далее необходимо либо внедрять модель, если она устраивает заказчика, либо, если виден потенциал для улучшения, попытаться её улучшить.

Если принято решение в пользу дальнейшего улучшения, переходим к первому шагу методологии и проделываем новую итерацию, пытаясь внести больше улучшений на всех этапах: подключить больше данных, сгенерировать новые признаки, по-другому предобработать данные, построить другие модели и т. д.

Представим, что заказчика не устраивает качество наших простеньких моделей. Это значит, что мы переходим на следующую итерацию процесса разработки и пробуем более сложные решения.

Так происходит до тех пор, пока мы не достигнем требуемого результата.

Если на данном этапе у нас есть несколько моделей, удовлетворяющих требованиям, отбираем из них те, которые будем далее внедрять.

Кроме того, нужно определить, достаточно ли всех ресурсов (время, деньги, кадры) для внедрения.

# 6. Внедрение

Перед началом проекта с заказчиком всегда оговаривается способ поставки модели. В одном случае это может быть просто «проскоренная» база клиентов, в другом — SQL-формула, в третьем — полностью проработанное аналитическое решение, интегрированное в информационную систему, в четвёртом — целая веб-страница, реализованная для работы с моделью.

На данном шаге осуществляется внедрение модели (если проект предполагает этот этап), причём под внедрением может пониматься как физическое добавление функционала, так и инициирование изменений в бизнес-процессах компании.

## 6.1 Планирование развёртывания

Важно зафиксировать, что именно и в каком виде мы будем внедрять, а также подготовить технический план внедрения (пароли, явки и прочее).

Необходимо продумать, как с внедряемой моделью будут работать пользователи.

Например, где и как будет всплывать информация о потенциально уходящих клиентах банка? Возможно, будет предусмотрен оператор, который будет отслеживать шансы ухода на экране, или же это будет производиться в автоматическом режиме, и клиенту будет отсылаться письмо на почту.

Следует определить принцип мониторинга решения и, если нужно, подготовиться к опытно-промышленной эксплуатации.

Например, договариваемся об использовании модели в течение года и тюнинге (настройке) модели раз в три месяца.

## 6.2 Настройка мониторинга модели

Очень часто в проект включаются работы по поддержке решения. Необходимо определиться, как мы отслеживаем качество модели в процессе её работы.

Какие показатели качества модели будут отслеживаться и как понять, что с моделью стало лучше?

Например, в банковских проектах часто используется метрика PSI.

Для сравнения результатов до и после внедрения новой модели можно использовать A/B-тестирование.

Как нам понять, что модель устарела?

Например, мы договариваемся о пересчёте качества раз в три месяца.

Если модель устарела, достаточно ли будет её переобучить или нужно организовывать новый проект?

При существенных изменениях в бизнес-процессах (например, меняется структура информации, которую предоставляют клиенты) простой перенастройки модели недостаточно, нужен полный цикл переобучения.

## 6.3 Отчёт по результатам

По окончании проекта, как правило, формируется отчёт о результатах моделирования, в который добавляются результаты по каждому шагу, начиная от первичного анализа данных и заканчивая внедрением модели. В этот отчёт также можно включить рекомендации по дальнейшему развитию модели.

Так как, согласно методологии, в отчёте должна быть информация обо всех шагах, проще всего использовать инструменты для логирования всех этапов, например Comet.ml.

Передаём отчёт заказчику и получаем обратную связь о работе нашей команды. Проект завершён!