# **Процесс разработки**

✍ Теперь нам необходимо рассмотреть этапы, через которые проходит дата-сайентист, когда работает над DS-проектом.

В дальнейшем мы с вами увидим, что любая задача машинного обучения (классификация, регрессия, кластеризация и так далее) — это по сути обычная оптимизационная задача. 

Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию дата-сайентиста одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно чёткой последовательности действий.

Эта последовательность действий по работе над проектом называется **методологией разработки (моделью процесса разработки)**.

Существует множество различных методологий разработки. Для расширения кругозора мы кратко рассмотрим две основные, которые используются при работе над любым IT-продуктом, а затем перейдём к методологии, которая концентрируется именно на Data Science проектах.

***
## **МЕТОДОЛОГИЯ WATERFALL**

**Водопадная методология (Waterfall model, «Водопад»)** — модель процесса разработки ПО в виде потока последовательных фаз. Схема разработки согласно этой модели представлена на схеме ниже:

![](data\f6.png)

### **ОСОБЕННОСТИ МЕТОДОЛОГИИ:**

* Разработка происходит **строго последовательно, этап за этапом**. Переход на предыдущий этап не предусмотрен или требует формального процесса, например подачи заявки на изменения в организационный комитет и её одобрения.
* **Планирование** ведётся **на всю длительность** проекта в самом его начале.
* Все действия максимально регламентированы и спланированы до мелочей. **Установлены чёткие сроки окончания каждого из этапов**.
* **По окончании каждого из этапов** происходит формальная сдача результатов именно этого этапа в виде **большого числа документов**. Например, после этапа анализа требований заказчика рождается техническое задание (ТЗ), а после этапа тестирования — документ, который называется «Программа и методика испытаний». В РФ для содержания большинства документов предусмотрены ГОСТы.
* Результаты каждого из этапов тщательно проверяются на наличие ошибок. **Только после исправления всех ошибок на текущем этапе команда может перейти на следующий этап**.
* Готовый продукт **передаётся заказчику только один раз в конце проекта** (второй попытки не предусмотрено). У команды есть только один шанс на сдачу проекта, поэтому внимание к деталям и документации максимально пристальное.


### **ГДЕ СТОИТ ИСПОЛЬЗОВАТЬ WATERFALL?**

Waterfall используется в проектах, где отсутствует неопределённость в требованиях заказчика: проект достаточно понятный и его можно спланировать в самом начале. То есть результат можно чётко представить заранее.

Это проекты в больших организациях и компаниях, в которых уже есть опыт разработки аналогичных проектов и есть чёткое понимание, через какие этапы нужно пройти и какое время они могут занять.

Методология **особенно необходима в проектах, которые сопровождаются высокими затратами в случае провала**. Это связано с тщательным отслеживанием каждого из этапов и уменьшением риска допустить ошибку. Уменьшение риска особенно критично в проектах оборонной и космической промышленности.

Например, в NASA данная методология впервые применялась для запуска ракет и космических кораблей. Она помогла увеличить надёжность изделий, тем самым сэкономив деньги американских налогоплательщиков.

Также это могут быть внедренческие проекты: у вас уже есть готовая система, вашему заказчику просто нужно интегрировать её в свою работу и, возможно, внести некоторые модификации. Например, к таким проектам относится внедрение 1С-бухгалтерии на новом предприятии и его модификация под специфические нужды.

### **ПОЧЕМУ WATERFALL НАМ НЕ ПОДХОДИТ?**

Методология Waterfall была популярна до тех пор, пока не наступил расцвет цифровой эпохи. Появились IT-проекты, которые невозможно было спланировать, потому что никто ещё не делал таких продуктов, они были уникальными. Негде подсмотреть, негде научиться, некому подсказать! Да и сам результат проекта ни заказчику, ни пользователям, ни разработчикам не был до конца понятен.

*В условиях такой неопределённости планирование проекта в самом его начале — пустая трата времени. Представьте, что у вас на руках некорректные данные и вы строите на их основе только гипотезы и догадки. Когда у вас появится новая информация о предмете проекта, вам может понадобиться полностью перезагрузить эту гигантскую машину, на которой работает планирование в Waterfall. А это означает новое планирование, новый запуск этапов, а как следствие, срыв сроков!*

Это и есть описание типичного Data Science проекта, ориентированного на бизнес, ведь дата-сайентист занимается проверкой различных гипотез и на их основе улучшает свою модель. Если гипотеза не подтвердилась, то мы должны вернуться назад. Построили модель, но качество не устраивает — нужно вернуться на предыдущий этап и переработать данные, не помогла переработка данных — нужно попробовать обратиться к заказчику, чтобы получить больше информации и расширить датасет. И так далее. Всё это никак не укладывается в Waterfall-методологию.

Отсюда возникла потребность придумать более гибкую методологию. Так, в феврале 2001 года в штате Юта (США) был выпущен «Манифест гибкой разработки программного обеспечения», описывающий новую методологию разработки проектов, которая получила название **Agile**.

***
## **МЕТОДОЛОГИЯ AGILE**

**Гибкая методология (Agile)** — это модель процесса разработки ПО с гибким возвратом к любому этапу: если тест спроектированной модели не дал нужного результата, то разработчик может начать с самого начала. (на самом деле, AGILE - набор принципов, а не методология)

Этапы каждой из итераций такие же, как в Waterfall, с добавлением этапа демонстрации промежуточных результатов заказчику.

*Проект реализуется не как последовательность длительных этапов (как это было в Waterfall), а как **ряд коротких временных отрезков** — **спринтов**, на каждом из которых прогоняются все этапы.*

Схематично можно представить методологию Agile следующим образом:

![](https://lms.skillfactory.ru/assets/courseware/v1/1be89486fa74290679e74decb971adfb/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml1-6_1.png)

### **ОСОБЕННОСТИ МЕТОДОЛОГИИ:**

* Разработка происходит по **итерациям**. В конце каждой итерации промежуточный результат демонстрируется заказчику. Заказчик даёт обратную связь (устраивает ли его эта часть функционала). **Итерации заканчиваются, когда готов финальный продукт и он устраивает заказчика**. 
* Проект **планируется только на один спринт**. Длительность спринтов — от одной до четырёх недель. То есть вам необходимо продумать задачи только на короткий промежуток времени, что сильно повышает точность планирования.
* В случае если у вас что-то не получилось (например, модель показывает низкое качество), вы просто переходите на новую итерацию и теряете только время, потраченное на один спринт, а не на весь проект в целом.
* Agile **не предусматривает множества формальных документов**, в отличие от Waterfall.
* Команда полностью вовлечена в процесс, так как **отсутствует формальная иерархия**. Методология считается демократичной. Главный принцип — люди важнее процессов и инструментов.
* **Заказчик** видит продукт на протяжении всей разработки и **может вносить коррективы** (не выходящие за рамки изначального задания). Проект сдаётся, когда выполнены все требования и они устраивают заказчика.

### **ГДЕ СТОИТ ИСПОЛЬЗОВАТЬ AGILE?**

Agile используется в тех случаях, когда в проекте **есть неопределённость**. Ни заказчик, ни пользователи, ни разработчики пока что полностью не представляют, что должно получиться в итоге.

Это разработка новых продуктов, которые требуют постоянной обратной связи. Вы и заказчик делаете эксперименты-расследования, маленькими шагами узнавая что-то новое о своём проекте. Это может быть новое мобильное приложение или облачный сервис, аналогов которому нет на рынке.

Также внедрение Agile помогает сплотить команду, повысить её эффективность.

Agile — это инновационно. Методология реально работает во многих крупных компаниях: по Agile работают в Кремниевой долине, Facebook, Google, Uber. В России Agile применяют не только IT-компании, но и, например, Министерство образования и Правительство Москвы.

### **НЕДОСТАТКИ AGILE**

В случае Data Science мы имеем дело с извлечением полезной информации из необработанных данных и реализацией моделей машинного обучения. Этот процесс требует большой креативности и, честно говоря, множества неудач. Это приводит к высокой степени неопределённости. Именно поэтому Agile-методология всё же может пользоваться популярностью. Однако есть несколько «но». Давайте обсудим их.

1. Agile — это общая модель процесса разработки продукта, причём не только из сферы IT. Методология не учитывает особенности работы Data Science команды. Например, видите ли вы в процессе Agile-разработки такие этапы, как подбор параметров модели или расчёт метрик её качества? Куда их включить — в этап разработки или, может быть, в тестирование? Agile об этом не говорит.
2. DS-команда может сдерживать Agile-разработку команды разработчиков ПО, потому что дата-сайентисты долго перебирают возможные модели. Постоянная настройка модели иногда может сдерживать ощутимый прогресс.
3. Документирование не регламентировано. В DS-проектах документация и история всех используемых моделей очень важна, позволяет экономить время и облегчает возможность вернуться к изначальному решению.

Существуют специальные методологии, по которым работают именно Data Science команды. Например, это уже знакомая вам по модулю «Введение в профессию» модель **CRISP-DM**. Давайте вспомним её суть и рассмотрим её более подробно.

***
## **МЕТОДОЛОГИЯ CRISP-DM**

**CRISP-DM (Cross-Industry Standard Process for Data Mining)** — наиболее распространённая и проверенная методология по работе с проектами, завязанными на данных. Модель жизненного цикла исследования данных в методологии состоит из шести фаз, а стрелки обозначают наиболее важные и частые зависимости между фазами.

![](https://lms.skillfactory.ru/assets/courseware/v1/7f48247896aed09feddb1c960b058a51/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml1-6_2.png)



### **ОСОБЕННОСТИ МЕТОДОЛОГИИ:**

* Методология CRISP-DM разработана специалистами по работе с данными и учитывает особенности DS-проектов.
* Иногда говорят, что CRISP-DM является обобщением методологии Agile на DS. В частности, методология является итеративной (проект состоит из спринтов).
* Последовательность этапов строго не определена, некоторые этапы можно менять местами. Возможна параллельность этапов (например, подготовка данных и их исследования могут вестись одновременно). Предусмотрены возвраты на предыдущие этапы.
* Фиксирование ключевых моментов проекта: графиков, найденных закономерностей, результатов проверки гипотез, используемых моделей и полученных метрик на каждой итерации цикла разработки.

Каждый из этапов методологии CRISP-DM разбивается на несколько подэтапов. Давайте их рассмотрим, чтобы понимать, с чем вы можете столкнуться в своей профессиональной деятельности и как структурировать процесс разработки.

Для демонстрации у нас будет сквозной пример. Вспомним одну из задач, которую мы уже рассматривали в модуле по визуализации в Python: к нам обращается банк с просьбой построить модель, которая будет прогнозировать уход клиента.

### **ПРИМЕР**
***
**1. Анализ требований**
Анализ производит специалист уровня Senior или Lead. Он контактирует с заказчиком и формализует его требования.

Данный этап разбивается на следующие подэтапы:

**1.1 ПОСТАНОВКА ЦЕЛИ ПРОЕКТА**

Знакомимся с заказчиком и пытаемся понять, чего он на самом деле хочет. Какой показатель бизнеса мы будем пытаться улучшить?

*Например, цель нашего заказчика — уменьшить отток клиентов банка с помощью заблаговременного определения шанса ухода.*

Важно заранее определиться с терминологией, чтобы говорить на одном языке.

*Так, если наша цель — уменьшить отток, то что мы понимаем под оттоком? Например, отсутствие значительных начислений по счёту в течение двух месяцев подряд.*

**1.2 ОЦЕНКА ТЕКУЩЕЙ СИТУАЦИИ**

Обсуждаем, существует ли уже разработанное средство решения задачи. Если да, то какое и чем оно не устраивает заказчика.

Есть ли доступное железо, на котором будет работать модель, или его надо закупать?

Какие данным нам понадобятся и доступны ли они? Где сейчас хранятся данные и какой доступ к ним будет представлен?

*Например, у нашего заказчика уже есть некоторая модель на основе деревьев решений, но у банка появился новый функционал, который позволяет собрать о пользователях новую информацию, и заказчик хочет, чтобы модель учитывала эту информацию при прогнозе.*

*Данные хранятся в базе данных клиентов банка. Доступ будет предоставлен только по идентификаторам клиентов, ФИО и контакты клиентов предоставляться не будут.*

Очень часто оказывается, что в текущих условиях не имеет смысла применять машинное обучение и задачу можно решить более успешно без него. **Важно заранее дать заказчику понять эту мысль.**

Необходимо заранее определиться, как будет функционировать модель, нужна ли дополнительная разработка приложения. В противном случае в конце проекта может случиться так, что модель есть, а места, куда её поставить, нет.

**1.3 ПОСТАВКА ЗАДАЧИ С ТОЧКИ ЗРЕНИЯ АНАЛИТИКИ**

После того как задача поставлена в бизнес-терминах, необходимо описать её в технических терминах.

В первую очередь определяем тип задачи машинного обучения: классификация, регрессия, кластеризация или что-то ещё.

*В нашем случае это будет задача бинарной классификации: целевой признак имеет два возможных исхода — уйдёт клиент или нет.*

Для каждого типа задач характерны свои метрики, по которым мы будем оценивать качество модели. Мы с вами ещё не говорили об ML-метриках, но стоит отметить, что их есть великое множество и каждая из них имеет свою интерпретацию.

*Например, в данной задаче классификации, где группы не сбалансированы (ушедших клиентов обычно значительно меньше, чем лояльных), будет лучше использовать метрику под названием **precision** (также можно взять ROC-AUC). Почему? Обсудим это в следующих модулях.*

Далее мы должны определить, что считается хорошим показателем качества.

*Precision изменяется от 0 до 1, и чем метрика ближе к 1, тем лучше. Будем считать, что мы хотим достичь precision = 0.7. Тогда модель будет считаться оптимальной.*

**1.4 ПЛАН ПРОЕКТА**

Как только получены ответы на все основные вопросы и ясна цель проекта, время составить план проекта. План должен содержать оценку всех этапов внедрения модели.

*Мы не будем подробно рассматривать планирование, так как этой частью занимается лидер команды разработки или Product Manager, если таковой имеется.*
***
**2. Исследование данных**

Цель этого шага — понять слабые и сильные стороны предоставленных данных, определить их достаточность, предложить идеи, как их использовать, и лучше понять процессы заказчика.

