__Машинное обучение__ — это процесс, в ходе которого система обрабатывает большое число примеров, выявляет закономерности и использует их, чтобы спрогнозировать характеристики новых данных. МО входит в область __искусственного интеллекта__.

![image.png](attachment:image.png)

> _Искусственный интеллект включает в себя машинное обучение, машинное обучение — глубокое обучение_

![image-2.png](attachment:image-2.png)

---

### Содержание<a name="1"></a>

1. [Типы алгоритмов](#2)
2. [Задачи машинного обучения](#3)
3. [Отличия машинного обучения (МО) от искусственного интеллекта (ИИ)](#4)
4. [Методология разработки задач](#5)
5. [Определение бизнес-требований](#6)
6. [Сбор и подготовка данных](#7)
7. [Разработка модели](#8)
8. [Тестирование и внедрение модели](#9)
9. [Проблемы разработки моделей](#10)
10. [Советы и лайфхаки](#11)
11. [Процесс моделирования](#12)

---

### Типы алгоритмов<a name="2"></a>

* __Обучение с учителем: регрессия__  
Есть target-переменная (целевая), множество значений для target-переменной бесконечно. Пример задачи — предсказать стоимость дома, зная количество комнат и удаленность от метро. Пример алгоритма — линейная регрессия.

* __Обучение с учителем: классификация__  
Есть target-переменная, множество значений для target-переменной конечно. Пример задачи — предсказать класс офиса, зная параметры: наличие лифта, площадь, количество окон, наличие шумоизоляции и другие. Пример алгоритма — логистическая регрессия.

* __Обучение без учителя: кластеризация__  
Target-переменной нет, количество кластеров может быть известно или нет. Пример задачи — разбить пользователей интернет-магазина на группы, зная данные о покупках. Пример алгоритма — k-means.

* __Обучение без учителя: уменьшение размерности__  
Target-переменной нет или в общем случае, признаков очень много и они неинформативны, данных часто мало. Пример алгоритма — PCA (метод главных компонент).

* __Обучение с подкреплением__  
Есть агент и мир вокруг агента, агент может действовать и получать награду или штраф за свои действия. Мир может меняться из-за действий агента.

![image.png](attachment:image.png)

> *Ключевым отличием обучения с подкреплением от обучения с учителем является то, что в первом случае сам мир меняется под действием агента. В разные моменты времени могут быть разные ответы на одни и те же входные данные.*

[К содержанию](#1)

---

### Задачи машинного обучения<a name="3"></a>

__Задачи__, которые решает машинное обучение:

* __Рекомендательные системы__: с этим товаром чаще всего покупают, вам понравится этот фильм.
* __Определение спама__: «Привет! Как дела?» — не спам; «Скидки! Распродажа!» — спам.
* __Скоринг клиентов__: распределение базы клиентов, оценка заёмщиков. Привлечь клиента сложно — удержать проще, спрогнозируем, кто собирается уйти, и попробуем их удержать.
* __Классификация болезней__: распознавание болезней по фото с помощью компьютерного зрения, постановка диагноза.
* __Динамическое ценообразование__: изменение стоимости товара или услуги в зависимости от времени дня, погоды, количества людей и конкурентов рядом. Например, стоимость на услуги такси: чем меньше рядом машин конкурентов и хуже погода, тем дороже поездка.
* __Распознавание голоса__: «Алиса, давай сыграем в морской бой!» «Алекса, включи свет в ванной». «Карась, расскажи мне сказку на ночь».
* __Predictive Maintenance__: исправление поломки до того, как что-то сломается. Например, обнаружение будущих проблем с рельсами в Siemens и Institute of Railway Research.
* __Распознавание видео__: автомобили без водителя, анализ ситуации вокруг.

[К содержанию](#1)

---

### Отличия машинного обучения (МО) от искусственного интеллекта (ИИ)<a name="4"></a>

__ИИ__ — широкое понятие, простыми словами, компьютер __имитирует поведение__ человека, демонстрирует свой интеллект, подражает поведению человека в решении задач.  
__МО__ — часть ИИ, это набор методов, которые дают возможность компьютеру делать выводы на основе загруженных данных, МО __имитирует процесс обучения__ человека.

![image.png](attachment:image.png)

> *Есть фразы-подсказки. Если это язык программирования Python, то, скорее всего, — это МО, набор алгоритмов для решения задач. Если это PowerPoint, то, скорее всего, — это искусственный интеллект.*

Выделяют __два основных типа__ ИИ:

* __слабый__: решает узкую задачу, алгоритм, существует в разных проявлениях,
* __сильный__: может обосновывать выводы и решать проблемы, самостоятельно мыслит и осознаёт себя, пока не существует.

[К содержанию](#1)

---

### Методология разработки задач<a name="5"></a>

**Каскадная методология** (Waterfall model, «Водопад») — модель процесса разработки ПО в виде потока последовательных фаз: анализ требований, проектирование, реализация, тест, интеграция и поддержка. Разработчик действует строго последовательно и переходит к новой фазе после завершения предыдущей. Модель считается **устаревшей**.  

**Гибкая методология** (Agile) — процесс разработки ПО с гибким возвратом к любому этапу: если тест спроектированной модели не дал нужного результата, то разработчик может начать с самого начала. Более тесное взаимодействие разработчика и заказчика.

**Data Science** — это проверка гипотез, после проверки одной гипотезы может возникнуть другая. Невозможно заранее определить все **требования** (Business Understanding) к предварительному анализу данных — самой большой части в Data Science-разработке. Предварительный анализ данных — исследование данных с целью поиска аномалии или интересных комбинаций признаков (**insights** или инсайты). Инсайты могут улучшить модель Data Understanding — это **Insight Mining**.

![image.png](attachment:image.png)

> *__Почему Insight Mining важен?__ Он позволяет уточнить бизнес-требования, помогает понять, каких данных или признаков не хватает и запросить их. На стадии оценки (__Evaluation__) можно увидеть, что гипотеза не подтвердилась — тогда нужно собирать бизнес-требования заново и формулировать новую гипотезу.*

[К содержанию](#1)

---

### Определение бизнес-требований<a name="6"></a>

Первый этап решения задач МО — определение __бизнес-требований__, то есть понять, что в итоге хочет получить заказчик.

__Выбор цели__. Определите, что именно нужно сделать и действительно ли для достижения этой цели нужно использовать машинное обучение. Не путайте цель и задачи: цель обычно одна, задач несколько. Например, увеличить количество проверяемых гипотез в день химиками на заводе — цель (не до конца определенная). Сделать сервис по распознаванию нарисованных молекул — возможная задача на пути к цели.

__Минимальный жизнеспособный продукт__ (MVP, Minimum Viable Product). Не стоит сразу замахиваться на большую цель, подумайте, какое __небольшое решение__ задачи может вас удовлетворить. Например, вместо создания полноценного приложения для биометрии можно на первой итерации проекта сделать бота в Телеграме для проверки гипотезы и тестирования модели.

__SMART-цель__. Цель должна быть конкретной, измеримой, достижимой, значимой и ограниченной по времени.

__Выбор метрики__. Определите заранее, как будете __измерять результат__, по каким параметрам. Разные задачи — разные метрики.

__Погружение в предметную область__. Data Science-разработчики — специалисты в алгоритмах МО, а не в терминах систем документооборота. Составьте вместе с заказчиком __словарь__ проекта, чтобы говорить на одном языке, поясните специфичные термины и жаргон.

[К содержанию](#1)

---

### Сбор и подготовка данных<a name="7"></a>

__Данные__ — это топливо для алгоритмов МО: если данных мало или они плохого качества, то алгоритм не выдаст хороший результат. Этот принцип называется __Garbage in — garbage out__, мусор на входе — мусор на выходе.

Как много нужно данных? __Чем больше, тем лучше__. Просите все данные, которые можно достать, дальше можно сделать отбор, какие данные пригодятся для решения задач, а какие — нет. Для нейронных сетей нужно намного больше данных, чем для классического МО. Например, можно не заметить периодичность в данных, если брать данные за последние пару лет.

Продумайте __доступ__ к данным и их __хранение__. Логируйте (протоколируйте) действия, совершаемые с данными. Если данные табличные, в большинстве случаев нужно нормализовывать базу данных.

![image.png](attachment:image.png)

> *Если данных мало, то может понадобится __обогащение данных__. Это процесс добавления данных извне в готовую выборку. Например, при прогнозировании спроса на жилье в каком-то районе, можно добавить среднегодовую температуру в этом районе как новый признак.*

Расширяйте __информацию о данных__. Если заказчику ясно, что означает конкретный __признак__, то разработчику может быть не понятен смысл признака без его подробного описания. Если признак содержит различные и определенные возможные значения, их нужно пояснить, например, коды ошибок.

[К содержанию](#1)

---

### Разработка модели<a name="8"></a>

__Модель МО__ — алгоритм, программа, которая по заданным входным данным выдаёт результат, прогноз. Модель — это не реальность, а её приближение. Моделей много, они очень разные, не все из них можно интерпретировать. __Лучшей модели не существует__, у каждой есть свои преимущества, недостатки и уникальные особенности.

__Как выбрать модель:__  
* Выбрать модель после разведывательного анализа данных (__EDA__).
* Построить гипотезы о параметрах модели (__гиперпараметры__).
* Проверить модели с __обучением__ и __валидацией__.
* На основе результатов сделать новую модель или изменить гиперпараметры старой.

__Как провести обучение:__  

* Выбрать гиперпараметры модели.
* Выбрать и настроить алгоритм __оптимизации__ — именно он отвечает за обучение модели.
* Подать на вход алгоритму данные и модель.
* Подождать окончание оптимизации и валидации модели.
* Повторить процесс до получения нужного __результата__ по выбранной метрике.

![image.png](attachment:image.png)

> *Необходимое __аппаратное обеспечение__: для МО — __центральный процессор__ (CPU), для нейронных сетей — __графический процессор__ (GPU от NVIDIA и мощнее), для обработки изображений — много __видеопамяти__.*

[К содержанию](#1)

---

### Тестирование и внедрение модели<a name="9"></a>

__Виды тестирования:__

* Unit-тесты.
* Интеграционные тесты.
* Нагрузочные тесты.
* Валидация моделей.
* Проверка данных.

__Unit-тест__ — модульное тестирование, проверка __отдельных модулей__ кода, набора модулей с данными, процедурами использования и обработки. Тестирует одну небольшую __единицу функциональности__, тесты пишутся отдельно для каждой необычной функции или метода. Как протестировать __работоспособность модели__ — выбрать архитектуру и готовые хорошие данные, проверить, что выход с модели соответствует ожиданиям.

__Интеграционный тест__ — тестирование модулей после unit-теста, проверка __взаимодействия__ между разными модулями или единицами функциональности. Например, проверка, что после загрузки данные корректно поступают на вход методам предобработки данных, затем корректно поступают на вход в модель. Это тестирование всего __Pipeline__ — процесса обработки данных и обучения модели.

__Нагрузочный тест__ — тестирование __производительности__, сбор показателей и определение производительности и времени отклика системы или устройства на __внешний запрос__. Помогает понять, соответствует ли система или устройство требованиям, выявить узкие места в Pipeline и решить, что __оптимизировать__. Если обработка данных занимает 90% времени, а обучение — 10%, то нет смысла заострять внимание на оптимизацию обучения, если можно улучшить обработку.

__Валидация модели__ — проверка __соответствия__ предсказанных моделью данных реально известным правильным ответам. Валидация проходит __во время и после обучения__ модели. Помогает понять, что модель вообще работает. Когда проводится:  

* Во время обучения, чтобы откорректировать процесс обучения при необходимости;
* На отложенной выборке после обучения, чтобы определить, научилась модель чему-то или просто выучила входные данные;
* Может проводиться при приёмке проекта на отложенной выборке, которую модель еще не видела.

__Проверка данных__: полезно проверять данные на входе в ваш конвейер обработки данных. Почему? Потому что данные, на которых вы обучали модель и данные, которые приходят к вам в модель уже в реальной жизни могут отличаться. Поэтому, модель может выдавать некорректный результат. Если заранее определить, что данные на вход приходят не такие, к каким мы привыкли, ошибки можно избежать.

__Способы внедрить модель:__  

* __REST API__ — веб-сервис, к которому можно обращаться откуда угодно.
* __Docker-контейнер__ — контейнер с изолированным окружением, в котором хранится модель и всё, что ей нужно для работы.
* __Готовый сервис__ — приложение, бот, готовый веб-сайт, внедрение на железо (embedded).

[К содержанию](#1)

---

### Проблемы разработки моделей<a name="10"></a>

![image.png](attachment:image.png)

> *__Проблема №1__ — Непонятно, сколько закладывать __времени__ на разработку модели.*

Предобработка данных, выбор и обучение модели, анализ результатов занимают много времени, но точно определить конкретные промежутки невозможно. Какие-то процессы могут потребовать __возврата__ и __доработки__, возможен откат на старт.

![image.png](attachment:image.png)

> *__Проблема №2__ — Невозможно с первого раза сделать __идеальную рабочую модель__.*

![image.png](attachment:image.png)

> *__Проблема №3__ — Модель начинает приносить __бизнес-пользу__ только после этапа __внедрения__.*

Соотношение этапов по затратам времени: определение бизнес-требований — 5%, сбор и подготовка данных — 80%, разработка и обучение модели — 10%, тестирование и внедрение — по 2%.

![image.png](attachment:image.png)

> *__Проблема №4__ — Не уделили внимание __предобработке__.*

Если процесс занимает мало времени, то, скорее всего: не учтены бизнес-требования, не проведена работа по исследованию данных, недостаточно опытные разработчики/аналитики, недостаточно данных.

[К содержанию](#1)

---

### Советы и лайфхаки<a name="11"></a>

__Напоследок несколько советов по МО__:  

* __Распределяйте роли__: в иделе в команде разработчиков иметь разных специалистов — Data Engineer, Data Scientist и Data Analyst. Каждый имеет свою специфику и лучше разбирается в конкретных процессах.
![image.png](attachment:image.png)  

* __Применяйте принцип Fail fast__: лучше начинать исследование с большого количества небольших гипотез. Если гипотезу проверили и она верна – пора делать MVP и проверять работу в боевых условиях. Разные части предобработки могут делать разные разработчики, но нужна синхронизация между ними.
* __Выберите правильную метрику__: сколько пользы бизнесу принесёт МО. Разобраться, какая метрика лучше подходит для какой задачи, как её можно улучшать.
* __Ищите готовые решения__ на github и адаптируйте под себя.
* __Правильно пользуйтесь инструментами__. Не усложняйте, ищите готовые решения, библиотеки.
* __Будьте терпеливы__: в Data Science-разработке обычно невозможно заранее сказать, какие гипотезы подтвердятся, не торопитесь – неверно подобранная гипотеза может дорого обойтись позже. Уделите время тщательному подбору.
* __Чётко формулируйте требования разметки__. Распишите правила принятия решения, покажите на примерах. Лучше всего будет показать на видео, как вы размечаете данные.

[К содержанию](#1)

---

### Процесс моделирования<a name="12"></a>

__Как происходит моделирование:__

* __Подготовка данных__: import — загрузка данных, print — вывод данных, x.isnull().sum — проверка наличия пропусков, разбивка выборки на тестовую и обучающую.
* __Обучение модели__: метод LinearRegression — линейная регрессия, GradientBoostingRegressor — градиентный бустинг.
* __Валидация модели__: чем меньше результат, тем лучше.
* __Внедрение__: модель оборачивается в сервис или контейнер.

__Ноутбук к теме__: m1_part2_ds_example.ipynb

[К содержанию](#1)