**Искусственный интеллект (Artificial Intelligence, ИИ)** — это способность компьютерной системы имитировать когнитивные функции человека, такие как обучение и решение задач. ИИ позволяет компьютеру моделировать рассуждения людей для получения новых сведений и принятия решений (например, выдавать кредит заёмщику или нет).

**Машинное обучение (Machine Learning)** — это один из разделов науки об искусственном интеллекте. Машинное обучение заключается в построении моделей с помощью поиска закономерностей в данных и использовании их для того, чтобы спрогнозировать характеристики новых данных.

За управление параметрами отвечает некоторая **функция ошибки**, или, как её ещё называют, **функция потерь (loss function)**. Это некоторая математическая функция, которая показывает различие между фактическими ответами и предсказаниями модели.

Самый простой пример функции ошибки — **MSE (Mean Squared Error)**, средний квадрат разницы между ответами. 

Например, модель предсказала для какого-то дома цену в 15 тыс. долларов, а он на самом деле стоит 20 тыс. долларов. Считаем квадрат ошибки (SE) для этого примера:(20-15)в кв.= 25. А если посчитать такую ошибку для нескольких примеров и взять среднее, получим MSE.


Теперь на основе значения MSE меняем параметры таким образом, чтобы уменьшить эту ошибку (свести её к минимуму).

Суть всего обучения и заключается в поиске параметров.

В нашей схеме мы подаём данные в модель, считаем ошибку и сводим её к минимуму, меняя параметры. Мы пытаемся подобрать такие параметры модели, при которых функция ошибки нашего предсказания была бы наименее возможной на предоставленных данных. Такие параметры называются оптимальными. Как правило, обучение заканчивается, когда мы прогнали через модель все доступные обучающие примеры.

**Примечание.** Рассмотренная схема называется **обучением на основе минимизации ошибок**, или, говоря более научным языком, **минимизацией эмпирического риска (риска ошибки)**.

Стоит отметить, что такая схема обучения далеко не единственная и подходит не для всех моделей. Однако она является наиболее популярной.

Помимо обучения на основе ошибок, существуют следующие схемы:

- на основе прироста информации (используются в деревьях решений);
- на основе «сходства» объектов (используется в методе ближайших соседей);
- на основе вероятностных законов (например, метод максимального правдоподобия).


Более того, мы увидим, что бывают задачи, где нет правильных ответов, то есть мы не можем подсчитать функцию ошибки. Этот класс задач называется **обучением без учителя**.

Очень часто функции ошибок сложно интерпретировать: например, существует функция ошибки log loss (логистическая функция потерь), она может изменяться от 0 до бесконечности. Непонятно, что считать хорошим качеством, а что — плохим, где эта грань. Например, 15.332 — это хороший результат? А 1.67 — это хороший результат? К тому же, если вам надо узнать, как часто ваша модель угадывает правильный ответ, log loss вам этого не скажет.

Поэтому для оценки качества модели вводится ещё одно понятие — **метрика**.

Метрика **не равно** функция потерь

**Метрика (metric)** — это численное выражение качества модели (или её ошибки). Иногда метрика может совпадать с функцией потерь, но чаще всего они различны. Метрика, как правило, должна быть интерпретируемой и понятной — в этом её главное отличие от функции потерь.

**Глубокое обучение (Deep Learning)** — подраздел машинного обучения. Глубокое обучение основано на изучении и применении в качестве инструмента для решения задач искусственных нейронных сетей. Данные алгоритмы основаны на имитации работы человеческого мозга.

Самым важным качеством любой нейронной сети является её **архитектура** (набор и порядок её слоёв). От неё зависит качество и скорость обучения. В настоящее время миру известно множество различных архитектур, многие из которых объединены для решения целых классов задач.

# Обучение с учителем

В зависимости от наличия разметки (о том, что такое разметка, мы поговорим ниже) в данных и особенностей обучения выделяют следующие виды машинного обучения:

* **обучение с учителем (supervised learning)**,
* **обучение без учителя (unsupervised learning)**.

В отдельную категорию, не похожую на предыдущие, выделяют ещё один вид машинного обучения — **обучение с подкреплением (reinforcement learning)**.

При этом обучение с учителем и обучение без учителя содержат в себе отдельные типы задач машинного обучения, такие как регрессия, классификация, кластеризация, понижение размерности и ассоциация.

**Обучение с учителем** основан на том, что у машины есть некий учитель, который сообщает ей, как поступать правильно, рассказывает, что на этой картинке изображена кошка, а на этой — собака. То есть мы заранее разделили все данные на кошек и собак, а машина учится на конкретных примерах и правильных ответах к ним.

Данные, в которых содержится информация о целевом признаке, называются **размеченными.**

## Регрессия

**Задача регрессии (regression)** — это задача, в которой мы пытаемся предсказать вещественное число на основе признаков в наборе данных. То есть задача сводится к предсказанию целевого признака, который является числовым.

**Цель обучения** — построить модель, которая отражала бы зависимость между признаками и целевой числовой переменной.

Классическими методами регрессии являются линейная (Linear) и полиномиальная (Polynomial) регрессия. Но они являются далеко не единственными.

Полиномиальная регрессия использует в качестве модели полином (многочлен), который отражает нелинейную зависимость.

*Примечание.* Как видите, полиномиальная регрессия качественнее описывает зависимости в данных, подстраиваясь под нелинейность в них. Но, забегая вперёд, скажем, что использование полиномиальной регрессии связано с повышенным риском переобучения модели (она может слишком точно подстроиться под обучающий набор данных, но не давать качественных результатов в реальных условиях).

Нередко в качестве отдельного подвида задачи регрессии выделяют задачу прогнозирования. 

**Прогнозирование (forecasting)** — это задача регрессии, в которой мы пытаемся предсказать будущее поведение временного ряда, то есть целевая переменная является числовой и зависит от времени. Причём каждому моменту времени соответствует одно конкретное значение. Можно сказать, что прогнозирование — это частный случай регрессии.

Методы регрессии с небольшими изменениями подходят и для решения задачи прогнозирования. Однако, как правило, большей эффективностью обладают модели, которые разработаны специально для прогнозирования временных рядов, например:

- ARIMA,
- SARIMA (модификация ARIMA),
- ARCH (модель для финансовых временных рядов).

## Классификация

**Задача классификации (classification)** — задача, в которой мы пытаемся предсказать класс объекта на основе признаков в наборе данных. То есть задача сводится к предсказанию целевого признака, который является категориальным.

Чаще всего мы сталкиваемся с **бинарной классификацией**: целевой признак имеет две возможные категории («да» — 1 или «нет» — 0).

Когда классов, которые мы хотим предсказать, более двух, классификация называется **мультиклассовой (многоклассовой)**.

*Примечание.* Любую мультиклассовую задачу классификации можно свести к бинарной классификации методом «один против всех». Суть метода: какую-то из категорий мы обозначаем за 1, а оставшиеся за — 0 и решаем задачу бинарной классификации. Затем повторяем процедуру для остальных категорий.

**Цель обучения** — построить модель, которая на основе признаков разделяет объекты на классы наилучшим образом. С математической точки зрения это означает построение разделяющей поверхности для классов в пространстве признаков.

Для решения задачи классификации может использоваться множество моделей:

- логистическая регрессия (Logistic Regression),
- метод опорных векторов (SVM),
- деревья решений (Decision Tree),
- наивный байесовский классификатор (Naive Bayes),
- метод ближайших соседей (kNN).



# Обучение без учителя

Обучение без учителя подразумевает, что у вас нет правильных ответов. То есть признак, который вы хотите предсказать, вам недоступен. Подход основан на том, что алгоритм самостоятельно выявляет зависимости в данных только на основе схожести объектов в данных между собой.

Данный вид машинного обучения разбивается на несколько самостоятельных типов задач:

* кластеризация,
* понижение размерности,
* ассоциация


## Класстеризация

**Задача кластеризации (clustering)** — это задача, в которой мы разделяем данные на группы на основе признаков в данных.

На первый взгляд может показаться, что эта задача идентична классификации, но в задаче кластеризации у нас нет правильных ответов. То есть у нас нет учителя: мы пытаемся разделить данные на категории, опираясь только на «близость» объектов. Причём результаты каждого из алгоритмов кластеризации могут быть разными, потому что «близость» — понятие относительное и её можно измерять различными способами.

**Цель обучения** — построить модель, которая наилучшим образом объединит «похожие» объекты в группы.

Количество кластеров в зависимости от выбранного алгоритма можно задать заранее или доверить их количество алгоритму.

Самая сложная часть в задаче кластеризации — проинтерпретировать полученные кластеры, понять, что именно объединяет объекты, попавшие в тот или иной кластер.

Типичные методы кластеризации при известном заранее количестве кластеров:

- метод k-средних (k-means),
- EM-алгоритм,
- агломеративная кластеризация.

## Понижение размерности (обобщение)

**Понижение размерности (dimensionality reduction)** — задача, в которой мы пытаемся уменьшить количество признаков, характеризующих объект. Обычно мы уменьшаем количество признаков до 2-3 для того, чтобы получить возможность визуализировать данные.

Это вполне стандартная ситуация — целевой признак зависит от множества других признаков. Нам бы хотелось отобразить комплексную зависимость (от всех признаков одновременно) на графике. Но проблема в том, что для визуализации нам просто не хватит числовых осей!

Выход из этой ситуации — использовать методы понижения размерности.

* Практическая польза этих методов состоит в том, что мы можем **объединить несколько признаков в один и получить абстракцию**.

Например, собаки с треугольными ушами, длинными носами и большими хвостами объединяются в полезную абстракцию «овчарки». Да, мы теряем информацию о конкретных овчарках, но новая абстракция точно полезнее этих лишних деталей.

* Ещё одно проявление пользы таких алгоритмов — **увеличение скорости обучения**. Мы уже говорили о проклятии размерности: «чем больше признаков в данных, тем сложнее модели обучиться на них». Методы понижения размерности позволяют свести эту проблему к минимуму. Однако точность моделей может сильно упасть, поэтому необходимо уметь находить баланс.

* Ещё один приятный бонус — мы автоматически **избавляемся от мультиколлинеарности признаков**. Методы понижения размерности устроены так, что в первую очередь объединяют между собой наиболее коррелированные признаки.



Примеры использования методов понижения размерности: визуализация, рекомендательные системы, определение тематик и поиск похожих между собой документов, анализ фейковых изображений.

**Цель обучения** — построить модель, которая переводит пространство признаков из размерности n в размерность m (n>m), при этом сохранив наибольший объём информации.

Основные алгоритмы понижения размерности:

- метод главных компонент (PCA),
- сингулярное разложение (SVD),
- латентное размещение Дирихле (LDA),
- латентный семантический анализ (LSA),
- t-SNE.

## Ассоциация (бонус)

Ассоциация (association) — это задача, в которой мы пытаемся найти правила и законы, по которым существует последовательность действий. 

Мы можем создавать различные шаблоны, такие как определённые группы предметов, которые постоянно покупаются вместе, предметы, похожие на предметы, которые вы просматриваете, и т. д. Это, в свою очередь, помогает в правильном размещении предметов на веб-сайте или внутри физического заведения.

Примеры использования: прогноз акций и распродаж, анализ товаров, покупаемых вместе, расстановка товаров на полках, анализ паттернов поведения на веб-сайтах.

Основные ассоциативные модели:

- Apriori,
- Eclat,
- FP Growth.

# Обучение с подкреплением

Обучение с подкреплением кардинально отличается от обучения с учителем и без него, поэтому его выделяют в отдельный вид обучения.

Это не задачи, связанные с анализом данных и предсказанием, а задачи **взаимодействия со средой и «выживания» в ней**.

Средой может быть видеоигра: в такой искусственной среде «выживают», например, роботы, играющие в Mario, или интеллектуальные боты во множестве других игр.

Средой может быть и реальный мир, точнее — его часть: в такой среде существуют, например, автопилот Tesla, роботы-пылесосы или беспилотные летательные аппараты.

Объект, который взаимодействует со средой (например, играет в игру), называется **агентом**.

Агент может получать от среды полные или частичные наблюдения о её состоянии. Он может выполнять действия согласно своим наблюдениям. По мере совершения действий агент может получить в ответ награду от среды.

Данные о среде могут быть полезны агенту, но они не являются главным фактором обучения. Неважно, сколько данных соберёт агент, — у него всё равно не получится предусмотреть все возможные ситуации.

Поэтому **цель обучения** — не рассчитать все ходы, а построить оптимальную стратегию для взаимодействия со средой и максимизировать финальную награду.

В основе обучения с подкреплением лежат теория игр, теория динамической оптимизации и ещё множество математических дисциплин.

Например, классический метод обучения с подкреплением — **Q-learning** — основан на уравнении Беллмана.

В Q-learning рассматриваются все состояния, в которых может находиться агент, и все возможные переходы из одного состояния в другое, которые определяются действиями.

Уравнение Беллмана помогает определить следующее оптимальное действие, такое, что значение Q-функции для определённой пары состояние-действие будет максимальной.

Цель Q-learning — приближённо найти (аппроксимировать) Q-функцию, которая ответит на вопрос, как нужно правильно играть, чтобы получить максимум награды.

Отдельный пласт в сфере обучения с подкреплением — **генетические алгоритмы.** Их идея отличается от идей Q-learning и состоит в следующем: мы бросаем множество агентов в среду и заставляем их идти к цели. Затем мы выбираем лучших из них — тех, кто прошёл дальше всех, скрещиваем, добавляем мутации и бросаем в среду ещё раз. Такие манипуляции мы проделываем огромное количество раз. В итоге по законам эволюции должно получиться разумное существо. Главный вопрос — сколько времени на это может понадобиться.

# Процесс разработки

Эта последовательность действий по работе над проектом называется **методологией разработки (моделью процесса разработки).**

## Методология Waterfall

**Водопадная методология (Waterfall model, «Водопад»)** — модель процесса разработки ПО в виде потока последовательных фаз. Схема разработки согласно этой модели представлена на схеме ниже:
1. Анализ требований
2. Проектирование
3. Разработка
4. Тестирование
5. Внедрение

*ОСОБЕННОСТИ МЕТОДОЛОГИИ:*

* Разработка происходит строго последовательно, этап за этапом. Переход на предыдущий этап не предусмотрен или требует формального процесса, например подачи заявки на изменения в организационный комитет и её одобрения.
* Планирование ведётся на всю длительность проекта в самом его начале.
* Все действия максимально регламентированы и спланированы до мелочей. Установлены чёткие сроки окончания каждого из этапов.
* По окончании каждого из этапов происходит формальная сдача результатов именно этого этапа в виде большого числа документов. Например, после этапа анализа требований заказчика рождается техническое задание (ТЗ), а после этапа тестирования — документ, который называется «Программа и методика испытаний». В РФ для содержания большинства документов предусмотрены ГОСТы.
* Результаты каждого из этапов тщательно проверяются на наличие ошибок. Только после исправления всех ошибок на текущем этапе команда может перейти на следующий этап.
* Готовый продукт передаётся заказчику только один раз в конце проекта (второй попытки не предусмотрено). У команды есть только один шанс на сдачу проекта, поэтому внимание к деталям и документации максимально пристальное.

Waterfall используется в проектах, где отсутствует неопределённость в требованиях заказчика: проект достаточно понятный и его можно спланировать в самом начале. То есть результат можно чётко представить заранее.

## Методология Agile

**Гибкая методология (Agile)** — это модель процесса разработки ПО с гибким возвратом к любому этапу: если тест спроектированной модели не дал нужного результата, то разработчик может начать с самого начала.

Этапы каждой из итераций такие же, как в Waterfall, с добавлением этапа демонстрации промежуточных результатов заказчику.

Проект реализуется не как последовательность длительных этапов (как это было в Waterfall), а как ряд коротких временных отрезков — спринтов, на каждом из которых прогоняются все этапы.

ОСОБЕННОСТИ МЕТОДОЛОГИИ:

* Разработка происходит по итерациям. В конце каждой итерации промежуточный результат демонстрируется заказчику. Заказчик даёт обратную связь (устраивает ли его эта часть функционала). Итерации заканчиваются, когда готов финальный продукт и он устраивает заказчика. 
* Проект планируется только на один спринт. Длительность спринтов — от одной до четырёх недель. То есть вам необходимо продумать задачи только на короткий промежуток времени, что сильно повышает точность планирования.
* В случае если у вас что-то не получилось (например, модель показывает низкое качество), вы просто переходите на новую итерацию и теряете только время, потраченное на один спринт, а не на весь проект в целом.
* Agile не предусматривает множества формальных документов, в отличие от Waterfall.
* Команда полностью вовлечена в процесс, так как отсутствует формальная иерархия. Методология считается демократичной. Главный принцип — люди важнее процессов и инструментов.
* Заказчик видит продукт на протяжении всей разработки и может вносить коррективы (не выходящие за рамки изначального задания). Проект сдаётся, когда выполнены все требования и они устраивают заказчика.

Agile используется в тех случаях, когда в проекте есть неопределённость. Ни заказчик, ни пользователи, ни разработчики пока что полностью не представляют, что должно получиться в итоге.

НЕДОСТАТКИ:
* Agile — это общая модель процесса разработки продукта, причём не только из сферы IT. Методология не учитывает особенности работы Data Science команды. Например, видите ли вы в процессе Agile-разработки такие этапы, как подбор параметров модели или расчёт метрик её качества? Куда их включить — в этап разработки или, может быть, в тестирование? Agile об этом не говорит.
* DS-команда может сдерживать Agile-разработку команды разработчиков ПО, потому что дата-сайентисты долго перебирают возможные модели. Постоянная настройка модели иногда может сдерживать ощутимый прогресс.
* Документирование не регламентировано. В DS-проектах документация и история всех используемых моделей очень важна, позволяет экономить время и облегчает возможность вернуться к изначальному решению.

## Методология CRISP-DM

**CRISP-DM (Cross-Industry Standard Process for Data Mining)** — наиболее распространённая и проверенная методология по работе с проектами, завязанными на данных. Модель жизненного цикла исследования данных в методологии состоит из шести фаз, а стрелки обозначают наиболее важные и частые зависимости между фазами.

ОСОБЕННОСТИ МЕТОДОЛОГИИ:

* Методология CRISP-DM разработана специалистами по работе с данными и учитывает особенности DS-проектов.
* Иногда говорят, что CRISP-DM является обобщением методологии Agile на DS. В частности, методология является итеративной (проект состоит из спринтов).
* Последовательность этапов строго не определена, некоторые этапы можно менять местами. Возможна параллельность этапов (например, подготовка данных и их исследования могут вестись одновременно). Предусмотрены возвраты на предыдущие этапы.
* Фиксирование ключевых моментов проекта: графиков, найденных закономерностей, результатов проверки гипотез, используемых моделей и полученных метрик на каждой итерации цикла разработки.

Каждый из этапов методологии CRISP-DM разбивается на несколько подэтапов.
1. Анализ требований заказчика
* Постановка цели проекта
* Оценка текущей ситуации
* Поставка задачи с т.з. аналитики
* План проекта
2. Исследование данных
* Сбор данных
* Описание данных
3. Подготовка данных
* Оценка качества данных
*Очистка данных
* Проектирование признаков
* Отбор признаков
4. Моделирование
* Выбор алгоритмов
* Планирование тестирования
* Обучение модели
* Анализ результатов
5. Оценка модели
* Оценка результатов моделирования
* Разбор сильных и слабых сторон модели
* Принятие решения о внедрении
6. Внедрение 
На данном шаге осуществляется внедрение модели (если проект предполагает этот этап), причём под внедрением может пониматься как физическое добавление функционала, так и инициирование изменений в бизнес-процессах компании.
* Планирование развертывания 
* Настройка мониторинга модели
* Отчет по результатам

* **Распределяйте роли.** В идеале в команде разработчиков необходимо иметь разных специалистов — Data Engineer, Data Scientist и Data Analyst. Каждый из них лучше разбирается в конкретных процессах.
* **Выберите правильную метрику (сколько пользы бизнесу принесёт ML)**. Разберитесь, какая метрика лучше подходит для какой задачи, как её можно улучшать.
* **Правильно пользуйтесь инструментами.** Не усложняйте, ищите готовые решения и библиотеки и адаптируйте под свои цели.
* **Будьте терпеливы.** В Data Science-разработке обычно невозможно заранее сказать, какие гипотезы подтвердятся. Не торопитесь — неверно подобранная гипотеза может дорого обойтись позже. Уделите время тщательному подбору.
* **Чётко формулируйте требования** разметки, если нанимаете фрилансеров. Распишите правила принятия решения, покажите на примерах. Лучше всего будет показать на видео, как вы размечаете данные.