# Tеория машинного обучения

Machine Learning (машинное обучение) — это направление, объединяющее технологии создания самообучающихся алгоритмов.

## 2. Общие понятия ML

#### Искусственный интеллект (Artificial Intelligence, ИИ) — это способность компьютерной системы имитировать когнитивные функции человека, такие как обучение и решение задач. ИИ позволяет компьютеру моделировать рассуждения людей для получения новых сведений и принятия решений (например, выдавать кредит заёмщику или нет).

Искусственный интеллект — это комплексная наука, находящаяся на стыке математики, биологии, психологии, логики и многих других дисциплин.

Цель этой науки — понять, как устроен мозг человека и научиться моделировать его работу с помощью компьютера. 



В области искусственного интеллекта есть несколько подразделов:

    - робототехника (Robotics),
    - компьютерное зрение (Computer Vision),
    - обработка естественного языка (Natural Language Processing),
    - машинное обучение (Machine Learning).

#### Машинное обучение (Machine Learning) — это один из разделов науки об искусственном интеллекте. Машинное обучение заключается в построении моделей с помощью поиска закономерностей в данных и использовании их для того, чтобы спрогнозировать характеристики новых данных.

Машинное обучение как науку можно отнести к разделу прикладной математики. Оно находится на стыке статистики, математического анализа, линейной алгебры, численных методов оптимизации и дискретной математики.

Набор данных (dataset) — это множество примеров (выборка), на котором происходит обучение модели. Это могут быть табличные данные, с которыми мы уже работали, текст, аудио, изображения (видео) и т. д.


Данные — это самая важная часть обучения. Хотим определять спам — нужны примеры спам-писем, предсказывать курс акций — нужна история цен, узнать интересы пользователя — нужны данные о его лайках и репостах.

Помимо самих данных, всегда нужно помнить об их «качестве». Мы с вами уже неоднократно говорили на протяжении курса: «Мусор на входе — мусор на выходе».

Признаки (features) — это свойства, характеристики, которыми описываются наши объекты. Для недвижимости это могут быть площадь, этаж, район; для автомобиля — пробег, мощность двигателя, цвет и т. д.


Признак, который мы хотим предсказать, называется целевым признаком (target feature). Иногда признаки, на основе которых мы хотим предсказать целевой, могут называться факторами (factors).


Например, хотим предсказать цену недвижимости, цена — наш целевой признак, остальные (площадь, этаж, район) — факторы.

В случае с табличными данными всё предельно просто: признаки — это столбцы таблицы. Но всё становится сложнее в случае с картинкой или звуком. Что является признаками для таких данных? Ответ на этот вопрос мы узнаем в модулях по глубокому обучению.

Модель машинного обучения (ML-model) — это некоторый математически формализованный метод (алгоритм) описания зависимости в данных. Как правило, модель имеет настраиваемые (регулируемые) параметры.


В простом понимании модель — это математическая формула, которая связывает факторы с целевым признаком. Вспомним пример из школы: формула y = kx^2 связывает целевую переменную y и фактор x квадратичной зависимостью, а коэффициент k — это параметр.


В более обширном понимании модель может выражаться не формулой — это может быть математически описанная последовательность действий (алгоритм).


Математическая основа моделей позволяет реализовывать их в виде программ. Так, в Python существуют библиотеки, содержащие в себе уже запрограммированные алгоритмы, в которые достаточно лишь подать данные, и они обучаются сами. Примером может являться уже знакомая вам библиотека sklearn.


Управляя своими параметрами, модель подстраивается под зависимости в данных, чтобы описать эту зависимость и свести ошибку в предсказаниях к минимуму. Такой процесс называется обучением модели (model learning).

За управление параметрами отвечает некоторая функция ошибки, или, как её ещё называют, функция потерь (loss function). Это некоторая математическая функция, которая показывает различие между фактическими ответами и предсказаниями модели.

Самый простой пример функции ошибки — MSE (Mean Squared Error), средний квадрат разницы между ответами. 

В нашей схеме мы подаём данные в модель, считаем ошибку и сводим её к минимуму, меняя параметры. Мы пытаемся подобрать такие параметры модели, при которых функция ошибки нашего предсказания была бы наименее возможной на предоставленных данных. Такие параметры называются оптимальными. Как правило, обучение заканчивается, когда мы прогнали через модель все доступные обучающие примеры.

Помимо обучения на основе ошибок, существуют следующие схемы:

    - на основе прироста информации (используются в деревьях решений);
    - на основе «сходства» объектов (используется в методе ближайших соседей);
    - на основе вероятностных законов (например, метод максимального правдоподобия).


#### Метрика (metric) — это численное выражение качества модели (или её ошибки). Иногда метрика может совпадать с функцией потерь, но чаще всего они различны. Метрика, как правило, должна быть интерпретируемой и понятной — в этом её главное отличие от функции потерь.

Вот лишь несколько примеров моделей (алгоритмов) машинного обучения, которые мы будем изучать на курсе:

    1) линейная регрессия (Linear Regression),
    2) логистическая регрессия (Logistic Regression),
    3) наивный метод Байеса (Naive Bayes),
    4) метод k ближайших соседей (kNN),
    5) деревья решений (Decision Tree),
    6) случайный лес (Random Forest),
    7) градиентный бустинг (Gradient Boosting),
    8) нейронные сети (Neural Network).

Когда в качестве модели машинного обучения используются нейронные сети, такой вид машинного обучения называется глубоким обучением. И тут снова стоит вспомнить первую схему в этом юните.

#### Глубокое обучение (Deep Learning) — подраздел машинного обучения. Глубокое обучение основано на изучении и применении в качестве инструмента для решения задач искусственных нейронных сетей. Данные алгоритмы основаны на имитации работы человеческого мозга.

 Подведём небольшой итог:

    1) Искусственный интеллект — это общее название науки, которая занимается построением моделей, имитирующих деятельность человека. Как, например, общий раздел — химия.
    2) Машинное обучение — это раздел искусственного интеллекта (важный, но не единственный), который сосредоточен на применении моделей машинного обучения для решения конкретных задач. Как, например, подраздел химии — органическая химия.
    3) Глубокое обучение — это раздел машинного обучения, который сосредоточен на разработке и обучении нейронных сетей в качестве модели для решения сложных прикладных задач. Как, например, подраздел органической химии — органическая химия углеводородов.


## 3. Виды машинного обучения: обучение с учителем

В зависимости от наличия разметки (о том, что такое разметка, мы поговорим ниже) в данных и особенностей обучения выделяют следующие виды машинного обучения:

        обучение с учителем (supervised learning),
        обучение без учителя (unsupervised learning).

В отдельную категорию, не похожую на предыдущие, выделяют ещё один вид машинного обучения — обучение с подкреплением (reinforcement learning).

При этом обучение с учителем и обучение без учителя содержат в себе отдельные типы задач машинного обучения, такие как регрессия, классификация, кластеризация, понижение размерности и ассоциация.

### ОБУЧЕНИЕ С УЧИТЕЛЕМ

Данный вид обучения основан на том, что у машины есть некий учитель, который сообщает ей, как поступать правильно, рассказывает, что на этой картинке изображена кошка, а на этой — собака. То есть мы заранее разделили все данные на кошек и собак, а машина учится на конкретных примерах и правильных ответах к ним.

Данные, в которых содержится информация о целевом признаке, называются размеченными.

#### Задача регрессии (regression) — это задача, в которой мы пытаемся предсказать вещественное число на основе признаков в наборе данных. То есть задача сводится к предсказанию целевого признака, который является числовым.

Для регрессии всегда нужен учитель — размеченные данные с признаками и целевым признаком, который машина будет пытаться предсказать.

Цель обучения — построить модель, которая отражала бы зависимость между признаками и целевой числовой переменной.

Классическими методами регрессии являются линейная (Linear) и полиномиальная (Polynomial) регрессия. Но они являются далеко не единственными.

Линейную регрессию мы с вами уже рассматривали на примере предсказания объёма годовых продаж в прошлом юните. В качестве модели используется уравнение прямой, и зависимость считается линейной.

Полиномиальная регрессия использует в качестве модели полином (многочлен), который отражает нелинейную зависимость.

#### Прогнозирование (forecasting) — это задача регрессии, в которой мы пытаемся предсказать будущее поведение временного ряда, то есть целевая переменная является числовой и зависит от времени. Причём каждому моменту времени соответствует одно конкретное значение. Можно сказать, что прогнозирование — это частный случай регрессии.

Методы регрессии с небольшими изменениями подходят и для решения задачи прогнозирования. Однако, как правило, большей эффективностью обладают модели, которые разработаны специально для прогнозирования временных рядов, например:

        ARIMA,
        SARIMA (модификация ARIMA),
        ARCH (модель для финансовых временных рядов).


#### Задача классификации (classification) — задача, в которой мы пытаемся предсказать класс объекта на основе признаков в наборе данных. То есть задача сводится к предсказанию целевого признака, который является категориальным.

Для классификации всегда нужен учитель — размеченные данные с признаками и категориями, которые машина будет учиться определять по этим признакам.

Классифицировать можно всё что угодно: пользователей по интересам, статьи по языкам и тематикам, музыку по жанрам — вспомните плейлисты Spotify и Яндекс.Музыки, письма в вашем почтовом ящике.

Чаще всего мы сталкиваемся с бинарной классификацией: целевой признак имеет две возможные категории («да» — 1 или «нет» — 0). Например, мы можем предсказать, болен ли пациент раком, является ли изображение человеческим лицом, является ли письмо спамом и т. д.

Забегая вперёд, отметим, что любую мультиклассовую задачу классификации можно свести к бинарной классификации методом «один против всех».

Суть метода: какую-то из категорий мы обозначаем за 1, а оставшиеся за — 0 и решаем задачу бинарной классификации. Затем повторяем процедуру для остальных категорий.

Цель обучения — построить модель, которая на основе признаков разделяет объекты на классы наилучшим образом. С математической точки зрения это означает построение разделяющей поверхности для классов в пространстве признаков.

Для решения задачи классификации может использоваться множество моделей:

    1) логистическая регрессия (Logistic Regression),
    2) метод опорных векторов (SVM),
    3) деревья решений (Decision Tree),
    4) наивный байесовский классификатор (Naive Bayes),
    5) метод ближайших соседей (kNN).


## 4. Виды машинного обучения: обучение без учителя

Однако можно попробовать применить обучение без учителя. Обучение без учителя подразумевает, что у вас нет правильных ответов. То есть признак, который вы хотите предсказать, вам недоступен. Подход основан на том, что алгоритм самостоятельно выявляет зависимости в данных только на основе схожести объектов в данных между собой.



Данный вид машинного обучения разбивается на несколько самостоятельных типов задач:

    - кластеризация,
        С помощью методов кластеризации мы можем разделить наши объекты на группы (кластеры) и попытаться проанализировать эти группы.
    - понижение размерности,
        С помощью методов понижения размерности мы можем отбросить ненужные признаки и выжать из данных только самые важные знания.
    - ассоциация.
        Методы ассоциации помогают находить закономерности в последовательных действиях.



#### Задача кластеризации (clustering) — это задача, в которой мы разделяем данные на группы на основе признаков в данных.

На первый взгляд может показаться, что эта задача идентична классификации, но в задаче кластеризации у нас нет правильных ответов. То есть у нас нет учителя: мы пытаемся разделить данные на категории, опираясь только на «близость» объектов. Причём результаты каждого из алгоритмов кластеризации могут быть разными, потому что «близость» — понятие относительное и её можно измерять различными способами.

#### Цель обучения — построить модель, которая наилучшим образом объединит «похожие» объекты в группы.

Самая сложная часть в задаче кластеризации — проинтерпретировать полученные кластеры, понять, что именно объединяет объекты, попавшие в тот или иной кластер.

Типичные методы кластеризации при известном заранее количестве кластеров:

- метод k-средних (k-means),
- EM-алгоритм,
- агломеративная кластеризация.

Иногда кластеры могут быть очень сложными и вы можете не знать их количество.

#### Понижение размерности (dimensionality reduction) — задача, в которой мы пытаемся уменьшить количество признаков, характеризующих объект. Обычно мы уменьшаем количество признаков до 2-3 для того, чтобы получить возможность визуализировать данные.

Для чего это нужно? 

Мы уже с вами не раз работали с данными, которые характеризуются большим количеством признаков: вспомните данные о ценах на дома в Мельбурне, о квартирах в Москве, о вакансиях на hh.ru или о качестве вин. 

Это вполне стандартная ситуация — целевой признак зависит от множества других признаков. Нам бы хотелось отобразить комплексную зависимость (от всех признаков одновременно) на графике. Но проблема в том, что для визуализации нам просто не хватит числовых осей!

Выход из этой ситуации — использовать методы понижения размерности.

Практическая польза этих методов состоит в том, что мы можем объединить несколько признаков в один и получить абстракцию.

    - Например, собаки с треугольными ушами, длинными носами и большими хвостами объединяются в полезную абстракцию «овчарки». Да, мы теряем информацию о конкретных овчарках, но новая абстракция точно полезнее этих лишних деталей.

    - Ещё одно проявление пользы таких алгоритмов — увеличение скорости обучения. Мы уже говорили о проклятии размерности: «чем больше признаков в данных, тем сложнее модели обучиться на них». Методы понижения размерности позволяют свести эту проблему к минимуму. Однако точность моделей может сильно упасть, поэтому необходимо уметь находить баланс.

    - Ещё один приятный бонус — мы автоматически избавляемся от мультиколлинеарности признаков. Методы понижения размерности устроены так, что в первую очередь объединяют между собой наиболее коррелированные признаки.



Основные алгоритмы понижения размерности:

1) метод главных компонент (PCA),
2) сингулярное разложение (SVD),
3) латентное размещение Дирихле (LDA),
4) латентный семантический анализ (LSA),
5) t-SNE.

#### Ассоциация (association) — это задача, в которой мы пытаемся найти правила и законы, по которым существует последовательность действий.

Основные ассоциативные модели:

1) Apriori,
2) Eclat,
3) FP Growth.

## 5. Виды машинного обучения: обучение с подкреплением

Обучение с подкреплением кардинально отличается от обучения с учителем и без него, поэтому его выделяют в отдельный вид обучения.

Это не задачи, связанные с анализом данных и предсказанием, а задачи взаимодействия со средой и «выживания» в ней. 

Средой может быть видеоигра: в такой искусственной среде «выживают», например, роботы, играющие в Mario, или интеллектуальные боты во множестве других игр.

Средой может быть и реальный мир, точнее — его часть: в такой среде существуют, например, автопилот Tesla, роботы-пылесосы или беспилотные летательные аппараты.

Объект, который взаимодействует со средой (например, играет в игру), называется агентом.

Поэтому цель обучения — не рассчитать все ходы, а построить оптимальную стратегию для взаимодействия со средой и максимизировать финальную награду.

В математике уже давно известны методы, которые позволяют находить оптимальную стратегию. В основе обучения с подкреплением лежат теория игр, теория динамической оптимизации и ещё множество математических дисциплин.

Например, классический метод обучения с подкреплением — Q-learning — основан на уравнении Беллмана.

В Q-learning рассматриваются все состояния, в которых может находиться агент, и все возможные переходы из одного состояния в другое, которые определяются действиями.

Например, в игре Frozen Lake состояние определяется номером клетки на двумерном поле (на картинке их 16 штук). Наступив на некоторые клетки мы можем попасть в яму — это будет состояние проигрыша, а есть одна целевая клетка, попав в которую мы переходим в состояние выигрыша.

Уравнение Беллмана помогает определить следующее оптимальное действие, такое, что значение Q-функции для определённой пары состояние-действие будет максимальной.

Цель Q-learning — приближённо найти (аппроксимировать) Q-функцию, которая ответит на вопрос, как нужно правильно играть, чтобы получить максимум награды.

Для сложных задач — сложные решения. В таких случаях для поиска сложных Q-функций привлекаются нейронные сети, а такое обучение носит название Deep Q-Network (DQN).

На идеях Q-learning основаны и другие алгоритмы, например алгоритм SARSA.

- Отдельный пласт в сфере обучения с подкреплением — генетические алгоритмы. Их идея отличается от идей Q-learning и состоит в следующем: мы бросаем множество агентов в среду и заставляем их идти к цели. Затем мы выбираем лучших из них — тех, кто прошёл дальше всех, скрещиваем, добавляем мутации и бросаем в среду ещё раз. Такие манипуляции мы проделываем огромное количество раз. В итоге по законам эволюции должно получиться разумное существо. Главный вопрос — сколько времени на это может понадобиться.

## 6. Процесс разработки

В дальнейшем мы с вами увидим, что любая задача машинного обучения (классификация, регрессия, кластеризация и так далее) — это по сути обычная оптимизационная задача. 

Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию дата-сайентиста одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно чёткой последовательности действий.

Эта последовательность действий по работе над проектом называется методологией разработки (моделью процесса разработки).

### МЕТОДОЛОГИЯ WATERFALL

Водопадная методология (Waterfall model, «Водопад») — модель процесса разработки ПО в виде потока последовательных фаз. Схема разработки согласно этой модели представлена на схеме ниже:
1) Анализ требований
2) проектирование
3) разработка
4) тестирование
5) внедрение



#### Особенности методологии:

    1) Разработка происходит строго последовательно, этап за этапом. Переход на предыдущий этап не предусмотрен или требует формального процесса, например подачи заявки на изменения в организационный комитет и её одобрения.
    2) Планирование ведётся на всю длительность проекта в самом его начале.
    3) Все действия максимально регламентированы и спланированы до мелочей. Установлены чёткие сроки окончания каждого из этапов.
    4) По окончании каждого из этапов происходит формальная сдача результатов именно этого этапа в виде большого числа документов. Например, после этапа анализа требований заказчика рождается техническое задание (ТЗ), а после этапа тестирования — документ, который называется «Программа и методика испытаний». В РФ для содержания большинства документов предусмотрены ГОСТы.
    5) Результаты каждого из этапов тщательно проверяются на наличие ошибок. Только после исправления всех ошибок на текущем этапе команда может перейти на следующий этап.
    6) Готовый продукт передаётся заказчику только один раз в конце проекта (второй попытки не предусмотрено). У команды есть только один шанс на сдачу проекта, поэтому внимание к деталям и документации максимально пристальное.



Где стоит использовать Waterfall?

Waterfall используется в проектах, где отсутствует неопределённость в требованиях заказчика: проект достаточно понятный и его можно спланировать в самом начале. То есть результат можно чётко представить заранее.

Это проекты в больших организациях и компаниях, в которых уже есть опыт разработки аналогичных проектов и есть чёткое понимание, через какие этапы нужно пройти и какое время они могут занять.

Методология особенно необходима в проектах, которые сопровождаются высокими затратами в случае провала. Это связано с тщательным отслеживанием каждого из этапов и уменьшением риска допустить ошибку. Уменьшение риска особенно критично в проектах оборонной и космической промышленности.

### МЕТОДОЛОГИЯ AGILE

Гибкая методология (Agile) — это модель процесса разработки ПО с гибким возвратом к любому этапу: если тест спроектированной модели не дал нужного результата, то разработчик может начать с самого начала.

Этапы каждой из итераций такие же, как в Waterfall, с добавлением этапа демонстрации промежуточных результатов заказчику.

Проект реализуется не как последовательность длительных этапов (как это было в Waterfall), а как ряд коротких временных отрезков — спринтов, на каждом из которых прогоняются все этапы



#### Особенности методологии:

    1) Разработка происходит по итерациям. В конце каждой итерации промежуточный результат демонстрируется заказчику. Заказчик даёт обратную связь (устраивает ли его эта часть функционала). Итерации заканчиваются, когда готов финальный продукт и он устраивает заказчика. 
    2) Проект планируется только на один спринт. Длительность спринтов — от одной до четырёх недель. То есть вам необходимо продумать задачи только на короткий промежуток времени, что сильно повышает точность планирования.
    3) В случае если у вас что-то не получилось (например, модель показывает низкое качество), вы просто переходите на новую итерацию и теряете только время, потраченное на один спринт, а не на весь проект в целом.
    4) Agile не предусматривает множества формальных документов, в отличие от Waterfall.
    5) Команда полностью вовлечена в процесс, так как отсутствует формальная иерархия. Методология считается демократичной. Главный принцип — люди важнее процессов и инструментов.
    6) Заказчик видит продукт на протяжении всей разработки и может вносить коррективы (не выходящие за рамки изначального задания). Проект сдаётся, когда выполнены все требования и они устраивают заказчика.



Agile используется в тех случаях, когда в проекте есть неопределённость. Ни заказчик, ни пользователи, ни разработчики пока что полностью не представляют, что должно получиться в итоге.

Однако есть несколько «но». Давайте обсудим их.

    1) Agile — это общая модель процесса разработки продукта, причём не только из сферы IT. Методология не учитывает особенности работы Data Science команды. Например, видите ли вы в процессе Agile-разработки такие этапы, как подбор параметров модели или расчёт метрик её качества? Куда их включить — в этап разработки или, может быть, в тестирование? Agile об этом не говорит.
    2) DS-команда может сдерживать Agile-разработку команды разработчиков ПО, потому что дата-сайентисты долго перебирают возможные модели. Постоянная настройка модели иногда может сдерживать ощутимый прогресс.
    3) Документирование не регламентировано. В DS-проектах документация и история всех используемых моделей очень важна, позволяет экономить время и облегчает возможность вернуться к изначальному решению.


### МЕТОДОЛОГИЯ CRISP-DM

CRISP-DM (Cross-Industry Standard Process for Data Mining) — наиболее распространённая и проверенная методология по работе с проектами, завязанными на данных. Модель жизненного цикла исследования данных в методологии состоит из шести фаз, а стрелки обозначают наиболее важные и частые зависимости между фазами.



#### Особенности методологии:

    1) Методология CRISP-DM разработана специалистами по работе с данными и учитывает особенности DS-проектов.
    2) Иногда говорят, что CRISP-DM является обобщением методологии Agile на DS. В частности, методология является итеративной (проект состоит из спринтов).
    3) Последовательность этапов строго не определена, некоторые этапы можно менять местами. Возможна параллельность этапов (например, подготовка данных и их исследования могут вестись одновременно). Предусмотрены возвраты на предыдущие этапы.
    4) Фиксирование ключевых моментов проекта: графиков, найденных закономерностей, результатов проверки гипотез, используемых моделей и полученных метрик на каждой итерации цикла разработки.

