Ещё несколько популярных вопросов на собеседованиях по машинному обучению звучат следующим образом:

- Назовите основные виды обучения.
- Какие типы задач машинного обучения вы знаете? Приведите примеры алгоритмов для их решения.

Ответ на эти вопросы содержится в следующей карте машинного обучения:

<img src='img/dst3-ml1-3_1.jpeg'>

Данная схема отражает виды машинного обучения (обозначены прямоугольниками), которые в свою очередь делятся на задачи (обозначены овалами). Также на схеме отображены алгоритмы, с помощью которых решаются те или иные задачи. С самими алгоритмами и их работой мы начнём знакомиться уже со следующего модуля, а пока рассмотрим основные виды машинного обучения и типы задач. 

В зависимости от наличия разметки (о том, что такое разметка, мы поговорим ниже) в данных и особенностей обучения выделяют следующие виды машинного обучения:

- обучение `с учителем` (supervised learning),
- обучение `без учителя` (unsupervised learning).

В отдельную категорию, не похожую на предыдущие, выделяют ещё один вид машинного обучения — обучение `с подкреплением` (reinforcement learning).

При этом обучение с учителем и обучение без учителя содержат в себе отдельные типы задач машинного обучения, такие как регрессия, классификация, кластеризация, понижение размерности и ассоциация.

Начнём наше знакомство с видами машинного обучения. Первым рассмотрим обучение с учителем, то есть следующую часть карты:

<img src='img/dst3-ml1-3_2.jpeg'>

### ОБУЧЕНИЕ С УЧИТЕЛЕМ

> Данный вид обучения основан на том, что у машины есть некий учитель, который сообщает ей, как поступать правильно, рассказывает, что на этой картинке изображена кошка, а на этой — собака. То есть мы заранее разделили все данные на кошек и собак, а машина учится на конкретных примерах и правильных ответах к ним.

> Данные, в которых содержится информация о целевом признаке, называются размеченными.

`Разметка данных` — это, как правило, довольно сложный и длительный процесс, если его нельзя автоматизировать. Особенно сложна разметка текстов, звука и изображений. Причём легко догадаться, что от качества разметки зависит и качество финальной модели.

Например, для решения задач `классификации`, `детектирования` и `сегментации` объектов на изображениях разметку выполняют вручную.

Представьте, каково это — попиксельно разметить несколько десятков тысяч изображений!

<img src='img/dst3-ml1-3_3.jpg'>

Процесс обучения с учителем можно сравнить с тем, как современный школьник готовится к сдаче ЕГЭ на высокий балл. Он решает огромное количество тренировочных вариантов, сверяясь с ответами в конце сборника и обучаясь на своих ошибках.

Но что, если выпускник идеально выучил ответы для всех вариантов из сборника, но так и не понял, как решаются сложные задачи? Тогда на тренировочном экзамене, где школьнику предложат вариант из того же самого сборника у него будет высший балл. Но на настоящем экзамене варианты разрабатывают эксперты и меняют их каждый год, поэтому, если выпускник так и не понял принцип решения задач, то итоговый балл будет значительно ниже, чем он ожидал.

На этом же примере можно выявить главную проблему обучения с учителем. Эта проблема называется возможностью `переобучения`. Это ситуация, когда модель полностью подстраивается под данные, на которых происходит обучение, но на реальных данных показывает значительно более низкое качество. Борьба с переобучением — очень важная задача, о которой мы поговорим отдельно.

Вид обучения с учителем включает в себя два основных типа задач: 
- `регрессия` — предсказание числа 
- `классификация` — предсказание категории объекта.

### Регрессия

<img src='img/dst3-ml1-3_4.jpg'>

Задача регрессии (regression) — это задача, в которой мы пытаемся предсказать вещественное число на основе признаков в наборе данных. То есть задача сводится к предсказанию целевого признака, который является числовым.

<img src='img/dst3-ml1-3_5.jpg'>

`Для регрессии всегда нужен учитель` — размеченные данные с признаками и целевым признаком, который машина будет пытаться предсказать.

> К примеру, с помощью регрессии мы предсказываем цену квартиры, рейтинг вина при слепом тестировании, длительность поездки в такси в зависимости от времени суток, желаемую заработную плату соискателя.

> Примечание. На самом деле мы уже сталкивались с задачей регрессии и даже решали её в модуле по знакомству с Kaggle, где мы предсказывали цену авто, и в проекте по EDA, где мы предсказывали рейтинг отеля.

**Цель обучения** — построить модель, которая отражала бы зависимость между признаками и целевой числовой переменной.

Классическими методами регрессии являются `линейная` (Linear) и `полиномиальная` (Polynomial) регрессия. Но они являются далеко не единственными.

Линейную регрессию мы с вами уже рассматривали на примере предсказания объёма годовых продаж в прошлом юните. В качестве модели используется уравнение прямой, и зависимость считается линейной.

> Полиномиальная регрессия использует в качестве модели полином (многочлен), который отражает нелинейную зависимость.

На рисунке ниже представлена зависимость длительности поездок в такси от часа дня, а также две модели, построенные на наборе данных, — линейная и полиномиальная регрессии.

<img src='img/dst3-ml1-3_6.jpg'>

> **Примечание**. Как видите, полиномиальная регрессия качественнее описывает зависимости в данных, подстраиваясь под нелинейность в них. Но, забегая вперёд, скажем, что использование полиномиальной регрессии связано с повышенным риском переобучения модели (она может слишком точно подстроиться под обучающий набор данных, но не давать качественных результатов в реальных условиях). Подробнее об этом поговорим далее.

Давайте дополнительно приведём математическую постановку задачи, чтобы уже сейчас постепенно начать привыкать к использованию математического аппарата. Математическим основам в машинном обучении мы будем учиться в соответствующем блоке нашего курса.

Математическая постановка задачи регрессии будет выглядеть следующим образом:

Задано множество объектов $X = \{x_1, x_2 ... x_m\}$ и множество правильных ответов $Y = \{y_1, y_2 ... y_m\}$ где $m$ — размер выборки. Причём множество $Y$ принадлежит множеству действительных чисел, т. е. $Y \in R$, а каждый объект множества из $X$  описывается  признаками: $x_i = [x_\text{i1}, x_\text{i2} ... x_\text{im}]$.

Множество объектов и множество правильных ответов связаны между собой неизвестной зависимостью, которая записывается как $y = f(x)$ или $y: X \rightarrow Y$.

Необходимо найти такой алгоритм (модель) $a$, который воспроизводит неизвестную зависимость: $a = f(x)$ или $a: X \rightarrow Y$.

> Примечание. Понимание математической постановки различных задач обязательно поможет вам не потеряться в терминах при чтении различной литературы, где описание задачи и алгоритма зачастую приводится исключительно в математическом виде.

Нередко в качестве отдельного подвида задачи регрессии выделяют задачу прогнозирования. 

> `Прогнозирование` (forecasting) — это задача регрессии, в которой мы пытаемся предсказать будущее поведение временного ряда, то есть целевая переменная является числовой и зависит от времени. Причём каждому моменту времени соответствует одно конкретное значение. Можно сказать, что прогнозирование — это частный случай регрессии.

Примеры таких задач: прогнозирование стоимости ценной бумаги в будущем, ожидаемого дохода магазина на следующий месяц, курса валюты на следующую неделю, выработки электроэнергии на солнечных батареях на следующий месяц.

Методы регрессии с небольшими изменениями подходят и для решения задачи прогнозирования. Однако, как правило, большей эффективностью обладают модели, которые разработаны специально для прогнозирования временных рядов, например:

- ARIMA,
- SARIMA (модификация ARIMA),
- ARCH (модель для финансовых временных рядов).

Подробнее о прогнозировании временных рядов мы будем говорить отдельно в соответствующем модуле.

На рисунке ниже представлен временной ряд для ежемесячной прибыли в некоторой компании за период с сентября 2020 года по сентябрь 2021 года и прогноз модели на три месяца вперёд.

<img src='img/dst3-ml1-3_7.jpg'>

> А теперь вопрос на понимание: чем отличаются два примера, приведённые выше (регрессия зависимости длительности поездки от времени суток и прогнозирование прибыли за месяц)?

> В первой задаче время обладает ограниченным набором возможных вариантов, то есть является дискретным признаком. В задаче собраны данные о различных поездах, поэтому в один и тот же момент времени могут быть два наблюдения одновременно. Такие данные нельзя отнести к временному ряду, поэтому задача считается обычной регрессией.

> Во второй задаче время непрерывно, и мы рассматриваем непрерывное изменение прибыли одной конкретной компании во времени. Это типичный временной ряд, поэтому задача считается прогнозированием.

### КЛАССИФИКАЦИЯ

<img src='img/dst3-ml1-3_8.jpg'>

Задача `классификации` (classification) — задача, в которой мы пытаемся предсказать класс объекта на основе признаков в наборе данных. То есть задача сводится к предсказанию целевого признака, который является категориальным.

<img src='img/dst3-ml1-3_9.jpg'>

Для классификации всегда нужен учитель — размеченные данные с признаками и категориями, которые машина будет учиться определять по этим признакам.

Классифицировать можно всё что угодно: пользователей по интересам, статьи по языкам и тематикам, музыку по жанрам — вспомните плейлисты Spotify и Яндекс.Музыки, письма в вашем почтовом ящике.

Чаще всего мы сталкиваемся с бинарной классификацией: целевой признак имеет две возможные категории («да» — 1 или «нет» — 0). Например, мы можем предсказать, болен ли пациент раком, является ли изображение человеческим лицом, является ли письмо спамом и т. д.

> Когда классов, которые мы хотим предсказать, более двух, классификация называется мультиклассовой (многоклассовой). Например, предсказание модели самолёта по радиолокационным снимкам, классификация животных на фотографиях, определение языка, на котором говорит пользователь, разделение писем на группы.

Забегая вперёд, отметим, что любую мультиклассовую задачу классификации можно свести к бинарной классификации методом «один против всех».

> Суть метода: какую-то из категорий мы обозначаем за 1, а оставшиеся за — 0 и решаем задачу бинарной классификации. Затем повторяем процедуру для остальных категорий.

**Цель обучения** — построить модель, которая на основе признаков разделяет объекты на классы наилучшим образом. С математической точки зрения это означает построение разделяющей поверхности для классов в пространстве признаков.

На рисунке представлен пример разделяющей поверхности для классификации пингвинов на два класса: синими точками обозначены антарктические пингвины, красными — папуанские пингвины. Наблюдения рассматриваются в плоскости двух признаков: длина клюва пингвина и длина его крыльев.

<img src='img/dst3-ml1-3_10.jpg'>

Математическая постановка задачи классификации будет выглядеть следующим образом:

Задано множество объектов $X = \{x_1, x_2, ..., x_m\}$ и множество правильных ответов-меток классов $Y = \{y_1, y_2, ..., y_3\}$, причём множество $Y$ конечно, т. е. $Y$ имеет ограниченный набор значений $Y = \{1, 2, ..., k\}$, где $k$ — количество классов.

Множество объектов и множество правильных ответов связаны между собой неизвестной зависимостью, которая относит объект к определённому классу и записывается как $y = f(x)$ или $y: X \rightarrow Y$.

Необходимо найти такой алгоритм (модель) $a$, который способен разделять объекты на классы: $a = f(x)$ или $a: X \rightarrow Y$.

Для решения задачи классификации может использоваться множество моделей:

- логистическая регрессия (Logistic Regression),
- метод опорных векторов (SVM),
- деревья решений (Decision Tree),
- наивный байесовский классификатор (Naive Bayes),
- метод ближайших соседей (kNN).

Когда тип данных, которые мы пытаемся классифицировать, более сложный, чем простая Pandas-табличка, — текст, аудио, изображение — то для классификации лучше сразу прибегать к нейронным сетям. Сложность и различные архитектуры сетей позволяют значительно повысить качество классификации по сравнению с классическими алгоритмами.

Например, с помощью нейронных сетей можно решать задачи классификации музыки по жанрам, комментариев под постами на положительные и отрицательные, животных на картинках.

В этом юните мы рассмотрели наиболее популярный вид машинного обучения — `обучение с учителем`, а также познакомились с задачей `регрессии` (прогнозирования) и `классификации`