# 1. Машинное обучение (Mahine Learning)

— это наука, изучающая способы извлечения закономерностей из ограниченного количества примеров.

$x$ – **объект**, $\mathbb{X}$ – пространство объектов

$y$ – **ответ, целевая переменная**, $\mathbb{Y}$ – пространство ответов

$X = \{(x_1,y_1), ..., (x_l, y_l)\}$ – **обучающая выборка**, где $x_1, ..., x_l$ – обучающие объекты, $l$ – их количество,  $y_1, ..., y_l$ –  ответы

Вектор всех признаков объекта x называется **признаковым описанием** этого объекта. **Признаки** могут быть: бинарными, вещественными, категориальными (принимают значения из неупорядоченного множества), ординальными (принимают значения из упорядоченного множества), множествозначными (set-valued, значения являются подмножествами некоторого универсального множества)

На работе со сложными данными специализируется *глубинное обучение (deep learning)*

## Обучение с учителем (supervised learning)

1. $\mathbb{Y} = \mathbb{R}$ – **регрессия**. Например, мы можем предсказать прибыль ресторана.
2. $\mathbb{Y} = \{0, 1\}$ — **бинарная классификация**. Например, мы можем предсказывать, кликнет ли пользователь по рекламному объявлению, вернет ли клиент кредит в установленный срок, сдаст ли студент сессию, случится ли определенное заболевание с пациентом (на основе, скажем, его генома).
3. $\mathbb{Y} = \{1, . . . , K\}$ — **многоклассовая (multi-class) классификация**. Примером может служить определение предметной области для научной статьи (математика, биология, психология и т.д.).
4. $\mathbb{Y} = \{0, 1\}^K$ — **многоклассовая классификация с пересекающимися классами** (multi-label classification). Примером может служить задача автоматического проставления тегов для ресторанов (логично, что ресторан может одновременно иметь несколько тегов).
5. **Частичное обучение** (semi-supervised learning) — задача, в которой для одной части объектов обучающей выборки известны и признаки, и ответы, а для другой только признаки. Такие ситуации возникают, например, в медицинских задачах, где получение ответа является крайне сложным (например, требует проведения дорогостоящего анализа).

## Обучение без учителя (unsupervised learning)

1. **Кластеризация** — задача разделения объектов на группы, обладающие некоторыми свойствами. Примером может служить кластеризация документов из электронной библиотеки или кластеризация абонентов мобильного оператора.
2. **Оценивание плотности** — задача приближения распределения объектов. Примером может служить задача обнаружения аномалий, в которой на этапе обучения известны лишь примеры «правильного» поведения оборудования (или, скажем, игроков на бирже), а в дальнейшем требуется обнаруживать случаи некорректной работы (соответственно, незаконного поведения игроков). В таких задачах сначала оценивается распределение «правильных» объектов, а затем аномальными объявляются все объекты, которых в рамках этого распределения получают слишком низкую вероятность.
3. **Визуализация** — задача изображения многомерных объектов в двумерном или трехмерном пространстве таким образом, чтобы сохранялось как можно больше зависимостей и отношений между ними.
4. **Понижение размерности** — задача генерации таких новых признаков, что их меньше, чем исходных, но при этом с их помощью задача решается не хуже (или с небольшими потерями качества, или лучше — зависит от постановки). К этой же категории относится задача построения латентных моделей, где требуется описать процесс генерации данных с помощью некоторого (как правило, небольшого) набора скрытых переменных. Примерами являются задачи тематического моделирования и построения рекомендаций, которым будет посвящена часть курса.

## Обучение с подкреплением (reinforcement learning)

Алгоритм на каждом шаге наблюдает какую-то ситуацию, выбирает одно из доступных ему действий, получает некоторую награду и корректирует свою стратегию. Задачей алгоритма при этом является максимизация награды в некотором смысле. 

Пример: задача создания беспилотного автомобиля. Машина «видит» текущее окружение за счёт сенсоров и должна решить, как сейчас повернуть руль, как сильно ускориться или затормозить. При этом она должна приехать в конкретную точку, не нарушая
правила, и согласно этим требованиям в каждый момент она получает некоторую награду — скажем, если она превысила допустимую скорость и отдалилась от точки назначения, то награда будет очень низкой.

## Пусть дана задача регрессии:
Для каждого возможного размещения ресторана предсказать прибыль, которую он принесет в течение первого года

$\mathbb{Y} = \mathbb{R}$ – наше пространтво ответов. Пусть мы собрали обучающую выборку и изобрели некоторое количество признаков. 

$X∈\mathbb{R}^{l×d}$ – **матрица «объекты-признаки»**, где $l$ — число объектов, $d$ — число признаков. Каждая строка содержит признаковое описание одного из обучающих объектов.  Таким образом, строки в этой матрице соответствуют объектам, а столбцы — признакам.

$a : \mathbb{X} → \mathbb{Y}$ – **модель** (алгоритм). Это функция, которая для любого объекта будет предсказывать ответ.

Чтобы формализовать соответствие алгоритма нашим ожиданиям, нужно ввести **функционал качества** (метрику качества), измеряющий качество работы алгоритма. Если функционал устроен так, что его следует *минимизировать*, то логичнее называть его **функционалом ошибки**.

Функционал не обязательно должен обладать хорошими математическими свойствами (непрерывность, выпуклость, дифференцируемость и т.д.), но обязан отражать все важные требования к решению задачи.

Крайне популярным функционалом в задаче регрессии является среднеквадратичная ошибка (mean squared error, **MSE**): $$Q(a, X) = \frac{1}{l}\displaystyle\sum_{i=1}^l (a(x_i) − y_i)^2$$

В большинстве случаев функционалы представляют собой сумму или среднее значение ошибок на отдельных объектах обучающей выборки. Функция, измеряющая ошибку одного предсказания, называется **функцией потерь** $L : \mathbb{Y}×\mathbb{Y} → \mathbb{R}_+$ (в нашем случае $L(y, z) = (y−z)^2$), где $y$ – правильный ответ на данном объекте, $z$ – прогноз модели на данном объекте.

После фикации функционала ошибки **строим алгоритм** $a(x)$: фиксируем некоторое семейство алгоритмов $\mathcal{A}$, и пытаемя выбрать из него алгоритм, наилучший с точки зрения функционала. Возьмём **семейство линейных моделей**, которые дают предсказание, равное линейной комбинации признаков (с добавлением свободного коэффициента $w_0$):
$\mathcal{A} = \{a(x) = w_0 + w_1x_1 + · · · + w_dx_d | w_0, w_1, . . . , w_d ∈ \mathbb{R}\},$ где $x_i$ – значение $i$-го признака у объекта $x$.

Лучшая из таких моделей может быть выбрана, например, путем минимизации MSE ($x_{ij}$ – значение $j$-го признака на $i$-м объекте):

$$\frac{1}{l}\displaystyle\sum_{i=1}^l \Big(w_0 + \displaystyle\sum_{j=1}^d w_jx_{ij} − y_i\Big)^2 \to \displaystyle\min_{w_0,...,w_d}$$

Процесс поиска оптимального алгоритма называется **обучением**. 

Если **модель $a(x)$ дифференцируема по параметрам** $w$, то можно искать лучший набор параметров с помощью градиентных методов — стартовать из случайной точки и двигать параметры в сторону наискорейшего убывания функционала ошибки (то есть в сторону антиградиента). 

Если **функционал невыпуклый**, то можно добиться сходимости к лучшему из локальных минимумов с помощью выбора грамотного начального приближения или через выбор более сложного метода оптимизации. 

На сегодняшний день существует не так много видов **недифференцируемых моделей**, поддающихся эффективному обучению, но среди них есть очень успешные примеры — например, градиентный бустинг над решающими деревьями.

## Предобработка данных

1. При обучении линейных моделей важно, чтобы признаки были *масштабированными*, то есть измерялись в одной шкале. Примером способа нормировки данных является вычитание среднего и деление на дисперсию каждого столбца в матрице «объекты-признаки».
2. Бывает, что в выборку попадают *выбросы* — объекты, которые не являются корректными примерами из-за неправильно посчитанных признаков, ошибки сбора данных или чего-то ещё. Их наличие может сильно испортить модель.
3. Некоторые признаки могут оказаться *шумовыми*, то есть не имеющими никакого отношения к целевой переменной и к решаемой задаче. Примером, скорее всего, может служить признак «фаза луны в день первого экзамена» в задаче предсказания успешности прохождения сессии студентом.

Как показывает практика, простейшая предобработка данных может радикально улучшить качество итоговой модели

## Переобучение (overfitting)

Переобученный алгоритм — тот, что слишком сильно подогнался под обучающую выборку, не выявив никаких закономерностей
в ней. 

Допустим, в нашем примере мы выбрали очень богатое семейство алгоритмов, состоящее из всех возможных функций: $\mathcal{A} = \{\mathbb{X} → \mathbb{Y}\}$. В этом семействе всегда будет алгоритм, не допускающий ни одной ошибки на обучающей выборке, который просто запоминает ее:
$a(x)=
\begin{cases}
y_i, \quad x=x_i \\
0, \quad x \notin X
\end{cases}$

Переобучение возникло из-за большой сложности семейства — алгоритмом могла оказаться любая функция. Очевидно, что если
бы мы ограничили себя только линейными моделями, то итоговый алгоритм уже не смог бы запомнить всю выборку. 

Таким образом, **можно бороться с переобучением путем контроля сложности семейства алгоритмов** — чем меньше у нас данных для обучения, тем более простые семейства следует выбирать.

## Оценивание качества модели

В самом начале можно отложить часть обучающих объектов и не использовать их при построении модели. Тогда можно будет измерить качество готовой модели на этой **отложенной выборке**, получив тем самым оценку того, насколько она готова к работе на новых данных. Существуют и более сложный класс методов, называемый **кросс-валидацией** – разделение доступных данных на части для обучения и тестирования, чтобы проверить, насколько модель способна обобщать знания на независимых данных.

## Основные этапы решения задачи машинного обучения:
1. Постановка задачи
2. Выделение признаков
3. Формирование выборки
4. Выбор функционала ошибки
5. Предобработка данных
6. Построение модели
7. Оценивание качества модели
8. Внедрение модели

## Для решения каких задач нужно машинное обучение?

Машинное обучение не следует применять везде, где требуется построить зависимость одной переменной от набора других. Например, нет смысла восстанавливать зависимость силы от массы и ускорения — на эту задачу точный ответ даёт второй закон Ньютона.

Задача предсказания прибыли ресторана, которую мы разобрали, хорошо подходит для решения методами машинного обучения по ряду причин:
1. Нельзя вывести корректную формулу будущей прибыли из каких-либо знаний об устройстве мира.
2. Вид зависимости прибыли от признаков достаточно сложный, и подобрать его вручную может быть слишком трудно.
3. Можно набрать достаточное количество примеров (т.е. объектов с известными ответами), по которым можно оценить зависимость целевой переменной от признаков

Машинное обучение используется в задачах такого типа достаточно широко — собираются большие объёмы данных, формируются признаки, которые потенциально могут влиять на целевую переменную, и затем автоматически строится предсказывающая модель. К этому классу задач относятся предсказание дефолта (вернёт ли клиент кредит), предсказание оттока (уйдёт ли клиент к конкуренту), предсказание спроса на товары, построение рекомендаций (какой товар может заинтересовать пользователя).

Машинное обучение может использоваться и по другим причинам:
1. Бывает, что зависимость ответа от признаков вполне понятна, но при этом само построение ответа достаточно трудоёмко. 
2. Алгоритм решения некоторых задач невозможно записать, но при этом люди успешно справляются с этими задачами при наличии опыта. 

# 2. Линейные модели

**Линейные регрессионные модели** сводятся к суммированию значений признаков с некоторыми весами: $a(x)=w_0 + \displaystyle\sum_{j=1}^d w_jx_j$

Параметрами модели являются **веса** или коэффициенты $w_j$. Вес $w_0$ также называется свободным коэффициентом или сдвигом **(bias)**.

Заметим, что сумма $\displaystyle\sum_{j=1}^d w_jx_j$ является скалярным произведением вектора признаков на вектор весов. Воспользуемся этим и запишем линейную модель в более компактном виде: $a(x) = w_0 + <w, x>$, где $w = (w_1, . . . , w_d)$ — вектор весов.

Линейные модели достаточно быстро и легко обучаются, поэтому они популярны при работе с большими объёмами данных. Также у них мало параметров, благодаря чему удаётся контролировать риск переобучения и использовать их для работы с зашумлёнными данными и с небольшими выборками.

##  Области применимости линейных моделей

В линейной модели предполагается конкретный вид зависимости — каждый признак линейно влияет на целевую переменную, и целевая переменная не зависит от каких-либо комбинаций признаков. Поэтому обычно данные требуют специальной подготовки, например:

### Категориальные признаки:
их значения нельзя сравнивать между собой, складывать или вычитать. 

**one-hot кодирование**:

Допустим, категориальный признак $f_j(x)$ принимает значения из множества $C = \{c_1, . . . , c_m\}$. Заменим его на $m$ бинарных признаков $b_1(x), . . . , b_m(x)$, каждый из которых является индикатором одного из возможных категориальных значений: $b_i(x) = [f_j(x) = c_i]$. Признаки $b_1(x), . . . , b_m(x)$ являются линейно зависимыми: $b_1(x) + . . . , + b_m(x) = 1$

Если мы применим линейную модель к данным после one-hot кодирования признака (допустим, это $f(x)$), то получится такая формула:
$a(x) = w_1[f(x) = c_1]+· · ·+w_m[f(x) = c_m]+\{\text{взаимодействие с другими признаками}\}$

### Работа с текстами:

Cпособ кодирования **мешок слов** (bag of words): найдём все слова, которые есть в нашей выборке текстов, и пронумеруем
их: $\{c_1, . . . , c_m\}$. Будем кодировать текст $m$ признаками $b_1(x), . . . , b_m(x)$, где $b_j(x)$ равен количеству вхождений слова $c_j$ в текст. Линейная модель над такими признаками будет иметь вид: $a(x) = w_1b_1(x) + · · · + w_mb_m(x) + . . . $. Каждое вхождение слова $c_j$ меняет прогноз стоимости на $w_j$. 

### Бинаризация числовых признаков:

Если зависимость целевой переменной от признака не будет линейной, мы можем бинаризовать признак. Для этого выберем некоторую сетку точек $\{t_1, . . . , t_m\}$. Это может быть равномерная сетка между минимальным и максимальным значением признака или, например, сетка из эмпирических квантилей*. Добавим сюда точки $t_0 = −∞$ и $t_{m+1} = +∞$. Новые признаки зададим как
$b_i(x) = [t_{i−1} < x_j < t_i]$, $i = 1, . . . , m + 1$. Линейная модель над этими признаками будет выглядеть как
$a(x) = w_1[t_0 < x_j < t_1] + · · · + w_{m+1}[t_m < x_j < t_{m+1}] + . . .$. То есть мы найдём свой прогноз для каждого интервала. Такой подход позволит учесть нелинейную зависимость между признаком и целевой переменной.

**Эмпирические квантили - это способ разделения данных на равные или почти равные части на основе их порядка (ранжирования) с целью анализа распределения и характеристик данных. Квантили разделяют данные так, что каждая часть содержит определенную долю (процент) от общего объема данных. Наиболее известными квантилями являются медиана (квантиль 0.5) и квартили (квантили 0.25, 0.75), которые разделяют данные на четыре равные части. Перцентиль P-го уровня (где P выражено в процентах) - это значение, ниже которого находится P% данных. Например, 25-й перцентиль (или первый квартиль) означает, что 25% данных меньше этого значения, а 75% данных больше.*

## Измерение ошибки в задачах регрессии

$y$ – значение целевой переменной, $a$ — прогноз модели, $L(y, a)$ – отклонение прогноза от истинного ответа.

### MSE (mean squared error), RMSE (root mean squared error), $R^2$

$L(y, a) = (a − y)^2$ – благодаря своей дифференцируемости эта функция наиболее часто используется в задачах регрессии

$$MSE(a, X) = \frac{1}{l}\displaystyle\sum_{i=1}^l \Big(a(x_i) − y_i\Big)^2$$

Величина среднеквадратичного отклонения не сохраняет единицы измерения. Например, если мы предсказываем цену в рублях, то MSE будет измеряться в квадратах рублей. Чтобы избежать этого, используют корень из среднеквадратичной ошибки:

$$RMSE(a, X) = \sqrt{\frac{1}{l}\displaystyle\sum_{i=1}^l \Big(a(x_i) − y_i\Big)^2}$$

MSE подходит для сравнения двух моделей или для контроля качества во время обучения, но не позволяет сделать выводы о том, насколько хорошо данная модель решает задачу. Например, MSE = 10 – плохой показатель, если целевая переменная принимает значения от 0 до 1, и хороший, если целевая переменная лежит в интервале (10000, 100000). 

В таких ситуациях вместо MSE полезно использовать **коэффициент детерминации $R^2$**:

$$R^2(a, X) = 1 - \frac{\sum_{i=1}^l (a(x_i) − y_i)^2}{\sum_{i=1}^l (y_i − \bar{y})^2}, \quad \text{где    } \bar{y} = \frac{1}{l}\sum_{i=1}^l y_i \text{    — среднее значение целевой переменной.}$$

Коэффициент детерминации измеряет долю дисперсии, объяснённую моделью, в общей дисперсии целевой переменной. Фактически, это нормированная MSE. Если она близка к единице, то модель хорошо объясняет данные, если же она близка к нулю, то прогнозы сопоставимы по качеству с константным предсказанием.

### MAE (mean absolute error)

$L(y, a) = |a − y|$ – модуль отклонения не является дифференцируемым, но при этом менее чувствителен к выбросам

$$MAE(a, X) = \frac{1}{l}\displaystyle\sum_{i=1}^l |a(x_i) − y_i|$$

Модуль отклонения более терпим к аномалиям:

![image.png](attachment:image.png)

Если мы выбрали MSE в качестве функционала ошибки, то минимум достигается на среднем значении всех ответов. Если один из ответов на порядки отличается от всех остальных (то есть является выбросом), то среднее будет существенно отклоняться в его сторону. 

Если мы выбрали MAE в качестве функционала ошибки, то минимум достигается на медиане всех ответов. Небольшое количество выбросов никак не повлияет на медиану — она существенно более устойчива к величинам, выбивающимся из общего распределения.

**НО!** По значению производной абсолютной функции потерь нельзя понять, насколько мы близки к оптимальному прогнозу, поэтому при оптимизации MAE можно легко «перескочить» экстремум

*Таким образом, абсолютная функция потерь более устойчива к выбросам, а квадратичная функция лучше с точки зрения оптимизации*

### Huber loss

Объединим MSE и MAE: для прогнозов, близких к ответу, нам бы пригодились свойства гладкой квадратичной функции, а для плохих прогнозов важнее свойства абсолютного отклонения. Функция потерь Хубера:
$L_{\delta}(y,a) = 
\begin{cases}
\frac{1}{2}(y-a)^2, \quad |y-a|<\delta \\
\delta(|y-a| - \frac{1}{2}\delta), \quad |y-a|\geq\delta 
\end{cases}$

Если сделать параметр $\delta$ маленьким, то функция будет вести себя квадратично только в маленькой окрестности нуля. Если же увеличивать $\delta$, то даже для значительных отклонений $(a − y)$ штраф будет вести себя квадратично, и при обучении мы будем делать большой акцент на их уменьшение. При $\delta → 0$ функция потерь Хубера вырождается в абсолютную функцию потерь, а при $\delta → ∞$ — в квадратичную.

### Log-Cosh

У функции потерь Хубера есть недостаток: её вторая производная имеет разрывы. Такого недостатка нет у функции потерь log-cosh: $L(y, a) = \log \cosh(a − y)$

Как и в случае с функцией потерь Хубера, для маленьких отклонений здесь имеет место квадратичное поведение, а для больших — линейное.

![image-2.png](attachment:image-2.png)

**robust-ная функция потерь – устойчивая к выбросам*

### MSLE (mean squared logarithmic error)

$L(y, a) = (log(a + 1) − log(y + 1))^2, \quad a \geq 0, y \geq 0$

Соответствующий функционал называется среднеквадратичной логарифмической ошибкой. Данная метрика подходит для задач с неотрицательной целевой переменной и неотрицательными прогнозами модели. 

За счёт логарифмирования ответов и прогнозов мы скорее штрафуем за отклонения в порядке величин, чем за отклонения в их значениях. Также следует помнить, что логарифм не является симметричной функцией, и поэтому данная функция потерь штрафует заниженные прогнозы (underestimates) сильнее, чем завышенные (overestimates).

MSLE робастная, если выбросы небольшие, но к слишком большим выбросам она неустойчива

### MAPE (mean absolute percentage error), SMAPE (symmetric mean absolute percentage error)

Относительная функция потерь: $L(y, a) = \big|\frac{y - a}{y}\big|$

Соответствующий этой функции потерь функционал называется средней абсолютной процентной ошибкой (**MAPE**): $\frac{1}{l}\displaystyle\sum_{i=1}^l \Big|\frac{y_i − a(x_i)}{y_i}\Big|$

Плюсы:
1. Удобна для интерпретации — «ошибка 50%» соответствует отклонению в полтора раза от целевой переменной. Если $L=1$ на каком-то объекте, то это значит, что мы ошибаемся в 2 раза относительно нашей целевой переменной (эту функцию потерь очень любят использовать при прогнозировании продаж)
2. Позволяет работать с разными мастштабами, потому что мы нормируем на целевую переменную. Например, мы можем решать задачу прогнозирования спроса на товары в магазине, и какие-то товары могут продаваться штуками, а какие-то — тысячами. Чтобы при усреднении ошибок более популярные товары не оказывали большее влияние на результат, следует использовать функции потерь, не зависящие от масштаба.

У MAPE есть проблема с несимметричностью: при занижении прогноза максимальная ошибка ограничена, при завышении – неограничена. Это исправляется в симметричной модификации: $L(y, a) = \frac{|y − a|}{(|y|+|a|)/2}$

Соответствующий этой функции потерь функционал называется симметричной средней абсолютной процентной ошибкой (SMAPE)

### Квантильная функция потерь

В некоторых задачах цены занижения и завышения прогнозов могут отличаться друг от друга. Например, при прогнозировании спроса на товары интернет-магазина гораздо опаснее заниженные предсказания, поскольку они могут привести к потере клиентов. Завышенные же прогнозы приводят лишь к издержкам на хранение товара на складе. Функционал в этом случае можно записать как

$$Q(a, X^t) = \displaystyle\sum_{i=1}^l \rho_ {\tau}(y_i-a(x_i)), \quad \text{где} \quad \rho_{\tau}(z) = (\tau - 1)[z<0]z + \tau[z \geq0]z=(\tau-\frac{1}{2})z+\frac{1}{2}|z|, \quad \tau \in[0,1]$$

$\tau$ определяет соотношение важности занижения и завышения прогноза. Чем больше $\tau$, тем выше штраф за занижение прогноза. 

Функция потерь $ρ_τ(z)$ полезна, когда важно учитывать различные квантили распределения, например, в задачах финансового прогнозирования, где интересно предсказать как нижние, так и верхние квантили для управления рисками.

Квантили позволяют нам оценивать, какие значения данных находятся в определенных процентных долях распределения. Например, 25-й квантиль указывает на значение, ниже которого находится 25% данных, и это полезно для оценки нижних "крайних" значений. Квантиль 75-й позволяет нам оценить верхние "крайние" значения, и так далее.

Квантили часто используются в статистике и машинном обучении, чтобы более полно понимать распределение данных и работать с различными долями этого распределения, что может быть важно, например, при управлении рисками или предсказании экстремальных событий.

**Вероятнотный смысл MSE, MAE и функционала квантильной функции потерь**:

Пусть в каждой точке $x ∈ \mathbb{X}$ пространства объектов задано вероятностное распределение $p(y | x)$ на возможных ответах для данного объекта

1. При оптимизации MSE алгоритм $a(x)$ будет приближать УМО ответа в каждой точке пространства объектов: $a(x) ≈ \mathbb{E}[y | x]$. То есть, он будет приближать то значение ответа $y$, которое в среднем ожидается для данного $x$.
2. При оптимизации MAE алгоритм $a(x)$ будет приближать медиану распределения: $a(x) ≈ \text{median}[p(y | x)]$
3. Использование функции потерь $ρ_τ(z)$ приводит к тому, что алгоритм $a(x)$ будет приближать $τ$-квантиль распределения ответов в каждой точке пространства объектов. Это означает, что алгоритм будет оценивать то значение ответа, которое находится в доле $τ$ от всего распределения.

