# Семинар 3. KNN, метрики качества.

## Метрические алгоритмы. KNN.

Метрические алгоритмы - класс алгоритмов, анализирующих расстояния:

$$\rho(x, x_1), \rho(x, x_2), ... , \rho(x, x_m)$$

Примеры подобных алгоритмов:

- Nearest Centroids Algorithm
- KNN
- __K-means__ (познакомитесь на 6 семинаре)

### Nearest Centroids Algorithm

Решение задачи классификации

$$\mathbb{Y} = \{1, 2, ... , l\}, \ \ x_i \in \mathbb{R}^n$$

- построение центроидов

  $$c_j = \frac{1}{|\{ i: y_i = j \}|} \sum_{i: y_i = j} x_i$$

- предсказания

  $$a(x) = \arg \min_j \rho(x, c_j) $$

  - в качестве предсказания выдаем класс, соответствующий ближайшему центроиду

<div style="text-align:center">
<img src="src/k_means.png" width="650px">
</div>

$\newline$

- Особенности:
    - храним только центроиды
    - простая реализация
    - размер модели: $l \times n$
    - очень простой алгоритм
 
### Подход основанный на близости

Пусть $U(x)$ - окрестность точки $x$.

- классификация

  $$a(x) = \text{mode} (y_i | x_i \in U(x))$$

- регрессия

  $$a(x) = \text{mean} (y_i | x_i \in U(x))$$

Формализуем понятие окрестности:
### KNN (K Nearest Neighbor)

- Пусть $\mathbb{X}$ - метрическое пространство с метрикой $\rho$ и нумерация объектов такая, что 

$$\rho(x, x_1) \le ... \le \rho(x, x_m)$$

   - Тогда окрестностью $x$ будет: $U_k(x) = \{x_1, x_2, ... x_k \}$

$\newline$

- Особенности:
    - нет обучения, работа алгоритм - просмотреть всю выборку и подсчитать расстояния - _lazy learning_
    - требуется подобрать гиперпараметры:
        - $k$ - число ближайших соседей для предсказания
        - 'метрика': $\mathbf{L_1}$, $\mathbf{L_2}$, $\mathbf{L_{\infty}}$, $\mathbf{L_p}$, $cosine\_sim$, ...
        - весовая схема
    - размер модели: $m \times n$
    - все еще довольно простой алгоритм

<div style="text-align:center">
<img src="src/knn.png" width="650px">
</div>

__Вопрос__: Чему равна ошибка алгоритма 1-NN на обучающей выборке?

### Весовое обобщение

Рассмотрим на примере задачи классификации:

$$a(x) = \text{mode} (y_i | x_i \in U(x)) = \arg \max_{y \in \mathbb{Y}} \sum_{t=1}^k \mathbb{I}[y_{x_t} = y] \Rightarrow$$

$$\Rightarrow a(x) = \arg \max_{y \in \mathbb{Y}} \sum_{t=1}^m \mathbb{I}[y_{x_t} = y] w(x_t, x)$$

Весовые схемы:
  - $w(x_t, x) = \mathbb{I}[t = 1]$
  - $w(x_t, x) = \mathbb{I}[t \le k]$
  - $w(x_t, x) = \mathbb{I}[t \le k] q^t$, где $q < 1$;  $\ \ \ k$ экспоненциально взвешенных ближайших соседей
  - [метод парзеновского окна фиксированной/переменной ширины](http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%BF%D0%B0%D1%80%D0%B7%D0%B5%D0%BD%D0%BE%D0%B2%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%BE%D0%BA%D0%BD%D0%B0)
  - ...

Для задачи регрессии в общем виде формула имеет следующий вид:

$$a(x) = \frac{\sum_{t=1}^{k} w_t y(x_t)}{\sum_{t=1}^{k} w_t}$$

Пример взвешенной схемы в задаче регрессии: [Регрессия Надарая-Ватсона](http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0)

### Метрики расстояния

__Метрика__ на $\mathbb{X}$ - это функция $\rho(x, z): \mathbb{X} \times \mathbb{X} \rightarrow \mathbb{R}$:
 - $\rho(x, z) \ge 0$
 - $\rho(x, z) = 0 \Leftrightarrow x = z$
 - $\rho(x, z) = \rho(z, x)$
 - $\rho(x, z) + \rho(z, y) \ge \rho(x, y)$

#### Примеры метрик:

- Евклидова ( $\mathbf{L}_2$ )
  $$\rho(x, z) =  \|x - z \|_2 = \sqrt{ \sum_{i = 1}^n (x_i - z_i)^2}$$

- Манхэттена ( $\mathbf{L}_1$ )
  $$\rho(x, z) = \|x - z \|_1 = \sum_{i = 1}^n |x_i - z_i|$$

- Чебышева ( $\mathbf{L}_{\infty}$ )
  $$\rho(x, z) = \|x - z \|_{\infty} = \max_i |x_i - z_i|$$

- Минковского ( $\mathbf{L}_p$ )
  $$\rho(x, z) =  \|x - z \|_p = \left( \sum_{i = 1}^n |x_i - z_i|^p \right)^{1/p} $$


В качестве метрик в методе ближайших соседей используются не только формальные метрики, но и функции расстояния:

- косинусная мера сходства(_cosine similarity_)
  $$1 - \cos (x, z) = 1 - \frac{x^T z}{ \| x \| \| z \|} = 1 - \frac{\sum_{i=1}^n x_i z_i}{\sqrt{\sum_{i=1}^n x_i^2} \sqrt{\sum_{i=1}^n z_i^2}}$$
- [Canberra distance](https://en.wikipedia.org/wiki/Canberra_distance)
- [расстояние Хэмминга](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%A5%D1%8D%D0%BC%D0%BC%D0%B8%D0%BD%D0%B3%D0%B0)
- [расстояние Джаккарда](https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%8D%D1%84%D1%84%D0%B8%D1%86%D0%B8%D0%B5%D0%BD%D1%82_%D0%96%D0%B0%D0%BA%D0%BA%D0%B0%D1%80%D0%B0)
- [DTW](https://ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC_%D0%B4%D0%B8%D0%BD%D0%B0%D0%BC%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B9_%D1%82%D1%80%D0%B0%D0%BD%D1%81%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8_%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D1%88%D0%BA%D0%B0%D0%BB%D1%8B)
- [Расстояние Левенштейна](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B5%D0%B2%D0%B5%D0%BD%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0)
- ...

### Напоминание

__Метрические методы существенно зависят от масштаба и однородности признаков. Стоит учитывать это во время подготовки данных к обучению.__


__Проклятие размерности__ — проблема, связанная с экспоненциальным возрастанием количества данных из-за увеличения размерности пространства.

Рассмотрим геометрический пример. Для того, чтобы добиться равномерного покрытия отрезка $[0, 1]$ будет достаточно взять $100$ точек. В то же время для равномерного покрытия $10$-мерного куба потребуется $100^{10} = 10^{20}$ точек. То есть по сравнению с одномерным кубом необходимо в $10^{18}$ больше точек.

Теперь рассмотрим еще один интересный сюжет, связанный с проклятием размерности и метрическими алгоритмами: 
Будем вычислять объем шара радиуса $r$ в $\mathbb{R}^n$:

  - $n = 1$: $V_1(r) = 2r$
  - $n = 2$: $V_2(r) = \pi r^2$
  - $n = 3$: $V_3(r) = \dfrac{4}{3} \pi r^3$
  - ...
  - $n$: $V_n(r) = \dfrac{\pi^{n/2}}{\Gamma(n/2 + 1)} r^n$

<div style="text-align:center">
<img src="src/CD.png" width="550px">
</div>

_Можно заметить, что весь объем шара сосредоточен на поверхностном слое:_

$$\dfrac{V_n(r+\varepsilon)}{V_n(r)} = \dfrac{(r + \varepsilon)^n}{r^n} \underset{n \rightarrow + \infty}{\longrightarrow} + \infty$$

То есть в рассмотренном нами методе KNN, скорее всего все соседи будут лежать с краю.

Особенности:
  - трудоемкость вычислений
  - необходимость хранения огромного количества данных
  - большое количество признаков при относительно небольшом количестве данных ведет к переобучению
  - в метрических классификаторах расстояния обычно вычисляются как средний модуль разностей по всем признакам. Согласно Закону Больших Чисел, сумма $n$ слагаемых стремится в некоторому фиксированному пределу при $n \rightarrow + \infty$. Таким образом, расстояния во всех парах объектов стремятся к одному и тому же значению, а значит, становятся неинформативными.

Бороться с этим явлением можно с помощью таких подходов, как отбор признаков, метод главных компонент(PCA) (с ним вы познакомитесь на одном из ближайших семинаров) и другие способы снижения размерности.

## Метрики качества

Мы уже научились ставить задачи машинного обучения, а также познакомились с некоторыми алгоритмами, которые позволяют строить модели, аппроксимирующие зависимости между признаковым описанием и целевой переменной, но как понять на сколько качественно мы это делаем? Как понять, какая модель лучше справляется с той или иной задачей?

Если вы учавствовали в соревнования по машинному обучению(см. [kaggle](https://www.kaggle.com/)), то в них метрика качества определяется за вас организаторами соревнований, в реальной жизни вам самим предстоит разбираться с тем, что такое лучшая модель.

Так, одна из задач дата-саентиста подобрать критерий, который поможет выбрать лучшую модель.

На лекциях вы уже познакомились с понятием функции ошибки и эмпирического риска.

__Loss function__ ($L(a,x): \mathbb{X} \rightarrow \mathbb{R}$) - отображение, показывающее 'стоимость' ошибки.

__Эмпирический риск__ - средняя величина ошибки на обучающей выборке.
$$Q(a, X^m) = \frac{1}{m} \sum_{x \in X^m} L(a, x)$$

__Важно помнить, что функция потерь/эмпирический риск $\neq$ метрика качества.__

- _Метрика качества_ внешний критерий, который не зависит от параметров модели, а отображает качество решения исходной задачи(предсказанных меток).
- _Функция потерь_ появляется в момент, когда задача построения модели сводится к задаче оптимизации для получения наилучший параметров. Зачастую эта функция должна обладать некоторыми свойствами, например, дифференцируемостью.

Однако в некоторых случаях метрика качества может совпадать с функцией потерь. Так в задаче регрессии [$MSE$](https://en.wikipedia.org/wiki/Mean_squared_error) может выступать, как в роли метрики качества, так и в роли функции потерь.

### Задача бинарной классификации: I

#### [Accuracy](https://scikit-learn.org/dev/modules/generated/sklearn.metrics.accuracy_score.html)
- доля корректно предсказанных примеров
$$accuracy(y, \hat{y}) = \frac{1}{m} \sum_{i=1}^m \mathbb{I}[a(x_i) = y_i]$$
- сопряженная ей метрика - доля ошибочных классификаций(__error rate__)
$$ErrorRate = 1 - accuracy$$

Accuracy имеет $2$ существенных недостатка:
 - не учитывает дисбаланс классов
   - Предположим, что на производство поступило $110$ станков, из которых $100$ исправны и $10$ неисправны. Также в нашем распоряжении имеется модель, которая предсказывает исправность станка. Из $100$ исправных станков $90$ классификатор определил верно, а среди $10$ неисправлных, верно определено $5$. Таким образом,
     $$accuracy = \frac{1}{110} (90 + 5) = \frac{95}{110} = 0.86$$
   - Если же мы будем использовать классификатор, который всегда будет выдавать тождественный результат - "Исправен", то доля правильных ответов будет:
     $$accuracy = \frac{100}{110} = 0.91$$

 - не учитывает цену ошибки для объектов разных классов
    - В медицинской диагностике ложное предсказание для здорового пациента приведет к повторному обследованию, а в случае ложного предсказания для нездорового пациента может привести к печальным последствиям
  
Для того чтобы учитывать для объектов разных классов перейдем к рассмотрению следующего показателя качества алгоритма - матрица ошибок(Confusion matrix)

#### [Confusion matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html)

Чтобы познакомиться с матрицей ошибок, разберемся какие предсказания может давать классификатор в бинарном случае:
- верно предсказываем положительную метку. Такие объекты обозначаются, как **true positive (TP)**. True — потому что предсказали мы правильно, а positive — потому что предсказали положительную метку
- предсказываем положительную метку, но ошибаемся в своём предсказании — **false positive (FP)**. False, потому что предсказание было неправильным
- предсказываем отрицательную метку, но ошибаемся — **false negative (FN)**
- верно предсказываем отрицательную метку — **true negative (TN)**

Для удобства все эти 4 числа изображают в виде таблицы, которую называют **confusion matrix**:

| <!---  ---> | $y = 1$ | $y = 0$ |
|--------------|--------------|--------------|
| $\hat{y} = 1$ | True Positive (TP)   | False Positive (FP) |
| $\hat{y} = 0$ | False Negative (FN)   | True Negative (TN) |

Таким образом, мы можем совершить $2$ типа ошибок: $FP$ и $FN$. Они также называются ошибками I и II рода.

<div style="text-align:center">
<img src="src/error_type.jpeg" width="650px">
</div>

Матрица ошибок не является каким-то показателем качества, хотя мы и стремимся максимизировать главную диагональ и минимизировать недиагональные элементы(однако на матрицах не задан порядок, а потому сравнить $2$ произвольные матрицы мы не можем), она дает нам инструмент для анализа ошибок.

Также с помощью введенных обозначений мы можем переписать формулы для $accuracy$ и $error\_rate$:
$$accuracy = \frac{TP + TN}{TP + TN + FP + FN}$$
$$ErrorRate = \frac{FP + FN}{TP + TN + FP + FN}$$

Что показывает нам, что $accuracy$ оперирует только верными предсказаниями, а $ErrorRate$ неверными. При этом, как мы уже посмотрели в случае дисбаланса классов $accuracy$ может быть обманчивой, это же касается и $ErrorRate$.

__Accuracy__ имеет смысл применять, когда отсутствует сильный дисбаланс классов и классы имеют одинаковое значение.

Зачастую класс, который представляет для нас интерес обозначается "положительным", верные предсказания на нем $TP$, поэтому в случае ассиметрии классов, можно использовать метрики, которые ориентируются на $TP$ и не учитывают $TN$. 

#### [Precision (точность)](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html)

- Доля правильно предсказанных положительных объектов среди всех объектов, предсказанных положительными.

$$Precision = \frac{TP}{TP + FP}$$


- Чем меньше ложноположительных срабатываний будет допускать алгоритм, тем больше будет значение $Precision$.

#### [Recall (полнота)](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html)

- Доля правильно предсказанных положительных объектов среди всех объектов, являющихся положительными.

$$Recall = \frac{TP}{TP + FN}$$

- Чем меньше ложноотрицательных срабатываний будет допускать алгоритм, тем больше будет значение $Recall$.

<div style="text-align:center">
<img src="src/prec_rec.png" width="250px">
</div>

В задаче предсказания злокачественности опухоли точность показывает, сколько из определённых нами как злокачественные опухолей действительно злокачественные, а полнота — какую долю злокачественных опухолей нам удалось выявить.

__Precision__ и __Recall__ не зависят от баланса классов, а потому применимы в условиях несбалансированных выборок. Однако на практике стоит задача найти баланс между парой $Precision-Recall$, одним из популярных способов их комбинации является $F_1$ мера - среднее гармоническое $Precision$ и $Recall$.

#### [$F_1$ - мера](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)

$$F_1 = \frac{2}{\frac{1}{Recall} + \frac{1}{Precision}} = 2 \frac{Recall \cdot Precision}{Recall + Precision}$$

$F_1$-мера предполагает одинаковый приоритет у $Recall$ и $Precision$. У нее есть обобщение, которое позволяет балансировать между важностью $Recall$ и $Precision$.

#### [$F_{\beta}$ - мера](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html)

$$F_{\beta} =  (\beta^2 + 1) \frac{Recall \cdot Precision}{Recall + \beta^2 Precision}$$

### Задача бинарной классификации: II

Многие модели МО, решающие задачу бинарной классификации, устроены таким образом, что разделают объекты по классам на основе некоторого порога:

$$f(x, w, w_0) = \mathbb{I}[g(x, w) > w_0]$$

В частности простейший линейный классификатор будет устроен следующим образом:

$$f(x, w, w_0) = \mathbb{I}[x^Tw > 0]$$

Однако такое преобразование приводит к потере информации, поскольку результат бинарной классификации не показывает, насколько выше или ниже значения порога отсечения. Нужно учитывать, что в зависимости от порога мы будем получать разные предсказания и разное качество на отложенной выборке. Как в этом случае оценивать качество модели?

Рассмотрим $2$ величины, которые монотонно не убывают при уменьшении порога:

$$TruePositiveRate = TPR = \frac{TP}{TP + FN} =^* Recall$$

$$FalsePositiveRate = FPR = \frac{FP}{FP + TN}$$

__TruePositiveRate__ ( $TPR$ ) - доля положительных объектов, правильно предсказанных положительными(полнота).

__FalsePositiveRate__ ( $FPR$ ) - доля отрицательных объектов, неправильно предсказанных положительными.

Кривая, построенная в координатах $ \ TPR( \ FPR \ )$ при варьировании порога, называется [__ROC-кривой__](http://www.machinelearning.ru/wiki/index.php?title=ROC-%D0%BA%D1%80%D0%B8%D0%B2%D0%B0%D1%8F). Каждая точка на графике соответствует выбору некоторого порога. Она проходит из точки $(0,0)$, соответствующей максимальному значению $w_0$, в точку $(1,1)$, соответствующую минимальному значению $w_0$.

<div style="text-align:center">
<img src="src/ROC.png" width="650px">
</div>

Чем выше лежит кривая, тем лучше качество классификации. ROC-кривая может быть вычислена по любой выборке. Однако ROC-кривая, вычисленная по обучающей выборке, является оптимистично смещённой влево-вверх вследствие переобучения. Величину этого смещения предсказать довольно трудно, поэтому на практике ROC-кривую всегда оценивают по независимой тестовой выборке.

#### [ROC-AUC](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html)

Площадь под ROC-кривой AUC (Area Under Curve) является агрегированной характеристикой качества классификации, не зависящей от соотношения цен ошибок. Чем больше значение AUC, тем «лучше» модель классификации.

__AUC ROC__ равен доле пар объектов вида (объект класса 1, объект класса 0), которые алгоритм верно упорядочил. Может быть интерпретирован как вероятность того, что случайно выбранный положительный объект будет проранжирован классификатором выше (будет иметь более высокую вероятность быть 'положительным'), чем случайно выбранный 'отрицательный' объект. Таким образом, в любой задаче, где нам важна не метка сама по себе, а правильный порядок на объектах, имеет смысл применять AUC.

Подробнее о ROC-AUC, а также о том, как ее строить, настоятельно советуем ознакомиться в [__материалах А.Г. Дьяконова__](https://alexanderdyakonov.wordpress.com/2017/07/28/auc-roc-%D0%BF%D0%BB%D0%BE%D1%89%D0%B0%D0%B4%D1%8C-%D0%BF%D0%BE%D0%B4-%D0%BA%D1%80%D0%B8%D0%B2%D0%BE%D0%B9-%D0%BE%D1%88%D0%B8%D0%B1%D0%BE%D0%BA/). [Задачи для проверки cебя.](https://alexanderdyakonov.wordpress.com/2015/10/09/%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%BA%D0%B8-%D0%BF%D1%80%D0%BE-auc-roc/)

Рассмотрим задачу выделения математических статей из множества научных статей. Допустим, что всего имеется $1010$ статей, из которых лишь $10$ относятся к математике. Если нам удастся построить алгоритм $a(x)$, идеально решающий задачу, то его $TPR$ будет равен единице, а $FPR$ — нулю. Рассмотрим теперь 'плохой' алгоритм, дающий положительный ответ на $9$ математических и $50$ нематематических статьях. Такой алгоритм совершенно бесполезен, но при этом имеет $TPR = \frac{9}{10} = 0.95$ и $FPR = \frac{50}{1000} = 0.05$, что крайне близко к показателям идеального алгоритма. Таким образом, если положительный класс существенно меньше по размеру, то AUC-ROC может давать неадекватную оценку качества работы алгоритма, поскольку измеряет долю неверно принятых объектов относительно общего числа отрицательных. 

#### Precison-recall (PR) кривая. [AUC-PR](https://scikit-learn.org/dev/modules/generated/sklearn.metrics.average_precision_score.html#sklearn.metrics.average_precision_score)

Избавиться от указанной проблемы с несбалансированными классами можно, перейдя от ROC-кривой к PR-кривой. Она определяется аналогично ROC-кривой, только по осям откладываются не FPR и TPR, а полнота($recall$) (по оси абсцисс) и точность($precision$) (по оси ординат). Критерием качества семейства алгоритмов выступает площадь под PR-кривой (Area Under the Curve — AUC-PR).


<div style="text-align:center">
<img src="src/PR.png" width="620px">
</div>

Рассмотрим среднее значение точности (оно равно площади под кривой точность-полнота):

$$AP = \int_0^1 p(r)dr$$

Получим показатель эффективности, который называется average precision.


### Многоклассовая классификация

Если классов становится больше двух, расчёт метрик усложняется. Если задача классификации на $K$ классов ставится как $K$ задач об отделении класса $i$ от остальных $(i = 1,..., K)$, то для каждой из них можно посчитать свою матрицу ошибок. Затем есть два варианта получения итогового значения метрики из K матриц ошибок:

 - Усредняем элементы матрицы ошибок $(TP, FP, TN, FN)$ между бинарными классификаторами, например $TP=\frac{1}{K}\sum_{i=1}^K TP_i$. Затем по одной усреднённой матрице ошибок считаем $Precision$, $Recall$, $F$-меру. Это называют __микроусреднением__.
 - Считаем $Precision$, $Recall$ для каждого классификатора отдельно, а потом усредняем. Это называют __макроусреднением__.

__Важно__: Порядок усреднения влияет на результат в случае дисбаланса классов.


### Регрессия

В задаче регрессии нас зачастую интересует величина невязки: $e_i = a(x_i) - y_i$, которую необходимо агрегировать по набору данных.

#### [(R)MSE](https://scikit-learn.org/1.5/modules/generated/sklearn.metrics.mean_squared_error.html)

Одна из самых популряных метрик, которая также часто используется, как функция потерь для многих моделей - это $MSE$.

$$MSE(y, \hat{y}) = \frac{1}{m} \sum_{i=1}^m (y_i - a(x_i))^2 $$

Чтобы показатель эффективности MSE имел размерность исходных данных, иногда из него извлекают квадратный корень и получают показатель эффективности RMSE.

$$RMSE(y, \hat{y}) = \sqrt{\frac{1}{m} \sum_{i=1}^m (y_i - a(x_i))^2 } $$

MSE неограничен сверху, и может быть нелегко понять, насколько «хорошим» или «плохим» является то или иное его значение.

Если большие ошибки для нас действительно неприемлемы, то квадратичный штраф за них — очень полезное свойство (и его даже можно усиливать, повышая степень, в которую мы возводим ошибку на объекте). Однако если в наших тестовых данных присутствуют выбросы, то нам будет сложно объективно сравнить модели между собой: ошибки на выбросах будет маскировать различия в ошибках на основном множестве объектов.

#### [$R^2$ (Коэффициент детерминации)](https://scikit-learn.org/dev/modules/generated/sklearn.metrics.r2_score.html)

Коэффициент детерминации - это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью.

$$R^2 = 1 - \frac{\sum_{i=1}^{m} (y_i - a(x_i))^2}{\sum_{i=1}^{m} (y_i - \overline{y})^2} = 1 - \frac{\sigma^2}{\sigma_y^2}$$

где $\sigma^2$ - условная (по признакам $x$) дисперсия зависимой переменной.

Фактически, данная мера качества — это нормированная среднеквадратичная ошибка. Если она близка к единице, то модель хорошо объясняет данные, если же она близка к нулю, то прогнозы сопоставимы по качеству с константным предсказанием. 

#### [MAE](https://scikit-learn.org/dev/modules/generated/sklearn.metrics.mean_absolute_error.html)

Использовать $RMSE$ для сравнения моделей на выборках с большим количеством выбросов может быть неудобно. В таких случаях прибегают к также знакомой вам в качестве функции потери метрике $MAE$ (mean absolute error):

$$MAE(y, \hat{y}) = \frac{1}{m} \sum_{i=1}^{m} | y_i - a(x_i) |  $$

#### [MAPE](https://scikit-learn.org/dev/modules/generated/sklearn.metrics.mean_absolute_percentage_error.html)

Это коэффициент, не имеющий размерности, с очень простой интерпретацией. Его можно измерять в долях или процентах. Если у вас получилось, например, что MAPE=11.4%, то это говорит о том, что ошибка составила 11,4% от фактических значений. Основная проблема данной ошибки — нестабильность.

$$ MAPE(y, \hat{y}) = \frac{1}{m} \sum_{i=1}^m \frac{|y_i - a(x_i)|}{|y_i|} $$

#### SMAPE

Symmetric MAPE

$$ SMAPE(y, \hat{y}) = \frac{1}{m} \sum_{i=1}^m \frac{2 |y_i - a(x_i)|}{y_i + a(x_i)} $$

#### WAPE

$$ WAPE(y, \hat{y}) = \frac{\sum_{i=1}^m | y_i - a(x_i) |}{\sum_{i=1}^m | y_i | } $$

## Ссылки

- [Метрические алгоритмы](https://github.com/Dyakonov/MLDM/blob/master/2019/AMD06_metric_18.pdf)
- [Метрики в задачах машинного обучения](https://habr.com/ru/companies/ods/articles/328372/)
- [Метрики классификации и регрессии](https://education.yandex.ru/handbook/ml/article/metriki-klassifikacii-i-regressii)
- [AUC ROC (площадь под кривой ошибок)](https://alexanderdyakonov.wordpress.com/2017/07/28/auc-roc-%D0%BF%D0%BB%D0%BE%D1%89%D0%B0%D0%B4%D1%8C-%D0%BF%D0%BE%D0%B4-%D0%BA%D1%80%D0%B8%D0%B2%D0%BE%D0%B9-%D0%BE%D1%88%D0%B8%D0%B1%D0%BE%D0%BA/)
- [Метрики качества. Часть 1. Функции ошибки в задаче регрессии](https://github.com/Dyakonov/PZAD/blob/master/2020/PZAD2020_031err_regression_10n.pdf)
- [Метрики качества. Часть 2. Чёткая бинарная классификации](https://github.com/Dyakonov/PZAD/blob/master/2020/PZAD2020_032err_classification_20n.pdf)