<a href="https://colab.research.google.com/github/go-anton/ML_Inside/blob/main/%D0%9A%D0%BE%D0%BF%D0%B8%D1%8F_%D0%B1%D0%BB%D0%BE%D0%BA%D0%BD%D0%BE%D1%82%D0%B0_%22%D0%A8%D0%BF%D0%B0%D1%80%D0%B3%D0%B0%D0%BB%D0%BA%D0%B0_%D0%BF%D0%BE_%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0%D0%BC_ipynb%22.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Мини-шпаргалка по метрикам для семинара по линейным моделям и ансамблям

Дисклеймер: метрикам в курсе посвящен отдельный модуль, здесь лишь небольшая шпаргалка, минимально необходимая для понимания семинаров по линейным и деревянным моделям и домашек

## 1. Регрессия

### 1.1. $R^2$

Коэффициент детерминации (для случая когда фичей много)

\begin{align*}
R^2 &= 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y_i})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} \\
& \text{где:} \\
y_i &\text{ — таргеты,} \\
\hat{y_i} &\text{ — предсказанные значения регрессии,} \\
\bar{y} &\text{ — среднее таргеты } y_i, \\
n &\text{ — количество наблюдений.}
\end{align*}


Если вы видите в знаменателе дроби что-то очень похожую на дисперсию таргета -- вам не кажется

Поскольску смысл $R^2$ в доле дисперсии, которую можно объяснить моделью

Чтобы сравнивать модели с разным числом фичей нужно вводить поправку

\begin{align*}
R^2_{\text{adj}} &= 1 - \frac{(n-1)(1-R^2)}{n-p-1} \\
& \text{где:} \\
R^2 &\text{ — коэффициент детерминации,} \\
n &\text{ — количество наблюдений,} \\
p &\text{ — количество фичей (регрессоров).}
\end{align*}


Поскольку обычно число наблюдений сильно больше числа фичей, поправку используют редко

### 1.2. MSE и MAE

\begin{align*}
\text{MSE} &= \frac{\sum_{i=1}^{n} (y_i - \hat{y_i})^2}{n} \\
& \text{где:} \\
y_i &\text{ — таргеты,} \\
\hat{y_i} &\text{ — предсказанные значения,} \\
n &\text{ — количество наблюдений.} \\
\end{align*}


\begin{align*}
\text{MAE} &= \frac{\sum_{i=1}^{n} |y_i - \hat{y_i}|}{n} \\
& \text{где:} \\
y_i &\text{ — таргеты,} \\
\hat{y_i} &\text{ — предсказанные значения,} \\
n &\text{ — количество наблюдений.} \\
\end{align*}


Чем они отличаются?

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, root_mean_squared_error

In [None]:
target = [99, 98, 100, 101, 103]
predicted = [99, 98, 200, 101, 103]
print(f'MAE {mean_absolute_error(target, predicted):.3f}')
print(f'MSE {mean_squared_error(target, predicted):.3f}')
print(f'RMSE {root_mean_squared_error(target, predicted):.3f}')

MAE 20.000
MSE 2000.000
RMSE 44.721


Как видим, MAE гораздо более устойчив к выбросам

### 1.3. MAPE

Наиболее "понятная" метрика, измеряется в процентах

\begin{align*}
\text{MAPE} &= \frac{100}{n } \sum_{i=1}^{n} \left|\frac{y_i - \hat{y_i}}{y_i}\right| \\
& \text{где:} \\
y_i &\text{ — таргеты,} \\
\hat{y_i} &\text{ — предсказанные значения,} \\
n &\text{ — количество наблюдений.} \\
\end{align*}


# 2. Классификация

из всех многочисленных метрик классификации для семинаров по линейным и деревянным моделям и домашек понадобится лишь одна -- ROC AUC, которая меняется от 0 до 1 и характеризует качество моделей бинарной классификации в части ранжирования на всей области значений





Что это значит?

Это значит что если взять все возможные пары наблюдений в которых один элемент 0, а второй заведомо единичка, то ROC AUC покажет долю пар, которые модель отсортирует верно

Например, если речь о заемщиках -- то сортировка будет по вероятности выхода в дефолт

**Ответ** ChatGPT:      
Формула для расчета ROC AUC (Area Under the Receiver Operating Characteristic Curve) основана на ранжировании предсказанных значений и вычислении вероятности того, что случайно выбранное положительное наблюдение имеет более высокий ранг, чем случайно выбранное отрицательное наблюдение.

$$
\begin{align*}
\text{AUC} &= \frac{1}{n_{\text{pos}} \cdot n_{\text{neg}}} \sum_{i=1}^{n_{\text{pos}}} \sum_{j=1}^{n_{\text{neg}}} \mathbb{1}(s_i > s_j) \\
& \text{где:} \\
n_{\text{pos}} &\text{ — количество положительных классов,} \\
n_{\text{neg}} &\text{ — количество отрицательных классов,} \\
s_i &\text{ — скор для положительного наблюдения,} \\
s_j &\text{ — скор для отрицательного наблюдения,} \\
\mathbb{1}(s_i > s_j) &\text{ — индикаторная функция (1, если } s_i > s_j, 0 \text{ в противном случае).}
\end{align*}
$$

Так как в формуле есть только сравнение скоров (сырых предсказаний модели), то ROC AUC не требует чтобы скоры лежали в диапазоне от 0 до 1 -- ему достаточно лишь сравнивать их значения между собой

Это делает его удобным для того чтобы считать просто по одной фиче например и мониторить стабильность такого показателя во времени.

Но что если мы не хотим считать по всем возможным парам негативный-позитивный?

Есть подходы по вычислению ROC AUC на части пар -- pAUC ("паук"), но о них мы расскажем в курсе по рекомендательным системам