MAE


### Mean Absolute Error
Средняя разница между фактическими значениями и предсказанными по модулю.\
Метрика устойчива к выбросам, однако не учитывает масштаб и направление ошибок
$$MAE = \frac{1}{N}\sum_{i=1}^N{|y_i-\hat{y_i}|}$$
### Mean Absolute Percentage Error
Позволяет оценить насколько в среднем прогнозы модели отличаются относительно реальных значений в процентном отношении.\
При $y$=0 выдает неадекватное значения из за нуля в знаминателе. Искажается при маленьких значениях $y$.
$$MAPE=\frac{1}{N}\sum_{i=1}^N{\frac{|y_i-\hat{y_i}|}{y_i}}$$
### Symmetric Mean Absolute Percentage Error
Модификация над **MAPE** выражает ошибку прогноза в процентах, но более сбалансированно.\
Устраняет асимметрию при отклонениях от малых значений и проблему деления на ноль\
*(Но сумма двух модулей в знаминателе в некоторых случаях все равно может составить ноль)*

Не учитывает относительную значимость наблюдений и плохо работает с неравномерными данными.

$$SMAPE=\frac{1}{N}\sum_{i=1}^N{\frac{2|y_i-\hat{y_i}|}{|y_i|+|\hat{y_i}|}}$$
### Weighted Average Percentage Error
Нормализует общую ошибку к общей сумме фактических значений \
Использует взвешенное среднее абсолютных ошибок, где вес — это размер фактических значений. \
Эффективна, когда данные с сильно разными масштабами.
$$WAPE=\frac{\sum_{i=1}^N{|y_i-\hat{y_i}|}}{\sum_{i=1}^N{|y_i|}}$$

In [87]:
import numpy as np
from sklearn.metrics import mean_absolute_error, mean_absolute_percentage_error

In [94]:
y_true = np.array([0.05, -0.1])
y_pred = np.array([0.1, 0])
y_true_notnumpy = [0.05, 0]
y_pred_notnumpy = [0.1, 0]

In [84]:
def symmetric_mean_absolute_percentage_error(y_true, y_pred):
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    numerator = 2*np.abs(y_true - y_pred)
    denominator = np.abs(y_true)+np.abs(y_pred)
    smape = np.mean(numerator[denominator != 0] / denominator[denominator!=0])
    return smape

In [90]:
def weighted_average_percentage_error(y_true, y_pred):
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    numerator = np.sum(np.abs(y_true - y_pred))
    denominator = np.sum(np.abs(y_true))
    wape = numerator/denominator
    return wape

In [91]:
weighted_average_percentage_error(y_true, y_pred)

1.0

MSE

### Mean Squared Error & Root Mean Squared Error
Средняя разница между фактическими значениями и предсказанными в квадрате.\
Метрика делает акцент на больших ошибках, чувствительна к выбросам.

Извлечение квадратного корня возвращает значение к исходной размерности и улучшает интепритируемость.
$$MSE = \frac{1}{N}\sum_{i=1}^N{(y_i-\hat{y_i})^2}$$
$$RMSE = \sqrt{\frac{1}{N}\sum_{i=1}^N{(y_i-\hat{y_i})^2}}$$
### Mean Squared Logarithmic Error & Root Mean Squared Logarithmic Error
Альтернативный способ перехода от абсолютных ошибок к относительным - измерение в логорифмическом масштабе.\
Метрика может быть применима лишь для неотрицательных меток

Константа $c$ - вводится искуственно для избегания логорифма от нуля.\
Устойчива к выбросам, поскольку делает распределение целевых и спрогнозированных значений более однородным. \
Труднее интерпретировать, уделяет больше внимания заниженным прогнозам, поскольку логарифм является несимметричной функцией.
$$MSLE = \frac{1}{N}\sum_{i=1}^N{(ln(y_i+c)-ln(\hat{y_i}+c))^2}$$
$$RMSLE = \sqrt{\frac{1}{N}\sum_{i=1}^N{(ln(y_i+c)-ln(\hat{y_i}+c))^2}}$$

In [92]:
from sklearn.metrics import mean_squared_error, root_mean_squared_error, mean_squared_log_error, root_mean_squared_log_error

### $R^2$ score
Коэффициент детерминации - показывает какая доля дисперсии(разброса) объясняется моделью\
Не учитывает количество признаков в модели. Имеет тенденцию к увеличению при добавлении новых признаков в обучающий набор, даже если они не улучшают качество модели. Сравнение моделей с разным количеством признаков становится некорректным
$$R^2=1-\frac{RSS}{TSS}$$
$$TSS = \sum_{i=1}^n (y-\bar{y})^2 \hspace{5cm} RSS = \sum_{i=1}^n (y-\hat{y})^2$$

$TSS$ - **Total Sum of Squares** Общая сумма квадратов отклонений от среднего.\
$RSS$ - **Residual Sum of Squares** Сумма квадратов остатков\
$\bar{y}$ - Общее реднее значение выборки\
$\hat{y}$ - Предсказанное значение\

### Adjusted $R^2$ score
Скорректированный коэффициент детерминации. Вводит штраф за добавление новых признаков.
$$R^2_{adj}=1-\frac{RSS(n-1)}{TSS(n-k-1)}=1-\frac{(1-R^2)(n-1)}{n-k-1}$$
$k$ - Количество признаков.\
$n$ - Количество образцов.

In [130]:
from sklearn.metrics import r2_score

In [131]:
r2_score(y_true, y_pred)

-15.331065759637188

In [132]:
RSS = np.sum((y_true - y_pred)**2)
TSS = np.sum((y_true - np.mean(y_true))**2)

In [133]:
1-RSS/TSS

-15.331065759637188

In [134]:
def adjusted_r2_score(y_true, y_pred, X_shape):
    n, k = X_shape
    RSS = np.sum((y_true - y_pred)**2)
    TSS = np.sum((y_true - np.mean(y_true))**2)
    r2 = 1 - RSS/TSS
    return 1 - ((1-r2)*(n-1)) / (n-k-1)

# Bias-Variance Decomposition

Цель обучения модели - соблюсти баланс между **Bias**(Смещение) и **Variance**(Разброс) - **bias-variance tradeoff**

$y=f(x)+\varepsilon$ - Истинный закон + случайный шум
$$TotalError = Bias^2 + Variance + Noise$$
Разложение ошибки регрессии по **MSE**
$$MSE = E [(y - f(x))^2] = E[y^2]-2E[yf(x)]+E[f(x)^2]$$