### Метрики качества

- для задания функционала ошибки
    - используется при обучении
- для подбора гиперпараметров
    - используется при измерении качества на кросс-валидации
- для оценивания итоговой модели
    - пригодна ли модель для решения задачи?

#### Метрики качества в задачах регрессии

***Среднеквадратичная ошибка***

$MSE(a,X)=\frac{1}{l}\sum\limits_{i=1}{l}(a(x_i)-y_i)^2$
    - легко оптимизировать
    - сильно штрафует за большие ошибки, а значит алгоритм может настроиться на выбросы
    
***Средняя абсолютная ошибка***

$MSE(a,X)=\frac{1}{l}\sum\limits_{i=1}^{l}|a(x_i)-y_i|$
    - сложнее минимизировать
    - выше устройчивость к выбросам 
    
***Коэффициент детерминации*** 
    - интерпретируемый вариант ***MSE***

$
    R^2(a,X) = 1 - \frac{\sum\limits_{i=1}^l
    (a(x_i)-y_i)^2}{\sum\limits_{i=1}^l(y_i-\overline y)^2}
$, где $\overline y = \frac{1}{l}\sum\limits_{i=1}^{l}y_i$

- $0 \leq R^2 \leq 1$ (для разумных моделей)
- $R^2 = 1$ -   идеальная модель
- $R^2 = 0$ -  модель на уровне константной
- $R^2 < 0$ -  модель хуже константной

***Квантильная ошибка***
    - для нессиметричных потерь
$\rho(a, X) = \frac{1}{l}\sum\limits_{i=1}^l ((\tau-1)[y_i<a(x_i)] +
    \tau[y_i\geq a(x_i)])(y_i-a(x_i))$


#### Метрики качества в задачах классификации

***Доля неправильных ответов:***
    -  следует учитывать баланс классов
    - не учитывает разные цены разных типов ошибок

$\frac{1}{l} \sum\limits_{i=1}^{l}[a(x_i) \neq y_i]$

***Доля правильных ответов (accuracy)***
    - учитывать баланс классов
    - не учитывает разные цены разных типов ошибок
$\frac{1}{l} \sum\limits_{i=1}^{l}[a(x_i) = y_i]$

***Матрица ошибок***

$
\begin{array}{|c|c|с|}
\hline          & y=1                    & y=-1\\
\hline a(x)=1   & True\;Positive\; (TP)  & False\; Positive\; (FP)  \\
\hline a(x)=-1  & False\;Negative\; (FN) & True\; Negative\; (TN)  \\
\hline
\end{array}
$

***Точность*** 
    - насколько множно доверять классификатору, если он срабатывает

$precision(a, X) = \frac{TP}{TP+FP}$

***Полнота*** 
    - как много положительных объектов находит классификатор

$recall(a, X) = \frac{TP}{TP+FN}$

***Пример*** 
- (кредитный скоринг) неудачных кредитов должно быть не больше 5% $ \Rightarrow precision(a, X) \geq 0.95$, т.е. максимизируем полноту
- (медицинская диагностика) необходимо найти не менее 80% больных $(recall(a, X) \geq 0.8)$, т.е. максимизируем точность

***F-мера***

$F = \frac{2\cdot precision \cdot recall}{precision+recall}$

#### Качество оценок принадлежности к классу
Пусть классификатор $a(x)=[b(x)>t]$, где $b(x)$ оценка принадлежности к классу +1, $t$ - порог отнесения к тому или иному классу
- AUC-PRC - площадь под PR-кривой:

Ось $X - $ Recall

Ось $Y - $ Precision
- AUC-ROC - площадь под ROC-кривой (доля верных/ложных срабатываний):

Ось $X - $ False Positive Rate

$$FPR=\frac{FP}{FP+TN} \notag$$

Ось $Y - $ True Positve Rate

$$TPR = \frac{TP}{TP+FN} \notag$$