# Проверка модели
## Метрики
Для задач бинарной классификации существует огромный набор метрик. Полный набор можно посмотреть [на той же Википедии.](https://en.wikipedia.org/wiki/Confusion_matrix)

Рассмотрим самые распространённые и самые репрезентативные метрики. Но сначала:

## Глоссарий
Задача бинарной классификации рассматривается как *предсказание наличия какого-либо признака*. Например, предсказание наличия заболевания (целевой признак, answer, target) на основании значений других, определяющих, признаков (features). 

Если признак у объекта присутствует, то такой объект относится к классу *положительных* объектов (positives, answer == 1). Соответственно, если отсутвует - то к классу *отрицательных* (negatives, answer == 0).

Для оценки классификационного алгоритма пользуются выделяют следующие значения
- **TP** - True Positives, положительные объекты, верно выявленные алгоритмом (ans == 1, pred == 1)
- **FP** - False Positives, отрицательные объекты, определённые алгоритмом как положительные (ans == 0, pred == 1)
- **TN** - True Negatives, соответственно, отрицательные объеты, верно выявленные алгоритмом (ans == 0, pred == 0)
- **FN** - False Negatives, положительные объекты, определённые алгоритмом как отрицательные. (ans == 1, pred == 0)
- **P** - Positives, все *на самом деле положительные* объекты выборки (ans == 1)
- **N** - Negatives, все *на самом деле отрицательные* объекты выборки (ans == 0)

Обычно **FN** ошибки оказываются самыми дорогими (например, пропущенное заболевание) и именно эту метрику стараются минимизировать.

### Accuracy

Самая простая, но в то же время одна из самых репрезентативных метрик. Представляет собой долю правильных ответов, что характеризует качество классификации в целом:

$$ ACC = \frac{TP + TN}{P + N} \le 1$$

### Recall (sensitivity, hit rate)

Ещё одна распространённая метрика, которая на великом могучем обычно называется *чувствительность*. Представляет собой отношение **TP / P** и характеризует алгоритм в смысле устойчивости к **FN** ошибками:

$$ recall = \frac{TP}{P} \le 1$$

Однако, *чувствительность не характеризует качество алгоритма классификации в полной мере*. Существуют алгоритмы, которые имеет чувствительность == 1 являясь при этом абсолютно бесполезными. Простой пример - тест на туберкулёз, который всегда даёт положительный результат. Поэтому, обычно, значение чувствительности указывается вместе со значением другой метрики.

### Specifity

*Специфичность* - та самая другая метрика, которая чаще остальных дополняет чувствительность. Представляет собой уже отношение **TN / N** и характеризует алгоритм в смысле устойчивости к **FP** ошибкам:

$$ specifity = \frac{TN}{N} \le 1$$


### Precision

*Точность* представляет собой отношение **TP** к **TP + FP**, то есть, доля по-настоящему положительных объектов среди всех объектов, которые алгоритм посчитал положительными. 

$$ precision = \frac{TP}{TP + FP} \le 1$$

В качестве упражнения придумайте крайний пример, для которого точность оказывается нерепрезентативной метрикой.

### $F_1$ score

Метрика, которая претендует быть репрезентативной. Представляет собой гармоническое среднее для *recall* и *precision*:

$$ F_1 = 2 \cdot \frac{precision \cdot recall}{precision + recall} $$

Несмотря на очевидные достоинства, эта метрика используется реже, чем предыдущие парой, посколько последние много лучше интерпретируются человеком.

## Cross-validation
Наиболее популярным и надёжным способом проверки адекватности модели является кросс-валидация. Для этого датасет разбивается на $N$ частей. После разбиения проводят $N$ итераций обучения модели, фиксируя $i$-ую часть в качестве *валидационной выборки*, а *остальные* данные используя в качестве *обучающей выборки* после чего усредняют показатели точности.