# Урок 1. Метрики качества классификации ч.1.

После отбра признаков, выбора и, конечно, реализации модели и получения некоего результата в виде класса или вероятности принадлежности классу, следующим шагом будет выяснение того, насколько эффективна модель. Разные метрики качества используются для оценки различных алгоритмов машинного обучения. Сейчас мы сосредоточимся на тех, которые применяются для задач классификации. 

### Матрица ошибок (Confusion Matrix)

Матрица ошибок - одна из интуитивно понятных метрик, используемых для определения точности модели. Она используется для задачи классификации, где выходные данные могут быть двух или более классов. 

Возьмем два примера с, абстрактно, двумя классами - "плохой" и "хороший" - и подумаем, что в каждом конкретном случае для нас будет важнее предсказать.

1. Предположим, что мы решаем задачу классификации, где предсказываем, болен человек или нет: *1*, если болен, и *0*, если здоров. Скажем, из 100 человек только 5 больны. Так как больных всего 5% от общего числа людей, то даже очень плохая модель (прогнозирование всех как здоровых) даст нам точность в 95% - это частая проблема для данных с несбалансированными классами. Поэтому в этом случае мы хотим правильно классифицировать всех больных людей - если здоровые будут отнесены к больным, то в данном случае это повлечет за собой явно меньше неприятностей.

2. Теперь давайте представим, что нам надо классифицировать, является ли электронное письмо спамом или нет. Присвоим метку *1*, если это спам, и *0*, если не является спамом. Предположим, что модель классифицировала важное письмо, которого вы отчаянно ждете, как *спам*. В этой ситуации это может быть довольно трагично, ведь с письме может находиться важная информация. Соответственно, в задаче классификации электронных писем более важно минимизировать количество объектов, отнесенных к классу "плохой".

Оба этих случая могут быть исследованы с помощью матрицы ошибок, элементы которой как раз таки указывают на ошибочную классификацию в первом и во втором примере. Но давайте обо всем по порядку.

Матрица ошибок представляет собой таблицу с двумя измерениями - {"Actual", "Predicted"}, каждое из которых представлено множеством прогнозируемых классов. Фактические результаты - это столбцы, а прогнозируемые - строки.

![](https://248006.selcdn.ru/public/DS_Block2_M6_final/conf_mtrx.png)

Сама по себе матрица ошибок не является показателем производительности как таковым, однако почти все метрики (Recall, Precision, Specificity, Accuracy, AUC-ROC Curve) основаны на значениях внутри нее.

Теперь давайте разберемся в терминах матрицы ошибок: что означают все ее атрибуты TP, TN, FP и FN?

Прекрасно для понимания это представлено на изображении из [этого источника](https://towardsdatascience.com/understanding-confusion-matrix-a9ad42dcfd62).

![](https://248006.selcdn.ru/public/DS_Block2_M6_final/terms.png)

Итак,
- *True Positives (TP)*: Фактический класс объекта был *1 (True)* и прогнозируемый также *1 (True)*
- *True Negatives (TN)*: Фактический класс объекта был *0 (False)* и прогнозируемый также *0 (False)*
- *False Positives (FP)*: Фактический класс объекта был *0 (False)*, а прознозируемый - *1 (True)*. False - потому что модель предсказала неверно, positives - потому что предсказанный класс был положительным
- *False Negatives (FN)*: Фактический класс объекта был *1 (True)*, а прогнозируемый - *0 (False)*. False - потому что модель предсказала неверно, negatives - потому что предсказанный класс был отрицательным

Логично, что идеальным сценарием является получение такой матрицы, в которой модель дает FP == 0 и FN == 0, однако в реальной жизни любая модель в большинстве случаев не будет давать 100% точности.

Мы знаем, что будет какая-то ошибка в предсказаниях модели и что это будет либо FP, либо FN, но что именно следует минимизировать, зависит исключительно от потребностей бизнеса и контекста проблемы, которую требуется решить. Например, в нашем примере с классификацией больных людей более важно минимизировать FN - нам важнее правильно распознать больных людей, чем ошибочно отнести здоровых к больным. Напротив, в примере со спамом менее важно пропустить надоедливую рекламу, чем важное письмо - здесь нам актуальнее минимизировать FP.

Теперь рассмотрим метрики классификации, основанные на терминах матрицы ошибок.

### Accuracy (доля правильных ответов)

Теперь давайте разберемся с метриками классификации, основанными на матрице ошибок.

Наиболее очевидной мерой качества модели классификации является доля правильных ответов (иногда *accuracy* переводят как *точность*, но этот термин отведен для другой метрики - *precision*) - эту меру мы встречали в предыдущих уроках по классификации, и означает она не что иное, как отношение числа верных прогнозов к общему количеству прогнозов:

$$
Accuracy = \frac{\sum_{i=1}^{l} predicted_i = actual_i}{l}
$$

![](https://248006.selcdn.ru/public/DS_Block2_M6_final/accuracy.png)

В терминах матрицы ошибок accuracy приобретает вид:

$$
Accuracy = \frac{TP + TN}{TP + FP + FN + TN}
$$

Доля правильных ответов является хорошей мерой, когда классы сбалансированы или почти сбалансированы - их соотношение в конечной выборке должно быть примерно одинаковым. Например, как в датасете Iris - там данные идеально сбалансированы, поэтому метрика дает точный ответ.

Эта метрика совершенно не подходит в качестве меры, если один из классов явно преобладает над другим. Вспомним пример, где нам надо было определить, болен человек или нет. Там самая плохая модель при отнесении всех людей к здоровым давала 95% точности, что на первый взгляд неплохо, но, как мы выяснили, совершенно некорректно. Здесь доля правильных ответов тоже даст ответ 95%.

Если классы ваших данных сбалансированы и вам важна лишь точность модели без привязки к тому, верно ли модель классифицировала объекты конкретного класса, то accuracy - хороший вариант.

### Precision (Точность)

На уже упомянутом выше примере точность - показатель, который говорит, какая доля больных людей была диагностирована, но при этом среди них были здоровые. 

![](https://248006.selcdn.ru/public/DS_Block2_M6_final/precision.png)

Определяется формулой:

$$
Precision = \frac{TP}{TP + FP}
$$

Здесь TP - люди, которые действительно больны, а FP - здоровые люди, ошибочно отнесенные к этой категории.

*Точность* дает нам информацию о корректности работы модели относительно FP (то есть показывает, сколько мы "поймали").

### Recall (Полнота)

Полнота - показатель, который говорит, какая доля больных людей была верно диагностирована, но при этом были те, кто ошибочно был определен как "здоровый". 

![](https://248006.selcdn.ru/public/DS_Block2_M6_final/recall.png)

Определяется формулой:

$$
Recall = \frac{TP}{TP + FN}
$$

Здесь TP - люди, которые действительно больны, а FN - больные люди, ошибочно отнесенные к категории "здоровый".

*Полнота* дает информацию о работе классификатора по отношению к FN (то есть показывает, сколько мы пропустили).

Рассмотрим пример, когда у нас есть 100 пациентов, при этом 5 из них больны. Допустим, модель классифицирует их всех как больных, то есть *TP = 5, FP = 95, FN = 0, TN = 0*. Тогда *точность* и *полнота* для этих данных будут равны соответственно 5% и 100%.

### Когда стоит использовать *точность*, а когда *полноту*?

Если мы хотим сосредоточиться на минимизации ложных позитивов (вспомним пример со спамом, где нам накладнее пропустить одно важное письмо, чем получить несколько писем со спамом), мы применяем *точность*, а если нам более важно минимизировать риск пропустить хоть один позитивный результат (а здесь подойдет пример с больными, где нам опаснее получить ложноотрицательный ответ и отнести больного к здоровым), то следует использовать *полноту*.

Также следует отметить, что точность и полнота не зависят от соотношения размеров классов. Даже если объектов одного из классов на порядки больше, данные показатели будут корректно отражать качество работы алгоритма.