## Функциналы качества в бинарной классификации

### 1.  Accuracy

Доля объектов, на которых алгоритм выдал правильные ответы.

$$
    Accuracy = \dfrac{1}{m}\sum\limits_{i = 1}^{m}I[a_i = y_i]
$$

Явный недостаток: невалидна в случае дисбаланса классов, потому что с точки зрения точности выгодно почти всегда
выдавать метку самого популярного класса.


$$
    Accuracy = \dfrac{TP + TN}{TP + FP + TN + FN}
$$

### 2. Виды ошибок классификатора

   * ошибка первого рода (Type 1 Error) --- объект ошибочно относится к положительному классу;
   * ошибка второго рода (Type 2 Error) --- объект ошибочно относится к отрицательному классу.


### 3. Recall (TPR, Sensitivity, Hit Rate)

Показывает, какой процент объектов нами правильно классифицирован.

$$
    Recall = \dfrac{TP}{TP + FN}
$$

### 4. Precision (Positive Predictive Value)

Показывает, какой процент положительных объектов правильно классифицирован.

$$
    Precision = \dfrac{TP}{TP + FP}
$$


Точность и полнота --- "ортогональные" критерии качества. Легко построить алгоритм со 100%-й полнотой: он все объекты относит к классу 1, но при этом точность может быть очень низкой. Нетрудно построить алгоритм с близкой к 100% точностью: он относит к классу 1 только те объекты, в которых уверен, при этом полнота может быть низкая.


### 5. $F_1$-мера

Это просто среднее гармоническое Precision и Recall. Его максимизация приводит к максимизации и Precision, и Recall.

$$
    F_1 = \dfrac{2}{\dfrac{1}{Recall} + \dfrac{1}{Precision}} = \dfrac{2TP}{2TP + FP + FN}
$$

### 6. $F_\beta$-мера

$$
    F_\beta = \dfrac{1}{\dfrac{\alpha}{Precision} + \dfrac{1 - \alpha}{Recall}} = \dfrac{1}{\alpha}\dfrac{Precision \cdot Recall}{Recall + \left(\dfrac{1}{\alpha} - 1\right) \cdot Precision}
$$,
$$
    \beta^{2} = \dfrac{1}{\alpha} - 1 \Rightarrow F_\beta = (1 + \beta^{2})\dfrac{Precision \cdot Recall}{Recall + \beta^{2} \cdot Precision}
$$

При использовании $F_\beta$-меры линии уровня «перекашиваются», один из критериев (точность или полнота) становится важнее при
оптимизации.

### 7. Specificity (True Negative Rate)

Показывает процент правильно классифицированных объектов негативного класса.

$$
    Specificity = TNR = \dfrac{TN}{TN + FP}
$$

### 8. False Positive Rate (fall-out, false alarm rate)

Показывает долю объектов негативного класса, которые мы ошибочно отнесли к положительному.

$$
    FPR = \dfrac{FP}{FP + TN}
$$

### 9. Коэффициент Мэтьюса (MCC)

Применяется на несбалансированных выборках. Лежит в отрезке [-1, 1].

$$
    MCC = \dfrac{TP \cdot TN - FP \cdot FN}{\sqrt{(TP + FP)(TP + FN)(TN + FN)(TN + FP)}}
$$

Давайте разберёмся, что означает эта «сложная формула». Рассмотрим среднее геометрическое точности и полноты:

$$
    \sqrt{Precision \cdot Recall} = \dfrac{TP}{\sqrt{(TP + FP)(TP + FN)}}
$$

Теперь возьмём среднее геометрическое точности и полноты класса 0 (т.е. считая это класс положительным), перемножив эти
средние геометрические, получим:

$$
    \sqrt{Precision \cdot Recall \cdot Precision_0 \cdot Recall_0} = \dfrac{TP \cdot TN}{\sqrt{(TP + FP)(TP + FN)(TN + FN)(TN + FP)}}
$$

### 10. Каппа Коэна (Cohen's Kappa)

Его идея довольно простая: поскольку использование точности (Accuracy) вызывает сомнение в задачах с сильном дисбалансом классов, надо её значения немного перенормировать. Делается это с помощью статистики chance adjusted index: мы точность нашего решения (Accuracy) пронормируем с помощью точности, которую можно было получить случайно (Accuracychance). Под случайной здесь понимаем точность решения, которое получено из нашего случайной перестановкой ответов.

### 11. Сбалансированная точность (Balanced Accuracy)

$$
    BA = \dfrac{Recall + Recall_0}{2} = \dfrac{1}{2}\left(\dfrac{TP}{TP + TN} + \dfrac{TN}{TN + FP}\right)
$$

Если в бинарной задаче классификации представителей двух классов примерно поровну, то TP + FN ≈ TN + FP ≈ m/2 и сбалансированная точность примерно равна точности обычной (Accuracy).
