# Тетрадь 3: Оценка точности моделей классификации

В настоящей тетради мы обсудим, как оценивать точность (или предсказательную способность) модели
классификации. Также научимся самостоятельно определять функции для этих целей и пользоваться ими.

# Содержание

- [Теория](#Теория)
- [Примеры](#Примеры)
- [Задания](#Задания)

***

## Теория

### Метрики

В контексте машинного обучения (ML) и искусственного интеллекта (AI) **метрики** - это
количественные показатели, используемые для оценки производительности, результативности и качества
моделей. Эти показатели помогут нам понять, насколько хорошо модель справляется с поставленной
задачей. В зависимости от типа решаемой задачи используются различные показатели (например,
классификация, регрессия, кластеризация).

### Показатели классификации
Классификация - это распространенная задача в ML, целью которой является прогнозирование категориальной метки для заданных входных данных. Общие показатели для оценки моделей классификации включают:

#### Точность (Accuracy)
Точность суть доля правильно предсказанных экземпляров из общего числа экземпляров. Она
определяется как:

$$ \textrm{Acc}(Y_n, Y_N) = \frac{Y_n}{Y_N}, $$
где:
* $Y_n$ — количество правильных предсказаний;
* $Y_N$ — общее количство предсказаний.

Точность очевидна, но может вводить в заблуждение, особенно в несбалансированных наборах данных,
где доминирует один класс.

#### Матрица ошибок (Confusion Matrix)
Матрица ошибок — это таблица, которая суммирует эффективность классификационной модели, показывая
количество истинно положительных (TP), истинно отрицательных (TN)
ложноположительных (FP) и ложноотрицательных (FN) прогнозов. Из этой матрицы
могут быть получены другие показатели. В качестве примера рассмотрим две иллюстрации матрицы ошибок:
элементарную и сложную (в которой классов больше двух). Вот элементарная матрица ошибок, где всего
два класса (1 и 0):

<div style="text-align: center">
    <img src="../images/confusion_matrix_simple.png" alt="Train Test Valid Split" width=512 height=256>
</div>

В таблице слева, мы видим, что:
* TP (True Positive) — Значение класса суть 0 и предсказание модели есть 0; 
* TN (True Negative) — Значение класса есть 1 и предсказание модели суть 1;
* FP (False Positive) — Значение класса суть 1, а предсказание модели есть 0;
* FN (False Negative) — Значение класса есть 0, а предсказание модели суть 1.

Таким образом, cправа уже матрица, в которой 3 TP, 5 TN, 1 FP и 2 FN.

#### Прецизионность (Precision)
Прецизионность есть доля истинно положительных прогнозов из всех положительных прогнозов (как
истинных, так и ложноположительных). Определяется как:
$$ \textrm{Prec} = \frac{\textrm{TP}}{\textrm{TP} + \textrm{FP}} $$
Прецизионность полезна, когда высока вероятность ложных срабатываний.

#### Отзывчивость (Recall)
Отзывчивость (чувствительность или Истинно положительный показатель) — это доля истинно
положительных прогнозов из всех реальных положительных примеров. Определяется как:
$$ \textrm{Rec} = \frac{\textrm{TP}}{\textrm{TP} + \textrm{FN}} $$
Отзывчивость важна, когда стоимость ложноотрицательных результатов высока.

#### Специфичность (Specificity)
Показатель специфичности особенно полезен, когда высока вероятность ложных срабатываний (ошибочной
классификации отрицательного экземпляра как положительного). Формула для спцифичности выглядит так:
$$ \textrm{Spec} = \frac{\textrm{TN}}{\textrm{TN} + \textrm{FP}} $$
Специфичность является важнейшим показателем в сценариях, где класс отрицательных результатов имеет
особое значение, и минимизация ложных срабатываний имеет решающее значение.

#### Показатель F1 (F1 Score)
Показатель F1 суть среднее гармоническое значение прецизионности и отзывчивости. Он определяется
как:
$$
\textrm{F}_1 = 2 \times \frac{\textrm{Prec} \times \textrm{Rec}}{\textrm{Prec} + \textrm{Rec}}
$$
Оценка F1 будет полезна, если мы захотим сбалансировать прецизионность и отзывчивость.

#### Кривая ROC
Кривая ROC (кривая рабочих характеристик приемника) есть график, иллюстрирующий диагностические
возможности системы бинарного классификатора при изменении ее порога распознавания. Кривая строится
путем сопоставления истинно положительной частоты (TPR) и ложноположительной частоты (FPR) при
различных пороговых значениях.

```shell
TODO: ROC graph illustration
```

#### AUC
Площадь под кривой ROC (тут уже ничего пояснять не нужно). Более высокий показатель AUC указывает
на налучшую производительность модели, при изменении каждой из пороговых настроек.

#### Перекрестная проверка (Cross Validation) 
Перекрёстный метод оценки того, насколько модель обобщается для независимого набора данных. Он
включает в себя разбиение данных на несколько групп и обучение/тестирование модели на разных
подмножествах.

#### Кривые обучения (Learning Curves)
Графики, показывающие производительность модели (например, точность, потери) в зависимости от
размера обучающей выборки. Они помогают диагностировать чрезмерную или недостаточную адаптацию. Этот
показатель также является одним из наиболее наглядных, так как позволяет быстро оценить качество
модели за счёт широкого ассортимента средств визуализации.

#### Сложность модели (Model Complexity)
Такие показатели, как количество параметров, вычислительная сложность и размер модели, могут
использоваться для оценки эффективности и масштабируемости модели.

Рассмотрим теперь на примерах применения некоторых из вышеописанных метрик.

***

## Примеры

### Точность (Accuracy)

Метод оценки точности модели довольно тривиален. Нам лишь нужно поделить количество правильных
предсказаний на общее количество предсказаний. Сделать это можно следующим образом.

In [7]:
import numpy as np
from numpy import ndarray


def compute_accuracy(actual: ndarray, predicted: ndarray) -> float:
    accuracy = np.sum(predicted == actual) / len(actual)
    return accuracy

Чтобы нам было, что оценивать, сгенерируем два массива. Один из них будет «действительным», а
второй — «предсказанным». А затем применим нашу функцию вычисления точности. 

In [8]:
import random


y_actual, y_pred = (
    np.array([random.randint(0, 1) for _ in range(10)]),
    np.array([random.randint(0, 1) for _ in range(10)]),
)
accuracy = compute_accuracy(y_actual, y_pred)

print(accuracy)

0.5


Это было довольно просто. Рассмотрим теперь чуть более сложный пример.

In [9]:
from itertools import chain
from typing import Any, Dict, Optional, Tuple


IndicesMap = Dict[Any, int]
ConfusionMatrix = Tuple[ndarray, IndicesMap]


def compute_confusion_matrix(
    actual: ndarray,
    predicted: ndarray,
    indices_map: Optional[IndicesMap] = None,
) -> ConfusionMatrix:

    # We need to map all the outcomes to integers to place them as rows and
    # columns in the confusion matrix
    def _map_to_integers(array, intmap):
        for i, _ in enumerate(array):
            array[i] = intmap[array[i]]
        return array

    # Then the arrays of actual and predicted values must be converted into
    # lists, so that we can treat those values as a common Python data structure
    actual_list, predicted_list = (
        list(chain.from_iterable(actual.tolist())),
        list(chain.from_iterable(predicted.tolist())),
    )
    concatenated = actual_list + predicted_list
    n_features = len(set(concatenated))
    if indices_map is None:
        # If there is no indicies map provided, we create a default one
        indices_map = {
            key: val for key, val in zip(set(concatenated), range(n_features))
        }

    confusion_matrix = np.zeros((n_features, n_features))
    mapped_actual, mapped_predicted = (
        _map_to_integers(actual_list, indices_map),
        _map_to_integers(predicted_list, indices_map),
    )
    # Finally, the ocurrances of each value get summed up in the corresponding
    # matrix cells
    for a, p in zip(mapped_actual, mapped_predicted):
        confusion_matrix[a, p] += 1
    confusion_matrix_with_map: ConfusionMatrix = confusion_matrix, indices_map

    return confusion_matrix_with_map


y_actual, y_pred = (
    np.array([random.randint(0, 2) for _ in range(10)]).reshape((-1, 1)),
    np.array([random.randint(0, 2) for _ in range(10)]).reshape((-1, 1)),
)
confusion_matrix, _ = compute_confusion_matrix(y_actual, y_pred)

print(confusion_matrix)

[[0. 1. 1.]
 [0. 2. 1.]
 [3. 1. 1.]]


Теперь, когда мы имеем некоторое представление о метриках для моделей классификации и реализующих
их функциях, приступим к выполнению задания.

***

## Задание

Рассмотрев примеры выше, можно понять принцип постоения данных функций оценивания. Таким образом,
в качестве задания теперь дополните следующую функцию для вычисления чувствительности и
специфичности.

In [10]:
def compute_sensitivities_and_specificities(
    actual: ndarray, predicted: ndarray, as_array: bool = True
) -> Any:
    # Obtain the confusion matrix and the indicies map to compute true
    # positives, true negatives, false positives and false negatives
    confusion_matrix, indices_map = compute_confusion_matrix(actual, predicted)
    n_features = len(indices_map)

    sensitivities, specificities = (list(), list())
    for i in range(n_features):
        # Compute sensetivities
        true_positives = ...
        false_negatives = ...
        sensitivity = true_positives / (true_positives + false_negatives)
        sensitivities.append(sensitivity)

        # Compute specificities
        upper_left = ...
        upper_right = ...
        lower_left = ...
        lower_right = ...
        true_negatives = np.sum(
            (upper_left, upper_right, lower_left, lower_right)
        )
        false_positives = np.sum(confusion_matrix[i])
        specificity = true_negatives / (true_negatives + false_positives)
        specificities.append(specificity)

    # In case we do not want to recieve the resulting data as a NumPy array,
    # the data must be serialized as a Python data structure
    if not as_array:
        features_names = list(indices_map.keys())
        keys = ["sensitivities", "specificities"]
        metrics = sensitivities, specificities
        sensitivities_and_specificities = dict.fromkeys(keys)
        for outer_key, metric in zip(keys, metrics):
            sensitivities_and_specificities[outer_key] = {
                key: val for key, val in zip(features_names, metric)
            }
        return sensitivities_and_specificities

    # Otherwise, we return NumPy arrays as is
    sensitivities_and_specificities = np.array([sensitivities, specificities])
    return sensitivities_and_specificities

После того как восполните пропуски в дефиниции функции выше, запустите следующую ячейку, чтобы
проверить правильность решения задачи.

In [11]:
y_actual, y_pred = (
    np.array([random.randint(0, 2) for _ in range(10)]).reshape((-1, 1)),
    np.array([random.randint(0, 2) for _ in range(10)]).reshape((-1, 1)),
)
sensitivities_and_specificities = compute_sensitivities_and_specificities(
    y_actual, y_pred
)

print(sensitivities_and_specificities)

TypeError: unsupported operand type(s) for +: 'ellipsis' and 'ellipsis'

Так же можете попробовать реализовать другие функции для вычисления метрик, упомянутых в
[теории](#Теория).

***

## Выводы

Показатели являются важными инструментами в области ОД и искусственного интеллекта для оценки эффективности моделей, руководства при выборе моделей и обеспечения того, чтобы модели хорошо обобщались на новые данные. Выбор показателя зависит от конкретной проблемы, характера данных и желаемых результатов. Понимание этих показателей позволяет практикам принимать обоснованные решения и повышать эффективность своих моделей.