# CLASSIFICATIONS METRICS
В этой задаче мы рассмотрим основные метрики классификации, с которыми вы столкнетесь на практике и на собеседованиях.

Задача классификации
Задача классификации в машинном обучении заключается в прогнозировании категорий или классов отдельным наблюдениям на основе их характеристик. Отличительной чертой классификации является то, что целевая переменная является категориальной.

Другими словами, мы предсказываем значение категориальной целевой переменной на основе одной или нескольких независимых переменных.

Различают бинарную классификацию, когда целевая переменная может принимать только 2 значения (чаще всего их обозначают 0 и 1) или многоклассовая классификация, когда возможны несколько значений целевой переменной. В этой задаче мы будем говорить только о бинарной классификации.

1. True Positive (TP)

Случаи, когда модель правильно предсказывает положительный класс.

Пример: Модель предсказывает наличие болезни, и пациент действительно болен.

2. True Negative (TN)

Случаи, когда модель правильно предсказывает отрицательный класс.

Пример: Модель предсказывает отсутствие болезни, и пациент действительно здоров.

3. False Positive (FP)

Случаи, когда модель ошибочно предсказывает положительный класс.

Пример: Модель предсказывает наличие болезни, но пациент здоров. Также известно как "ложное срабатывание" или "Ошибка I рода"

4. False Negative (FN)

Случаи, когда модель ошибочно предсказывает отрицательный класс.

Пример: Модель предсказывает отсутствие болезни, но пациент болен. Также известно как "пропущенное срабатывание" или "Ошибка II рода".

Порог вероятности (threshold)

Модели классификации возвращают не бинарное значение (0 или 1), а вероятность, что объект относится к положительному классу (вещественное значение в диапазоне от 0 до 1). Чем сильнее модель уверена, что это отрицательный класс, тем ниже предсказанная вероятность. Чем больше уверена, что это положительный класс, тем выше вероятность. 

В процессе настройки модели подбирают порог вероятности, который разделяет объекты на положительные и отрицательные. Интуитивно кажется, что удобно использовать порог 0.5. Но дальше мы разберем, что в зависимости от решаемой задачи порог может быть выбран выше или ниже.

Матрица ошибок (Confusion Matrix)
Матрица ошибок — это таблица, используемая для описания производительности (качества) модели классификации на наборе тестовых данных, для которых известны истинные значения целевой переменной. Она позволяет легко визуализировать TP, TN, FP и FN.

# Precision, Recall, F1


Accuracy
Accuracy (точность) - это доля правильно классифицированных наблюдений от общего числа наблюдений. Это самая базовая метрика для оценки моделей классификации.

Accuracy интуитивно очень понятная метрика: "В 85% случаев наша модель правильно отличает собачек от кошечек на фотографиях".  Но пользоваться этой метрикой надо осторожно. Большой недостаток этой метрики, что она очень чувствительна к дисбалансу классов.

Precision
Precision (точность) отражает, какая доля объектов, отнесенных моделью к положительному классу, действительно относится к этому классу.

Recall (полнота) показывает, какая доля объектов положительного класса была правильно идентифицирована моделью.

Рассмотрим для примера модель, предсказывающую есть ли золото в породе. Высокий pecision  будет означать, что большинство пород, которые модель классифицировала как содержащие золото действительно содержат его.

Идеальная модель с точки зрения precision на столько "боится сделать ошибку", что ни одну из пород не классифицирует как содержащую золото. Потому что модель оценивают сколько действительно правильных ответов среди тех, которые она назвала как положительные.

Recall наоборот показывает сколько истинно-положительных объектов нашла модель. Количество ложно-положительных ответов не имеет значения. Идеальная модель с точки зрения recall все объекты отметит как положительные, чтобы не пропустить ни одного.

Поэтому модели классификации оценивают сразу по двум метрикам. Между precision и recall ищут tradeoff (компромисс). Улучшение одной метрики часто ведет к ухудшению другой. Если модель делает более строгие предсказания для классификации объекта как положительного, это может увеличить precision (меньше ложных срабатываний), но уменьшить recall (больше пропущенных положительных случаев). И наоборот.

На практике tradeoff подбирают в зависимости от задачи. Подбор порога вероятности - это и есть tradeoff (выбор компромисса) между pecision и recall. Двигая порог вероятности ближе к нулю, мы делаем нашу систему решение менее строгим: больше объектов буду классифицированы как положительные. Смещение порога в сторону единицы, наоборот делает наше решение более строим.

Если нам необходимо среди всех пользователей банковского приложения ловить только мошенников, tradeoff будет смещен в сторону precision. Потому что мы не хотим "ловить за руку" только тех пользователей, которые сильнее всех похожи на мошенников и не блокировать напрасно порядочных клиентов.
Если нам важнее наоборот пропустить как можно меньше положительных примеров, то tradeoff будет смещен в сторону recall. Например, если мы диагностируем рак, то лучше много раз ошибиться и поставить ложно-положительный диагноз здоровым пациентам, чем пропустить действительно больных людей.

F1-score (F1-мера) - это среднее гармоническое между Precision и Recall. Он используется, когда необходим баланс между Precision и Recall.  Появление этой метрики логичное желание найти какую-то одну метрику, которая будет учитывать сразу и precision и recall.

Формула устроена таким образом, что если любая из метрик будет иметь низкое значение, то и F1 будет иметь низкое значение. Максимальное значение F1 возможно при разумном балансе между pecision и recall.



Задание
Многие библиотеки уже содержат эти метрики. Но в этом задании вам необходимо будет реализовать функции для расчета этих метрик самостоятельно.

Напишите функции для расчета:

confusion matrix
accuracy
precision
recall
f1-score

In [1]:
import numpy as np
from typing import Tuple


def confusion_matrix(y_true: np.ndarray, y_pred: np.ndarray, threshold: float) -> Tuple[int, int, int, int]:
    """Calculate confusion matrix."""
    # YOUR CODE HERE
    y_pred_binary = (y_pred >= threshold).astype(int)
    TP = np.sum((y_true == 1) & (y_pred_binary == 1))
    TN = np.sum((y_true == 0) & (y_pred_binary == 0))
    #ошибочно предсказываем положительный класс
    FP = np.sum((y_true == 0) & (y_pred_binary == 1))# Ошибка I рода, ложное срабатывание
    #ошибочно предсказываем отрицательный класс
    FN = np.sum((y_true == 1) & (y_pred_binary == 0))## Ошибка II рода, пропущенное срабатывание

    return TP, TN, FP, FN


def accuracy(TP: int, TN: int, FP: int, FN: int) -> float:
    """Calculate accuracy."""
    return (TP+TN)/(TP+TN+FP+FN)


def precision(TP: int, FP: int) -> float:
    """Calculate precision."""
    return TP/(TP+FP)


def recall(TP: int, FN: int) -> float:
    """Calculate recall."""
    # YOUR CODE HERE
    return TP/(TP+FN)


def f1_score(precision: float, recall: float) -> float:
    """Calculate F1 score."""
    # YOUR CODE HERE
    return 2 * (precision * recall)/(precision + recall)


def test():
    """Test function."""
    y_true = np.array([1, 0, 1, 1, 0, 0, 1, 0, 0, 1])
    y_pred = np.array([0.9, 0.1, 0.8, 0.7, 0.2, 0.3, 0.6, 0.4, 0.5, 0.7])
    threshold = 0.5
    TP, TN, FP, FN = confusion_matrix(y_true, y_pred, threshold)

    assert TP == 5
    assert TN == 4
    assert FP == 1
    assert FN == 0

    
    assert np.allclose(accuracy(TP, TN, FP, FN), 0.9)

    pr = precision(TP, FP)
    re = recall(TP, FN)
    assert np.allclose(pr, 0.8333333333333334)
    assert np.allclose(re, 1)
    assert np.allclose(f1_score(0.8333333333333334, 1), 0.9090909090909091)
    print("All tests passed.")


if __name__ == "__main__":
    test()


All tests passed.


In [2]:
def confusion_matrix(
    y_true: np.ndarray, y_pred: np.ndarray, threshold: float
) -> Tuple[int, int, int, int]:
    """Calculate confusion matrix."""
    TP = TN = FP = FN = 0

    for yt, yp in zip(y_true, y_pred):
        if yt == 1 and yp >= threshold:
            TP += 1
        elif yt == 0 and yp < threshold:
            TN += 1
        elif yt == 0 and yp >= threshold:
            FP += 1
        elif yt == 1 and yp < threshold:
            FN += 1

    return TP, TN, FP, FN


# Specificity и Sensitivity

На прошлом шаге мы разобрали, что кроме обучения модели  классификации также необходимо подобрать порог вероятности, какие объекты относить к положительному классу. И делается это как поиск компромисса между precision и recall.

Для это строят PR-кривую (Precision-Recall  Curve). По этой кривой подбирают такое значение порога вероятности, при котором значение precision и recall будет оптимальным для решаемой задачи.

Но у PR-кривой есть недостаток, который затрудняет этот процесс. Это не монотонная функция. То есть она может иметь локальные максимумы. А это делает подбор компромиса между precision и recall труднее.

Поэтому вместо precision и recall удобно использовать другие метрики.

### Specificity (Специфичность)
Измеряет способность модели правильно идентифицировать отрицательные случаи. То есть мы фокусируемся не на положительных классах, а наоборот на отрицательных.

### Sensitivity (Чувствительность)
Отражает способность модели правильно идентифицировать положительные случаи. Это синоним уже известной нам метрики recall.

Здесь также строят кривую, которая называется Sensitivity-Specificity Curve. В отличие от PR-кривой, здесь мы имеем дело с монотонной функцией. А значит подбор порога выглядит удобнее.

Задание
Напишите функцию для расчета sensitivity. Функцию confusion_matrix возьмите из предыдущего шага.

In [4]:
 from typing import Tuple

import numpy as np


def confusion_matrix(
    y_true: np.ndarray, y_pred: np.ndarray, threshold: float
) -> Tuple[int, int, int, int]:
    """Calculate confusion matrix."""
    TP = TN = FP = FN = 0

    for yt, yp in zip(y_true, y_pred):
        if yt == 1 and yp >= threshold:
            TP += 1
        elif yt == 0 and yp < threshold:
            TN += 1
        elif yt == 0 and yp >= threshold:
            FP += 1
        elif yt == 1 and yp < threshold:
            FN += 1

    return TP, TN, FP, FN

def specificity(TN: int, FP: int) -> float:
    """Calculate specificity."""
    return TN/(TN+FP)

def sensitivity(TP: int, FN: int) -> float:
    """Calculate sensitivity."""
    return TP/(TP+FN)

def test():
    """Test function."""
    y_true = np.array([1, 0, 1, 1, 0, 0, 1, 0, 0, 1])
    y_pred = np.array([0.9, 0.1, 0.8, 0.7, 0.2, 0.3, 0.6, 0.4, 0.5, 0.7])
    threshold = 0.5
    TP, TN, FP, FN = confusion_matrix(y_true, y_pred, threshold)

    assert TP == 5
    assert TN == 4
    assert FP == 1
    assert FN == 0

    assert np.allclose(specificity(TN, FP), 0.8)
    print(sensitivity(TP, FN))
    print("All tests passed.")


if __name__ == "__main__":
    test()

1.0
All tests passed.


# ROC AUC
Наконец рассмотрим одну из более популярных метрик для оценки качества моделей классификации.

ROC-AUC (Receiver Operating Characteristic - Area Under the Curve) является важной метрикой, используемой для оценки качества моделей классификации. Для понимания этой метрики важно разобраться в нескольких ключевых аспектах.

Важно разделять два понятия, которые часто путают начинающие специалисты:

ROC-кривая - графическое представление качества модели
ROC-AUC — площадь под ROC-кривой, численная метрика


ROC-кривая
Это графическое представление способности модели классификации различать два класса.

Как строится?

Ось X кривой представляет ложно-положительную долю (False Positive Rate, FPR), а ось Y — истинно-положительную долю (True Positive Rate, TPR). Каждая точка на кривой соответствует определенному порогу вероятности, при котором рассчитываются значения TPR и FPR.



Интерпретация ROC-кривой:

Высокий TPR при низком FPR указывает на высокое качество классификации.
Кривая, близкая к левому верхнему углу, свидетельствует о лучшей классификационной способности модели.
Диагональная линия соответствует случайному угадыванию.
Если кривая лежит ниже диагональной линии, скорее всего перепутаны метки положительного и отрицательного классов

ROC-AUC
Это площадь под ROC-кривой, численная мера, позволяющая оценить качество классификации.

Как считается?

AUC рассчитывается как отношение площади под ROC-кривой к общей площади графика. Она варьируется от 0 до 1, где 1 указывает на идеальную классификацию, а 0.5 — на отсутствие классификационной способности.

В общем случае нет простой формулы расчета ROC AUC, аналогичной тем, которые используются для TPR или FPR, поскольку AUC представляет собой площадь под ROC-кривой. Эта площадь обычно вычисляется численно.

Мы не будем писать эту метрику "вручную", и сразу воспользуемся готовыми функциями в Scikit-learn.

Интерпретация:

Большее значение ROC AUC указывает на лучшую способность модели различать классы.
ROC AUC удобна для сравнения различных моделей, так как предоставляет единую численную оценку.


Преимущества ROC-кривой и ROC-AUC
Универсальность: ROC AUC хорошо работает даже при дисбалансе классов.
Наглядность: ROC-кривая позволяет визуализировать качество классификации на различных порогах одной кривой.
Сравнительный анализ: Позволяет сравнивать разные модели по одной метрике, упрощая выбор наилучшей.
Вы часто будете в своей практике сталкиваться с ROC-кривой и ROC AUC.

Теперь давайте немного попрактикуемся!

# Задание
В этом задании вам предстоит обучить модель классификации и посчитать метрику ROC AUC

Воспользуйтесь функцией roc_auc_score из библиотеки Scikit-learn.

В качестве алгоритма рекомендуем выбрать логистическую регрессию из библиотеки Scikit-learn. Но это не обязательно, можно выбрать и любой другой алгоритм классификации.

In [5]:
from typing import Dict, Tuple

import numpy as np
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split


def prepare_data():
    X, y = make_classification(
        n_samples=1000, n_features=15, n_informative=10, random_state=42
    )
    return X, y


def solution(data: Tuple[np.ndarray, np.ndarray]) -> Dict[str, np.ndarray]:
    """
    Function to train a logistic regression model and calculate metrics.

    Parameters:
        data (tuple): Tuple with X and y.

    Returns:
        dict: Dictionary with metrics.

    Examples:
        >>> solution()
        {
            'y_pred': array([0, 1, 1, 0]),
            'y_test': array([0, 1, 1, 0]),
            'roc_auc': 0.99
        }
    """

    X, y = data
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=42
    )

    
    # YOUR CODE HERE
    model = LogisticRegression()
    model.fit(X_train, y_train)

    y_pred = model.predict(X_test)
    roc_auc = roc_auc_score(y_test, y_pred)

    return {
        "y_pred": y_pred,
        "y_test": y_test,
        "roc_auc": roc_auc,
    }


if __name__ == "__main__":
    data = prepare_data()
    result = solution(data)
    print(result["roc_auc"])


0.8653381642512078
