<a href="https://colab.research.google.com/github/gurovic/MLCourse/blob/main/130_metrics.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<a href="https://kaggle.com/kernels/welcome?src=https://github.com/gurovic/MLCourse/blob/main/010_read.ipynb" target="_parent"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" alt="Open In Kaggle"></a>

# Основные метрики в машинном обучении

[**Отличие метрики от функции потерь**](https://github.com/gurovic/MLCourse/blob/main/130_1_metrics_vs_loss_function.md)


## Введение: Значение метрик в ML

Метрики — это количественные показатели, позволяющие объективно оценить качество моделей машинного обучения (ML). Они выполняют несколько ключевых функций:
1. **Диагностика моделей** — выявление слабых мест и направлений для улучшения
2. **Сравнение алгоритмов** — объективный выбор между разными подходами
3. **Коммуникация результатов** — понятное представление эффективности модели для заинтересованных сторон
4. **Мониторинг в продакшене** — обнаружение изменений в данных и деградации модели

> "Метрики должны быть тесно связаны с бизнес-целями. Хорошая метрика — это не просто число, а инструмент для принятия решений."

## 🟢 Базовый уровень: Основные метрики для стандартных задач

### 1. Классификация: Основные показатели

**Матрица ошибок (Confusion Matrix)** — фундаментальный инструмент, показывающий распределение верных и ошибочных предсказаний:
- **True Positive (TP)** — корректно идентифицированные положительные случаи
- **False Positive (FP)** — ложные срабатывания (ошибка I рода)
- **True Negative (TN)** — корректно идентифицированные отрицательные случаи
- **False Negative (FN)** — пропущенные положительные случаи (ошибка II рода)

In [None]:
from sklearn.metrics import confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

y_true = [1, 0, 1, 1, 0, 1, 0, 0, 1, 0]  # Реальные классы (1 - положительный, 0 - отрицательный)
y_pred = [1, 0, 1, 1, 1, 1, 1, 0, 1, 0]  # Предсказания модели
cm = confusion_matrix(y_true, y_pred)  # Подставьте свои данные

sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=['Predicted Negative', 'Predicted Positive'],
            yticklabels=['Actual Negative', 'Actual Positive'])
plt.title('Confusion Matrix')
plt.show()

**Ключевые метрики:**
1. **Accuracy (Точность):** Общая доля правильных предсказаний.
   * Формула: Accuracy = (TP + TN) / (TP + TN + FP + FN)
   * *Применение:* Когда классы сбалансированы и все ошибки одинаково важны.
2. **Precision (Точность положительных предсказаний):** Доля действительно положительных среди всех предсказанных положительных.
   * Формула: Precision = TP / (TP + FP)
   * *Критична:* В спам-фильтрах, медицинской диагностике.
3. **Recall (Полнота):** Доля найденных положительных случаев среди всех реальных положительных.
   * Формула: Recall = TP / (TP + FN)
   * *Критичен:* При поиске заболеваний, мошенничества.
4. **F1-Score (F-мера):** Гармоническое среднее между Precision и Recall.
   * Формула: F1 = 2 * (Precision * Recall) / (Precision + Recall)
   * *Идеально:* Когда нужно балансировать между ложными положительными и ложными отрицательными.

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix


# Пример реальных и предсказанных меток
y_true = [1, 0, 1, 1, 0, 1, 0, 0, 1, 0]  # Реальные классы (1 - положительный, 0 - отрицательный)
y_pred = [1, 0, 1, 1, 1, 1, 1, 0, 1, 0]  # Предсказания модели

# Вычисление метрик
accuracy = accuracy_score(y_true, y_pred)
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred)

# Вывод значений метрик
print(f"Accuracy:  {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall:    {recall:.4f}")
print(f"F1 Score:  {f1:.4f}")

### 2. Регрессия: Основные метрики
1. **MAE (Mean Absolute Error - Средняя абсолютная ошибка):** Средняя абсолютная ошибка. Проста для интерпретации.
   Формула: MAE = (1/n) * Σ|y_true - y_pred|
2. **MSE (Mean Squared Error - Среднеквадратичная ошибка):** Среднеквадратичная ошибка. Штрафует за большие отклонения.
   Формула: MSE = (1/n) * Σ(y_true - y_pred)^2
3. **R² (Коэффициент детерминации):** Доля дисперсии, объясненная моделью.
   Формула: R² = 1 - [Σ(y_true - y_pred)^2 / Σ(y_true - mean(y_true))^2]

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Пример значений
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]

print(f"MAE: {mean_absolute_error(y_true, y_pred):.2f}")
print(f"MSE: {mean_squared_error(y_true, y_pred):.2f}")
print(f"R²: {r2_score(y_true, y_pred):.2f}")

## 🟡 Продвинутый уровень: Специализированные метрики

### 1. Метрики для несбалансированных данных

**ROC-AUC (Receiver Operating Characteristic - Area Under Curve):**
- Оценивает качество разделения классов при всех возможных порогах
- AUC = 0.5 (случайное угадывание), AUC = 1.0 (идеальное разделение)
- Устойчив к дисбалансу классов

In [None]:
from sklearn.metrics import roc_auc_score, roc_curve

# Пример данных
y_true = [0, 0, 1, 1]
y_proba = [0.1, 0.5, 0.35, 0.8]

FPR, TPR, thresholds = roc_curve(y_true, y_proba)
auc = roc_auc_score(y_true, y_proba)
plt.plot(FPR, TPR, label=f'ROC Curve (AUC = {auc:.2f})')
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('False Positive Rate (FPR)')
plt.ylabel('True Positive Rate (TPR)')
plt.legend()
plt.show()

### 2. Метрики для мультиклассовой классификации
1. **Macro-F1 (Макро F-мера):** Среднее F1 по всем классам (равный вес)
2. **Micro-F1 (Микро F-мера):** Глобальный F1 по всем предсказаниям
3. **Weighted-F1 (Взвешенная F-мера):** Среднее F1, взвешенное по поддержке классов

In [None]:
from sklearn.metrics import f1_score

y_true = [0, 1, 0, 2, 2, 2]
y_pred = [1, 1, 2, 2, 2, 2]

print(f"Macro-F1: {f1_score(y_true, y_pred, average='macro'):.2f}")
print(f"Micro-F1: {f1_score(y_true, y_pred, average='micro'):.2f}")
print(f"Weighted-F1: {f1_score(y_true, y_pred, average='weighted'):.2f}")

## 🔴 Экспертный уровень: Специальные случаи

### 1. Метрики для компьютерного зрения

**IoU (Intersection over Union - Пересечение по объединению):** Основная метрика для задач сегментации

**mAP (mean Average Precision - Средняя точность):** Стандарт для задач детекции объектов

In [None]:
import numpy as np

def calculate_iou(mask_true, mask_pred):
    intersection = np.logical_and(mask_true, mask_pred).sum()
    union = np.logical_or(mask_true, mask_pred).sum()
    return intersection / union

### 2. Метрики для NLP (Natural Language Processing)
- **BLEU (Bilingual Evaluation Understudy):** Для оценки машинного перевода
- **Perplexity (Перплексия):** Для языковых моделей
- **BERTScore:** Семантическое сходство с использованием BERT-эмбеддингов

### 3. Кастомные бизнес-метрики
Пример для кредитного скоринга:

In [None]:
from sklearn.metrics import confusion_matrix

def profit_metric(y_true, y_pred, profit_matrix):
    """
    profit_matrix: словарь с экономикой ошибок
    Например: {'TP': 100, 'FP': -50, 'TN': 0, 'FN': -200}
    """
    cm = confusion_matrix(y_true, y_pred)
    profit = (profit_matrix['TP'] * cm[1,1] +
              profit_matrix['FP'] * cm[0,1] +
              profit_matrix['TN'] * cm[0,0] +
              profit_matrix['FN'] * cm[1,0])
    return profit / len(y_true)

## 📊 Практическое руководство по выбору метрик

| **Тип задачи** | **Рекомендуемые метрики** |
|----------------|---------------------------|
| Бинарная классификация | Accuracy, Precision, Recall, F1 |
| Регрессия | MAE, MSE, R² |
| Несбалансированные данные | ROC-AUC, PR-AUC, F1 |
| Мультикласс | Macro-F1, Micro-F1 |
| Ранжирование | NDCG, MAP |
| Компьютерное зрение | IoU, mAP |
| NLP | BLEU, Perplexity |

## 💡 Экспертные рекомендации

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

metrics = {
    'Accuracy': accuracy_score,
    'Precision': lambda y_t, y_p: precision_score(y_t, y_p, average='macro'),
    'Recall': lambda y_t, y_p: recall_score(y_t, y_p, average='macro'),
    'F1': lambda y_t, y_p: f1_score(y_t, y_p, average='macro'),
}
for name, metric in metrics.items():
    print(f"{name}: {metric(y_true, y_pred):.3f}")

## 📌 Заключение: Искусство выбора метрик
1. **Контекст важнее чисел** — метрика должна отражать бизнес-цели
2. **Комплексный подход** — используйте несколько взаимодополняющих метрик
3. **Глубокая диагностика** — анализируйте ошибки, а не только итоговые значения
4. **Динамический мониторинг** — отслеживайте метрики во времени

> "Лучшая метрика — это не та, которая делает вашу модель хорошей на бумаге, а та, которая помогает принимать правильные решения в реальном мире"