# 📊 Урок 18: Оценка качества модели — accuracy, loss, confusion matrix
**Цель урока:** Научиться измерять и интерпретировать качество моделей машинного обучения с помощью метрик `accuracy`, `loss`, матрицы ошибок (`confusion matrix`), а также понимать их ограничения. Подходит для новичков.

## 📌 Зачем нужна оценка качества?
- **Оценка качества** — это способ понять, насколько хорошо модель решает задачу.
- **Метрики** помогают сравнивать модели, выбирать лучшие параметры, обнаруживать переобучение и ошибки.
- **Пример:** Если модель предсказывает болезнь, важно не только общую точность, но и количество пропущенных случаев (recall) [[4]].

💡 **Аналогия:** Метрики — как оценка в школе: одна оценка может скрыть реальные проблемы, но комбинация метрик показывает полную картину.

## 📉 Функция потерь (Loss)
- **Что это?** Числовая мера ошибки модели на отдельном примере или наборе данных.
- **Зачем нужна?** Используется для оптимизации весов модели (градиентный спуск).
- **Примеры функций потерь:**
  - **MSE (среднеквадратичная ошибка):** Для регрессии.
    ```python
    loss = (predicted - true)^2
    ```
  - **Cross-Entropy:** Для классификации.
    ```python
    loss = -Σ true * log(predicted)
    ```

### Почему loss важен?
- **Оптимизация:** Градиентный спуск минимизирует loss.
- **Диагностика обучения:** Рост loss может указывать на переобучение.
- **Сравнение моделей:** Низкий loss — признак хорошей модели.

⚠️ **Предупреждение:** Loss сам по себе не всегда отражает практическую полезность модели (например, в балансе precision и recall) [[2]].

## 📏 Accuracy (точность)
- **Формула:**
  ```python
  accuracy = (TP + TN) / (TP + TN + FP + FN)
  ```
- **TP (True Positive):** Модель правильно предсказала положительный класс.
- **TN (True Negative):** Модель правильно предсказала отрицательный класс.
- **FP (False Positive):** Ложное срабатывание (модель ошиблась).
- **FN (False Negative):** Пропущенный случай (модель не заметила).

### Когда accuracy не подходит?
- **Несбалансированные классы:** Если 99% данных — класс A, модель, которая всегда предсказывает A, будет иметь accuracy 99%, но быть бесполезной.
- **Редкие события:** Например, обнаружение мошенничества.
- **Важные ошибки:** В медицинской диагностике FN (пропущенная болезнь) критичнее, чем FP (ложное предупреждение) [[5]].

💡 **Совет:** Используйте accuracy только для сбалансированных задач (например, MNIST).

## 🧮 Confusion Matrix (матрица ошибок)
- **Что это?** Таблица, показывающая, сколько объектов какого класса предсказано как.
- **Когда использовать?** Для анализа ошибок модели, особенно в многоклассовых задачах.
- **Как читать?**
  - **По диагонали:** Правильные предсказания.
  - **Вне диагонали:** Ошибки модели.

### Пример матрицы для задачи бинарной классификации:
```
                Предсказанный класс
               | Положительный | Отрицательный
--------------|----------------|----------------
Положительный | TP             | FN
Отрицательный | FP             | TN
```

In [None]:
from sklearn.metrics import confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# Пример: матрица ошибок для MNIST
y_pred = log_reg.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d')
plt.title('Confusion Matrix')
plt.xlabel('Предсказанный класс')
plt.ylabel('Реальный класс')
plt.show()

## 📈 Precision, Recall, F1-score
- **Precision (точность):** Сколько правильных положительных предсказаний среди всех положительных.
  ```python
  precision = TP / (TP + FP)
  ```
- **Recall (полнота):** Сколько правильных положительных предсказаний среди всех реальных положительных.
  ```python
  recall = TP / (TP + FN)
  ```
- **F1-score:** Гармоническое среднее между precision и recall (лучше, чем простое усреднение).
  ```python
  F1 = 2 * (precision * recall) / (precision + recall)
  ```

### Примеры применения:
- **Spam-фильтр:** Высокий precision важнее (не отправлять нормальные письма в спам).
- **Медицинская диагностика:** Высокий recall критичен (не пропустить болезнь).
- **F1-score:** Когда нужно балансировать precision и recall [[8]].

In [None]:
from sklearn.metrics import classification_report

# Отчет по метрикам
report = classification_report(y_test, y_pred)
print(report)

## 📉 Графики обучения: loss и accuracy
- **Зачем?** Чтобы отслеживать, как модель обучается на каждом этапе (эпохе).
- **Как читать?**
  - **Underfitting:** High loss, low accuracy на обучающей и тестовой выборке.
  - **Overfitting:** Low loss, high accuracy на обучающей, но high loss, low accuracy на тестовой.

### Пример: визуализация обучения
```python
import matplotlib.pyplot as plt

# Пример: loss по эпохам
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.legend()
plt.title('Loss по эпохам')
plt.show()
```

## 📊 Использование `sklearn.metrics`
- **classification_report:** Выводит precision, recall, f1-score для каждого класса.
- **confusion_matrix:** Матрица ошибок.
- **precision_score, recall_score:** Расчет отдельных метрик.
- **f1_score:** Расчет F1-метрики.
- **Пример:**
  ```python
  from sklearn.metrics import precision_score, recall_score, f1_score
  print(f'Precision: {precision_score(y_test, y_pred, average="macro"):.2f}')
  print(f'Recall: {recall_score(y_test, y_pred, average="macro"):.2f}')
  print(f'F1-score: {f1_score(y_test, y_pred, average="macro"):.2f}')
  ```

## 🧪 Практика: Анализ CIFAR-10
### Шаг 1: Загрузка CIFAR-10

In [None]:
from keras.datasets import cifar10
import numpy as np

# Загрузка данных
(X_train, y_train), (X_test, y_test) = cifar10.load_data()
X_train = X_train.reshape((50000, 32*32*3)) / 255.0
X_test = X_test.reshape((10000, 32*32*3)) / 255.0
y_train = np.argmax(y_train, axis=1)
y_test = np.argmax(y_test, axis=1)

### Шаг 2: Обучение модели и визуализация

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, classification_report
import seaborn as sns
import matplotlib.pyplot as plt

# Обучение
model = LogisticRegression(max_iter=1000)
model.fit(X_train[:5000], y_train[:5000])
y_pred = model.predict(X_test[:1000])

# Матрица ошибок
cm = confusion_matrix(y_test[:1000], y_pred)
sns.heatmap(cm, annot=True, fmt='d')
plt.title('Confusion Matrix для CIFAR-10')
plt.show()

### Шаг 3: Расчет метрик

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score

print(f'Precision: {precision_score(y_test[:1000], y_pred, average="macro"):.2f}')
print(f'Recall: {recall_score(y_test[:1000], y_pred, average="macro"):.2f}')
print(f'F1-score: {f1_score(y_test[:1000], y_pred, average="macro"):.2f}')

# Отчет по метрикам
print(classification_report(y_test[:1000], y_pred))

### Шаг 4: Графики обучения
```python
# Пример: loss и accuracy по эпохам
history = model.fit(X_train[:5000], y_train[:5000])
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.legend()
plt.title('Loss по эпохам')
plt.xlabel('Эпохи')
plt.ylabel('Loss')
plt.show()
```

## 📝 Домашнее задание
**Задача 1:** Проанализируйте матрицу ошибок для CIFAR-10. Какие классы чаще путаются? (например, `автомобиль` и `грузовик`).
**Задача 2:** Попробуйте улучшить метрики, изменяя гиперпараметры модели (например, `C=10`, `solver='liblinear'`).
**Задача 3:** Напишите отчет (200–300 слов), где:
- Опишите, как вы обучали модель.
- Сравните точность, precision, recall до и после оптимизации.
- Объясните, почему одни классы путаются чаще других.
- Приведите примеры ошибочных предсказаний.

💡 **Рекомендации:**
- Используйте `classification_report` для анализа.
- Для визуализации ошибок используйте `sns.heatmap`.
- При изменении гиперпараметров следите за `loss` и `accuracy`.

## 🧠 Дополнительная теория: Почему важны разные метрики?
- **Accuracy** — не учитывает типы ошибок.
- **Precision и Recall** — показывают, как модель работает с конкретными классами.
- **F1-score** — лучшая метрика для несбалансированных классов.
- **Confusion Matrix** — наглядно показывает, где модель ошибается.

### Пример: Spam-фильтр
- **FP (ложный спам):** Нормальное письмо от пользователя помечено как спам — критично для пользовательского опыта.
- **FN (пропущенный спам):** Спам не был обнаружен — критично для безопасности.
- **Precision:** Мера, сколько ошибок FP.
- **Recall:** Мера, сколько ошибок FN.
- **F1-score:** Баланс между ними.

## 📉 Как работает переобучение (Overfitting)?
- **Переобучение:** Модель запоминает тренировочные данные, но плохо обобщает на тестовых.
- **Причины:**
  - Слишком сложная модель.
  - Недостаток данных.
  - Нет регуляризации.
- **Как обнаружить?**
  - Training loss падает, validation loss растет.
  - Accuracy на train высокая, на test низкая.
- **Как бороться?**
  - Упростить модель.
  - Добавить регуляризацию (L1, L2).
  - Увеличить размер обучающей выборки.
  - Использовать dropout (для нейросетей) [[10]].

## 📈 Как работает недообучение (Underfitting)?
- **Недообучение:** Модель не учится на данных.
- **Причины:**
  - Слишком простая модель.
  - Неправильно подобранные гиперпараметры.
  - Недостаток данных.
- **Как обнаружить?**
  - Высокий loss на train и test.
  - Низкая accuracy на train и test.
- **Как бороться?**
  - Увеличить сложность модели.
  - Улучшить данные (чистка, нормализация).
  - Изменить гиперпараметры (learning rate, max_iter).

## 📊 Как выбрать лучшую метрику?
- **Accuracy:** Для сбалансированных классов.
- **F1-score:** Для несбалансированных классов.
- **ROC-AUC:** Для бинарной классификации.
- **Confusion Matrix:** Для детального анализа ошибок.
- **Пример:** В задаче обнаружения мошенничества (где 1% — мошенничество):
  - Accuracy может показывать 99%, но это обманчиво.
  - F1-score покажет реальную эффективность.
  - Confusion matrix покажет, сколько случаев было пропущено [[7]].

## 📉 Как работает кросс-валидация?
- **Кросс-валидация (Cross-Validation):** Разделение данных на `k` частей для оценки модели.
- **Зачем?** Чтобы проверить, как модель будет работать на разных подвыборках.
- **Пример:**
  ```python
  from sklearn.model_selection import cross_val_score
  scores = cross_val_score(log_reg, X_train, y_train, cv=3, scoring='accuracy')
  print(scores)  # [0.91, 0.92, 0.93]
  print(f'Средняя точность: {scores.mean():.2f}')
  ```
- **cv=3:** Данные разбиты на 3 части.
- **scoring='accuracy':** Используем точность как метрику.

## 📊 Как выбрать лучшую модель?
- **Точность (Accuracy):** Подходит для сбалансированных классов.
- **F1-score:** Если важны и precision, и recall (например, редкие классы).
- **ROC-AUC:** Для бинарной классификации.
- **Скоринг в GridSearchCV:** Используйте параметр `scoring` для выбора метрики.
- **Пример:**
  ```python
  from sklearn.model_selection import GridSearchCV
  grid = GridSearchCV(KNeighborsClassifier(), param_grid, cv=3, scoring='accuracy')
  ```

## 📝 Домашнее задание (расширенное)
**Задача 1:** Обучите модель `LogisticRegression` на CIFAR-10 и построите confusion matrix.
**Задача 2:** Рассчитайте precision, recall и F1-score для классов `автомобиль` и `грузовик`.
**Задача 3:** Напишите отчет (200–300 слов), где:
- Опишите, как вы обучали модель.
- Сравните точность, precision, recall до и после изменения гиперпараметров.
- Объясните, почему одни классы путаются чаще других.
- Приведите примеры ошибочных предсказаний.
- Нарисуйте графики loss и accuracy по эпохам.
- Визуализируйте confusion matrix для `kNN`.

💡 **Рекомендации:**
- Используйте `KNeighborsClassifier(n_neighbors=5)` для начала.
- Для ускорения используйте подвыборку.
- При изменении гиперпараметров следите за `loss` и `accuracy`.
- Визуализируйте confusion matrix и ищите классы, которые путаются чаще всего.

## 📈 Графики обучения: loss и accuracy
### Пример: визуализация обучения
```python
import matplotlib.pyplot as plt

# Loss по эпохам
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.legend()
plt.title('Loss по эпохам')
plt.xlabel('Эпохи')
plt.ylabel('Loss')
plt.grid(True)
plt.show()
```

### Пример: accuracy по эпохам
```python
# Accuracy по эпохам
plt.plot(history.history['accuracy'], label='Train Accuracy')
plt.plot(history.history['val_accuracy'], label='Validation Accuracy')
plt.legend()
plt.title('Accuracy по эпохам')
plt.xlabel('Эпохи')
plt.ylabel('Accuracy')
plt.grid(True)
plt.show()
```

## 📊 Как интерпретировать графики обучения?
- **Overfitting:** Train loss падает, validation loss растет.
- **Underfitting:** Оба loss высокие, accuracy низкая.
- **Хорошее обучение:** Оба loss стабильны и низкие.

### Пример: переобучение
```python
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.legend()
plt.title('Overfitting')
plt.show()
```

## 📉 Как работает кросс-валидация?
- **Кросс-валидация (Cross-Validation):** Разделение данных на `k` частей для оценки модели.
- **Зачем?** Чтобы проверить, как модель будет работать на разных подвыборках.
- **Пример:**
  ```python
  from sklearn.model_selection import cross_val_score
  scores = cross_val_score(log_reg, X_train, y_train, cv=3, scoring='accuracy')
  print(scores)  # [0.91, 0.92, 0.93]
  print(f'Средняя точность: {scores.mean():.2f}')
  ```
- **cv=3:** Данные разбиты на 3 части.
- **scoring='accuracy':** Используем точность как метрику.

## 🧪 Практика: Анализ ошибок модели
### Шаг 1: Обучение логистической регрессии на CIFAR-10
```python
model = LogisticRegression(max_iter=1000)
model.fit(X_train[:5000], y_train[:5000])
y_pred = model.predict(X_test[:1000])
```

### Шаг 2: Матрица ошибок и анализ

In [None]:
cm = confusion_matrix(y_test[:1000], y_pred)
sns.heatmap(cm, annot=True, fmt='d')
plt.title('Confusion Matrix для CIFAR-10')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.show()

### Шаг 3: Расчет precision, recall, F1-score
```python
from sklearn.metrics import precision_score, recall_score, f1_score

precision = precision_score(y_test[:1000], y_pred, average='macro')
recall = recall_score(y_test[:1000], y_pred, average='macro')
f1 = f1_score(y_test[:1000], y_pred, average='macro')
print(f'Precision: {precision:.2f}, Recall: {recall:.2f}, F1-score: {f1:.2f}')
```

### Шаг 4: Визуализация обучения
```python
import matplotlib.pyplot as plt

# Loss по эпохам
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.legend()
plt.title('Loss по эпохам')
plt.xlabel('Эпохи')
plt.ylabel('Loss')
plt.grid(True)
plt.show()
```

## 📝 Домашнее задание (расширенное)
**Задача 1:** Обучите модель `KNeighborsClassifier` на CIFAR-10 и сравните с логистической регрессией.
**Задача 2:** Напишите отчет (200–300 слов), где:
- Опишите, как вы обучали модель.
- Сравните точность, precision, recall до и после оптимизации.
- Объясните, почему одни классы путаются чаще других.
- Приведите примеры ошибочных предсказаний.
- Нарисуйте графики точности для разных значений `n_neighbors`.
- Визуализируйте confusion matrix для `kNN`.

💡 **Рекомендации:**
- Используйте `KNeighborsClassifier(n_neighbors=5)` для начала.
- Для ускорения используйте подвыборку.
- При изменении гиперпараметров следите за `loss` и `accuracy`.

## ✅ Рекомендации по выполнению домашнего задания
- **Задача 1:** Убедитесь, что вы используете правильный диапазон `n_neighbors` (например, от 1 до 10).
- **Задача 2:** Попробуйте разные значения `n_neighbors` и посмотрите, как меняется точность.
- **Визуализация:** Используйте `sns.heatmap` для матрицы ошибок.
- **Подсказка:** Чем больше `n_neighbors`, тем меньше шума, но выше вычислительная сложность.