# Основные метрики классификации


## 1. Введение
Оценка качества модели классификации — важный этап анализа данных. Выбор метрики зависит от задач и особенностей данных.

## 2. Импорт библиотек
Сначала импортируем библиотеки, которые нам понадобятся.

In [None]:
# Импортируем библиотеки
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, roc_auc_score, classification_report
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification

## 3. Генерация данных и обучение модели
Для демонстрации создадим синтетические данные и обучим логистическую регрессию.

In [None]:
# Создание данных
X, y = make_classification(n_samples=1000, n_features=10, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
y_prob = model.predict_proba(X_test)[:, 1]  # Вероятности положительного класса

## 4. Accuracy (Точность классификации)
Точность — это доля правильно классифицированных примеров:

$$ Accuracy = \frac{TP + TN}{TP + TN + FP + FN} $$

- **Нюанс**: Accuracy не подходит для несбалансированных данных, так как модель может предсказывать только один класс и получать высокую точность.

In [None]:
# Расчет точности
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

## 5. Precision и Recall (Точность и полнота)
- **Precision (Точность)** показывает, сколько из предсказанных положительных классов действительно положительные:
  $$ Precision = \frac{TP}{TP + FP} $$
- **Recall (Полнота)** показывает, сколько истинных положительных классов модель нашла:
  $$ Recall = \frac{TP}{TP + FN} $$

**Когда использовать:**
- Precision важен, когда ложные срабатывания (FP) критичны (например, в спам-фильтрах).
- Recall важен, когда важно находить все положительные случаи (например, при диагностике болезней).

In [None]:
# Расчет precision и recall
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
print(f'Precision: {precision:.2f}')
print(f'Recall: {recall:.2f}')

## 6. F1-Score (Гармоническое среднее Precision и Recall)
F1-score учитывает и Precision, и Recall:
$$ F1 = 2 \cdot \frac{Precision \cdot Recall}{Precision + Recall} $$

**Когда использовать:**
- Если Accuracy не подходит из-за несбалансированных данных.
- Если важно учитывать баланс между Precision и Recall.

In [None]:
# Расчет F1-score
f1 = f1_score(y_test, y_pred)
print(f'F1-Score: {f1:.2f}')

## 7. Матрица ошибок (Confusion Matrix)
Матрица ошибок показывает количество TP, TN, FP и FN.

In [None]:
# Построение матрицы ошибок
conf_matrix = confusion_matrix(y_test, y_pred)
print('Confusion Matrix:\n', conf_matrix)

## 8. ROC AUC Score (Площадь под ROC-кривой)
ROC AUC измеряет, насколько хорошо модель различает классы. Чем ближе к 1, тем лучше.

In [None]:
# Расчет ROC AUC Score
roc_auc = roc_auc_score(y_test, y_prob)
print(f'ROC AUC Score: {roc_auc:.2f}')

## 9. Итоговый отчет о классификации

In [None]:
# Вывод полного отчета
print(classification_report(y_test, y_pred))

## 10. Упражнения
Попробуйте выполнить следующие задачи самостоятельно:
1. Сгенерируйте несбалансированные данные и сравните Precision и Recall.
2. Нарисуйте ROC-кривую для модели.
3. Измените порог классификации (по умолчанию 0.5) и посмотрите, как меняются метрики.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import precision_score, recall_score, roc_auc_score, roc_curve, classification_report
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification

# 1. Генерация несбалансированных данных
X, y = make_classification(n_samples=1000, n_features=10, weights=[0.9, 0.1], random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
y_prob = model.predict_proba(X_test)[:, 1]  # Вероятности положительного класса

# Precision и Recall на несбалансированных данных
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
print(f'Precision: {precision:.2f}, Recall: {recall:.2f}')

# 2. Построение ROC-кривой
fpr, tpr, _ = roc_curve(y_test, y_prob)
roc_auc = roc_auc_score(y_test, y_prob)

plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, label=f'ROC AUC = {roc_auc:.2f}', color='blue')
plt.plot([0, 1], [0, 1], linestyle='--', color='gray')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC-кривая')
plt.legend()
plt.show()

In [None]:
# 3. Изменение порога классификации
thresholds = [0.3, 0.5, 0.7]
for thresh in thresholds:
    y_pred_thresh = (y_prob >= thresh).astype(int)
    precision_thresh = precision_score(y_test, y_pred_thresh)
    recall_thresh = recall_score(y_test, y_pred_thresh)
    print(f'Порог: {thresh:.1f} | Precision: {precision_thresh:.2f} | Recall: {recall_thresh:.2f}')

# Итоговый отчет
print(classification_report(y_test, y_pred))