In [None]:
# Импорт необходимых библиотек
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, roc_auc_score, precision_recall_curve, auc, confusion_matrix

# Зададим seed для воспроизводимости результатов
np.random.seed(42)

# 1. Генерация датасета для бинарной классификации
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, weights=[0.9, 0.1], random_state=42)

# Разделение на тренировочный и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 2. Обучение модели логистической регрессии
model = LogisticRegression()
model.fit(X_train, y_train)

# Предсказание вероятностей для тестового набора
y_prob = model.predict_proba(X_test)[:, 1]

# Вычисление ROC кривой и AUC
fpr, tpr, _ = roc_curve(y_test, y_prob)
roc_auc = roc_auc_score(y_test, y_prob)

# Построение ROC кривой
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc='lower right')
plt.show()

# Вычисление PR кривой и AUC
precision, recall, _ = precision_recall_curve(y_test, y_prob)
pr_auc = auc(recall, precision)

# Построение PR кривой
plt.figure(figsize=(8, 6))
plt.plot(recall, precision, color='blue', lw=2, label='PR curve (area = %0.2f)' % pr_auc)
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall (PR) Curve')
plt.legend(loc='lower left')
plt.show()

# 3. Сравнение с другой моделью (например, RandomForestClassifier)
from sklearn.ensemble import RandomForestClassifier

# Обучение модели случайного леса
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# Предсказание вероятностей для тестового набора
rf_y_prob = rf_model.predict_proba(X_test)[:, 1]

# Вычисление ROC кривой и AUC для модели случайного леса
rf_fpr, rf_tpr, _ = roc_curve(y_test, rf_y_prob)
rf_roc_auc = roc_auc_score(y_test, rf_y_prob)

# Построение ROC кривой для модели случайного леса
plt.figure(figsize=(8, 6))
plt.plot(rf_fpr, rf_tpr, color='green', lw=2, label='Random Forest ROC curve (area = %0.2f)' % rf_roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Random Forest Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc='lower right')
plt.show()

# 4. Генерация датасета с дисбалансом классов
X_imbalanced, y_imbalanced = make_classification(n_samples=1000, n_features=20, n_classes=2, weights=[0.95, 0.05], random_state=42)

# Разделение на тренировочный и тестовый наборы
X_train_imb, X_test_imb, y_train_imb, y_test_imb = train_test_split(X_imbalanced, y_imbalanced, test_size=0.2, random_state=42)

# Обучение модели логистической регрессии на датасете с дисбалансом классов
imb_model = LogisticRegression()
imb_model.fit(X_train_imb, y_train_imb)

# Предсказание вероятностей для тестового набора
imb_y_prob = imb_model.predict_proba(X_test_imb)[:, 1]

# Вычисление ROC кривой и AUC для датасета с дисбалансом классов
imb_fpr, imb_tpr, _ = roc_curve(y_test_imb, imb_y_prob)
imb_roc_auc = roc_auc_score(y_test_imb, imb_y_prob)

# Построение ROC кривой для датасета с дисбалансом классов
plt.figure(figsize=(8, 6))
plt.plot(imb_fpr, imb_tpr, color='darkorange', lw=2, label='Imbalanced ROC curve (area = %0.2f)' % imb_roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Imbalanced Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc='lower right')
plt.show()

# 5. Вычисление оптимального значения порога для модели логистической регрессии
# Найдем индекс максимального значения (TPR - FPR), которое соответствует оптимальному значению порога
optimal_threshold_index = np.argmax(tpr - fpr)
optimal_threshold = _[optimal_threshold_index]

# Матрица классификации для модели с порогом по умолчанию
default_threshold_predictions = model.predict(X_test)
default_confusion_matrix = confusion_matrix(y_test, default_threshold_predictions)

# Матрица классификации для модели с оптимальным порогом
optimal_threshold_predictions = (y_prob >= optimal_threshold).astype(int)
optimal_confusion_matrix = confusion_matrix(y_test, optimal_threshold_predictions)

# Вывод результатов
print("Confusion Matrix (Default Threshold):")
print(default_confusion_matrix)
print("\nConfusion Matrix (Optimal Threshold):")
print(optimal_confusion_matrix)


2. Повторите анализ на реальном датасете для бинарной классификации. Проинтерпретируйте результат, сделайте вывод.

In [None]:
# Импорт необходимых библиотек
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, roc_auc_score, precision_recall_curve, auc, confusion_matrix
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_breast_cancer  # Пример использования реального датасета

# Зададим seed для воспроизводимости результатов
np.random.seed(42)

# 1. Загрузка реального датасета
data = load_breast_cancer()  # Пример загрузки датасета
X, y = data.data, data.target  # Используем все данные и метки классов

# Разделение на тренировочный и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабирование данных
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 2. Обучение модели логистической регрессии
# Увеличиваем max_iter до 1000 и используем solver='lbfgs'
model = LogisticRegression(max_iter=1000, solver='lbfgs', random_state=42)
model.fit(X_train_scaled, y_train)

# Предсказание вероятностей для тестового набора
y_prob = model.predict_proba(X_test_scaled)[:, 1]

# Вычисление ROC кривой и AUC
fpr, tpr, _ = roc_curve(y_test, y_prob)
roc_auc = roc_auc_score(y_test, y_prob)

# Построение ROC кривой
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc='lower right')
plt.show()

# Вычисление PR кривой и AUC
precision, recall, _ = precision_recall_curve(y_test, y_prob)
pr_auc = auc(recall, precision)

# Построение PR кривой
plt.figure(figsize=(8, 6))
plt.plot(recall, precision, color='blue', lw=2, label='PR curve (area = %0.2f)' % pr_auc)
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall (PR) Curve')
plt.legend(loc='lower left')
plt.show()

# Вычисление оптимального значения порога для модели логистической регрессии
optimal_threshold_index = np.argmax(tpr - fpr)
optimal_threshold = _[optimal_threshold_index]

# Матрица классификации для модели с порогом по умолчанию
default_threshold_predictions = model.predict(X_test_scaled)
default_confusion_matrix = confusion_matrix(y_test, default_threshold_predictions)

# Матрица классификации для модели с оптимальным порогом
optimal_threshold_predictions = (y_prob >= optimal_threshold).astype(int)
optimal_confusion_matrix = confusion_matrix(y_test, optimal_threshold_predictions)

# Вывод результатов
print("Confusion Matrix (Default Threshold):")
print(default_confusion_matrix)
print("\nConfusion Matrix (Optimal Threshold):")
print(optimal_confusion_matrix)


3. В задании по оптимизации порога используйте ROC и среднее геометрическое между TPR и FPR как критерий оптимизации.

In [None]:
# Импорт необходимых библиотек
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, roc_auc_score, precision_recall_curve, auc, confusion_matrix
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_breast_cancer  # Пример использования реального датасета

# Зададим seed для воспроизводимости результатов
np.random.seed(42)

# 1. Загрузка реального датасета
data = load_breast_cancer()  # Пример загрузки датасета
X, y = data.data, data.target  # Используем все данные и метки классов

# Разделение на тренировочный и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабирование данных
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 2. Обучение модели логистической регрессии
# Увеличиваем max_iter до 1000 и используем solver='lbfgs'
model = LogisticRegression(max_iter=1000, solver='lbfgs', random_state=42)
model.fit(X_train_scaled, y_train)

# Предсказание вероятностей для тестового набора
y_prob = model.predict_proba(X_test_scaled)[:, 1]

# Вычисление ROC кривой и AUC
fpr, tpr, thresholds = roc_curve(y_test, y_prob)
roc_auc = roc_auc_score(y_test, y_prob)

# Построение ROC кривой
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc='lower right')
plt.show()

# Вычисление среднего геометрического для оптимизации порога
geometric_mean = np.sqrt(tpr * fpr)
optimal_threshold_index = np.argmax(geometric_mean)
optimal_threshold = thresholds[optimal_threshold_index]

# Матрица классификации для модели с порогом по умолчанию
default_threshold_predictions = model.predict(X_test_scaled)
default_confusion_matrix = confusion_matrix(y_test, default_threshold_predictions)

# Матрица классификации для модели с оптимальным порогом
optimal_threshold_predictions = (y_prob >= optimal_threshold).astype(int)
optimal_confusion_matrix = confusion_matrix(y_test, optimal_threshold_predictions)

# Вывод результатов
print("Confusion Matrix (Default Threshold):")
print(default_confusion_matrix)
print("\nConfusion Matrix (Optimal Threshold):")
print(optimal_confusion_matrix)

print(f"\nOptimal Threshold: {optimal_threshold}")
print(f"Geometric Mean (TPR x FPR): {geometric_mean[optimal_threshold_index]}")


4. При оптимизации порога по PR-кривой используйте другую F-метрику - сначала с преимуществом precision, а затем - с превалированием recall. Изобразите получившиеся пороги на графике. Проанализируйте метрики получившихся моделей.

In [None]:
# Импорт необходимых библиотек
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import precision_recall_curve, confusion_matrix, fbeta_score, auc
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_breast_cancer  # Пример использования реального датасета

# Зададим seed для воспроизводимости результатов
np.random.seed(42)

# 1. Загрузка реального датасета
data = load_breast_cancer()  # Пример загрузки датасета
X, y = data.data, data.target  # Используем все данные и метки классов

# Разделение на тренировочный и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабирование данных
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 2. Обучение модели логистической регрессии
model = LogisticRegression(max_iter=1000, solver='lbfgs', random_state=42)
model.fit(X_train_scaled, y_train)

# Предсказание вероятностей для тестового набора
y_prob = model.predict_proba(X_test_scaled)[:, 1]

# Вычисление PR кривой и AUC
precision, recall, thresholds = precision_recall_curve(y_test, y_prob)
pr_auc = auc(recall, precision)

# Построение PR кривой
plt.figure(figsize=(8, 6))
plt.plot(recall, precision, color='blue', lw=2, label='PR curve (area = %0.2f)' % pr_auc)
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall (PR) Curve')
plt.legend(loc='lower left')
plt.show()

# Оптимизация порога с использованием F-метрики с акцентом на precision (β=0.5)
beta_precision = 0.5
f_beta_precision = (1 + beta_precision ** 2) * (precision * recall) / (beta_precision ** 2 * precision + recall)
optimal_threshold_index_precision = np.argmax(f_beta_precision)
optimal_threshold_precision = thresholds[optimal_threshold_index_precision]

# Оптимизация порога с использованием F-метрики с акцентом на recall (β=2)
beta_recall = 2
f_beta_recall = (1 + beta_recall ** 2) * (precision * recall) / (beta_recall ** 2 * precision + recall)
optimal_threshold_index_recall = np.argmax(f_beta_recall)
optimal_threshold_recall = thresholds[optimal_threshold_index_recall]

# Изображение оптимальных порогов на PR-кривой
plt.figure(figsize=(8, 6))
plt.plot(recall, precision, color='blue', lw=2, label='PR curve (area = %0.2f)' % pr_auc)
plt.scatter(recall[optimal_threshold_index_precision], precision[optimal_threshold_index_precision], color='red', label=f'Optimal Threshold (β=0.5): {optimal_threshold_precision:.2f}')
plt.scatter(recall[optimal_threshold_index_recall], precision[optimal_threshold_index_recall], color='green', label=f'Optimal Threshold (β=2): {optimal_threshold_recall:.2f}')
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall (PR) Curve')
plt.legend(loc='lower left')
plt.show()

# Матрица классификации для модели с оптимальным порогом для β=0.5
optimal_threshold_predictions_precision = (y_prob >= optimal_threshold_precision).astype(int)
confusion_matrix_precision = confusion_matrix(y_test, optimal_threshold_predictions_precision)

# Матрица классификации для модели с оптимальным порогом для β=2
optimal_threshold_predictions_recall = (y_prob >= optimal_threshold_recall).astype(int)
confusion_matrix_recall = confusion_matrix(y_test, optimal_threshold_predictions_recall)

# Вывод результатов
print("\nConfusion Matrix (Optimal Threshold for β=0.5):")
print(confusion_matrix_precision)

print("\nConfusion Matrix (Optimal Threshold for β=2):")
print(confusion_matrix_recall)

# Метрики для оптимального порога (β=0.5)
precision_05 = precision[optimal_threshold_index_precision]
recall_05 = recall[optimal_threshold_index_precision]
f_beta_05 = fbeta_score(y_test, optimal_threshold_predictions_precision, beta=0.5)

print(f"\nMetrics for Optimal Threshold (β=0.5):")
print(f"Precision: {precision_05:.2f}")
print(f"Recall: {recall_05:.2f}")
print(f"F-β (β=0.5): {f_beta_05:.2f}")

# Метрики для оптимального порога (β=2)
precision_2 = precision[optimal_threshold_index_recall]
recall_2 = recall[optimal_threshold_index_recall]
f_beta_2 = fbeta_score(y_test, optimal_threshold_predictions_recall, beta=2)

print(f"\nMetrics for Optimal Threshold (β=2):")
print(f"Precision: {precision_2:.2f}")
print(f"Recall: {recall_2:.2f}")
print(f"F-β (β=2): {f_beta_2:.2f}")


5. Постройте классификационные кривые для задачи множественной классификации. Проинтерпретируйте результат.

In [None]:
# Импорт необходимых библиотек
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris  # Пример использования датасета Iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve, auc, precision_recall_curve, f1_score
from sklearn.preprocessing import label_binarize, StandardScaler
from sklearn.multiclass import OneVsRestClassifier

# Зададим seed для воспроизводимости результатов
np.random.seed(42)

# 1. Загрузка датасета
data = load_iris()  # Используем датасет Iris
X, y = data.data, data.target

# Разделение данных на тренировочный и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабирование данных
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 2. Обучение модели логистической регрессии для задачи множественной классификации
model = OneVsRestClassifier(LogisticRegression(max_iter=1000, solver='lbfgs'))
model.fit(X_train_scaled, y_train)

# Предсказание вероятностей для тестового набора
y_prob = model.predict_proba(X_test_scaled)

# Бинаризация меток классов для вычисления метрик
y_test_binarized = label_binarize(y_test, classes=[0, 1, 2])

# Построение ROC и Precision-Recall кривых для каждого класса
n_classes = y_test_binarized.shape[1]

# ROC кривые и AUC
plt.figure(figsize=(10, 6))
colors = ['blue', 'orange', 'green']
for i in range(n_classes):
    fpr, tpr, _ = roc_curve(y_test_binarized[:, i], y_prob[:, i])
    roc_auc = auc(fpr, tpr)
    plt.plot(fpr, tpr, color=colors[i], lw=2, label=f'Class {i} (area = {roc_auc:.2f})')

plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve for Multiple Classes')
plt.legend(loc='lower right')
plt.show()

# Precision-Recall кривые
plt.figure(figsize=(10, 6))
for i in range(n_classes):
    precision, recall, _ = precision_recall_curve(y_test_binarized[:, i], y_prob[:, i])
    pr_auc = auc(recall, precision)
    plt.plot(recall, precision, color=colors[i], lw=2, label=f'Class {i} (area = {pr_auc:.2f})')

plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall Curve for Multiple Classes')
plt.legend(loc='lower left')
plt.show()

# Метрики оценки моделей
print("\nMetrics for Multiple Classes:")
for i in range(n_classes):
    # F1-Score для каждого класса
    y_pred_class_i = (y_prob[:, i] >= 0.5).astype(int)
    f1 = f1_score(y_test_binarized[:, i], y_pred_class_i)
    print(f"Class {i}: F1-Score = {f1:.2f}")


6. Используйте для построения кривых библиотеку yellowbrick.

In [None]:
# Импорт необходимых библиотек
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris  # Пример использования датасета Iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from yellowbrick.classifier import ROCAUC, PrecisionRecallCurve
from sklearn.multiclass import OneVsRestClassifier

# Зададим seed для воспроизводимости результатов
np.random.seed(42)

# 1. Загрузка датасета
data = load_iris()  # Используем датасет Iris
X, y = data.data, data.target

# Разделение данных на тренировочный и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабирование данных
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 2. Обучение модели логистической регрессии для задачи множественной классификации
model = OneVsRestClassifier(LogisticRegression(max_iter=1000, solver='lbfgs'))
model.fit(X_train_scaled, y_train)

# Визуализация ROC кривых с помощью Yellowbrick
visualizer_roc = ROCAUC(model, classes=data.target_names)  # Создание визуализатора ROCAUC
visualizer_roc.fit(X_train_scaled, y_train)  # Обучение визуализатора
visualizer_roc.score(X_test_scaled, y_test)  # Оценка модели
visualizer_roc.show()  # Отображение ROC кривых

# Визуализация Precision-Recall кривых с помощью Yellowbrick
visualizer_pr = PrecisionRecallCurve(model, classes=data.target_names)  # Создание визуализатора PrecisionRecallCurve
visualizer_pr.fit(X_train_scaled, y_train)  # Обучение визуализатора
visualizer_pr.score(X_test_scaled, y_test)  # Оценка модели
visualizer_pr.show()  # Отображение Precision-Recall кривых

from sklearn.metrics import classification_report

# Вывод метрик по каждому классу
print("\nClassification Report:")
print(classification_report(y_test, model.predict(X_test_scaled), target_names=data.target_names))
