# Анализ датасета Diabetes с использованием различных моделей машинного обучения

## 1. Подготовка данных

Загрузим датасет Diabetes и подготовим данные для анализа.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Загрузка данных
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target

# TODO: Разделите данные на обучающую и тестовую выборки
# Подсказка: Используйте train_test_split из sklearn.model_selection
# X_train, X_test, y_train, y_test = ...

# TODO: Выполните стандартизацию признаков
# Подсказка: Используйте StandardScaler
# scaler = ...
# X_train_scaled = ...
# X_test_scaled = ...

# Линейная регрессия

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

# TODO: Создайте и обучите модель линейной регрессии
# Подсказка: Используйте LinearRegression
# lr_model = ...
# lr_model.fit(...)

# TODO: Сделайте предсказания и оцените качество модели
# lr_pred = ...
# lr_r2 = ...
# lr_mse = ...

print("Линейная регрессия:")
print(f"R^2: {lr_r2:.4f}")
print(f"MSE: {lr_mse:.4f}")

# Логистическая регрессия

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score

# Преобразование задачи в задачу классификации
y_binary = (y > np.median(y)).astype(int)
y_train_binary = (y_train > np.median(y_train)).astype(int)
y_test_binary = (y_test > np.median(y_test)).astype(int)

# TODO: Создайте и обучите модель логистической регрессии
# Подсказка: Используйте LogisticRegression
# log_model = ...
# log_model.fit(...)

# TODO: Сделайте предсказания и оцените качество модели
# log_pred = ...
# log_accuracy = ...
# log_proba = ...
# log_auc = ...

print("\nЛогистическая регрессия:")
print(f"Accuracy: {log_accuracy:.4f}")
print(f"AUC: {log_auc:.4f}")

### Отбор важных признаков

In [None]:
from sklearn.feature_selection import RFE

# TODO: Выполните отбор важных признаков
# Подсказка: Используйте RFE с LogisticRegression в качестве estimator
# rfe = ...
# rfe.fit(...)
# X_train_rfe = ...
# X_test_rfe = ...

# TODO: Обучите логистическую регрессию на отобранных признаках
# log_model_rfe = ...
# log_model_rfe.fit(...)

# TODO: Оцените качество модели на отобранных признаках
# log_pred_rfe = ...
# log_accuracy_rfe = ...
# log_proba_rfe = ...
# log_auc_rfe = ...

print("\nЛогистическая регрессия (отобранные признаки):")
print(f"Accuracy: {log_accuracy_rfe:.4f}")
print(f"AUC: {log_auc_rfe:.4f}")

# Метод опорных векторов (SVM)

In [None]:
from sklearn.svm import SVC

# TODO: Создайте и обучите SVM с линейным ядром
# Подсказка: Используйте SVC с kernel='linear'
# svm_linear = ...
# svm_linear.fit(...)

# TODO: Оцените качество модели SVM с линейным ядром
# svm_linear_pred = ...
# svm_linear_accuracy = ...
# svm_linear_proba = ...
# svm_linear_auc = ...

print("\nSVM с линейным ядром:")
print(f"Accuracy: {svm_linear_accuracy:.4f}")
print(f"AUC: {svm_linear_auc:.4f}")

# TODO: Создайте и обучите SVM с квадратичным ядром
# Подсказка: Используйте SVC с kernel='poly' и degree=2
# svm_poly = ...
# svm_poly.fit(...)

# TODO: Оцените качество модели SVM с квадратичным ядром
# svm_poly_pred = ...
# svm_poly_accuracy = ...
# svm_poly_proba = ...
# svm_poly_auc = ...

print("\nSVM с квадратичным ядром:")
print(f"Accuracy: {svm_poly_accuracy:.4f}")
print(f"AUC: {svm_poly_auc:.4f}")

# Визуализация результатов

### ROC-кривые
Построим ROC-кривые для сравнения эффективности моделей.

In [None]:
from sklearn.metrics import roc_curve

# TODO: Постройте ROC-кривые для логистической регрессии и обеих моделей SVM
# Подсказка: Используйте roc_curve для вычисления false positive rate и true positive rate

plt.figure(figsize=(10, 6))
# Ваш код здесь для построения ROC-кривых

plt.plot([0, 1], [0, 1], linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC-кривые')
plt.legend()
plt.show()

### Разделяющие кривые
Визуализируем разделяющие кривые для SVM с линейным и квадратичным ядром.

In [None]:
# Функция для визуализации разделяющей кривой
def plot_decision_boundary(model, X, y, title):
    x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
    y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
    xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),
                         np.arange(y_min, y_max, 0.02))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    plt.figure(figsize=(10, 6))
    plt.contourf(xx, yy, Z, alpha=0.4)
    plt.scatter(X[:, 0], X[:, 1], c=y, alpha=0.8)
    plt.xlabel('Признак 1')
    plt.ylabel('Признак 2')
    plt.title(title)
    plt.show()

# Визуализация разделяющих кривых для SVM
X_vis = X_train_scaled[:, :2]  # Используем только первые два признака для визуализации
y_vis = y_train_binary

# TODO: Создайте и обучите SVM с линейным ядром на X_vis и y_vis
# svm_linear_vis = ...
# svm_linear_vis.fit(...)

# TODO: Визуализируйте разделяющую кривую для SVM с линейным ядром
# plot_decision_boundary(...)

# TODO: Создайте и обучите SVM с квадратичным ядром на X_vis и y_vis
# svm_poly_vis = ...
# svm_poly_vis.fit(...)

# TODO: Визуализируйте разделяющую кривую для SVM с квадратичным ядром
# plot_decision_boundary(...)

#  Важность признаков

In [None]:
# TODO: Получите коэффициенты важности признаков из модели логистической регрессии
# feature_importance = ...
feature_names = diabetes.feature_names
sorted_idx = np.argsort(feature_importance)
pos = np.arange(sorted_idx.shape[0]) + .5

plt.figure(figsize=(12, 6))
plt.barh(pos, feature_importance[sorted_idx], align='center')
plt.yticks(pos, np.array(feature_names)[sorted_idx])
plt.xlabel('Важность признака')
plt.title('Важность признаков (Логистическая регрессия)')
plt.show()