# Учимся работе с данными - от загрузки до моделирования

# Breast Cancer Wisconsin — EDA + kNN Classification

**Задача**: Классификация опухолей (доброкачественные vs злокачественные) на основе 30 числовых признаков.

Датасет: https://www.kaggle.com/uciml/breast-cancer-wisconsin-data

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    roc_auc_score, roc_curve
)

# Настройки
plt.rcParams['figure.figsize'] = (10, 6)
sns.set(style="whitegrid")

In [None]:
# Загрузка данных
df = pd.read_csv('data.csv')

# Удаляем лишние столбцы
df = df.drop(columns=['id', 'Unnamed: 32'], errors='ignore')

# Просмотр первых строк
print("Первые 5 строк:")
display(df.head())

# Информация о данных
print("\nИнформация о датасете:")
df.info()

# Пропуски?
print("\nПропущенные значения:", df.isnull().sum().sum())

# Распределение целевой переменной
print("\nРаспределение диагнозов:")
print(df['diagnosis'].value_counts())

In [None]:
# Кодирование целевой переменной
df['target'] = df['diagnosis'].map({'M': 1, 'B': 0})

# Список признаков
features = [col for col in df.columns if col not in ['diagnosis', 'target']]
print(f"Количество признаков: {len(features)}")

In [None]:
df[features].describe()

In [None]:
# Гистограммы всех признаков
fig, axes = plt.subplots(6, 5, figsize=(20, 18))
axes = axes.ravel()

for i, col in enumerate(features):
    sns.histplot(data=df, x=col, hue='diagnosis', kde=True, ax=axes[i], alpha=0.7)
    axes[i].set_title(col)

plt.tight_layout()
plt.show()

In [None]:
# Тепловая карта корреляций
corr = df[features].corr()

plt.figure(figsize=(18, 14))
sns.heatmap(corr, cmap='coolwarm', center=0, square=True, cbar_kws={"shrink": .8})
plt.title('Heatmap корреляций признаков')
plt.show()

In [None]:
# Scatterplot для сильно коррелирующих признаков
high_corr_pairs = []
for i in range(len(corr.columns)):
    for j in range(i+1, len(corr.columns)):
        val = corr.iloc[i, j]
        if abs(val) > 0.95:
            high_corr_pairs.append((corr.columns[i], corr.columns[j]))

# Выбираем 3 уникальные пары
unique_pairs = []
seen = set()
for a, b in high_corr_pairs:
    if a not in seen and b not in seen:
        unique_pairs.append((a, b))
        seen.add(a)
        seen.add(b)
    if len(unique_pairs) == 3:
        break

# Построение
fig, axes = plt.subplots(1, len(unique_pairs), figsize=(5*len(unique_pairs), 5))
if len(unique_pairs) == 1:
    axes = [axes]

for idx, (x, y) in enumerate(unique_pairs):
    sns.scatterplot(data=df, x=x, y=y, hue='diagnosis', ax=axes[idx], alpha=0.7)
    axes[idx].set_title(f'{x} vs {y}')

plt.tight_layout()
plt.show()

In [None]:
# Boxplots по целевой переменной
fig, axes = plt.subplots(6, 5, figsize=(20, 18))
axes = axes.ravel()

for i, col in enumerate(features):
    sns.boxplot(data=df, x='diagnosis', y=col, ax=axes[i])
    axes[i].set_title(col)

plt.tight_layout()
plt.show()

In [None]:
# Разделение и стандартизация
X = df[features]
y = df['target']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("Размер обучающей выборки:", X_train_scaled.shape)
print("Размер тестовой выборки:", X_test_scaled.shape)

In [None]:
# kNN по умолчанию (k=5)
knn_default = KNeighborsClassifier(n_neighbors=5)
knn_default.fit(X_train_scaled, y_train)

y_pred_default = knn_default.predict(X_test_scaled)
y_pred_proba_default = knn_default.predict_proba(X_test_scaled)[:, 1]

metrics_default = {
    'Accuracy': accuracy_score(y_test, y_pred_default),
    'Precision': precision_score(y_test, y_pred_default),
    'Recall': recall_score(y_test, y_pred_default),
    'F1-score': f1_score(y_test, y_pred_default),
    'AUC': roc_auc_score(y_test, y_pred_proba_default)
}

print("Метрики kNN (k=5):")
for name, val in metrics_default.items():
    print(f"{name}: {val:.4f}")

In [None]:
# ROC-кривая для k=5
fpr, tpr, _ = roc_curve(y_test, y_pred_proba_default)

plt.figure(figsize=(7, 6))
plt.plot(fpr, tpr, label=f'ROC (AUC = {metrics_default["AUC"]:.4f})', linewidth=2)
plt.plot([0, 1], [0, 1], 'k--', label='Random classifier')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC-кривая (kNN, k=5)')
plt.legend()
plt.grid(True)
plt.show()

In [None]:
# Подбор оптимального k
k_range = range(1, 31)
cv_scores = []

for k in k_range:
    knn_temp = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(knn_temp, X_train_scaled, y_train, cv=5, scoring='accuracy')
    cv_scores.append(scores.mean())

best_k = k_range[np.argmax(cv_scores)]
best_score = max(cv_scores)

print(f"Лучшее k: {best_k}")
print(f"Лучшая CV Accuracy: {best_score:.4f}")

plt.figure(figsize=(10, 6))
plt.plot(k_range, cv_scores, marker='o')
plt.axvline(best_k, color='red', linestyle='--', label=f'Лучшее k = {best_k}')
plt.xlabel('k (число соседей)')
plt.ylabel('Cross-Validated Accuracy')
plt.title('Подбор гиперпараметра k для kNN')
plt.legend()
plt.grid(True)
plt.show()

In [None]:
# Финальная модель с лучшим k
knn_opt = KNeighborsClassifier(n_neighbors=best_k)
knn_opt.fit(X_train_scaled, y_train)

y_pred_opt = knn_opt.predict(X_test_scaled)
y_pred_proba_opt = knn_opt.predict_proba(X_test_scaled)[:, 1]

metrics_opt = {
    'Accuracy': accuracy_score(y_test, y_pred_opt),
    'Precision': precision_score(y_test, y_pred_opt),
    'Recall': recall_score(y_test, y_pred_opt),
    'F1-score': f1_score(y_test, y_pred_opt),
    'AUC': roc_auc_score(y_test, y_pred_proba_opt)
}

print("Метрики kNN (оптимальное k):")
for name, val in metrics_opt.items():
    print(f"{name}: {val:.4f}")

In [None]:
# Сравнение моделей
comparison = pd.DataFrame({
    'k=5': metrics_default,
    f'k={best_k}': metrics_opt
}).T

print("Сравнение моделей:")
display(comparison.round(4))