In [1]:
# Импортируем необходимые библиотеки
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, roc_curve, auc

In [None]:
# 1. Сбор данных и первичный анализ

# Загружаем данные о раке груди из библиотеки sklearn
data = load_breast_cancer()

# Преобразуем данные в DataFrame для удобства
df = pd.DataFrame(data.data, columns=data.feature_names)

# Добавляем целевой столбец с меткой (0 - доброкачественная опухоль, 1 - злокачественная опухоль)
df['target'] = data.target

In [None]:
# Выводим первые 5 строк данных для ознакомления с их структурой
print("Первые строки данных:")
df.head()

In [None]:
# Проверим, есть ли пропущенные значения
print("Проверка на пропущенные значения:")
print(df.isnull().sum())

In [2]:
# Выводим основные статистические данные
print("Статистическое описание данных:")
print(df.describe())

Первые строки данных:
   mean radius  mean texture  mean perimeter  mean area  mean smoothness  \
0        17.99         10.38          122.80     1001.0          0.11840   
1        20.57         17.77          132.90     1326.0          0.08474   
2        19.69         21.25          130.00     1203.0          0.10960   
3        11.42         20.38           77.58      386.1          0.14250   
4        20.29         14.34          135.10     1297.0          0.10030   

   mean compactness  mean concavity  mean concave points  mean symmetry  \
0           0.27760          0.3001              0.14710         0.2419   
1           0.07864          0.0869              0.07017         0.1812   
2           0.15990          0.1974              0.12790         0.2069   
3           0.28390          0.2414              0.10520         0.2597   
4           0.13280          0.1980              0.10430         0.1809   

   mean fractal dimension  ...  worst texture  worst perimeter  worst 

In [None]:
# 2. Предобработка данных

# Разделяем данные на признаки (X) и целевую переменную (y)
X = df.drop('target', axis=1)
y = df['target']

# Разделяем данные на тренировочные и тестовые наборы (80% для тренировки, 20% для тестирования)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# 3. Построение модели логистической регрессии

# Создаем модель логистической регрессии
model = LogisticRegression(max_iter=10000)

# Обучаем модель на тренировочных данных
model.fit(X_train, y_train)

# Предсказываем метки на тестовых данных
y_pred = model.predict(X_test)

# Оцениваем качество модели
print("Точность модели на тестовых данных:")
print(accuracy_score(y_test, y_pred))

# Выводим полный отчет о классификации
print("Отчет о классификации:")
print(classification_report(y_test, y_pred))

In [None]:
# 4. Подбор гиперпараметров с использованием GridSearchCV

# Задаем сетку гиперпараметров для поиска
param_grid = {
    'penalty': ['l1', 'l2'],  # Тип регуляризации
    'C': [0.01, 0.1, 1, 10, 100],  # Инверсия силы регуляризации
    'solver': ['liblinear']  # Используемый решатель
}

# Настраиваем GridSearchCV
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='accuracy', verbose=1)

# Обучаем модель с использованием кросс-валидации
grid_search.fit(X_train, y_train)

# Выводим лучшие параметры
print(f"Лучшие параметры: {grid_search.best_params_}")
print(f"Лучшая точность: {grid_search.best_score_}")

# Протестируем модель с лучшими параметрами на тестовых данных
best_model = grid_search.best_estimator_
y_pred_best = best_model.predict(X_test)
print(f"Точность на тестовых данных с лучшей моделью: {accuracy_score(y_test, y_pred_best)}")

In [None]:
# 5. Оценка модели и визуализация ROC-кривой

# Получаем вероятности предсказаний
y_prob = best_model.predict_proba(X_test)[:, 1]

# Вычисляем ROC-кривую
fpr, tpr, thresholds = roc_curve(y_test, y_prob)

# Вычисляем площадь под кривой (AUC)
roc_auc = auc(fpr, tpr)

# Визуализируем ROC-кривую
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()