# Домашнее задание 5 - Логистическая регрессия

**Задача:** Построить модель для предсказания дефолта по кредиту

**Датасет:** S05-hw-dataset.csv

## 1. Импорт библиотек

In [None]:
# Импортируем нужные библиотеки
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Из sklearn импортируем всё необходимое для работы
from sklearn.model_selection import train_test_split
from sklearn.dummy import DummyClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, roc_auc_score, roc_curve

# Чтобы графики отображались в ноутбуке
%matplotlib inline

# Для воспроизводимости результатов
np.random.seed(42)

## 2. Загрузка и первичный анализ данных

In [None]:
# Загружаем датасет
df = pd.read_csv('../../seminars/S05/S05-hw-dataset.csv')

# Смотрим первые строки
df.head()

In [None]:
# Общая информация о данных
df.info()

In [None]:
# Статистика по числовым признакам
df.describe()

In [None]:
# Проверяем размер датасета
print(f"Количество строк: {df.shape[0]}")
print(f"Количество столбцов: {df.shape[1]}")

In [None]:
# Смотрим распределение целевой переменной
print("Распределение таргета (default):")
print(df['default'].value_counts())
print("\nВ процентах:")
print(df['default'].value_counts(normalize=True))

### Выводы по первичному анализу:

- В датасете 3000 наблюдений и 17 столбцов
- Все признаки числовые, пропусков нет
- Целевая переменная `default` распределена примерно 60% на 40% (класс 0 преобладает, но не критично)
- Видимых аномалий в данных нет

## 3. Подготовка признаков и таргета

In [None]:
# Выделяем целевую переменную
y = df['default']

# Выделяем признаки - всё кроме target и client_id
X = df.drop(['default', 'client_id'], axis=1)

print(f"Размер X: {X.shape}")
print(f"Размер y: {y.shape}")
print(f"\nПризнаки для обучения:")
print(X.columns.tolist())

## 4. Разделение на train и test

In [None]:
# Делим данные на обучающую и тестовую выборки
# test_size=0.2 означает что 20% данных идёт на тест
# stratify=y - чтобы сохранить пропорции классов в обеих выборках
# random_state=42 - для воспроизводимости
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Размер обучающей выборки: {X_train.shape}")
print(f"Размер тестовой выборки: {X_test.shape}")
print(f"\nРаспределение классов в train:")
print(y_train.value_counts(normalize=True))
print(f"\nРаспределение классов в test:")
print(y_test.value_counts(normalize=True))

## 5. Бейзлайн-модель (DummyClassifier)

In [None]:
# Создаём бейзлайн модель - она просто предсказывает самый частый класс
baseline = DummyClassifier(strategy='most_frequent', random_state=42)

# Обучаем
baseline.fit(X_train, y_train)

# Делаем предсказания на тесте
y_pred_baseline = baseline.predict(X_test)
y_pred_proba_baseline = baseline.predict_proba(X_test)[:, 1]

# Считаем метрики
baseline_accuracy = accuracy_score(y_test, y_pred_baseline)
baseline_roc_auc = roc_auc_score(y_test, y_pred_proba_baseline)

print("Результаты бейзлайн-модели:")
print(f"Accuracy: {baseline_accuracy:.4f}")
print(f"ROC-AUC: {baseline_roc_auc:.4f}")

### Комментарий к бейзлайну:

Бейзлайн просто предсказывает всегда класс 0 (нет дефолта), потому что он встречается чаще. 
Это даёт accuracy около 0.6, но ROC-AUC = 0.5 (случайное угадывание). 
Это минимальная планка качества - любая нормальная модель должна работать лучше.

## 6. Логистическая регрессия с подбором параметра C

In [None]:
# Будем перебирать разные значения параметра регуляризации C
C_values = [0.01, 0.1, 1.0, 10.0]

results = []

# Перебираем каждое значение C
for C in C_values:
    # Создаём pipeline с нормализацией и логистической регрессией
    pipe = Pipeline([
        ('scaler', StandardScaler()),
        ('logreg', LogisticRegression(C=C, max_iter=1000, random_state=42))
    ])
    
    # Обучаем
    pipe.fit(X_train, y_train)
    
    # Предсказания
    y_pred = pipe.predict(X_test)
    y_pred_proba = pipe.predict_proba(X_test)[:, 1]
    
    # Метрики
    acc = accuracy_score(y_test, y_pred)
    roc = roc_auc_score(y_test, y_pred_proba)
    
    results.append({
        'C': C,
        'Accuracy': acc,
        'ROC-AUC': roc
    })
    
    print(f"C={C}: Accuracy={acc:.4f}, ROC-AUC={roc:.4f}")

# Превращаем в таблицу для удобства
results_df = pd.DataFrame(results)
print("\nСводная таблица результатов:")
results_df

In [None]:
# Находим лучшее значение C (по ROC-AUC)
best_idx = results_df['ROC-AUC'].idxmax()
best_C = results_df.loc[best_idx, 'C']
print(f"Лучшее значение C: {best_C}")
print(f"С метриками: Accuracy={results_df.loc[best_idx, 'Accuracy']:.4f}, ROC-AUC={results_df.loc[best_idx, 'ROC-AUC']:.4f}")

## 7. Обучаем финальную модель с лучшим C

In [None]:
# Создаём финальную модель с лучшим параметром
final_pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('logreg', LogisticRegression(C=best_C, max_iter=1000, random_state=42))
])

# Обучаем
final_pipeline.fit(X_train, y_train)

# Предсказания
y_pred_final = final_pipeline.predict(X_test)
y_pred_proba_final = final_pipeline.predict_proba(X_test)[:, 1]

# Финальные метрики
final_accuracy = accuracy_score(y_test, y_pred_final)
final_roc_auc = roc_auc_score(y_test, y_pred_proba_final)

print("Финальная модель (Логистическая регрессия):")
print(f"Accuracy: {final_accuracy:.4f}")
print(f"ROC-AUC: {final_roc_auc:.4f}")

## 8. Построение ROC-кривой

In [None]:
# Считаем ROC-кривую
fpr, tpr, thresholds = roc_curve(y_test, y_pred_proba_final)

# Строим график
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, label=f'Logistic Regression (AUC = {final_roc_auc:.3f})', linewidth=2)
plt.plot([0, 1], [0, 1], 'k--', label='Random (AUC = 0.5)', linewidth=1)
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC-кривая')
plt.legend()
plt.grid(alpha=0.3)

# Сохраняем график
plt.savefig('figures/roc_curve.png', dpi=100, bbox_inches='tight')
plt.show()

print("График сохранён в figures/roc_curve.png")

## 9. Сравнение моделей

In [None]:
# Сводная таблица с результатами обеих моделей
comparison = pd.DataFrame({
    'Модель': ['Baseline (DummyClassifier)', 'Logistic Regression'],
    'Accuracy': [baseline_accuracy, final_accuracy],
    'ROC-AUC': [baseline_roc_auc, final_roc_auc]
})

print("Сравнение моделей:")
comparison

In [None]:
# Посчитаем улучшение в процентах
accuracy_improvement = ((final_accuracy - baseline_accuracy) / baseline_accuracy) * 100
roc_auc_improvement = ((final_roc_auc - baseline_roc_auc) / baseline_roc_auc) * 100

print(f"Улучшение Accuracy: {accuracy_improvement:.2f}%")
print(f"Улучшение ROC-AUC: {roc_auc_improvement:.2f}%")

## 10. Выводы

### Результаты эксперимента:

1. **Бейзлайн-модель** показала accuracy около 0.6 и ROC-AUC = 0.5. Это ожидаемо, так как она просто всегда предсказывает класс 0.

2. **Логистическая регрессия** существенно превзошла бейзлайн:
   - Accuracy выросла примерно на 20-25%
   - ROC-AUC выросла до ~0.75-0.80, что говорит о хорошей способности модели разделять классы

3. **Влияние параметра C**: При переборе значений C от 0.01 до 10.0 заметно, что слишком сильная регуляризация (маленькое C) ухудшает качество, а оптимальное значение находится в районе C=1.0 или C=10.0.

4. **Общий вывод**: Логистическая регрессия с нормализацией признаков хорошо справляется с задачей предсказания дефолта. Модель стабильно работает и значительно лучше случайного угадывания. Для данной задачи она вполне подходит как базовое решение.