# Лабораторная работа 8. Выбор оптимального классификатора

In [12]:
%matplotlib inline

import pandas as pd
import numpy as np

from sklearn.preprocessing import StandardScaler, MinMaxScaler, PolynomialFeatures
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier, GradientBoostingClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split



import warnings
warnings.filterwarnings('ignore')

В этой лабораторной работе вам потребуется выбрать наилучший классификатор с оптимальными параметрами для задачи про пассажиров ["Титаника"](https://ru.wikipedia.org/wiki/Титаник).

__Задание 1.__  
Загрузите данные (см. предыдущую лабораторную работу).

In [13]:
train_data = pd.read_csv('input/train.csv')
test_data = pd.read_csv('input/test.csv')

__Задание 2.__  
Проведите предобработку данных (см. предыдущую лабораторную работу).

Данные были предобработаны в лабораторной работе № 7

__Задание 3.__  
Примените масштабирование признаков (`StandardScaler`, `MinMaxScaler`).

In [14]:
numeric_features = ['Age', 'SibSp', 'Parch', 'Fare']

# Создание экземпляра StandardScaler
scaler_standard = StandardScaler()

# Масштабирование числовых признаков в обучающих данных
train_data[numeric_features] = scaler_standard.fit_transform(train_data[numeric_features])

# Масштабирование числовых признаков в тестовых данных
test_data[numeric_features] = scaler_standard.transform(test_data[numeric_features])

print("Обучающие данные после StandardScaler:")
print(train_data[numeric_features].head())
print("\nСтатистика после StandardScaler:")
print(train_data[numeric_features].describe())

# Создание экземпляра MinMaxScaler
scaler_minmax = MinMaxScaler()

# Масштабирование числовых признаков в обучающих данных
train_data[numeric_features] = scaler_minmax.fit_transform(train_data[numeric_features])

# Масштабирование числовых признаков в тестовых данных
test_data[numeric_features] = scaler_minmax.transform(test_data[numeric_features])

print("\nОбучающие данные после MinMaxScaler:")
print(train_data[numeric_features].head())
print("\nСтатистика после MinMaxScaler:")
print(train_data[numeric_features].describe())

Обучающие данные после StandardScaler:
        Age     SibSp     Parch      Fare
0 -0.095928  0.432793 -0.473674 -0.502445
1  0.806944  0.432793 -0.473674  0.786845
2  0.129790 -0.474545 -0.473674 -0.488854
3  0.637655  0.432793 -0.473674  0.420730
4  0.637655 -0.474545 -0.473674 -0.486337

Статистика после StandardScaler:
                Age         SibSp         Parch          Fare
count  8.910000e+02  8.910000e+02  8.910000e+02  8.910000e+02
mean   3.588600e-17  4.386066e-17  5.382900e-17  3.987333e-18
std    1.000562e+00  1.000562e+00  1.000562e+00  1.000562e+00
min   -1.365592e+00 -4.745452e-01 -4.736736e-01 -6.484217e-01
25%   -9.988002e-01 -4.745452e-01 -4.736736e-01 -4.891482e-01
50%    1.693075e-02 -4.745452e-01 -4.736736e-01 -3.573909e-01
75%    6.376552e-01  4.327934e-01 -4.736736e-01 -2.424635e-02
max    3.176983e+00  6.784163e+00  6.974147e+00  9.667167e+00

Обучающие данные после MinMaxScaler:
        Age  SibSp  Parch      Fare
0  0.279503  0.125    0.0  0.014151
1  0.47

__Задание 4.__  
Примените различные преобразования признаков (`PolynomialFeatures`).

In [15]:
# Создание экземпляра PolynomialFeatures
poly = PolynomialFeatures(degree=2, include_bias=False)

# Заполнение пропущенных значений средними значениями
numeric_features = ['Age', 'SibSp', 'Parch', 'Fare']
train_data[numeric_features] = train_data[numeric_features].fillna(train_data[numeric_features].mean())
test_data[numeric_features] = test_data[numeric_features].fillna(test_data[numeric_features].mean())

# Преобразование числовых признаков в обучающих данных
X_train_poly = poly.fit_transform(train_data[numeric_features])

# Преобразование числовых признаков в тестовых данных
X_test_poly = poly.transform(test_data[numeric_features])

# Получение названий новых признаков
new_feature_names = poly.get_feature_names_out(numeric_features)

# Создание DataFrame с новыми признаками
X_train_poly_df = pd.DataFrame(X_train_poly, columns=new_feature_names)
X_test_poly_df = pd.DataFrame(X_test_poly, columns=new_feature_names)

# Объединение новых признаков с исходными данными
train_data = pd.concat([train_data.drop(numeric_features, axis=1), X_train_poly_df], axis=1)
test_data = pd.concat([test_data.drop(numeric_features, axis=1), X_test_poly_df], axis=1)

print("Обучающие данные после преобразования:")
print(train_data.head())
print("\nФорма обучающих данных:", train_data.shape)
print("\nНовые признаки:")
print(new_feature_names)

Обучающие данные после преобразования:
   Unnamed: 0  PassengerId  Pclass  Pclass_1  Pclass_2  Pclass_3  Sex_female  \
0           0            1       3         0         0         1           0   
1           1            2       1         1         0         0           1   
2           2            3       3         0         0         1           1   
3           3            4       1         1         0         0           1   
4           4            5       3         0         0         1           0   

   Sex_male  Age_categories_Missing  Age_categories_Infant  ...     Age^2  \
0         1                       0                      0  ...  0.078122   
1         0                       0                      0  ...  0.228733   
2         0                       0                      0  ...  0.108368   
3         0                       0                      0  ...  0.194476   
4         1                       0                      0  ...  0.194476   

   Age SibSp  Age

__Задание 5.__  
Обучите несколько классификаторов, в том числе:  
1. Логистическую регрессию (`LogisticRegression`).
1. Метод опорных векторов (`SVC`).
1. Метод *k* ближайших соседей (`KNeighborsClassifier`).
1. Наивный байесовский классификатор (`MultinomialNB`).
1. Деревья решений (`DecisionTreeClassifier`).
1. Случайный лес (`RandomForestClassifier`).
1. AdaBoost (`AdaBoost`).
1. Градиентный бустинг (`GradientBoostingClassifier`).

Для обучения и проверки качества можно использовать функцию `train_test_split()`.

In [18]:
# Подготовка данных для обучения
X = train_data.drop('Survived', axis=1)
y = train_data['Survived']


# Разделение данных на обучающую (80%) и валидационную (20%) выборки
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Размеры выборок:")
print(f"Обучающая: {X_train.shape[0]} примеров")
print(f"Валидационная: {X_val.shape[0]} примеров")

# Создание списка классификаторов
classifiers = {
    'Логистическая регрессия': LogisticRegression(random_state=42),
    'Метод опорных векторов': SVC(random_state=42),
    'K-ближайших соседей': KNeighborsClassifier(),
    'Наивный Байес': MultinomialNB(),
    'Дерево решений': DecisionTreeClassifier(random_state=42),
    'Случайный лес': RandomForestClassifier(random_state=42),
    'AdaBoost': AdaBoostClassifier(random_state=42),
    'Градиентный бустинг': GradientBoostingClassifier(random_state=42)
}

# Обучение и оценка каждого классификатора
results = {}
for name, clf in classifiers.items():
    print(f"\n{'='*50}")
    print(f"Обучение {name}...")
    
    # Обучение модели
    clf.fit(X_train, y_train)
    
    # Предсказание на обучающих данных
    y_train_pred = clf.predict(X_train)
    train_accuracy = accuracy_score(y_train, y_train_pred)
    
    # Предсказание на валидационных данных
    y_val_pred = clf.predict(X_val)
    val_accuracy = accuracy_score(y_val, y_val_pred)
    
    print(f"\nМетрики качества:")
    print(f"Точность (Accuracy) на обучении: {train_accuracy:.4f}")
    print(f"Точность (Accuracy) на валидации: {val_accuracy:.4f}")
    
    print("\nОтчет о классификации (валидация):")
    print(classification_report(y_val, y_val_pred))
    
    # Вывод вероятностей для каждого класса (если поддерживается)
    if hasattr(clf, 'predict_proba'):
        y_proba = clf.predict_proba(X_val)
        print("\nСредние вероятности классов (валидация):")
        print(f"Класс 0 (не выжил): {y_proba[:, 0].mean():.4f}")
        print(f"Класс 1 (выжил): {y_proba[:, 1].mean():.4f}")
    
    # Для деревьев и лесов выведем важность признаков
    if hasattr(clf, 'feature_importances_'):
        feature_importance = pd.DataFrame({
            'Признак': X.columns,
            'Важность': clf.feature_importances_
        }).sort_values('Важность', ascending=False)
        print("\nТоп-5 важных признаков:")
        print(feature_importance.head())
    
    # Сохранение результатов для сравнения
    results[name] = {
        'Train Accuracy': train_accuracy,
        'Validation Accuracy': val_accuracy
    }

# Вывод сводной таблицы результатов
print("\nСводная таблица результатов:")
results_df = pd.DataFrame.from_dict(results, orient='index')
print(results_df.sort_values('Validation Accuracy', ascending=False))

Размеры выборок:
Обучающая: 712 примеров
Валидационная: 179 примеров

Обучение Логистическая регрессия...

Метрики качества:
Точность (Accuracy) на обучении: 1.0000
Точность (Accuracy) на валидации: 1.0000

Отчет о классификации (валидация):
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       110
           1       1.00      1.00      1.00        69

    accuracy                           1.00       179
   macro avg       1.00      1.00      1.00       179
weighted avg       1.00      1.00      1.00       179


Средние вероятности классов (валидация):
Класс 0 (не выжил): 0.6155
Класс 1 (выжил): 0.3845

Обучение Метод опорных векторов...

Метрики качества:
Точность (Accuracy) на обучении: 0.6559
Точность (Accuracy) на валидации: 0.6145

Отчет о классификации (валидация):
              precision    recall  f1-score   support

           0       0.61      1.00      0.76       110
           1       0.00      0.00      0.00        69

  

__Задание 6.__  
При помощи `Pipeline` и `GridSearchCV` выберите оптимальную архитектуру:
1. Метод масштабирования.
1. Степень полинома в `PolynomialFeatures`.
1. Параметры классификаторов (в том числе, параметры регуляризации).

Заносите в таблицу Excel результаты тестирования (варианты параметров, оценки качества).

In [20]:
# Подготовка данных
X = train_data.drop('Survived', axis=1)
y = train_data['Survived']

# Разделение на обучающую и валидационную выборки
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

print("Размеры выборок:")
print(f"Обучающая выборка: {X_train.shape}")
print(f"Валидационная выборка: {X_val.shape}")

# Определение пайплайнов и их параметров
pipelines = {
    'Логистическая регрессия': Pipeline([
        ('scaler', StandardScaler()),
        ('poly', PolynomialFeatures()),
        ('clf', LogisticRegression())
    ]),
    'SVM': Pipeline([
        ('scaler', StandardScaler()),
        ('poly', PolynomialFeatures()),
        ('clf', SVC())
    ]),
    'Случайный лес': Pipeline([
        ('poly', PolynomialFeatures()),
        ('clf', RandomForestClassifier())
    ]),
    'Градиентный бустинг': Pipeline([
        ('poly', PolynomialFeatures()),
        ('clf', GradientBoostingClassifier())
    ])
}

# Параметры для GridSearchCV
param_grids = {
    'Логистическая регрессия': {
        'scaler': [StandardScaler(), MinMaxScaler()],
        'poly__degree': [1, 2, 3],
        'clf__C': [0.1, 1, 10],
        'clf__penalty': ['l1', 'l2'],
        'clf__solver': ['liblinear']
    },
    'SVM': {
        'scaler': [StandardScaler(), MinMaxScaler()],
        'poly__degree': [1, 2],
        'clf__C': [0.1, 1, 10],
        'clf__kernel': ['rbf', 'linear'],
        'clf__gamma': ['scale', 'auto']
    },
    'Случайный лес': {
        'poly__degree': [1, 2],
        'clf__n_estimators': [100, 200],
        'clf__max_depth': [None, 10, 20],
        'clf__min_samples_split': [2, 5],
        'clf__min_samples_leaf': [1, 2]
    },
    'Градиентный бустинг': {
        'poly__degree': [1, 2],
        'clf__n_estimators': [100, 200],
        'clf__learning_rate': [0.01, 0.1],
        'clf__max_depth': [3, 5],
        'clf__subsample': [0.8, 1.0]
    }
}

# Обучение и оценка каждого пайплайна
results = {}
for name, pipeline in pipelines.items():
    print(f"\n{'='*50}")
    print(f"Оптимизация {name}...")
    
    # Создание GridSearchCV
    grid_search = GridSearchCV(
        pipeline,
        param_grids[name],
        cv=5,
        scoring='accuracy',
        n_jobs=-1,
        verbose=1
    )
    
    # Обучение на обучающей выборке
    grid_search.fit(X_train, y_train)
    
    # Оценка на валидационной выборке
    val_score = grid_search.score(X_val, y_val)
    
    # Вывод результатов
    print(f"\nЛучшие параметры для {name}:")
    for param, value in grid_search.best_params_.items():
        print(f"{param}: {value}")
    
    print(f"\nЛучший результат на обучающей выборке: {grid_search.best_score_:.4f}")
    print(f"Результат на валидационной выборке: {val_score:.4f}")
    
    # Сохранение результатов
    results[name] = {
        'best_params': grid_search.best_params_,
        'train_score': grid_search.best_score_,
        'val_score': val_score,
        'cv_results': pd.DataFrame(grid_search.cv_results_)
    }

# Создание сводной таблицы результатов
summary = pd.DataFrame({
    'Классификатор': list(results.keys()),
    'Точность на обучающей': [results[name]['train_score'] for name in results.keys()],
    'Точность на валидационной': [results[name]['val_score'] for name in results.keys()]
}).sort_values('Точность на валидационной', ascending=False)

print("\nСводная таблица результатов:")
print(summary)

# Сохранение результатов в Excel
with pd.ExcelWriter('grid_search_results.xlsx') as writer:
    summary.to_excel(writer, sheet_name='Сводная таблица', index=False)
    
    for name, result in results.items():
        result['cv_results'].to_excel(writer, sheet_name=f'{name[:30]}', index=False)

Размеры выборок:
Обучающая выборка: (712, 29)
Валидационная выборка: (179, 29)

Оптимизация Логистическая регрессия...
Fitting 5 folds for each of 36 candidates, totalling 180 fits

Лучшие параметры для Логистическая регрессия:
clf__C: 0.1
clf__penalty: l1
clf__solver: liblinear
poly__degree: 1
scaler: StandardScaler()

Лучший результат на обучающей выборке: 1.0000
Результат на валидационной выборке: 1.0000

Оптимизация SVM...
Fitting 5 folds for each of 48 candidates, totalling 240 fits

Лучшие параметры для SVM:
clf__C: 0.1
clf__gamma: scale
clf__kernel: rbf
poly__degree: 1
scaler: MinMaxScaler()

Лучший результат на обучающей выборке: 1.0000
Результат на валидационной выборке: 1.0000

Оптимизация Случайный лес...
Fitting 5 folds for each of 48 candidates, totalling 240 fits

Лучшие параметры для Случайный лес:
clf__max_depth: None
clf__min_samples_leaf: 1
clf__min_samples_split: 2
clf__n_estimators: 100
poly__degree: 1

Лучший результат на обучающей выборке: 1.0000
Результат на вали

__Задание 7.__  
1. Выберите несколько лучших классификаторов (от 3 до 10).
1. Обучите выбранные классификаторы на всех доступных размеченных данных.
1. Получите результаты предсказания для тестовых данных.
1. Отправьте результаты на сервер [Kaggle](https://ru.wikipedia.org/wiki/Титаник).

In [21]:
# Выбор лучших классификаторов
best_classifiers = {
    'Случайный лес': RandomForestClassifier(random_state=42),
    'Градиентный бустинг': GradientBoostingClassifier(random_state=42),
    'Логистическая регрессия': LogisticRegression(random_state=42)
}

# Подготовка данных
X = train_data.drop('Survived', axis=1)
y = train_data['Survived']

# Обучение и оценка лучших классификаторов
results = {}
for name, clf in best_classifiers.items():
    print(f"\n{'='*50}")
    print(f"Обучение {name}...")
    
    # Обучение модели
    clf.fit(X, y)
    
    # Предсказание на обучающих данных
    y_train_pred = clf.predict(X)
    train_accuracy = accuracy_score(y, y_train_pred)
    
    print(f"\nМетрики качества на обучающих данных:")
    print(f"Точность (Accuracy): {train_accuracy:.4f}")
    print("\nОтчет о классификации:")
    print(classification_report(y, y_train_pred))
    
    # Предсказание на тестовых данных
    y_test_pred = clf.predict(test_data)
    results[name] = y_test_pred
    
    # Вывод важности признаков для моделей, которые это поддерживают
    if hasattr(clf, 'feature_importances_'):
        feature_importance = pd.DataFrame({
            'Признак': X.columns,
            'Важность': clf.feature_importances_
        }).sort_values('Важность', ascending=False)
        print("\nТоп-5 важных признаков:")
        print(feature_importance.head())

# Создание ансамбля предсказаний (голосование большинством)
ensemble_predictions = np.zeros(len(test_data))
for name, preds in results.items():
    ensemble_predictions += preds
ensemble_predictions = (ensemble_predictions >= 2).astype(int)

# Создание DataFrame с предсказаниями для отправки на Kaggle
submission = pd.DataFrame({
    'PassengerId': test_data['PassengerId'],
    'Survived': ensemble_predictions
})

# Сохранение результатов
submission.to_csv('submission.csv', index=False)
print("\nРезультаты сохранены в файл submission.csv")

# Вывод статистики предсказаний
print("\nСтатистика предсказаний:")
for name, preds in results.items():
    print(f"\n{name}:")
    print(f"Выживших: {sum(preds)}")
    print(f"Не выживших: {len(preds) - sum(preds)}")

print("\nАнсамбль:")
print(f"Выживших: {sum(ensemble_predictions)}")
print(f"Не выживших: {len(ensemble_predictions) - sum(ensemble_predictions)}")


Обучение Случайный лес...

Метрики качества на обучающих данных:
Точность (Accuracy): 1.0000

Отчет о классификации:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       577
           1       1.00      1.00      1.00       314

    accuracy                           1.00       891
   macro avg       1.00      1.00      1.00       891
weighted avg       1.00      1.00      1.00       891


Топ-5 важных признаков:
       Признак  Важность
7     Sex_male  0.453156
6   Sex_female  0.438068
18        Fare  0.021477
28      Fare^2  0.012443
21   Age Parch  0.008612

Обучение Градиентный бустинг...

Метрики качества на обучающих данных:
Точность (Accuracy): 1.0000

Отчет о классификации:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       577
           1       1.00      1.00      1.00       314

    accuracy                           1.00       891
   macro avg       1.00      1.00     