В цьому домашньому завданні ми знову працюємо з даними з нашого змагання ["Bank Customer Churn Prediction (DLU Course)"](https://www.kaggle.com/t/7c080c5d8ec64364a93cf4e8f880b6a0).

Тут ми побудуємо рішення задачі класифікації з використанням kNearestNeighboors, знайдемо оптимальні гіперпараметри для цього методу і зробимо базові ансамблі. Це дасть змогу порівняти перформанс моделі з попередніми вивченими методами.

0. Зчитайте дані `train.csv` та зробіть препроцесинг використовуючи написаний Вами скрипт `process_bank_churn.py` так, аби в результаті отримати дані в розбитті X_train, train_targets, X_val, val_targets для експериментів.

  Якщо Вам не вдалось реалізувати в завданні `2.3. Дерева прийняття рішень` скрипт `process_bank_churn.py` - можна скористатись готовим скриптом з запропонованого рішення того завдання.

In [None]:
%load_ext autoreload
%autoreload 2

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.tree import plot_tree, export_text
from sklearn.metrics import classification_report

from process_bank_churn import preprocess_data

In [None]:
raw_df = pd.read_csv('train.csv')
X_train, train_targets, X_val, val_targets, input_cols, scaler, encoder = preprocess_data(raw_df, scale_numeric=True)



Увага! Для дерев нам не обовʼязково масштабувати ознаки, а от для kNN - важливо, бо інакше ознаки з більшим масштабом будуть більше впливати на визначення класу. Тому, тут, масштабуємо дані на початку.

1. Навчіть на цих даних класифікатор kNN з параметрами за замовченням і виміряйте точність з допомогою AUROC на тренувальному та валідаційному наборах. Зробіть заключення про отриману модель: вона хороша/погана, чи є high bias/high variance?

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
from sklearn.metrics import roc_curve, auc

def get_auroc(model, inputs, targets, dataset_name):
    preds = model.predict_proba(inputs)[:, 1]
    fpr, tpr, _ = roc_curve(targets, preds)
    auroc = round(auc(fpr, tpr), 4)
    print(f'{dataset_name} AUROC: {auroc:.4f}')
    return auroc

In [None]:
knn = KNeighborsClassifier()
knn.fit(X_train, train_targets)

get_auroc(knn, X_train, train_targets, 'Train')
get_auroc(knn, X_val, val_targets, 'Val');

Train AUROC: 0.8102
Val AUROC: 0.5587


Тут схоже одразу і high bias, і high variance, оскільки ско на валідації значно нижче, ніж на тренуванні, але при цьому скор на тренуванні нижче, ніж ми отримували для дерева прийняття рішень.

2. Використовуючи `GridSearchCV` знайдіть оптимальне значення параметра `n_neighbors` для класифікатора `kNN`. Псотавте крос валідацію на 5 фолдів.

  Після успішного завершення пошуку оптимального гіперпараметра
    - виведіть найкраще значення параметра
    - збережіть в окрему змінну `knn_best` найкращу модель, знайдену з `GridSearchCV`
    - оцініть якість передбачень  `knn_best` на тренувальній і валідаційній вибірці з допомогою AUROC.
    - зробіть висновок про якість моделі. Чи стала вона краще порівняно з попереднім пукнтом (2) цього завдання? Чи є вона краще за дерево прийняття рішень з попереднього ДЗ?

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
params_knn = {'n_neighbors': np.arange(1, 25)}
knn_gs = GridSearchCV(knn, params_knn, cv=5)
knn_gs.fit(X_train, train_targets)

In [None]:
knn_gs.best_params_

{'n_neighbors': 24}

In [None]:
knn_best = knn_gs.best_estimator_

print(knn_gs.best_params_, knn_gs.best_score_)

{'n_neighbors': 24} 0.7953333333333333


In [None]:
knn_best = knn_gs.best_estimator_

In [None]:
get_auroc(knn_best, X_train, train_targets, 'Train')
get_auroc(knn_best, X_val, val_targets, 'Val');

Train AUROC: 0.6794
Val AUROC: 0.6050


Модель стала менш заоверфічена, але все одно схоже не враховує всієї складності даних.

3. Виконайте пошук оптимальних гіперпараметрів для `DecisionTreeClassifier` з `GridSearchCV` за сіткою параметрів
  - `max_depth` від 1 до 20 з кроком 2
  - `max_leaf_nodes` від 2 до 10 з кроком 1

  Обовʼязково при цьому ініціюйте модель з фіксацією `random_state`.

  Поставте кросвалідацію на 3 фолди, `scoring='roc_auc'`, та виміряйте, скільки часу потребує пошук оптимальних гіперпараметрів.

  Після успішного завершення пошуку оптимальних гіперпараметрів
    - виведіть найкращі значення параметра
    - збережіть в окрему змінну `dt_best` найкращу модель, знайдену з `GridSearchCV`
    - оцініть якість передбачень  `dt_best` на тренувальній і валідаційній вибірці з допомогою AUROC.
    - зробіть висновок про якість моделі. Чи ця модель краща за ту, що ви знайшли вручну?

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
dt = DecisionTreeClassifier(random_state=42)
params_dt = {
    'max_depth': np.arange(1, 20, 2),
    'max_leaf_nodes': np.arange(2, 10)
    }
dt_gs = GridSearchCV(dt, params_dt, cv=3, scoring='roc_auc')
dt_gs.fit(X_train, train_targets)

In [None]:
dt_gs.best_params_

{'max_depth': 5, 'max_leaf_nodes': 9}

In [None]:
dt_best = dt_gs.best_estimator_
get_auroc(dt_best, X_train, train_targets, 'Train')
get_auroc(dt_best, X_val, val_targets, 'Val');

Train AUROC: 0.9001
Val AUROC: 0.8984


4. Виконайте пошук оптимальних гіперпараметрів для `DecisionTreeClassifier` з `RandomizedSearchCV` за заданою сіткою параметрів і кількість ітерацій 40.

  Поставте кросвалідацію на 3 фолди, `scoring='roc_auc'`, зафіксуйте `random_seed` процедури крос валідації та виміряйте, скільки часу потребує пошук оптимальних гіперпараметрів.

  Після успішного завершення пошуку оптимальних гіперпараметрів
    - виведіть найкращі значення параметра
    - збережіть в окрему змінну `dt_random_search_best` найкращу модель, знайдену з `RandomizedSearchCV`
    - оцініть якість передбачень  `dt_random_search_best` на тренувальній і валідаційній вибірці з допомогою AUROC.
    - зробіть висновок про якість моделі. Чи ця модель краща за ту, що ви знайшли з `GridSearch`?
    - проаналізуйте параметри `dt_random_search_best` і порівняйте з параметрами `dt_best` - яку бачите відмінність? Ця вправа потрібна аби зрозуміти, як різні налаштування `DecisionTreeClassifier` впливають на якість моделі.

In [None]:
from sklearn.model_selection import RandomizedSearchCV

In [None]:
dt = DecisionTreeClassifier(random_state=42)
params_dt = {
    'criterion': ['gini', 'entropy'],
    'splitter': ['best', 'random'],
    'max_depth': np.arange(1, 20),
    'max_leaf_nodes': np.arange(2, 20),
    'min_samples_split': [2, 5, 10, 20],
    'min_samples_leaf': [1, 2, 4, 8],
    'max_features': [None, 'sqrt', 'log2']
}

search = RandomizedSearchCV(
    dt,
    params_dt,
    n_iter = 40,
    cv=3,
    scoring='roc_auc',
    verbose=3,
    refit=True,
    random_state=42,
    n_jobs=-1 # задіяти всі процесори і розпаралелити пошук
)
search.fit(X_train, train_targets)

Fitting 3 folds for each of 40 candidates, totalling 120 fits


In [None]:
search.best_params_

{'splitter': 'best',
 'min_samples_split': 20,
 'min_samples_leaf': 2,
 'max_leaf_nodes': 14,
 'max_features': None,
 'max_depth': 16,
 'criterion': 'entropy'}

In [None]:
dt_random_search_best = search.best_estimator_
get_auroc(dt_random_search_best, X_train, train_targets, 'Train')
get_auroc(dt_random_search_best, X_val, val_targets, 'Val');

Train AUROC: 0.9169
Val AUROC: 0.9166


5. Якщо у Вас вийшла метрика `AUROC` в цій серії експериментів - зробіть ще один `submission` на Kaggle і додайте код для цього і скріншот скора на публічному лідерборді нижче.

Сподіваюсь на цьому етапі ви вже відчули себе справжнім дослідником 😉