<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка-данных" data-toc-modified-id="Подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка данных</a></span></li><li><span><a href="#Исследование-задачи" data-toc-modified-id="Исследование-задачи-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Исследование задачи</a></span></li><li><span><a href="#Борьба-с-дисбалансом" data-toc-modified-id="Борьба-с-дисбалансом-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Борьба с дисбалансом</a></span></li><li><span><a href="#Тестирование-модели" data-toc-modified-id="Тестирование-модели-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Тестирование модели</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Общий вывод</a></span></li><li><span><a href="#Чек-лист-готовности-проекта" data-toc-modified-id="Чек-лист-готовности-проекта-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Чек-лист готовности проекта</a></span></li></ul></div>

# Отток клиентов

Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.

Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. 

Постройте модель с предельно большим значением *F1*-меры. Чтобы сдать проект успешно, нужно довести метрику до 0.59. Проверьте *F1*-меру на тестовой выборке самостоятельно.

Дополнительно измеряйте *AUC-ROC*, сравнивайте её значение с *F1*-мерой.

Источник данных: [https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling](https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling)

## Подготовка данных

Мы имеем задачу бинарной классификации. В исследовании будут использоваться 3 модели ML: дерево решений, случайный лес и логистическая регрессия.

In [5]:
import pandas as pd
import numpy as np
from sklearn.metrics import f1_score
from sklearn.metrics import roc_curve,auc
from sklearn.metrics import roc_auc_score
from sklearn.metrics import classification_report
from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import RandomizedSearchCV
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import PredefinedSplit
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='darkgrid')
np.random.seed(0)

ModuleNotFoundError: No module named 'pandas'

In [None]:
data = pd.read_csv('/datasets/Churn.csv')

In [None]:
data.sample(5)

Целевой признак - Exited. (1 - уход клиента / 0 - клиент остался)

Такие признаки как RowNumber (Индекс строки), CustomerId (Уникальный идентификатор) и Surname (Фамилия) не несут абсолютно никакой смысловой нагрузки для обучения модели. Для того, чтобы модель не выявила ложной корреляции, удалим эти признаки.

Изменения внесем в копию!

In [None]:
data_new = data.copy(deep=True)
data_new = data_new.drop(['RowNumber','CustomerId','Surname'], axis=1)

In [None]:
data_new.info()

Здесь видно, что атрибут Tenure (сколько лет человек является клиентом банка) имеет около 10% пропусков.

In [None]:
data_new['Tenure'].hist(grid=True,bins=10)
data_new['Tenure'].value_counts(normalize=True,sort=True)

In [None]:
data_new.corr().loc['Tenure']

Так как данные атрибута Tenure не имеют значительной корреляции с другими атрибутами и очевидно, что эти данные пропущены не случайно - можно сделать вывод, что они имееют корреляцию с неизвестными нам факторами. Поэтому простое удаление исказит статистические свойства выборки. Заполним случайными значениями пропуски.

In [None]:
import random
data_new["Tenure"] = data_new["Tenure"].apply(lambda x: x if not np.isnan(x) else np.random.randint(0,11))

In [None]:
data_new["Tenure"].isnull().value_counts()

Также два признака Geography и Gender являются категориальными. Для правильного обучения логистической регрессии нужно применить прямое кодирование OHE.

In [None]:
data_new["Gender"].value_counts()

In [None]:
data_new["Geography"].value_counts()

In [None]:
data_new_ohe = pd.get_dummies(data_new,columns=['Gender','Geography'],drop_first=True)

In [None]:
data_new_ohe.tail()

## Исследование задачи

Посмотрим на корреляцию признаков

In [None]:
fig,ax = plt.subplots(figsize=(10,10))
data_corr = round(data_new.corr(),2)
corr_plot = sns.heatmap(data_corr, annot=True, cmap='YlGnBu')

В общем корелляция очень слабая; со значением 0.4 коррелирует баланс на счете и клиенты из Германии. Но это не большое значение! Также наблюдается небольшая корелляция между балансом счета и количеством продуктов банка

В данном иследовании - основная цель - исследовать текущих клиентов на возможность ухода из банка. При оценке качества обученных моделей будем использовать 2 основных метрики: f1-score и ROC AUC. Стоит отметить, что F мера более устойчива к дисбалансу классов, чем ROC AUC.

## Борьба с дисбалансом

В данном разделе проверим данные на дисбаланс классов

In [None]:
count_class_0, count_class_1 = data_new.Exited.value_counts()
print(f'0 class {count_class_0}')
print(f'1 class {count_class_1}')

Для начала разобьем данные на train и test

In [None]:
df_train, df_test = train_test_split(data_new_ohe,test_size=0.25)
feat_test = df_test.drop(columns=['Exited'],axis=1)
target_test = df_test['Exited']

Проверим дисбаланс в тестовом и тренировочном датафреймах

In [None]:
count_class_0, count_class_1 = df_test.Exited.value_counts()
print('TEST DF')
print(f'0 class {count_class_0}')
print(f'1 class {count_class_1}')

Дисбаланс классов в тестовых данных есть, их оставляем!

In [None]:
count_class_0, count_class_1 = df_train.Exited.value_counts()
print('TRAIN DF')
print(f'0 class {count_class_0}')
print(f'1 class {count_class_1}')

Исправим дисбаланс классов в тренировочных данных

In [None]:
data_class_0 = df_train.query('Exited == 0')
data_class_1 = df_train.query('Exited == 1')
data_class_0.shape, data_class_1.shape

In [None]:
data_class_0_under = data_class_0.sample(count_class_1)

In [None]:
data_class_0_under.shape

In [None]:
data_train = pd.concat([data_class_1, data_class_0_under],axis=0)
data_train = shuffle(data_train)
feat_train = data_train.drop(columns=['Exited'],axis=1)
target_train = data_train['Exited']

In [None]:
target_train.value_counts(normalize=True)

Нужно стандартизировать данные!

In [None]:
cols_to_scale = ['CreditScore','Age','Tenure','Balance','NumOfProducts','EstimatedSalary']
scaler = StandardScaler()
scaler.fit(feat_train[cols_to_scale])
feat_train[cols_to_scale] = scaler.transform(feat_train[cols_to_scale])
feat_test[cols_to_scale] = scaler.transform(feat_test[cols_to_scale])

In [None]:
pd.set_option('display.float_format', lambda x: '%0.4f' % x)
feat_train.describe().loc[['mean','std','max']]

## Тестирование модели

`Дерево решений`

In [None]:
params = {'max_depth':range(2,20),
         'criterion':['gini','entropy']}
DTC_model = GridSearchCV(DecisionTreeClassifier(),
                         param_grid=params,
                        cv = 5,
                        n_jobs=-1,
                        scoring='f1')
DTC_model.fit(feat_train,target_train)

In [None]:
DTC_model.best_params_

In [None]:
f1_score_train = round(DTC_model.best_score_,4)
print(f'F1 мера на тренировочных данных {f1_score_train}')

In [None]:
predictions_DTC = DTC_model.predict(feat_test)

Теперь проверим результат на тестовых данных!

In [None]:
print(classification_report(target_test, predictions_DTC))

In [None]:
f1_score_test = round(f1_score(target_test, predictions_DTC),4)
print(f'F1 мера на тестовых данных {f1_score_test}')

- Основная метрика (F1) = 0.5763

`Случайный лес`

In [None]:
params = {'max_depth':range(1,30),
         'n_estimators':range(1,50,2),
         'min_samples_leaf':range(1,6)}
RFC_model = RandomizedSearchCV(RandomForestClassifier(),
                              param_distributions=params,
                              cv=5,
                              n_iter=20,
                              scoring='f1')
RFC_model.fit(feat_train,target_train)

In [None]:
RFC_model.best_params_

In [None]:
f1_score_train = round(RFC_model.best_score_,4)
print(f'F1 мера на тренировочных данных {f1_score_train}')

In [None]:
predictions_RFC = RFC_model.predict(feat_test)
f1_score_test = round(f1_score(target_test, predictions_RFC),4)
print(f'F1 мера на тестовых данных {f1_score_test}')

- Основная метрика (F1) = 0.6199

`Логистическая регрессия`

In [None]:
params = {
    'max_iter':[10,30,50,100,150,500,700],
    'solver':['lbfgs','liblinear'],
     'penalty':['l2']}
LR_model = GridSearchCV(LogisticRegression(),
                        param_grid=params,
                       cv=5,
                       n_jobs=-1,
                       scoring='f1')
LR_model.fit(feat_train,target_train)

In [None]:
LR_model.best_params_

In [None]:
f1_score_train = round(LR_model.best_score_,4)
print(f'F1 мера на тренировочных данных {f1_score_train}')

In [None]:
predictions_LR = LR_model.predict(feat_test)
f1_score_test = round(f1_score(target_test, predictions_LR),4)
print(f'F1 мера на тестовых данных {f1_score_test}')

- Основная метрика(F1) = 0.5072

***ROC AUC***

In [None]:
#метрика roc_auc
pred_prob_DTC = DTC_model.predict_proba(feat_test)[:,1]
pred_prob_RFC = RFC_model.predict_proba(feat_test)[:,1]
pred_prob_LR = LR_model.predict_proba(feat_test)[:,1]

In [None]:
print(pred_prob_DTC.shape)
pred_prob_DTC

In [None]:
#код ревьюера
pd.Series(pred_prob_DTC).value_counts()

In [None]:
roc_auc_DTC = round(roc_auc_score(target_test, pred_prob_DTC),4)
roc_auc_RFC = round(roc_auc_score(target_test, pred_prob_RFC),4)
roc_auc_LR = round(roc_auc_score(target_test, pred_prob_LR),4)

In [None]:
list_names = ['Дерево решений','Случайный лес','Логистическая регрессия']
list_values = [roc_auc_DTC, roc_auc_RFC, roc_auc_LR]

ax = sns.barplot(list_values, list_names)
for i in ax.patches:
    width = i.get_width()
    ax.text(i.get_width() + 0.05, i.get_y() + 0.5, round(width,2), ha='center', va='bottom')
ax.set_title('ROC AUC scoring')

In [None]:
fpr_1, tpr_1, threshold_1 = roc_curve(target_test, pred_prob_DTC)
roc_auc_1 = auc(fpr_1, tpr_1)
fpr_2, tpr_2, threshold_2 = roc_curve(target_test, pred_prob_RFC)
roc_auc_2 = auc(fpr_2, tpr_2)
fpr_3, tpr_3, threshold_3 = roc_curve(target_test, pred_prob_LR)
roc_auc_3 = auc(fpr_3,tpr_3)

In [None]:
list_fpr = [fpr_1, fpr_2, fpr_3]
list_tpr = [tpr_1, tpr_2, tpr_3]
list_roc_auc = [roc_auc_1,roc_auc_2,roc_auc_3]

fig,ax = plt.subplots()
for fpr, tpr, roc_auc, name in zip(list_fpr, list_tpr,list_roc_auc,list_names):
    ax.plot(fpr,tpr,
           label=f'{name} (area = %0.2f)' % roc_auc)
ax.set_title("Roc curve")
ax.set_xlabel("True Positive Rate")
ax.set_ylabel("False Positive Rate")
ax.legend(loc='best')

## Общий вывод

В результате исследования получили лучшую модель - случайный лес. 

- Метрика F1 мера = 0.6199
- Метрика AUC мера = 0.88

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные подготовлены
- [x]  Выполнен шаг 2: задача исследована
    - [x]  Исследован баланс классов
    - [x]  Изучены модели без учёта дисбаланса
    - [x]  Написаны выводы по результатам исследования
- [x]  Выполнен шаг 3: учтён дисбаланс
    - [x]  Применено несколько способов борьбы с дисбалансом
    - [x]  Написаны выводы по результатам исследования
- [x]  Выполнен шаг 4: проведено тестирование
- [x]  Удалось достичь *F1*-меры не менее 0.59
- [x]  Исследована метрика *AUC-ROC*