# Отток клиентов

Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.

Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. 

Постройте модель с предельно большим значением *F1*-меры. Чтобы сдать проект успешно, нужно довести метрику до 0.59. Проверьте *F1*-меру на тестовой выборке самостоятельно.

Дополнительно измеряйте *AUC-ROC*, сравнивайте её значение с *F1*-мерой.

Источник данных: [https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling](https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling)

1. [ПОДГОТОВКА ДАННЫХ](#shag_1)

2. [ИССЛЕДОВАНИЕ ЗАДАЧИ](#shag_2)

3. [БОРЬБА С ДИСБАЛАНСОМ](#shag_3)

4. [ТЕСТИРОВАНИЕ МОДЕЛИ](#shag_4)


<a id='shag_1'></a>

# 1. Подготовка данных

Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком.
Постройте модель с предельно большим значением F1-меры. Чтобы сдать проект успешно, нужно довести метрику до 0.59. Проверьте F1-меру на тестовой выборке самостоятельно.
Дополнительно измеряйте AUC-ROC, сравнивайте её значение с F1-мерой.
Инструкция по выполнению проекта
Загрузите и подготовьте данные. Поясните порядок действий.
Исследуйте баланс классов, обучите модель без учёта дисбаланса. Кратко опишите выводы.
Улучшите качество модели, учитывая дисбаланс классов. Обучите разные модели и найдите лучшую. Кратко опишите выводы.
Проведите финальное тестирование.

Как вы готовите данные к обучению? Все ли типы признаков обрабатываете?
Хорошо ли поясняете этапы предобработки?
Как исследуете баланс классов?
Изучаете ли модель без учёта дисбаланса классов?
Какие выводы об исследовании задачи делаете?
Корректно ли разбиваете данные на выборки?
Как работаете с несбалансированными классами?
Правильно ли проводите обучение, валидацию и финальное тестирование модели?
Насколько высокое значение F1-меры получаете?
Изучаете ли значения метрики AUC-ROC?
Следите за структурой проекта и поддерживаете аккуратность кода?

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns; sns.set(style="ticks", color_codes=True)
import datetime
#import plotly.graph_objs as go
from scipy import stats as st
from scipy.stats import bartlett
#from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.dummy import DummyClassifier
from sklearn.preprocessing import OrdinalEncoder, StandardScaler
from sklearn.utils import shuffle
from sklearn.metrics import precision_score, recall_score, roc_auc_score, f1_score, accuracy_score

In [2]:
data = pd.read_csv('/datasets/Churn.csv')
display(data)
print(data.info())

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.00,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8.0,159660.80,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1.0,0.00,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5.0,0.00,2,1,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10.0,57369.61,1,1,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7.0,0.00,1,0,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3.0,75075.31,2,1,0,92888.52,1


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
RowNumber          10000 non-null int64
CustomerId         10000 non-null int64
Surname            10000 non-null object
CreditScore        10000 non-null int64
Geography          10000 non-null object
Gender             10000 non-null object
Age                10000 non-null int64
Tenure             9091 non-null float64
Balance            10000 non-null float64
NumOfProducts      10000 non-null int64
HasCrCard          10000 non-null int64
IsActiveMember     10000 non-null int64
EstimatedSalary    10000 non-null float64
Exited             10000 non-null int64
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB
None


Номер строки, айди и имя не влияют на результат. Избавимся от этих столбцов. Также видим, что Tenure имеет пропущенные значения.

In [3]:
data = data.drop(['RowNumber', 'CustomerId', 'Surname'], axis=1)
data.Tenure.fillna(0, inplace=True)

Есть категориальные признаки: пол и страна. 

In [4]:
features = data.drop('Exited',1)
target = data['Exited']
features = pd.get_dummies(features, drop_first=True)

Разделим данные на выборки и проверим размеры выборок.

In [5]:
features_t, features_valid, target_t, target_valid = train_test_split(
    features, target, test_size=0.20, random_state=12345) 

features_train, features_test, target_train, target_test = train_test_split(
    features_t, target_t, test_size=0.25, random_state=12345) 
print(features_test.shape)
print(target_test.shape)
print(features_valid.shape)
print(target_valid.shape)
print(features_train.shape)
print(target_train.shape)

(2000, 11)
(2000,)
(2000, 11)
(2000,)
(6000, 11)
(6000,)


In [6]:
data.groupby(['Gender', 'Geography']).size().reset_index(name='counts')

Unnamed: 0,Gender,Geography,counts
0,Female,France,2261
1,Female,Germany,1193
2,Female,Spain,1089
3,Male,France,2753
4,Male,Germany,1316
5,Male,Spain,1388


Количество значений по признакам достаточное, чтобы не было перевеса на один из признаков.

<a id='shag_2'></a>

# 2. Исследование задачи

Для повторяющегося кода введем функцию

In [7]:
def DecisionTreeClassifier_class_weight(features, target, class_w):
    best_score = 0
    best_depth = 0
    best_auc_roc = 0
    for depth in range(1, 16, 1):
        model = DecisionTreeClassifier(class_weight=class_w, max_depth=depth, random_state=12345).fit(features, target)
        f1 = f1_score(target_valid, model.predict(features_valid))
        probabilities_valid = model.predict_proba(features_valid)
        probabilities_one_valid = probabilities_valid[:, 1]
        auc_roc = roc_auc_score(target_valid, probabilities_one_valid, average=None)
        if f1 > best_score:
            best_score = f1
            best_depth = depth
            best_auc_roc = auc_roc
    print('Лучший f1_score: ', best_score,'Лучшая глубина: ', best_depth, 'best_auc_roc', best_auc_roc)

In [8]:
DecisionTreeClassifier_class_weight(features_train, target_train, None)

  'precision', 'predicted', average, warn_for)


Лучший f1_score:  0.5669515669515669 Лучшая глубина:  5 best_auc_roc 0.8483788938334392


В нашей модели значение F1 не достигает необходимого по условию 0.59. Проверим также другую модель на данной выборке.

In [22]:
def LogisticRegression_class_weight(features, target):
    best_score = 0
    best_depth = 0
    best_auc_roc = 0
    for solver in ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga']:
        model = LogisticRegression(solver=solver, random_state=12345).fit(features, target)
        f1 = f1_score(target_valid, model.predict(features_valid))
        probabilities_valid = model.predict_proba(features_valid)
        probabilities_one_valid = probabilities_valid[:, 1]
        auc_roc = roc_auc_score(target_valid, probabilities_one_valid, average=None)
        if f1 > best_score:
            best_solver = solver
            best_score = f1
            best_auc_roc = auc_roc
    print('Лучший f1_score: ', best_score,'Лучшая solver: ', solver, 'best_auc_roc', best_auc_roc)
LogisticRegression_class_weight(features_train, target_train)

  'precision', 'predicted', average, warn_for)


Лучший f1_score:  0.2821428571428572 Лучшая solver:  saga best_auc_roc 0.7563286192198264


  'precision', 'predicted', average, warn_for)


В данном случае f1_score еще ниже = 0.28.

In [10]:
print(target[target == 0].count())
print(target[target == 1].count())

7963
2037


Видим, что значений класса 1 примерно в 4 раза меньше, чем значений класса 0.

<a id='shag_3'></a>

# 3. Борьба с дисбалансом

Попробуем модель DecisionTreeClassifier со значением параметра class_weight = 'balanced':

In [11]:
DecisionTreeClassifier_class_weight(features_train, target_train, 'balanced')

Лучший f1_score:  0.5933852140077821 Лучшая глубина:  6 best_auc_roc 0.8180962107936771


Теперь f1_score = 0.59 и удовлетворяет условию. При это значение  auc_roc стало 0.81, вместо 0.84.

Увеличим выборку с классом 1 в 4 раза:

In [13]:
#увеличение выборки
def upsample(features, target, repeat):
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]

    features_upsampled = pd.concat([features_zeros] + [features_ones] * repeat)
    target_upsampled = pd.concat([target_zeros] + [target_ones] * repeat)
    
    features_upsampled, target_upsampled = shuffle(
        features_upsampled, target_upsampled, random_state=12345)
    
    return features_upsampled, target_upsampled

features_upsampled, target_upsampled = upsample(features_train, target_train, 4)

In [16]:
DecisionTreeClassifier_class_weight(features_upsampled, target_upsampled, None)

Лучший f1_score:  0.5933852140077821 Лучшая глубина:  6 best_auc_roc 0.8180560125418546


Результат после ручного увеличения малочисленного класса получился аналогичным модели в параметром class_weight = 'balanced'.

In [15]:
LogisticRegression_class_weight(features_upsampled, target_upsampled)



Лучший f1_score:  0.5058236272878536 Лучшая solver:  saga best_auc_roc 0.7640079741421023




Модель LogisticRegression после ручного увеличения малочисленного класса стала значительно эффективнее. Но пока F1 ниже необходимого.

Попробуем добиться баланса через уменьшение выборки

In [23]:
def downsample(features, target, fraction):
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]

    features_downsampled = pd.concat(
        [features_zeros.sample(frac=fraction, random_state=12345)] + [features_ones])
    target_downsampled = pd.concat(
        [target_zeros.sample(frac=fraction, random_state=12345)] + [target_ones])
    
    features_downsampled, target_downsampled = shuffle(
        features_downsampled, target_downsampled, random_state=12345)
    
    return features_downsampled, target_downsampled

features_downsampled, target_downsampled = downsample(features_train, target_train, 0.32)

Посмотрим какого значения F1 и AUC-ROC можем добиться в зависимости от фракции

In [24]:
for fraction in range(20, 40, 1):
    features_downsampled, target_downsampled = downsample(features_train, target_train, fraction/100)
    print(fraction/100)
    DecisionTreeClassifier_class_weight(features_downsampled, target_downsampled, None)

0.2
Лучший f1_score:  0.5672131147540984 Лучшая глубина:  5 best_auc_roc 0.8244408348730257
0.21
Лучший f1_score:  0.5764809902740937 Лучшая глубина:  5 best_auc_roc 0.8423826546032209
0.22
Лучший f1_score:  0.5826630920464702 Лучшая глубина:  6 best_auc_roc 0.8318812335205777
0.23
Лучший f1_score:  0.5687285223367697 Лучшая глубина:  6 best_auc_roc 0.8176711515012559
0.24
Лучший f1_score:  0.5790934320074006 Лучшая глубина:  6 best_auc_roc 0.8292489924382622
0.25
Лучший f1_score:  0.582210242587601 Лучшая глубина:  7 best_auc_roc 0.8218889902943554
0.26
Лучший f1_score:  0.6022155085599195 Лучшая глубина:  7 best_auc_roc 0.8282194705443588
0.27
Лучший f1_score:  0.6028225806451613 Лучшая глубина:  7 best_auc_roc 0.8187967025522912
0.28
Лучший f1_score:  0.6089552238805971 Лучшая глубина:  7 best_auc_roc 0.8285909321676833
0.29
Лучший f1_score:  0.6153846153846153 Лучшая глубина:  6 best_auc_roc 0.8385675427404191
0.3
Лучший f1_score:  0.6146146146146145 Лучшая глубина:  7 best_auc_roc

Итак, хороший результат получаем при фракции 0.32

In [25]:
DecisionTreeClassifier_class_weight(features_downsampled, target_downsampled, None)

Лучший f1_score:  0.622356495468278 Лучшая глубина:  6 best_auc_roc 0.8383159314604918


Со значением фракции 0.25 значение F1 было бы близким к значению F1, полученным при upsample. Но благодаря оптимизации фракции, удалось добиться значения F1 0.62.

In [26]:
LogisticRegression_class_weight(features_downsampled, target_downsampled)



Лучший f1_score:  0.5056994818652849 Лучшая solver:  saga best_auc_roc 0.764663056764398




На примере модели LogisticRegression убеждаемся, что действительно upsample и downsample приводят к равнозначной эффективности (при достаточной величине выборки)

Используя разные подходы работы с дисбалансом - получаем примерно сопоставимые результаты.
На разные модели эффект от работы с дисбалансом получается раззный.

<a id='shag_4'></a>

# 4. Тестирование модели

In [28]:
features_downsampled, target_downsampled = downsample(features_valid, target_valid, 0.32)
features_downsampled, target_downsampled = downsample(features_test, target_test, 0.32)

Используем метод downsamples с фракцией 0.32 для итоговых выборок.

In [37]:
best_score = 0
best_depth = 0
best_auc_roc = 0
for depth in range(1, 16, 1):
    model = DecisionTreeClassifier(max_depth=depth, random_state=12345).fit(features_downsampled, 
                                                                                                  target_downsampled)
    f1 = f1_score(target_test, model.predict(features_test))
    probabilities_valid = model.predict_proba(features_test)
    probabilities_one_valid = probabilities_valid[:, 1]
    auc_roc = roc_auc_score(target_test, probabilities_one_valid, average=None)
    if f1 > best_score:
        best_score = f1
        best_depth = depth
        best_auc_roc = auc_roc
print('Лучший f1_score: ', best_score,'Лучшая глубина: ', best_depth, 'best_auc_roc', best_auc_roc)

Лучший f1_score:  0.7398297067171239 Лучшая глубина:  14 best_auc_roc 0.9145431945307644


In [None]:
Наша модель успешно показала значение F1 = 0.73 при AUC_ROC = 0.91.

# Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные подготовлены
- [x]  Выполнен шаг 2: задача исследована
    - [x]  Исследован баланс классов
    - [x]  Изучены модели без учёта дисбаланса
    - [x]  Написаны выводы по результатам исследования
- [x]  Выполнен шаг 3: учтён дисбаланс
    - [x]  Применено несколько способов борьбы с дисбалансом
    - [x]  Написаны выводы по результатам исследования
- [x]  Выполнен шаг 4: проведено тестирование
- [x]  Удалось достичь *F1*-меры не менее 0.59
- [x]  Исследована метрика *AUC-ROC*