<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка-данных" data-toc-modified-id="Подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка данных</a></span></li><li><span><a href="#Исследование-задачи" data-toc-modified-id="Исследование-задачи-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Исследование задачи</a></span></li><li><span><a href="#Борьба-с-дисбалансом" data-toc-modified-id="Борьба-с-дисбалансом-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Борьба с дисбалансом</a></span></li><li><span><a href="#Тестирование-модели" data-toc-modified-id="Тестирование-модели-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Тестирование модели</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Вывод</a></span></li><li><span><a href="#Чек-лист-готовности-проекта" data-toc-modified-id="Чек-лист-готовности-проекта-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Чек-лист готовности проекта</a></span></li></ul></div>

# Отток клиентов

Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.

Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. 

Постройте модель с предельно большим значением *F1*-меры. Чтобы сдать проект успешно, нужно довести метрику до 0.59. Проверьте *F1*-меру на тестовой выборке самостоятельно.

Дополнительно измеряйте *AUC-ROC*, сравнивайте её значение с *F1*-мерой.

Источник данных: [https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling](https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling)

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import warnings
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OrdinalEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.utils import shuffle
from sklearn.metrics import roc_curve, roc_auc_score, accuracy_score, f1_score

## Подготовка данных

In [2]:
data = pd.read_csv('/datasets/Churn.csv')
data.info()

FileNotFoundError: [Errno 2] No such file or directory: '/datasets/Churn.csv'

In [None]:
data.head()

Удалим колонки, которые не понадобятся для исследования:

In [None]:
data = data.drop(columns = ['CustomerId', 'RowNumber', 'Surname'], axis=1)
data.head()

Исправим названия колонок и приведём к нижнему регистру:

In [None]:
data.columns = map(str.lower, data.columns)
data = data.rename(columns = 
                   {'creditscore':'credit_score', 'numofproducts':'num_of_products', 'hascrcard':'has_cr_card', 'isactivemember':'is_active_member', 'estimatedsalary':'estimated_salary'})
data.head()

In [None]:
for column in data.columns:
    print(column)
    print(data[column].value_counts()) 
    print()

In [None]:
data['tenure'].hist(bins=11)
plt.title('Сколько лет человек является клиентом банка')
plt.xlabel('Количество лет')
plt.ylabel('Количество человек')

Заменим пропуски в столбце "tenure" с информацией о количестве лет, на протяжение которых человек является клиентом банка средним значением по категориям: кредитный рейтинг, количество продуктов банка, пол и страна. Оставшиеся пропуски заменим средним. И заменим тип данных на цельночисленный.

In [None]:
data['tenure'] = data['tenure'].fillna(data.groupby(['credit_score', 'num_of_products', 'geography', 'gender'])['tenure'].transform('mean'))
data['tenure'] = data['tenure'].fillna(data['tenure'].mean())
data = data.astype({'tenure':'int'})
data.info()

Преобразуем категориальные признаки geography, gender  в численные техникой прямого кодирования, или отображения (OHE).

In [None]:
data_ohe = pd.get_dummies(data, drop_first=True)
data_ohe.head()

Вывод:
Нами изучен датасет, состоящий из 10 000 строк и 14 колонок с информацией о клиентах банка. Мы изменили названия колонок в дтафрейме и привели к нижнему регистру, заполнили пропуски в периоде, в течение которогоо клиент является клиентом банка, избавились от ненужной информации(столбцы с фамилией клиентов и индексом строки). Заменили тип данных и преобразовали категориальные признаки в численные. Так же отметили, что большая часть клиентов - мужчины, >50% клиентов банка из Франции, 3617 клиентов имеют на болансе 0.

## Исследование задачи

In [None]:
target = data_ohe['exited']
features = data_ohe.drop('exited', axis=1)

features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.4, 
                                                                              random_state=2202, stratify=target)
features_valid, features_test, target_valid, target_test = train_test_split(features_valid, target_valid, test_size=0.5, 
                                                                              random_state=2202, stratify=target_valid)
print(features_train.shape, features_valid.shape, features_test.shape)
print(target_train.shape, target_valid.shape, target_test.shape)

In [None]:
numeric = ['credit_score', 'age','tenure', 'balance', 'num_of_products', 'estimated_salary']
scaler = StandardScaler()
scaler.fit(features_train[numeric])

In [None]:
features_train[numeric] = scaler.transform(features_train[numeric])
features_valid[numeric] = scaler.transform(features_valid[numeric])
features_test[numeric] = scaler.transform(features_test[numeric])

In [None]:
features_train.head()

In [None]:
data_ohe['exited'].value_counts(normalize=True)

In [None]:
data_ohe['exited'].value_counts(normalize=True)

Дерево решений:

In [None]:
best_model_tree = None
best_depth = 0
best_result = 0
for depth in range(1,21):
    model_tree = DecisionTreeClassifier(max_depth=depth, random_state=12345)
    model_tree.fit(features_train, target_train)
    predictions = model_tree.predict(features_valid)
    print('max_depth:', depth,'F1:', f1_score(target_valid, predictions))
    result = f1_score(predictions, target_valid)
    if best_result < result:
        best_depth = depth
        best_result = result
        best_model_tree = model_tree
print("Лучшая F-мера", best_result, 'cо значением глубины =', depth)
    

Случайный лес:

In [None]:
best_model_forest = None
best_est_forest = 0
best_depth_forest = 0
best_result_forest = 0
for max_depth in range(1,20):
    for estim in range(1,100,5):
        model_forest = RandomForestClassifier(max_depth=max_depth, n_estimators=estim, random_state=12345)
        model_forest.fit(features_train, target_train)
        predictions = model_forest.predict(features_valid)
        print('max_depth:', max_depth,'F1:',f1_score(target_valid, predictions),'estim',estim,'F1:',f1_score(target_valid, predictions))
        result = f1_score(target_valid, predictions) 
        if result > best_result:
            best_model_forest = model_forest
            best_result_forest = result
            best_depth_forest = depth
            best_est_forest = estim

print("Лучшая F-мера", best_result_forest, 'при глубине = {0} и количестве деревьев = {1}'.format(best_depth, best_est_forest))

Логистическая регрессия:

In [None]:
model_logistic = LogisticRegression().fit(features_train, target_train)
predictions = model_logistic.predict(features_valid)
print('F1:', f1_score(target_valid, predictions))

In [None]:
plt.figure(figsize=[12,9])

plt.plot([0, 1], [0, 1], linestyle='--', label='RandomModel')


model_tree = DecisionTreeClassifier(random_state=12345, max_depth=20)
model_tree.fit(features_train, target_train)
probabilities_valid = model_tree.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
fpr, tpr, thresholds = roc_curve(target_valid, probabilities_one_valid)
auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('AUC-ROC DecisionTreeClassifier',auc_roc)
plt.plot(fpr, tpr, label='DecisionTreeClassifier')

model_forest = RandomForestClassifier(random_state=12345,max_depth=5, n_estimators=91)
model_forest.fit(features_train, target_train)
probabilities_valid = model_forest.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
fpr, tpr, thresholds = roc_curve(target_valid, probabilities_one_valid)
auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('AUC-ROC RandomForestClassifier',auc_roc)
plt.plot(fpr, tpr, label='RandomForestClassifier')

model_logistic = LogisticRegression(random_state=12345, solver='liblinear')
model_logistic.fit(features_train, target_train)
probabilities_valid = model_logistic.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
fpr, tpr, thresholds = roc_curve(target_valid, probabilities_one_valid)
auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('AUC-ROC LogisticRegression',auc_roc)
plt.plot(fpr, tpr, label='LogisticRegression')


## Борьба с дисбалансом

In [None]:
def upsample(features, target, repeat):
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]
    
    features_upsampled = pd.concat([features_zeros] + [features_ones] * repeat)
    target_upsampled = pd.concat([target_zeros] + [target_ones] * repeat)
    
    features_upsampled, target_upsampled = shuffle(
        features_upsampled, target_upsampled, random_state=12345)
    return features_upsampled, target_upsampled

In [None]:
features_upsampled, target_upsampled = upsample(features_train, target_train, 4)
print(target_upsampled.value_counts())

In [None]:
model_logistic = LogisticRegression(random_state = 12345, solver='liblinear')
model_logistic.fit(features_train, target_train)
predicted_valid = model_logistic.predict(features_valid)
print('Логистическая регрессия')
print('F1', f1_score(target_valid, predicted_valid))
probabilities_valid = model_logistic.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
fpr, tpr, thresholds = roc_curve(target_valid, probabilities_one_valid)
auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('AUC-ROC LogisticRegression',auc_roc)

In [None]:
best_model_tree_upsmple = None
best_result_upsmple = 0
for depth in range(1, 21):
    model_tree_upsmple = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model_tree_upsmple.fit(features_upsampled, target_upsampled)
    predicted_valid = model_tree_upsmple.predict(features_valid)
    print('Max depth:', depth,'F1-score:', f1_score(target_valid, predicted_valid))
    result = f1_score(target_valid, predicted_valid)
    
    if best_result_upsmple < result:
        best_result_upsmple = result
        max_depth_upsmple = depth
        best_model_tree_upsmple = model_tree_upsmple

print("Лучшая F-мера", best_result_upsmple, 'cо значением глубины =', max_depth_upsmple)
probabilities_valid = model_tree_upsmple.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
fpr, tpr, thresholds = roc_curve(target_valid, probabilities_one_valid)
auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('AUC-ROC DecisionTreeClassifier',auc_roc)

In [None]:
# Код ревьюера
probabilities_valid = best_model_tree_upsmple.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
fpr, tpr, thresholds = roc_curve(target_valid, probabilities_one_valid)
auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('AUC-ROC DecisionTreeClassifier',auc_roc)

In [None]:
best_model_forest_upsample = None
best_result_upsample = 0
best_depth_upsample = 0
best_est_upsample = 0

for estimator in range(1, 100, 5):
    for depth in range(1, 20):
        model_forest_upsample =  RandomForestClassifier(random_state=12345, n_estimators=estim, 
                                                   max_depth = depth)
        model_forest_upsample.fit(features_upsampled, target_upsampled)
        predicted_valid = model_forest_upsample.predict(features_valid)
        print('N estimators:', estimator, 'Глубина:', depth, 'F1:', f1_score(target_valid, predicted_valid))
        result = f1_score(target_valid, predicted_valid) 
        
        if result > best_result_upsample:
            best_model_forest_upsample = model_forest_upsample
            best_result_upsample = result
            best_depth_upsample = depth
            best_est_upsample = estim

print("Лучшая F-мера", best_result_upsample, 'при глубине = {0} и количестве деревьев = {1}'.format(best_depth_upsample,
                                                                                           best_est_upsample))
probabilities_valid = model_forest_upsample.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
fpr, tpr, thresholds = roc_curve(target_valid, probabilities_one_valid)
auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('AUC-ROC RandomForestClassifier',auc_roc)

In [None]:
# Код ревьюера
probabilities_valid = best_model_forest_upsample.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
fpr, tpr, thresholds = roc_curve(target_valid, probabilities_one_valid)
auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('AUC-ROC DecisionTreeClassifier',auc_roc)

In [None]:
def downsample(features, target, fraction):
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]

    features_downsampled = pd.concat(
        [features_zeros.sample(frac=fraction, random_state=12345)] + [features_ones])
    target_downsampled = pd.concat(
        [target_zeros.sample(frac=fraction, random_state=12345)] + [target_ones])
    
    features_downsampled, target_downsampled = shuffle(
        features_downsampled, target_downsampled, random_state=12345)
    
    return features_downsampled, target_downsampled

In [None]:
features_downsampled, target_downsampled = downsample(features_train, target_train, 0.25)

In [None]:
print(target_downsampled.value_counts())

In [None]:
model_logistic = LogisticRegression(random_state=12345, solver='liblinear')
model_logistic.fit(features_downsampled, target_downsampled)
predicted_valid = model_logistic.predict(features_valid)
print('Логистическая регрессия')
print('F1', f1_score(target_valid, predicted_valid))
probabilities_valid = model_logistic.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
fpr, tpr, thresholds = roc_curve(target_valid, probabilities_one_valid)
auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('AUC-ROC LogisticRegression',auc_roc)

In [None]:
best_model_tree_downsample = None
best_result_downsample = 0

for depth in range(1, 21):
    model_tree_downsample = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model_tree_downsample.fit(features_downsampled, target_downsampled)
    predicted_valid = model_tree_downsample.predict(features_valid)
    print('Max depth:', depth,'F1-score:', f1_score(target_valid, predicted_valid))
    result = f1_score(target_valid, predicted_valid)
    
    if best_result_downsample < result:
        best_result_downsample = result
        max_depth_downsample = depth
        best_model_tree_downsample = model_tree_downsample

print("Лучшая F-мера", best_result_downsample, 'cо значением глубины =', max_depth_downsample)
probabilities_valid = model_tree_downsample.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
fpr, tpr, thresholds = roc_curve(target_valid, probabilities_one_valid)
auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('AUC-ROC DecisionTreeClassifier',auc_roc)

In [None]:
# Код ревьюера
probabilities_valid = best_model_tree_downsample.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
fpr, tpr, thresholds = roc_curve(target_valid, probabilities_one_valid)
auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('AUC-ROC DecisionTreeClassifier',auc_roc)

In [None]:
best_model_forest_downsample = None
best_result_downsample = 0
best_depth_downsample = 0
best_est_downsample = 0

for estimator in range(1, 100, 5):
    for depth in range(1, 20):
        model_forest_downsample =  RandomForestClassifier(random_state=12345, n_estimators=estim, 
                                                   max_depth = depth)
        model_forest_downsample.fit(features_downsampled, target_downsampled)
        predicted_valid = model_forest_downsample.predict(features_valid)
        print('N estimators:', estimator, 'Глубина:', depth, 'F1:', f1_score(target_valid, predicted_valid))
        result = f1_score(target_valid, predicted_valid) 
        
        if result > best_result_downsample:
            best_model_forest_downsample = model_forest_downsample
            best_result_downsample = result
            best_depth_downsample = depth
            best_est_downsample = estim

print("Лучшая F-мера", best_result_downsample, 'при глубине = {0} и количестве деревьев = {1}'.format(best_depth_downsample,
                                                                                           best_est_downsample))
probabilities_valid = model_forest_downsample.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
fpr, tpr, thresholds = roc_curve(target_valid, probabilities_one_valid)
auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('AUC-ROC RandomForestClassifier',auc_roc)

In [None]:
# Код ревьюера
probabilities_valid = best_model_forest_downsample.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
fpr, tpr, thresholds = roc_curve(target_valid, probabilities_one_valid)
auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('AUC-ROC DecisionTreeClassifier',auc_roc)

## Тестирование модели

In [None]:
features_full_train = pd.concat([features_train, features_valid])
target_full_train = pd.concat([target_train, target_valid])

In [None]:
features_upsampled, target_upsampled = upsample(features_full_train, target_full_train, 4)

In [None]:
model = RandomForestClassifier(random_state=12345, n_estimators= 96, 
                                                   max_depth = 14)
model.fit(features_upsampled, target_upsampled)
predicted_test = model.predict(features_test)
f1_score(target_test, predicted_test)

In [None]:
probabilities_test = model.predict_proba(features_test)
probabilities_one_test = probabilities_test[:, 1]
probabilities_one_test

In [None]:
auc_roc = roc_auc_score(target_test, probabilities_one_test)
print('auc_roc', auc_roc)

## Вывод

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные подготовлены
- [x]  Выполнен шаг 2: задача исследована
    - [x]  Исследован баланс классов
    - [x]  Изучены модели без учёта дисбаланса
    - [x]  Написаны выводы по результатам исследования
- [x]  Выполнен шаг 3: учтён дисбаланс
    - [x]  Применено несколько способов борьбы с дисбалансом
    - [x]  Написаны выводы по результатам исследования
- [x]  Выполнен шаг 4: проведено тестирование
- [x]  Удалось достичь *F1*-меры не менее 0.59
- [x]  Исследована метрика *AUC-ROC*