# Отток клиентов

Банк заметил небольшой ежемесячный отток клиентов. Банковские маркетологи определили, что сохранение текущих клиентов дешевле, чем привлечение новых.

***Задача:*** построить модель машинного обучения прогнозирующую, уйдёт клиент из банка в ближайшее время или нет. Целевое значение метрики качества, *F1* - не менее 0.59.

***Входные данные:*** исторические данные о поведении клиентов и расторжении договоров с банком.

Источник данных: [https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling](https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling)

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка-данных" data-toc-modified-id="Подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка данных</a></span><ul class="toc-item"><li><span><a href="#Изучение-данных-из-файла" data-toc-modified-id="Изучение-данных-из-файла-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Изучение данных из файла</a></span></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Предобработка данных</a></span></li><li><span><a href="#Разделение-данных-на-выборки" data-toc-modified-id="Разделение-данных-на-выборки-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Разделение данных на выборки</a></span></li></ul></li><li><span><a href="#Исследование-задачи" data-toc-modified-id="Исследование-задачи-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Исследование задачи</a></span><ul class="toc-item"><li><span><a href="#Масштабирование-признаков" data-toc-modified-id="Масштабирование-признаков-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Масштабирование признаков</a></span></li><li><span><a href="#Пробное-обучение-моделей" data-toc-modified-id="Пробное-обучение-моделей-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Пробное обучение моделей</a></span><ul class="toc-item"><li><span><a href="#Дерево-решений" data-toc-modified-id="Дерево-решений-2.2.1"><span class="toc-item-num">2.2.1&nbsp;&nbsp;</span>Дерево решений</a></span></li><li><span><a href="#Случайный-лес" data-toc-modified-id="Случайный-лес-2.2.2"><span class="toc-item-num">2.2.2&nbsp;&nbsp;</span>Случайный лес</a></span></li><li><span><a href="#Логистическая-регрессия" data-toc-modified-id="Логистическая-регрессия-2.2.3"><span class="toc-item-num">2.2.3&nbsp;&nbsp;</span>Логистическая регрессия</a></span></li></ul></li></ul></li><li><span><a href="#Борьба-с-дисбалансом" data-toc-modified-id="Борьба-с-дисбалансом-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Борьба с дисбалансом</a></span><ul class="toc-item"><li><span><a href="#Взвешивание-классов" data-toc-modified-id="Взвешивание-классов-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Взвешивание классов</a></span><ul class="toc-item"><li><span><a href="#Дерево-решений" data-toc-modified-id="Дерево-решений-3.1.1"><span class="toc-item-num">3.1.1&nbsp;&nbsp;</span>Дерево решений</a></span></li><li><span><a href="#Случайный-лес" data-toc-modified-id="Случайный-лес-3.1.2"><span class="toc-item-num">3.1.2&nbsp;&nbsp;</span>Случайный лес</a></span></li><li><span><a href="#Логистическая-регрессия" data-toc-modified-id="Логистическая-регрессия-3.1.3"><span class="toc-item-num">3.1.3&nbsp;&nbsp;</span>Логистическая регрессия</a></span></li></ul></li><li><span><a href="#Увеличение-выборки" data-toc-modified-id="Увеличение-выборки-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Увеличение выборки</a></span><ul class="toc-item"><li><span><a href="#Дерево-решений" data-toc-modified-id="Дерево-решений-3.2.1"><span class="toc-item-num">3.2.1&nbsp;&nbsp;</span>Дерево решений</a></span></li><li><span><a href="#Случайный-лес" data-toc-modified-id="Случайный-лес-3.2.2"><span class="toc-item-num">3.2.2&nbsp;&nbsp;</span>Случайный лес</a></span></li><li><span><a href="#Логистическая-регрессия" data-toc-modified-id="Логистическая-регрессия-3.2.3"><span class="toc-item-num">3.2.3&nbsp;&nbsp;</span>Логистическая регрессия</a></span></li></ul></li></ul></li><li><span><a href="#Тестирование-модели" data-toc-modified-id="Тестирование-модели-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Тестирование модели</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

## Подготовка данных

### Изучение данных из файла

Импортируем необходимые для работы библиотеки:

In [1]:
!pip install scikit-learn --upgrade
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OrdinalEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.utils import shuffle
from sklearn.metrics import accuracy_score
from sklearn.metrics import f1_score, make_scorer
from sklearn.metrics import roc_auc_score

Defaulting to user installation because normal site-packages is not writeable
Collecting scikit-learn
  Downloading scikit_learn-0.24.2-cp37-cp37m-manylinux2010_x86_64.whl (22.3 MB)
[K     |████████████████████████████████| 22.3 MB 39 kB/s  eta 0:00:01
Collecting threadpoolctl>=2.0.0
  Downloading threadpoolctl-2.2.0-py3-none-any.whl (12 kB)
Installing collected packages: threadpoolctl, scikit-learn
Successfully installed scikit-learn-0.24.2 threadpoolctl-2.2.0


Загрузим датасет и выведем на экран первые и последние 5 строк, а также общую информацию о данных:

In [2]:
data = pd.read_csv('https://code.s3.yandex.net/datasets/Churn.csv')
display(data)
data.info()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.00,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8.0,159660.80,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1.0,0.00,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5.0,0.00,2,1,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10.0,57369.61,1,1,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7.0,0.00,1,0,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3.0,75075.31,2,1,0,92888.52,1


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
RowNumber          10000 non-null int64
CustomerId         10000 non-null int64
Surname            10000 non-null object
CreditScore        10000 non-null int64
Geography          10000 non-null object
Gender             10000 non-null object
Age                10000 non-null int64
Tenure             9091 non-null float64
Balance            10000 non-null float64
NumOfProducts      10000 non-null int64
HasCrCard          10000 non-null int64
IsActiveMember     10000 non-null int64
EstimatedSalary    10000 non-null float64
Exited             10000 non-null int64
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB


В таблице всего 10000 строк.
В столбце ***Tenure*** количество непустых значений меньше 10000, а значит имеются пропуски. Рассмотрим их подробнее:

In [3]:
data[data['Tenure'].isna()]

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
30,31,15589475,Azikiwe,591,Spain,Female,39,,0.00,3,1,0,140469.38,1
48,49,15766205,Yin,550,Germany,Male,38,,103391.38,1,0,1,90878.13,0
51,52,15768193,Trevisani,585,Germany,Male,36,,146050.97,2,0,0,86424.57,0
53,54,15702298,Parkhill,655,Germany,Male,41,,125561.97,1,0,0,164040.94,1
60,61,15651280,Hunter,742,Germany,Male,35,,136857.00,1,0,0,84509.57,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9944,9945,15703923,Cameron,744,Germany,Male,41,,190409.34,2,1,1,138361.48,0
9956,9957,15707861,Nucci,520,France,Female,46,,85216.61,1,1,0,117369.52,1
9964,9965,15642785,Douglas,479,France,Male,34,,117593.48,2,0,0,113308.29,0
9985,9986,15586914,Nepean,659,France,Male,36,,123841.49,2,1,0,96833.00,0


Логической связи пропусков в столбце ***Tenure*** не наблюдается. Возможно, пропущенные значения возникают в том случае, когда клиенты пользуются услугами банка менее 1 года, т.е. 0 лет. Проверим, есть ли нулевые значения в столбце:

In [4]:
data['Tenure'].value_counts()

1.0     952
2.0     950
8.0     933
3.0     928
5.0     927
7.0     925
4.0     885
9.0     882
6.0     881
10.0    446
0.0     382
Name: Tenure, dtype: int64

Нулевые значения в столбце ***Tenure*** есть, поэтому однозначно утверждать, что пропуски связаны с нулями, нельзя.

Проверим, есть ли в датасете грубые дубликаты:

In [5]:
data.duplicated().sum()

0

###### Вывод

Всего в таблице 14 столбцов со следующими типами данных: *float64, int64, object*.

Каждый объект в наборе данных — это информация о поведении одного клиента за время его пользования услугами банка. Известно:

- RowNumber — индекс строки в данных
- CustomerId — уникальный идентификатор клиента
- Surname — фамилия
- CreditScore — кредитный рейтинг
- Geography — страна проживания
- Gender — пол
- Age — возраст
- Tenure — сколько лет человек является клиентом банка
- Balance — баланс на счёте
- NumOfProducts — количество продуктов банка, используемых клиентом
- HasCrCard — наличие кредитной карты
- IsActiveMember — активность клиента
- EstimatedSalary — предполагаемая зарплата
- Exited — факт ухода клиента

Столбцы ***RowNumber, CustomerId, Surname*** вряд ли как-то связаны с фактом ухода клиентов, поэтому при дальнейшем формировании признаков не будем брать их в учет.

В столбце ***Tenure*** имеются пропуски. Никакой связи с данными других столбцов не наблюдается. Вероятно, пропуски связаны с ошибками при выгрузке данных. Такие алгоритмы как ***Дерево решений*** и ***Случайный лес*** могут работать с пропусками данных, но для ***Логистической регрессии*** необходимо устранить пропуски. Удалять строки с пропусками не будем, т.к. потеряем около 10% данных. Далее заменим пропуски на числовое значение вне диапазона от ***0*** до ***10***, например, на ***-1*** для того, чтобы алгоритмы, не работающие с пропущенными значениями, могли их распознать.

Тип данных столбцов ***Geography, Gender*** - ***object***. Для дальнейшей работы с алгоритмами обучения необходимо преобразовать категориальные данные в численные.

Грубых дубликатов в датасете не обнаружено.

### Предобработка данных

Заменим пропуски данных в столбце ***Tenure*** на значение *-1*:

In [6]:
data['Tenure'] = data['Tenure'].fillna(-1)
data['Tenure'].describe()

count    10000.000000
mean         4.452500
std          3.254321
min         -1.000000
25%          2.000000
50%          4.000000
75%          7.000000
max         10.000000
Name: Tenure, dtype: float64

Пропуски успешно заменены.

В связи с тем, что столбцы ***RowNumber, CustomerId, Surname*** вряд ли как-то связаны с фактом ухода клиентов, удалим их из датасета.

In [7]:
data = data.drop(['RowNumber'], axis = 1)
data = data.drop(['CustomerId'], axis = 1)
data = data.drop(['Surname'], axis = 1)
data

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,619,France,Female,42,2.0,0.00,1,1,1,101348.88,1
1,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,502,France,Female,42,8.0,159660.80,3,1,0,113931.57,1
3,699,France,Female,39,1.0,0.00,2,0,0,93826.63,0
4,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...
9995,771,France,Male,39,5.0,0.00,2,1,0,96270.64,0
9996,516,France,Male,35,10.0,57369.61,1,1,1,101699.77,0
9997,709,France,Female,36,7.0,0.00,1,0,1,42085.58,1
9998,772,Germany,Male,42,3.0,75075.31,2,1,0,92888.52,1


***RowNumber, CustomerId, Surname*** успешно удалены из датасета.

Далее преобразуем столбцы с категориальным типом данных в числовые. Столбцов с категориальным типом данных у нас два: ***Gender, Geography***. Посмотрим на уникальные значения столбцов ***Gender*** и ***Geography***: 

In [8]:
print(data['Gender'].value_counts())
print()
print(data['Geography'].value_counts())

Male      5457
Female    4543
Name: Gender, dtype: int64

France     5014
Germany    2509
Spain      2477
Name: Geography, dtype: int64


В первом случае по одной из категории можно восстановить вторую, поэтому, чтобы не попасть в dummie - ловушку, оставим в таблице только одну преобразованную категорию.

Во втором случае по двум категориям можно восстановить третью, поэтому оставим в таблице только две преобразованные категории.

In [9]:
data['Gender'] = pd.get_dummies(data['Gender'])
data[['Germany','Spain']] = pd.get_dummies(data['Geography'],drop_first=True)
data = data.drop(['Geography'], axis=1)
data.head()

Unnamed: 0,CreditScore,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited,Germany,Spain
0,619,1,42,2.0,0.0,1,1,1,101348.88,1,0,0
1,608,1,41,1.0,83807.86,1,0,1,112542.58,0,0,1
2,502,1,42,8.0,159660.8,3,1,0,113931.57,1,0,0
3,699,1,39,1.0,0.0,2,0,0,93826.63,0,0,0
4,850,1,43,2.0,125510.82,1,1,1,79084.1,0,0,1


Категории ***Gender*** и ***Geography*** успешно преобразованы в числа.

###### Вывод

Пропуски данных в столбце ***Tenure*** обработаны с заменой на ***-1*** для того, чтобы можно было изспользовать алгоритмы обучения, не работающие с пропусками.

***RowNumber, CustomerId, Surname*** удалены из датасета в связи с их весьма сомнительным влиянием на факт ухода клиентов из банка.

Категориальные значения столбцов ***Gender*** и ***Geography*** заменены на числовые методом прямого кодирования.

### Разделение данных на выборки

В датасете столбец ***Exited*** содержит информацию о факте ухода клиента из банка и состоит из двух классов: ***1*** и ***0***, соответствующих значениям ***Да*** и ***Нет***. Выделим данный столбец в целевой признак: задачей обученной модели будет предсказать классы, основываясь на других признаках. 

Разделим признаки:

In [10]:
features = data.drop(['Exited'], axis = 1)
target = data['Exited']

Проверим, насколько сбалансированы классы целевого признака:

In [11]:
target.value_counts()[0]/target.value_counts()[1]

3.9091801669121256

Наблюдается дисбалланс классов: класса ***0*** в ***3.91 раз*** больше, чем класса ***1***.

Вернемся к проблеме дисбаланса классов позже.

Для контроля переобучения и правильной оценки готовой модели необходимо разделить данные на обучающую, валидационную и тестовую выборки.

Так как в нашей задаче отсутствует подготовленный заранее тестовый набор данных, разобъем исходные данные в следующем соотношении:

 - Обучающая выборка: 60%;
 - Валидационная выборка: 20%;
 - Тестовая выборка: 20%.

In [12]:
features_train,features_valid,target_train,target_valid = train_test_split(
    features,
    target,
    test_size = 0.4,
    stratify = target,
    random_state = 12345)

features_valid,features_test,target_valid,target_test = train_test_split(
    features_valid,
    target_valid,
    test_size = 0.5,
    stratify = target_valid,
    random_state = 12345)

print('Размер обучающей таблицы признаков:',features_train.shape)
print('Размер обучающей таблицы с целевым признаком:',target_train.shape)
print('Размер валидационной таблицы признаков:',features_valid.shape)
print('Размер валидационной таблицы с целевым признаком:',target_valid.shape)
print('Размер тестовой таблицы признаков:',features_test.shape)
print('Размер тестовой таблицы с целевым признаком:',target_test.shape)

Размер обучающей таблицы признаков: (6000, 11)
Размер обучающей таблицы с целевым признаком: (6000,)
Размер валидационной таблицы признаков: (2000, 11)
Размер валидационной таблицы с целевым признаком: (2000,)
Размер тестовой таблицы признаков: (2000, 11)
Размер тестовой таблицы с целевым признаком: (2000,)


###### Вывод

Размеры выборок соответствуют соотношению:
 - Обучающая выборка: 60%;
 - Валидационная выборка: 20%;
 - Тестовая выборка: 20%.
 
В выборках наблюдается дисбаланс классов. Объектов класса ***0*** в ***3.91*** раз больше, чем объектов класса ***1***. При разделении данных соотношение классов сохранено.

## Исследование задачи

### Масштабирование признаков

При разном масштабе признаков алгоритмы обучения могут сильнее выделять те или иные признаки. Для того, чтобы алгоритм воспринимал значимость каждого из признаков одинаково, необходимо их стандартизировать. Часть признаков в датасете - бинарные. Для них нецелесообразно проводить стандартизацию. Поэтому выделим небинарные признаки, и проведем их стандартизацию.

In [13]:
not_binary = [
    'CreditScore',
    'Age',
    'Tenure',
    'Balance',
    'NumOfProducts',
    'EstimatedSalary']

In [14]:
scaler = StandardScaler()
scaler.fit(features_train[not_binary])

pd.options.mode.chained_assignment = None

features_train[not_binary] = scaler.transform(features_train[not_binary])
features_valid[not_binary] = scaler.transform(features_valid[not_binary])
features_test[not_binary] = scaler.transform(features_test[not_binary])

display(pd.DataFrame(features_train, columns = features.columns).head())
display(pd.DataFrame(features_valid, columns = features.columns).head())
display(pd.DataFrame(features_test, columns = features.columns).head())

Unnamed: 0,CreditScore,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Germany,Spain
2837,-1.040434,1,0.953312,0.474986,0.774657,-0.914708,0,1,-0.11911,1,0
9925,0.454006,1,-0.095244,-1.675197,1.91054,-0.914708,1,1,-0.258658,0,0
8746,0.103585,0,-0.476537,1.089324,0.481608,0.820981,0,1,1.422836,0,0
660,-0.184996,1,0.190726,-1.675197,0.088439,-0.914708,1,1,-1.160427,1,0
3610,-0.720933,1,1.620574,-1.060859,0.879129,-0.914708,1,0,0.113236,0,0


Unnamed: 0,CreditScore,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Germany,Spain
6612,-1.524838,1,2.38316,-0.446521,1.011655,-0.914708,0,1,0.010275,0,0
519,0.58799,0,1.811221,0.474986,0.213192,-0.914708,0,1,0.453089,0,0
1609,-0.31898,1,-0.381213,1.089324,0.893896,-0.914708,1,0,-0.603508,0,0
3475,1.226991,0,-0.762506,-0.139352,-0.240363,0.820981,1,1,-1.62146,0,0
2707,-0.133464,1,-0.095244,-0.446521,0.447305,-0.914708,0,0,0.338574,0,0


Unnamed: 0,CreditScore,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Germany,Spain
657,-0.504497,1,1.429928,-1.060859,0.873883,0.820981,1,1,1.725255,1,0
2083,-1.195031,0,-1.429769,-1.060859,-1.219673,-0.914708,1,1,1.203665,0,0
3234,-1.267176,0,0.762665,-1.060859,-1.219673,-0.914708,1,0,-1.374743,0,0
1551,0.825039,1,1.239281,0.782155,-1.219673,0.820981,0,1,0.382306,0,1
2344,0.660135,1,0.953312,-0.139352,0.267087,-0.914708,1,0,-1.613578,1,0


###### Вывод

Признаки успешно масштабированы.

### Пробное обучение моделей

Попробуем обучить модели без учета дисбаланса классов.

Напишем функцию для подбора и вывода на экран наилучших гиперпараметров для получения наивысшей ***F1-меры***  с помощью инструмента ***GridSearchCV*** :

In [15]:
def get_best_params(
    model,
    features_train,
    target_train,
    max_depth,
    n_estimators,
    class_weight):
    
    if model == DecisionTreeClassifier:
        params = {'max_depth':max_depth,
                  'random_state': [12345],
                  'class_weight': [class_weight]
                 }
    else:
        params = {'max_depth':max_depth,
                  'n_estimators': n_estimators,
                  'random_state': [12345],
                  'class_weight': [class_weight]
                 }
        
    model = model()
    
    grid = GridSearchCV(
        model,
        params,
        scoring = make_scorer(f1_score)
    )
    
    grid.fit(features_train,target_train)
    
    greed_result = pd.DataFrame(
        grid.cv_results_).sort_values(
        by = 'rank_test_score').reset_index(
        drop = True)

    display(greed_result[greed_result['rank_test_score']==1])

Напишем функцию для обучения и исследования моделей:

In [16]:
def explore_model(
    model,
    features_train,
    target_train,
    max_depth,
    n_estimators,
    random_state,
    class_weight
):
        
    if model == DecisionTreeClassifier:
        
        clf = model(
            max_depth = max_depth, 
            class_weight = class_weight
        )
        
    if model == RandomForestClassifier:
        
        clf = model(
            max_depth = max_depth,
            n_estimators = n_estimators,
            class_weight = class_weight
        )
        
    else:
        clf = model(random_state = 12345, class_weight = class_weight)
        
    clf.fit(features_train, target_train)
        
    predictions_train = clf.predict(features_train)
    predictions_valid = clf.predict(features_valid)
    
    probabilities_one_train = clf.predict_proba(features_train)[:, 1]
    probabilities_one_valid = clf.predict_proba(features_valid)[:, 1]
    
    print('Accuracy на обучающей выборке:',
          accuracy_score(target_train,predictions_train).round(2))
    print('Accuracy на валидационной выборке:',
          accuracy_score(target_valid,predictions_valid).round(2))
    print('F1 на обучающей выборке:',
          f1_score(target_train,predictions_train).round(2))
    print('F1 на валидационной выборке:',
          f1_score(target_valid,predictions_valid).round(2))
    print('AUC_ROC на обучающей выборке:',
          roc_auc_score(target_train,probabilities_one_train).round(2))
    print('AUC_ROC на валидационной выборке:',
          roc_auc_score(target_valid,probabilities_one_valid).round(2))

#### Дерево решений

Выведем на экран наилучшие гиперпараметры для модели ***Дерево решений***:

In [17]:
get_best_params(
    DecisionTreeClassifier,
    features_train,
    target_train,
    range(1,51,1),
    [1],
    None
)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_class_weight,param_max_depth,param_random_state,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.013378,0.000147,0.002579,9.3e-05,,7,12345,"{'class_weight': None, 'max_depth': 7, 'random...",0.586207,0.530184,0.570732,0.574209,0.497326,0.551732,0.033103,1


Наилучший результат получен при максимальной глубине дерева = ***7***.

Обучим модель ***Дерево решений*** применив подобранные гиперпараметры и выведем на экран метрики качества модели:

In [18]:
explore_model(
    DecisionTreeClassifier,
    features_train,
    target_train,
    7,
    None,
    12345,
    None
)

Accuracy на обучающей выборке: 1.0
Accuracy на валидационной выборке: 0.8
F1 на обучающей выборке: 1.0
F1 на валидационной выборке: 0.52
AUC_ROC на обучающей выборке: 1.0
AUC_ROC на валидационной выборке: 0.7


###### Вывод

Обучив модель ***Дерево решений*** без учета дисбаланса, были получены следующие метрики:

- ***Accuracy*** на ***обучающей*** выборке: ***1.0***
- ***Accuracy*** на ***валидационной*** выборке:***0.80***

Это говорит о том, что модель переобучена. Несмотря на неплохую правильность предсказаний классов на валидационной выборке, модель, вероятно, просто "зазубрила" ответы, что может быть чревато при дальнейшем ее использовании. 

- ***F1*** на ***обучающей*** выборке: ***1.0***
- ***F1*** на ***валидационной*** выборке: ***0.52***

Значения ***F1-меры***, полученные на тестовой и валидационной выборках, подтверждают наше предположение о переобучении модели и указывают на то, что положительный класс недостаточно полно и точно прогнозируется моделью на тестовой выборке относительно обучающей. 

- ***AUC_ROC*** на обучающей выборке: ***1.0***
- ***AUC_ROC*** на валидационной выборке: ***0.70***

Мера подтверждает наше предположение о том, что в предсказании классов модель отдает предпочтение превалирующему классу. Несмотря на то, что значение меры, равное ***0,70***, полученное на валидационной выборке, говорит о том, что модель значительно лучше случайной, но до идеальной ей еще далеко.

В целом, понятно, что вероятнее всего дисбаланс классов не позволяет получить модель качества, достаточного для успешного выполнения задачи проекта.

#### Случайный лес

Аналогичным способом подберем наилучшие гиперпараметры для модели ***Случайный лес***:

In [19]:
get_best_params(
    RandomForestClassifier,
    features_train,
    target_train,
    [11],
    range(1,251,10),
    None
)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_class_weight,param_max_depth,param_n_estimators,param_random_state,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.344466,0.002052,0.020338,0.000198,,11,81,12345,"{'class_weight': None, 'max_depth': 11, 'n_est...",0.566845,0.571429,0.598425,0.572152,0.530504,0.567871,0.021734,1


Наилучший результат получен при максимальной глубине дерева = ***11*** и количестве деревьев = ***81***.

Обучим модель ***Случайный лес*** применив подобранные гиперпараметры и выведем на экран метрики качества модели:

In [20]:
explore_model(
    RandomForestClassifier,
    features_train,
    target_train,
    11,
    81,
    12345,
    None
)

Accuracy на обучающей выборке: 0.92
Accuracy на валидационной выборке: 0.87
F1 на обучающей выборке: 0.76
F1 на валидационной выборке: 0.59
AUC_ROC на обучающей выборке: 0.98
AUC_ROC на валидационной выборке: 0.87


###### Вывод

Обучив модель ***Случайный лес*** без учета дисбаланса, были получены следующие метрики:

- ***Accuracy*** на ***обучающей*** выборке: ***0.92***
- ***Accuracy*** на ***валидационной*** выборке:***0.87***

Мы получили неплохие показатели правильности на тестовой и валидационной выборках. Переобученность модели значительно ниже, чем ***Дерева решений***.

- ***F1*** на ***обучающей*** выборке: ***0.75***
- ***F1*** на ***валидационной*** выборке: ***0.59***

Значения ***F1-меры*** указывают на то, что положительный класс недостаточно полно и точно прогнозируется моделью. Разница между показателями обучающей и валидационной выборки также свидетельствуют о переобучении модели, но оно значительно ниже, чем у ***Дерева решений***.

- ***AUC_ROC*** на обучающей выборке: ***0.98***
- ***AUC_ROC*** на валидационной выборке: ***0.87***

Значение меры, равное ***0.87***, полученное на валидационной выборке, говорит о том, что модель значительно лучше случайной и лучше модели, полученной в результате обучения ***Дерева решений***.

Значение ***F1-меры*** уже достаточно для успешного решения задачи проекта, но, скорее всего, показатели модели можно улучшить, обучив модель предварительно устранив дисбаланс классов.

#### Логистическая регрессия

Обучим модель ***Логистическая регрессия***:

In [24]:
explore_model(
    LogisticRegression,
    features_train,
    target_train,
    None,
    None,
    12345,
    None)

Accuracy на обучающей выборке: 0.81
Accuracy на валидационной выборке: 0.81
F1 на обучающей выборке: 0.32
F1 на валидационной выборке: 0.31
AUC_ROC на обучающей выборке: 0.76
AUC_ROC на валидационной выборке: 0.79


###### Вывод

Обучив модель ***Логистическая регрессия*** без учета дисбаланса, были получены следующие метрики:

- ***Accuracy*** на ***обучающей*** выборке: ***0.81***
- ***Accuracy*** на ***валидационной*** выборке:***0.81***

Метрики одинаковы на обучающей и валидационной выборках. Модель не переобучена.

- ***F1*** на ***обучающей*** выборке: ***0.32***
- ***F1*** на ***валидационной*** выборке: ***0.31***

Значения ***F1-меры***, полученные на тестовой и валидационной выборках, указывают на то, что положительный класс плохо прогнозируется моделью.

- ***AUC_ROC*** на обучающей выборке: ***0.76***
- ***AUC_ROC*** на валидационной выборке: ***0.79***

Значение меры, равное ***0.79***, полученное на валидационной выборке, говорит о том, что модель лучше случайной.

Вероятнее всего, полученные показатели связаны с тем, что порог классификации, установленный по умолчанию, не позволяет получить лучшие показатели при дисбалансе классов. В дальнейшем попробуем улучшить показатели модели, устранив дисбаланс классов.

## Борьба с дисбалансом

### Взвешивание классов

Алгоритмы машинного обучения считают все объекты обучающей выборки равнозначными по умолчанию. В нашем случае нам важно указать, что объекты класса ***1*** важнее, и присвоить этому классу вес.

Далее заново подберем гиперпараметры к тем же видам моделей, что были обучены выше, но с указанным гиперпараметром ***class_weight = 'balanced'***. В этом случае алгоритмы посчитают, во сколько раз класс ***0*** встречается чаще класса ***1*** и присвоят больший вес редкому классу. Далее обучим и исследуем модели.

#### Дерево решений

Подберем наилучшие гиперпараметры для модели ***Дерево решений***, учитывая вес классов:

In [25]:
get_best_params(
    DecisionTreeClassifier,
    features_train,
    target_train,
    range(1,21,1),
    [1],
    'balanced'
)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_class_weight,param_max_depth,param_random_state,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.014837,0.000725,0.002651,0.000158,balanced,7,12345,"{'class_weight': 'balanced', 'max_depth': 7, '...",0.533528,0.561873,0.595813,0.553517,0.546547,0.558255,0.020951,1


Наилучший результат получен при максимальной глубине дерева = ***7***.

Обучим модель ***Дерево решений*** применив подобранные гиперпараметры и выведем на экран метрики качества модели:

In [26]:
explore_model(
    DecisionTreeClassifier,
    features_train,
    target_train,
    18,
    None,
    12345,
    'balanced'
)

Accuracy на обучающей выборке: 1.0
Accuracy на валидационной выборке: 0.8
F1 на обучающей выборке: 1.0
F1 на валидационной выборке: 0.51
AUC_ROC на обучающей выборке: 1.0
AUC_ROC на валидационной выборке: 0.69


###### Вывод

Обучив модель ***Дерево решений*** с учетом веса классов, было получено следующее изменение метрик:

- ***Accuracy*** на ***обучающей*** выборке: ***1.0 -> 1.0***
- ***Accuracy*** на ***валидационной*** выборке:***0.80 -> 0.80***


- ***F1*** на ***обучающей*** выборке: ***1.0 -> 1.0***
- ***F1*** на ***валидационной*** выборке: ***0.52 -> 0.51***


- ***AUC_ROC*** на обучающей выборке: ***1.0 -> 1.0***
- ***AUC_ROC*** на валидационной выборке: ***0.70 -> 0.69***

В целом, учет веса классов не улучшил качество модели: модель по-прежнему переобучена и недостаточно полно и точно прогнозирует положительный класс. Модель по-прежнему лучше случайной, но неидеальна.

Критерий ***F-1*** пока еще недостаточно высокий для успешного решения задачи проекта.

#### Случайный лес

Подберем наилучшие гиперпараметры для модели ***Случайный лес***, учитывая вес классов:

In [27]:
get_best_params(
    RandomForestClassifier,
    features_train,
    target_train,
    [7],
    range(1,251,10),
    'balanced'
)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_class_weight,param_max_depth,param_n_estimators,param_random_state,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.44738,0.006681,0.025638,0.000601,balanced,7,131,12345,"{'class_weight': 'balanced', 'max_depth': 7, '...",0.586331,0.603704,0.622302,0.604895,0.607407,0.604928,0.011449,1


Наилучший результат получен при максимальной глубине дерева = ***7*** и количестве деревьев = ***131***.

Обучим модель ***Случайный лес*** применив подобранные гиперпараметры и выведем на экран метрики качества модели:

In [28]:
explore_model(
    RandomForestClassifier,
    features_train,
    target_train,
    7,
    131,
    12345,
    'balanced'
)

Accuracy на обучающей выборке: 0.85
Accuracy на валидационной выборке: 0.83
F1 на обучающей выборке: 0.68
F1 на валидационной выборке: 0.64
AUC_ROC на обучающей выборке: 0.91
AUC_ROC на валидационной выборке: 0.87


###### Вывод

Обучив модель ***Случайный лес*** с учетом веса классов, было получено следующее изменение метрик:

- ***Accuracy*** на ***обучающей*** выборке: ***0.92 -> 0.85***
- ***Accuracy*** на ***валидационной*** выборке:***0.87 -> 0.83***


- ***F1*** на ***обучающей*** выборке: ***0.75 -> 0.67***
- ***F1*** на ***валидационной*** выборке: ***0.59 -> 0.63***


- ***AUC_ROC*** на обучающей выборке: ***0.98 -> 0.91***
- ***AUC_ROC*** на валидационной выборке: ***0.87 -> 0.87***

Учет веса классов улучшил качество модели: модель не переобучена, на валидационной выборке возросла ***F1-мера***, что говорит о том, что точность и полнота предсказания положительного класса выросли. Показатель ***AUC_ROC*** остался без изменеий - модель значительно лучше случайной.

***F-1*** - мера достаточна для успешного решения задачи проекта.

#### Логистическая регрессия

Обучим модель ***Логистическая регрессия***:

In [29]:
explore_model(
    LogisticRegression,
    features_train,
    target_train,
    None,
    None,
    12345,
    'balanced'
)

Accuracy на обучающей выборке: 0.71
Accuracy на валидационной выборке: 0.73
F1 на обучающей выборке: 0.49
F1 на валидационной выборке: 0.53
AUC_ROC на обучающей выборке: 0.77
AUC_ROC на валидационной выборке: 0.79


###### Вывод

Обучив модель ***Логистическая регрессия*** с учетом веса классов, было получено следующее изменение метрик:

- ***Accuracy*** на ***обучающей*** выборке: ***0.81 -> 0.71***
- ***Accuracy*** на ***валидационной*** выборке:***0.81 -> 0.73***


- ***F1*** на ***обучающей*** выборке: ***0.32 -> 0.49***
- ***F1*** на ***валидационной*** выборке: ***0.31 -> 0.53***


- ***AUC_ROC*** на обучающей выборке: ***0.76 -> 0.77***
- ***AUC_ROC*** на валидационной выборке: ***0.79 -> 0.79***


С учетом веса классов, ухудшилась метрика ***Accuracy***, но заметен рост ***F1-меры***. Тем не менее, показатель пока еще низкий, и говорит о слабом предсказании положительных классов моделью. Значение недостаточно для успешного решения задач проекта.

### Увеличение выборки

Для более успешного обучения рассмотренных моделей увеличим количество объектов редкого класса в обучающей выборке - применим увеличение выборки. Так как ранее мы определили, что положительного класса в 3.91 раз меньше, чем отрицательного, увеличим количество объектов положительного класса в 4 раза:

In [30]:
def upsample(features, target, repeat):
    features_zeros = pd.DataFrame(features[target == 0])
    features_ones = pd.DataFrame(features[target == 1])
    target_zeros = pd.Series(target[target == 0])
    target_ones = pd.Series(target[target == 1])

    features_upsampled = pd.concat([features_zeros] + [features_ones] * repeat)
    target_upsampled = pd.concat([target_zeros] + [target_ones] * repeat)
    
    features_upsampled, target_upsampled = shuffle(
        features_upsampled,
        target_upsampled,
        random_state=12345
    )
    
    return features_upsampled, target_upsampled

features_upsampled, target_upsampled = upsample(features_train, target_train, 4)

#### Дерево решений

Выведем на экран наилучшие гиперпараметры для модели ***Дерево решений*** при увеличенной обучающей выборке:

In [31]:
get_best_params(
    DecisionTreeClassifier,
    features_upsampled,
    target_upsampled,
    range(1,51),
    [1],
    None
)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_class_weight,param_max_depth,param_random_state,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.02797,0.000181,0.003388,0.00016,,23,12345,"{'class_weight': None, 'max_depth': 23, 'rando...",0.93744,0.93717,0.930919,0.926736,0.921338,0.930721,0.006176,1


Наилучший результат получен при максимальной глубине дерева = ***23***. Обучим ***Дерево решений***, применив подобранный гиперпараметр:

In [32]:
explore_model(
    DecisionTreeClassifier,
    features_upsampled,
    target_upsampled,
    23,
    None,
    12345,
    None
)

Accuracy на обучающей выборке: 1.0
Accuracy на валидационной выборке: 0.8
F1 на обучающей выборке: 1.0
F1 на валидационной выборке: 0.51
AUC_ROC на обучающей выборке: 1.0
AUC_ROC на валидационной выборке: 0.69


###### Вывод

Обучив модель ***Дерево решений*** на увеличенной тренировочной выборке, были получены следующие метрики по сравнению с предыдущими попытками обучения:

- ***Accuracy*** на ***обучающей*** выборке: ***1.0 -> 1.0 -> 1.0***
- ***Accuracy*** на ***валидационной*** выборке:***0.80 -> 0.80 -> 0.80***


- ***F1*** на ***обучающей*** выборке: ***1.0 -> 1.0 -> 1.0***
- ***F1*** на ***валидационной*** выборке: ***0.52 -> 0.51 -> 0.51***


- ***AUC_ROC*** на обучающей выборке: ***1.0 -> 1.0 -> 1.0***
- ***AUC_ROC*** на валидационной выборке: ***0.70 -> 0.69 -> 0.69***

Увеличение выборки абсолютно никак не повлияло на качество модели. Применение взвешивания классов и увеличение обучающей выборки оказались одинаково эффективными по отношению к пробной модели и не позволили получить ***F1-меру***, достаточную для успешного решения задачи проекта.

#### Случайный лес

Подберем наилучшие гиперпараметры для модели ***Случайный лес*** при увеличенной обучающей выборке:

In [33]:
get_best_params(
    RandomForestClassifier,
    features_upsampled,
    target_upsampled,
    [22],
    range(1,251,10),
    None
)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_class_weight,param_max_depth,param_n_estimators,param_random_state,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.80624,0.005303,0.047,0.000723,,22,121,12345,"{'class_weight': None, 'max_depth': 22, 'n_est...",0.955839,0.967327,0.961614,0.959133,0.952288,0.95924,0.005117,1


Наилучший результат получен при максимальной глубине дерева = ***22*** и количестве деревьев = ***121*** . Обучим модель ***Случайный лес***, применив подобранные гиперпараметры:

In [34]:
explore_model(
    RandomForestClassifier,
    features_upsampled,
    target_upsampled,
    22,
    121,
    12345,
    None
)

Accuracy на обучающей выборке: 1.0
Accuracy на валидационной выборке: 0.86
F1 на обучающей выборке: 1.0
F1 на валидационной выборке: 0.62
AUC_ROC на обучающей выборке: 1.0
AUC_ROC на валидационной выборке: 0.86


###### Вывод

Обучив модель ***Случайный лес*** на увеличенной обучающей выборке были получены следующие метрики относительно предыдущих попыток обучения:

- ***Accuracy*** на ***обучающей*** выборке: ***0.92 -> 0.85 -> 1.00***
- ***Accuracy*** на ***валидационной*** выборке:***0.87 -> 0.83 -> 0.86***


- ***F1*** на ***обучающей*** выборке: ***0.75 -> 0.67 -> 1.00***
- ***F1*** на ***валидационной*** выборке: ***0.59 -> 0.63 -> 0.62**


- ***AUC_ROC*** на обучающей выборке: ***0.98 -> 0.91 -> 1.00***
- ***AUC_ROC*** на валидационной выборке: ***0.87 -> 0.87 -> 0.87***

При увеличении обучающей выборки мы переобучили модель: ***Accuracy*** на обучающей выборке значительно выше показателя на валидационной.

***F1-мера*** уменьшилась до ***0.62*** по сравнению с предыдущей попыткой обучения модели. Конечно, точность и полнота предсказания положительного класса неидеальны, но удовлетворяют условию выполнения задачи проекта.

#### Логистическая регрессия

Обучим модель ***Логистическая регрессия*** на увеличенной обучающей выборке:

In [35]:
explore_model(
    LogisticRegression,
    features_upsampled,
    target_upsampled,
    None,
    None,
    12345,
    None
)

Accuracy на обучающей выборке: 0.7
Accuracy на валидационной выборке: 0.72
F1 на обучающей выборке: 0.7
F1 на валидационной выборке: 0.52
AUC_ROC на обучающей выборке: 0.77
AUC_ROC на валидационной выборке: 0.79


###### Вывод

Обучив модель ***Логистическая регрессия*** на увеличенной обучающей выборке было получено следующее изменение метри относительно предыдущих попыток обучения:

- ***Accuracy*** на ***обучающей*** выборке: ***0.81 -> 0.71 -> 0.70***
- ***Accuracy*** на ***валидационной*** выборке:***0.81 -> 0.73 -> 0.72***

- ***F1*** на ***обучающей*** выборке: ***0.32 -> 0.49 -> 0.70***
- ***F1*** на ***валидационной*** выборке: ***0.31 -> 0.53 -> 0.52***

- ***AUC_ROC*** на обучающей выборке: ***0.76 -> 0.77 -> 0.77***
- ***AUC_ROC*** на валидационной выборке: ***0.79 -> 0.79 -> 0.79***

Несмотря на увеличение обучающей выборки, качество модели не улучшилось в сравнении с результатами предыдущей попытки обучения модели.

Показатель ***F1-меры*** не удовлетворяет условию успешного выполнения задачи проекта.

## Тестирование модели

Из рассмотренных ранее моделей наиболее качаственной оказалась модель ***Случайный лес***, обученная при взвешивании классов.

Обучим модель ***Случайный лес*** со взвешиванием классов, применив наилучшие подобранные гиперпараметры. Определим время обучения модели и выведем на экран метрики качества модели, полученные при предсказании классов тестовой выборки данных.

In [36]:
%%time

model = RandomForestClassifier(max_depth = 7,
                               n_estimators = 131,
                               random_state = 12345,
                               class_weight = 'balanced'
)
model.fit(features_train, target_train)

CPU times: user 499 ms, sys: 3.9 ms, total: 503 ms
Wall time: 517 ms


RandomForestClassifier(class_weight='balanced', max_depth=7, n_estimators=131,
                       random_state=12345)

In [37]:
predictions_test = model.predict(features_test)
probabilities_one_test = model.predict_proba(features_test)[:, 1]

In [38]:
print('Accuracy на тестовой выборке:',
          accuracy_score(target_test,predictions_test).round(2))
print('F1 на тестовой выборке:',
          f1_score(target_test,predictions_test).round(2))
print('AUC_ROC на тестовой выборке:',
          roc_auc_score(target_test,probabilities_one_test).round(2))

Accuracy на тестовой выборке: 0.82
F1 на тестовой выборке: 0.62
AUC_ROC на тестовой выборке: 0.86


## Общий вывод

В ходе данного проекта данные о поведении клиентов банка были изучены, предобработаны и разделены на три выборки: обучающую, валидационную и тестовую в соотношении ***60% : 20% : 20%*** с учетом пропорции классов.

Выборки были использованы для обучения моделей: ***Дерево решений***, ***Случайный лес*** и ***Логистическая ререссия***.

В выборках наблюдался дисбаланс классов, для борьбы с которым были применены методы ***Взвешивания классов*** и ***Увеличения обучающей выборки***. ***Взвешивание классов*** и ***Увеличение обучающей выборки*** позволили улучшить качество моделей относительно пробных, но при ***Взвешивании классов*** мы получили менее переобученную модель ***Случайного леса***, обладающую наибольшим значением ***F1-меры***.

Метрики качества наилучшей модели на **валидационной выборке**:

- *Accuracy*: ***0.83***
- *F1*: ***0.63***
- *AUC_ROC*: ***0.87***

Метрики качества наилучшей модели на **тестовой выборке**:

- *Accuracy*: ***0.82***
- *F1*: ***0.62***
- *AUC_ROC*: ***0.86***

Время обучения модели: 513 мсек.