<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка-данных" data-toc-modified-id="Подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка данных</a></span></li><li><span><a href="#Исследование-задачи" data-toc-modified-id="Исследование-задачи-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Исследование задачи</a></span></li><li><span><a href="#Борьба-с-дисбалансом" data-toc-modified-id="Борьба-с-дисбалансом-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Борьба с дисбалансом</a></span></li><li><span><a href="#Тестирование-модели" data-toc-modified-id="Тестирование-модели-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Тестирование модели</a></span></li><li><span><a href="#Чек-лист-готовности-проекта" data-toc-modified-id="Чек-лист-готовности-проекта-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист готовности проекта</a></span></li></ul></div>

# Отток клиентов

Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.

Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. 

Постройте модель с предельно большим значением *F1*-меры. Чтобы сдать проект успешно, нужно довести метрику до 0.59. Проверьте *F1*-меру на тестовой выборке самостоятельно.

Дополнительно измеряйте *AUC-ROC*, сравнивайте её значение с *F1*-мерой.

Источник данных: [https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling](https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling)

## Подготовка данных

In [11]:
# код ревьюера - это нам нужно, чтобы избежать ошибки в OHE и такиудалить одну из колонок, чтобы избежать мультиколлинерарности
!pip install scikit-learn==1.1.3
!pip install category_encoders



In [12]:
!pip install imblearn



In [13]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [14]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score
from sklearn.utils import shuffle
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score
from sklearn.metrics import confusion_matrix

In [15]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler

In [16]:
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler

In [17]:
from joblib import dump
from joblib import load

In [25]:
data = pd.read_csv('C:/Users/m/git/prog1/data.csv')

Познакомимся с данными и проверим на мультиколлинеарность

In [26]:
data.shape

(10000, 14)

In [27]:
data.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


In [28]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           9091 non-null   float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB


In [29]:
data.describe()

Unnamed: 0,RowNumber,CustomerId,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
count,10000.0,10000.0,10000.0,10000.0,9091.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,5000.5,15690940.0,650.5288,38.9218,4.99769,76485.889288,1.5302,0.7055,0.5151,100090.239881,0.2037
std,2886.89568,71936.19,96.653299,10.487806,2.894723,62397.405202,0.581654,0.45584,0.499797,57510.492818,0.402769
min,1.0,15565700.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,2500.75,15628530.0,584.0,32.0,2.0,0.0,1.0,0.0,0.0,51002.11,0.0
50%,5000.5,15690740.0,652.0,37.0,5.0,97198.54,1.0,1.0,1.0,100193.915,0.0
75%,7500.25,15753230.0,718.0,44.0,7.0,127644.24,2.0,1.0,1.0,149388.2475,0.0
max,10000.0,15815690.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0,199992.48,1.0


In [30]:
data.describe(include='all')

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
count,10000.0,10000.0,10000,10000.0,10000,10000,10000.0,9091.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
unique,,,2932,,3,2,,,,,,,,
top,,,Smith,,France,Male,,,,,,,,
freq,,,32,,5014,5457,,,,,,,,
mean,5000.5,15690940.0,,650.5288,,,38.9218,4.99769,76485.889288,1.5302,0.7055,0.5151,100090.239881,0.2037
std,2886.89568,71936.19,,96.653299,,,10.487806,2.894723,62397.405202,0.581654,0.45584,0.499797,57510.492818,0.402769
min,1.0,15565700.0,,350.0,,,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,2500.75,15628530.0,,584.0,,,32.0,2.0,0.0,1.0,0.0,0.0,51002.11,0.0
50%,5000.5,15690740.0,,652.0,,,37.0,5.0,97198.54,1.0,1.0,1.0,100193.915,0.0
75%,7500.25,15753230.0,,718.0,,,44.0,7.0,127644.24,2.0,1.0,1.0,149388.2475,0.0


In [31]:
data.corr()

Unnamed: 0,RowNumber,CustomerId,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
RowNumber,1.0,0.004202,0.00584,0.000783,-0.007322,-0.009067,0.007246,0.000599,0.012044,-0.005988,-0.016571
CustomerId,0.004202,1.0,0.005308,0.009497,-0.021418,-0.012419,0.016972,-0.014025,0.001665,0.015271,-0.006248
CreditScore,0.00584,0.005308,1.0,-0.003965,-6.2e-05,0.006268,0.012238,-0.005458,0.025651,-0.001384,-0.027094
Age,0.000783,0.009497,-0.003965,1.0,-0.013134,0.028308,-0.03068,-0.011721,0.085472,-0.007201,0.285323
Tenure,-0.007322,-0.021418,-6.2e-05,-0.013134,1.0,-0.007911,0.011979,0.027232,-0.032178,0.01052,-0.016761
Balance,-0.009067,-0.012419,0.006268,0.028308,-0.007911,1.0,-0.30418,-0.014858,-0.010084,0.012797,0.118533
NumOfProducts,0.007246,0.016972,0.012238,-0.03068,0.011979,-0.30418,1.0,0.003183,0.009612,0.014204,-0.04782
HasCrCard,0.000599,-0.014025,-0.005458,-0.011721,0.027232,-0.014858,0.003183,1.0,-0.011866,-0.009933,-0.007138
IsActiveMember,0.012044,0.001665,0.025651,0.085472,-0.032178,-0.010084,0.009612,-0.011866,1.0,-0.011421,-0.156128
EstimatedSalary,-0.005988,0.015271,-0.001384,-0.007201,0.01052,0.012797,0.014204,-0.009933,-0.011421,1.0,0.012097


Мультколлинеарности нет, но есть не нужные ждя модели ненужные столбцы, например RowNumber, CustomerId и Surname. Эти данные быди бы полезны дня анализа жанных, но для модели бесполезны, и даже скорее всего вредны. Удалим столбцы. 

In [32]:
data = data.drop(['RowNumber', 'CustomerId', 'Surname'], axis=1)

In [33]:
data.head()

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


Есть пропуски в столбце Tenure. Изучим столбец и посмотрим что можно сделать

In [34]:
data['Tenure'].value_counts()

1.0     952
2.0     950
8.0     933
3.0     928
5.0     927
7.0     925
4.0     885
9.0     882
6.0     881
10.0    446
0.0     382
Name: Tenure, dtype: int64

Не читая 10 и 0, данные очень равноерно распределены. Думаю лучше удалить строки с Null, это меньше 10% данных.

In [35]:
data = data.dropna(subset=['Tenure']).reset_index(drop=True)

In [36]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9091 entries, 0 to 9090
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   CreditScore      9091 non-null   int64  
 1   Geography        9091 non-null   object 
 2   Gender           9091 non-null   object 
 3   Age              9091 non-null   int64  
 4   Tenure           9091 non-null   float64
 5   Balance          9091 non-null   float64
 6   NumOfProducts    9091 non-null   int64  
 7   HasCrCard        9091 non-null   int64  
 8   IsActiveMember   9091 non-null   int64  
 9   EstimatedSalary  9091 non-null   float64
 10  Exited           9091 non-null   int64  
dtypes: float64(3), int64(6), object(2)
memory usage: 781.4+ KB


In [37]:
data.head()

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


Очень интересно получается. Страны у нас три и с одной стороны хочется применить технику Ordinal Encoding, но она очень плохо работает с логистической регрессией поэтому скорее всего остановимся на технике One-Hot Encoding и   скорее всего применим модель логистической регрессии поскольку такая модель очень хорошо подходит для решения задач классификации. В учебных целя также можно разоьрать модели на основе деревьев. Забегая вперёд отмечу что модели основанные на деревьях, а именно решающее дерево и случайный лес не будем использовать поскольку данные модели плохо реагируют на масштабирование данных, а судя по задаче данные масштабировать придётся.

In [40]:
data.head()

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


In [41]:
data['Exited'].value_counts()

0    7237
1    1854
Name: Exited, dtype: int64

Наблюдается дисбаланс классов, то не хорошо. Ниже будем избавляться от этого явления

## Исследование задачи

Разобьем данные на выборки

In [42]:
target = data['Exited']
features = data.drop('Exited', axis=1)

features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.25, random_state=12345)
features_valid, features_test, target_valid, target_test = train_test_split(
    features_valid, target_valid, test_size=0.5, random_state=12345)

In [43]:
print(data.shape)
print('-------------------')
print(features_train.shape)
print(target_train.shape)
print(features_valid.shape)
print(target_valid.shape)
print(features_test.shape)
print(target_test.shape)

(9091, 11)
-------------------
(6818, 10)
(6818,)
(1136, 10)
(1136,)
(1137, 10)
(1137,)


In [44]:
categoricals = ['Geography', 'Gender']

"""

ohe = OneHotEncoder(categories = 'auto', sparse = False, drop='first')
ohe.fit(features_train[['Geography']])

features_train[['Geography']] = ohe.transform(features_train[['Geography']]).toarray()


"""

#код ревьюера

encoder = OneHotEncoder(handle_unknown='ignore', drop='first') 

features_train_ohe = pd.DataFrame(
    encoder.fit_transform(features_train[categoricals]).toarray(),
    columns=encoder.get_feature_names_out()
)

features_valid_ohe = pd.DataFrame(
    encoder.transform(features_valid[categoricals]).toarray(),
    columns=encoder.get_feature_names_out()
)

# дальше тест нужно будет прогнать еще не забыть (все по аналогии с валидационной)

features_test_ohe = pd.DataFrame(
    encoder.transform(features_test[categoricals]).toarray(),
    columns=encoder.get_feature_names_out()
)

In [45]:
# код ревьюера
features_train_ohe.head()

Unnamed: 0,Geography_Germany,Geography_Spain,Gender_Male
0,1.0,0.0,0.0
1,0.0,0.0,1.0
2,1.0,0.0,1.0
3,0.0,1.0,1.0
4,0.0,0.0,1.0


У нас есть признаки CreditScore, Balance, EstimatedSalary и их значения сильно разьроссаны, поэтому алгоритм будет думать, что какойто признак важнее другого. Приведем признаки к одному масштабу.

In [46]:
pd.options.mode.chained_assignment = None

numeric = ['CreditScore', 'Balance', 'EstimatedSalary']

scaler = StandardScaler()
scaler.fit(features_train[numeric])
features_train[numeric] = scaler.transform(features_train[numeric])
features_valid[numeric] = scaler.transform(features_valid[numeric])
features_test[numeric] = scaler.transform(features_test[numeric]) 

In [47]:
features_train[numeric]

Unnamed: 0,CreditScore,Balance,EstimatedSalary
1349,-1.037187,0.937205,-1.635163
6740,0.297802,-1.233158,-0.590123
6816,-1.078582,0.307627,0.073185
5145,-1.130326,-1.233158,1.674643
6678,-0.478354,0.420246,-1.069473
...,...,...,...
4478,1.280934,0.808482,-1.104143
4094,0.152920,1.065897,0.254945
3492,-1.057885,0.446252,-1.098318
2177,-0.964746,-1.233158,1.286788


In [48]:
features_train

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
1349,-1.037187,Germany,Female,43,3.0,0.937205,1,1,0,-1.635163
6740,0.297802,France,Male,38,3.0,-1.233158,2,1,0,-0.590123
6816,-1.078582,Germany,Male,37,9.0,0.307627,2,0,1,0.073185
5145,-1.130326,Spain,Male,28,8.0,-1.233158,2,0,0,1.674643
6678,-0.478354,France,Male,40,4.0,0.420246,2,1,1,-1.069473
...,...,...,...,...,...,...,...,...,...,...
4478,1.280934,Germany,Male,34,10.0,0.808482,1,0,0,-1.104143
4094,0.152920,France,Female,44,8.0,1.065897,1,1,1,0.254945
3492,-1.057885,France,Female,29,6.0,0.446252,1,1,1,-1.098318
2177,-0.964746,France,Female,52,9.0,-1.233158,1,1,0,1.286788


Удалим ячейки Geography и Gender перед обьединением. Они больше не нужны

In [49]:
features_train = features_train.drop(['Geography', 'Gender'], axis=1, errors='ignore')
features_valid = features_valid.drop(['Geography', 'Gender'], axis=1, errors='ignore')
features_test = features_test.drop(['Geography', 'Gender'], axis=1, errors='ignore')

In [50]:
features_train.head()

Unnamed: 0,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
1349,-1.037187,43,3.0,0.937205,1,1,0,-1.635163
6740,0.297802,38,3.0,-1.233158,2,1,0,-0.590123
6816,-1.078582,37,9.0,0.307627,2,0,1,0.073185
5145,-1.130326,28,8.0,-1.233158,2,0,0,1.674643
6678,-0.478354,40,4.0,0.420246,2,1,1,-1.069473


In [51]:
#код ревьюера
features_train= features_train.reset_index(drop=True)
features_valid = features_valid.reset_index(drop=True)
features_test = features_test.reset_index(drop=True)

In [52]:
features_train_ohe.head()

Unnamed: 0,Geography_Germany,Geography_Spain,Gender_Male
0,1.0,0.0,0.0
1,0.0,0.0,1.0
2,1.0,0.0,1.0
3,0.0,1.0,1.0
4,0.0,0.0,1.0


Обьединим данные

In [53]:
features_train_enc = features_train_ohe.join(features_train)
features_valid_enc = features_valid_ohe.join(features_valid)
features_test_enc = features_test_ohe.join(features_test)

In [54]:
features_train_enc

Unnamed: 0,Geography_Germany,Geography_Spain,Gender_Male,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
0,1.0,0.0,0.0,-1.037187,43,3.0,0.937205,1,1,0,-1.635163
1,0.0,0.0,1.0,0.297802,38,3.0,-1.233158,2,1,0,-0.590123
2,1.0,0.0,1.0,-1.078582,37,9.0,0.307627,2,0,1,0.073185
3,0.0,1.0,1.0,-1.130326,28,8.0,-1.233158,2,0,0,1.674643
4,0.0,0.0,1.0,-0.478354,40,4.0,0.420246,2,1,1,-1.069473
...,...,...,...,...,...,...,...,...,...,...,...
6813,1.0,0.0,1.0,1.280934,34,10.0,0.808482,1,0,0,-1.104143
6814,0.0,0.0,0.0,0.152920,44,8.0,1.065897,1,1,1,0.254945
6815,0.0,0.0,0.0,-1.057885,29,6.0,0.446252,1,1,1,-1.098318
6816,0.0,0.0,0.0,-0.964746,52,9.0,-1.233158,1,1,0,1.286788


Построим модель случайного леса

In [55]:
for est in range(1, 200, 20):
    for depth in range(40, 100, 10):
        model = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=depth) 
        model.fit(features_train_enc, target_train) 
        predicted_valid = model.predict(features_valid_enc)
        f1 = f1_score(target_valid, predicted_valid)
        probabilities_valid = model.predict_proba(features_valid_enc)
        probabilities_one_valid = probabilities_valid[:, 1]

        fpr, tpr, treshold = roc_curve(target_valid, probabilities_one_valid)
        auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
    
        print('depth:', depth, ' ', 'F1:', f1, ' ', 'est:', est,  ' ', 'auc_roc:', auc_roc)

depth: 40   F1: 0.4618556701030928   est: 1   auc_roc: 0.6645599385737595
depth: 50   F1: 0.4618556701030928   est: 1   auc_roc: 0.6645599385737595
depth: 60   F1: 0.4618556701030928   est: 1   auc_roc: 0.6645599385737595
depth: 70   F1: 0.4618556701030928   est: 1   auc_roc: 0.6645599385737595
depth: 80   F1: 0.4618556701030928   est: 1   auc_roc: 0.6645599385737595
depth: 90   F1: 0.4618556701030928   est: 1   auc_roc: 0.6645599385737595
depth: 40   F1: 0.5818181818181818   est: 21   auc_roc: 0.8443396679143871
depth: 50   F1: 0.5818181818181818   est: 21   auc_roc: 0.8443396679143871
depth: 60   F1: 0.5818181818181818   est: 21   auc_roc: 0.8443396679143871
depth: 70   F1: 0.5818181818181818   est: 21   auc_roc: 0.8443396679143871
depth: 80   F1: 0.5818181818181818   est: 21   auc_roc: 0.8443396679143871
depth: 90   F1: 0.5818181818181818   est: 21   auc_roc: 0.8443396679143871
depth: 40   F1: 0.5851063829787234   est: 41   auc_roc: 0.8455322007870236
depth: 50   F1: 0.5851063829787

Наилучший результат при depth: 40-90, F1: 0.048780487804878044   est 21   auc_roc: 0.6466551492465689, f1 мера очень низкая, попробуем другую модель

## Борьба с дисбалансом

Для борьбы с дисбалансом классов применим несколько стрптегий.
1.  class_weight = 'balanced' добавим этот аргумент к каждой модели
2. upsampling
3. downsampling

1 стратегия

Случайный лес

In [56]:
for est in range(1, 200, 20):
    for depth in range(40, 100, 10):
        model = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=depth , class_weight = 'balanced') 
        model.fit(features_train_enc, target_train) 
        predicted_valid = model.predict(features_valid_enc)
        f1 = f1_score(target_valid, predicted_valid)
        probabilities_valid = model.predict_proba(features_valid_enc)
        probabilities_one_valid = probabilities_valid[:, 1]

        fpr, tpr, treshold = roc_curve(target_valid, probabilities_one_valid)
        auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
    
        print('depth:', depth, ' ', 'F1:', f1, ' ', 'est:', est,  ' ', 'auc_roc:', auc_roc)

depth: 40   F1: 0.47537473233404715   est: 1   auc_roc: 0.6717679239850274
depth: 50   F1: 0.47537473233404715   est: 1   auc_roc: 0.6717679239850274
depth: 60   F1: 0.47537473233404715   est: 1   auc_roc: 0.6717679239850274
depth: 70   F1: 0.47537473233404715   est: 1   auc_roc: 0.6717679239850274
depth: 80   F1: 0.47537473233404715   est: 1   auc_roc: 0.6717679239850274
depth: 90   F1: 0.47537473233404715   est: 1   auc_roc: 0.6717679239850274
depth: 40   F1: 0.568421052631579   est: 21   auc_roc: 0.8352673001247719
depth: 50   F1: 0.568421052631579   est: 21   auc_roc: 0.8352673001247719
depth: 60   F1: 0.568421052631579   est: 21   auc_roc: 0.8352673001247719
depth: 70   F1: 0.568421052631579   est: 21   auc_roc: 0.8352673001247719
depth: 80   F1: 0.568421052631579   est: 21   auc_roc: 0.8352673001247719
depth: 90   F1: 0.568421052631579   est: 21   auc_roc: 0.8352673001247719
depth: 40   F1: 0.5767195767195767   est: 41   auc_roc: 0.8466527497840484
depth: 50   F1: 0.5767195767195

После балансировки резултат на лицо. При любом depth и est результат примерно F1: 0.5745257452574525   est: 181   auc_roc: 0.8574983203762356 Но нужно пробывать другую модель f1 мера маленькая.

2 стратегия метод SMOTE

In [None]:
oversample = SMOTE(random_state=12345)
features_train_up, target_train_up = oversample.fit_resample(features_train_enc, target_train)
features_valid_up, target_valid_up = oversample.fit_resample(features_valid_enc, target_valid)
features_test_up, target_test_up = oversample.fit_resample(features_test_enc, target_test)

Случайный лес

In [None]:
for est in range(1, 200, 20):
    for depth in range(1, 100, 10):
        model = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=depth) 
        model.fit(features_train_up, target_train_up) 
        predicted_valid = model.predict(features_valid_up)
        f1 = f1_score(target_valid_up, predicted_valid)
        
        probabilities_valid = model.predict_proba(features_valid_up)
        probabilities_one_valid = probabilities_valid[:, 1]

        fpr, tpr, treshold = roc_curve(target_valid_up, probabilities_one_valid)
        auc_roc = roc_auc_score(target_valid_up, probabilities_one_valid)
    
        print('depth:', depth, ' ', 'F1:', f1, ' ', 'est:', est,  ' ', 'auc_roc:', auc_roc)

Очень незначительные изминения относительно решающего дерева. Лучший резкдьтат на всем диапозоне примерно одинаковй depth: 51   F1: 0.8529411764705883   est: 121   auc_roc: 0.9350156425887755

3 стратегия метод RandomUnderSampler

In [None]:
downsample = RandomUnderSampler(random_state=12345)

features_train_down, target_train_down = downsample.fit_resample(features_train_enc, target_train)
features_valid_down, target_valid_down = downsample.fit_resample(features_valid_enc, target_valid)
features_test_down, target_test_down = downsample.fit_resample(features_test_enc, target_test)

In [None]:
for est in range(1, 200, 20):
    for depth in range(1, 100, 10):
        model = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=depth) 
        model.fit(features_train_down, target_train_down) 
        predicted_valid = model.predict(features_valid_down)
        f1 = f1_score(target_valid_down, predicted_valid)
        
        probabilities_valid = model.predict_proba(features_valid_down)
        probabilities_one_valid = probabilities_valid[:, 1]
    
        fpr, tpr, treshold = roc_curve(target_valid_down, probabilities_one_valid)
        auc_roc = roc_auc_score(target_valid_down, probabilities_one_valid)
    
        print('depth:', depth, ' ', 'F1:', f1, ' ', 'est:', est,  ' ', 'auc_roc:', auc_roc)

У случайного леса метрика немнго eще ухудшилась при SMOTE. depth: 91   F1: 0.7895878524945769   est: 181   auc_roc: 0.8672873345935728

Вывод: 
Видно что самая лучшая оказалась первая стратегия где баланс классов устанавливается с помощью аргумента class_weight = 'balanced'. Самый лучший результат у модели случайного леса, где f1 метрика равна 0.6208. Что касается стратегии upsampling и downsampling, то следует отметить что нету точных показателей которые говорят насколько нужно увеличить или уменьшить выборку чтобы достичь наилучшего результата. Кто-то считает, что нужно выравнивать 50 на 50, есть те кто не использует upsampling/downsampling, кто-то пробует различные коэффициенты, это все эмпирические выводы.

## Тестирование модели

Вначале сохраним лучшуу модель, случайный лес метод SMOKE при n_estimators=191, max_depth=91

In [57]:
model = RandomForestClassifier(random_state=12345, n_estimators=181, max_depth=91) 
model.fit(features_train_up, target_train_up) 
dump(model, 'model_RandomForestClassifier_SMOKE.joblib')

NameError: name 'features_train_up' is not defined

In [58]:
model = load('model_RandomForestClassifier_SMOKE.joblib')

test_predictions = model.predict(features_test_up)
test_f1 = f1_score(target_test_up, test_predictions)

probabilities_test = model.predict_proba(features_test_up)
probabilities_one_test = probabilities_test[:, 1]
fpr, tpr, treshold = roc_curve(target_test_up, probabilities_one_test)
auc_roc = roc_auc_score(target_test_up, probabilities_one_test)

print('depth:', depth, ' ', 'F1:', test_f1, ' ', 'est:', est,  ' ', 'auc_roc:', auc_roc)

FileNotFoundError: [Errno 2] No such file or directory: 'model_RandomForestClassifier_SMOKE.joblib'

Результат намного больше 0,59, depth: 91   F1: 0.8612385321100918   est: 181   auc_roc: 0.9411451679029768, но попробую обьединить выборки

In [59]:
NEW_features_train_up = pd.concat([features_train_up, features_valid_up])
NEW_target_train_up = pd.concat([target_train_up, target_valid_up])

NameError: name 'features_train_up' is not defined

In [60]:
model = RandomForestClassifier(random_state=12345, n_estimators=181, max_depth=91) 
model.fit(NEW_features_train_up, NEW_target_train_up) 
predicted_test = model.predict(features_test_up)
f1 = f1_score(target_test_up, predicted_test)


probabilities_test = model.predict_proba(features_test_up)
probabilities_one_test = probabilities_test[:, 1]
fpr, tpr, treshold = roc_curve(target_test_up, probabilities_one_test)
auc_roc = roc_auc_score(target_test_up, probabilities_one_test)
    
print('depth:', depth, ' ', 'F1:', f1, ' ', 'est:', est,  ' ', 'auc_roc:', auc_roc)

NameError: name 'NEW_features_train_up' is not defined

Результат не сильно поменялся 

Вывод: Основной проблемой для адекватной работы модели был дисбаланс классов

Мы применили несколько стратегий борьбы с дисбалансом классов.

Стратегия class_weight = 'balanced'  дала следующие результаты:
• решающее дерево: F1-мера = 0.5601, при max_depth = 7
• случайный лес: максимальная F1-мера: 0.6208, при n_estimators = 200, при max_depth = 7 
• логистическая регрессия: F1-мера = 0.4962

Стратегия upsampling дала следующие результаты :
• решающее дерево: F1-мера = 0.5676, при max_depth = 7
• случайный лес: максимальная F1-мера: 0.6027, при n_estimators = 200, при max_depth = 7 
• логистическая регрессия: F1-мера = 0.4832

Стратегия downsampling дала следующие результаты :
• решающее дерево: F1-мера = 0.5681, при max_depth = 7
• случайный лес: максимальная F1-мера: 0.5837, при n_estimators = 200, при max_depth = 7 
• логистическая регрессия: F1-мера = 0.4892

В качестве лучшей модели была выбрана модель  случайного леса при значении гиперпараметра max_depth = 5, n_estimators = 200, указании атрибута class_weight='balanced' 

На валидационной выборке модель следующие результаты:
• F1-мера: 0.6208
На тестовой выборке модель следующие результаты:
• F1-мера: 0.60869
• AUC-ROC: 0.86463 

Проверку на тестовой выборке модель прошла. Требование касательно значения F1-меры (нужно довести метрику до 0.59) выполнено.

P.S. Для более лучшей работы стратегий по уменьшению дисблаоанса классов, следовало бы немного поиграть порогом и посмтреть как он повлияет на тосность и полноту и как следствие на f1 меру, но это более шлубокая работа и повидимому немного выодит за рамки проекта.

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные подготовлены
- [x]  Выполнен шаг 2: задача исследована
    - [x]  Исследован баланс классов
    - [x]  Изучены модели без учёта дисбаланса
    - [x]  Написаны выводы по результатам исследования
- [x]  Выполнен шаг 3: учтён дисбаланс
    - [x]  Применено несколько способов борьбы с дисбалансом
    - [x]  Написаны выводы по результатам исследования
- [x]  Выполнен шаг 4: проведено тестирование
- [x]  Удалось достичь *F1*-меры не менее 0.59
- [x]  Исследована метрика *AUC-ROC*