<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка-данных" data-toc-modified-id="Подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка данных</a></span></li><li><span><a href="#Исследование-задачи" data-toc-modified-id="Исследование-задачи-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Исследование задачи</a></span></li><li><span><a href="#Борьба-с-дисбалансом" data-toc-modified-id="Борьба-с-дисбалансом-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Борьба с дисбалансом</a></span></li><li><span><a href="#Тестирование-модели" data-toc-modified-id="Тестирование-модели-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Тестирование модели</a></span></li><li><span><a href="#Чек-лист-готовности-проекта" data-toc-modified-id="Чек-лист-готовности-проекта-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист готовности проекта</a></span></li></ul></div>

# Отток клиентов

Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.

Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. 

Постройте модель с предельно большим значением *F1*-меры. Чтобы сдать проект успешно, нужно довести метрику до 0.59. Проверьте *F1*-меру на тестовой выборке самостоятельно.

Дополнительно измеряйте *AUC-ROC*, сравнивайте её значение с *F1*-мерой.

Источник данных: [https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling](https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling)

<h1>Признаки<span class="tocSkip"></span></h1> 



- RowNumber — индекс строки в данных
- CustomerId — уникальный идентификатор клиента
- Surname — фамилия
- CreditScore — кредитный рейтинг
- Geography — страна проживания
- Gender — пол
- Age — возраст
- Tenure — сколько лет человек является клиентом банка
- Balance — баланс на счёте
- NumOfProducts — количество продуктов банка, используемых клиентом
- HasCrCard — наличие кредитной карты
- IsActiveMember — активность клиента
- EstimatedSalary — предполагаемая зарплата

Целевой признак

- Exited — факт ухода клиента </a></span></li></ul></div>

Импортируем необходимые библиотеки для работы

In [1]:
import pandas as pd
import numpy as np
import matplotlib as mplt
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats as st
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics import mean_squared_error as mse
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import f1_score
from sklearn.utils import shuffle
from sklearn.metrics import accuracy_score
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score
from sklearn.preprocessing import StandardScaler


pd.set_option('display.float_format', '{:,.2f}'.format)

## Подготовка данных

Загрузим и изучим представленные данные

In [2]:
data = pd.read_csv('Churn.csv')

In [3]:
def my_func(x):
    print('------------- Исходный датафрейм -------------')
    display(x.head())
    display(x.tail())
    print('')
    print('')
    print('------------- Общая информация о датафрейме -------------')
    print('')
    print('')
    display(x.info())
    print('------------- Количество пустых значений в датафрейме -------------')
    print('')
    print('')
    display(x.isna().sum())
    print('------------- Количество явных дубликатов в датафрейме -------------')
    display(x.duplicated().sum())
    print('')
    print('')
    print('------------- Описательная статистика -------------')
    display(x.describe())
    print('')
    print('')
    print('------------- Размер датасета -------------')
    display(x.shape)
    
data = pd.read_csv('Churn.csv')
my_func(data)

------------- Исходный датафрейм -------------


Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
9995,9996,15606229,Obijiaku,771,France,Male,39,5.0,0.0,2,1,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10.0,57369.61,1,1,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7.0,0.0,1,0,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3.0,75075.31,2,1,0,92888.52,1
9999,10000,15628319,Walker,792,France,Female,28,,130142.79,1,1,0,38190.78,0




------------- Общая информация о датафрейме -------------


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           9091 non-null   float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB


None

------------- Количество пустых значений в датафрейме -------------




RowNumber            0
CustomerId           0
Surname              0
CreditScore          0
Geography            0
Gender               0
Age                  0
Tenure             909
Balance              0
NumOfProducts        0
HasCrCard            0
IsActiveMember       0
EstimatedSalary      0
Exited               0
dtype: int64

------------- Количество явных дубликатов в датафрейме -------------


0



------------- Описательная статистика -------------


Unnamed: 0,RowNumber,CustomerId,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
count,10000.0,10000.0,10000.0,10000.0,9091.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,5000.5,15690940.57,650.53,38.92,5.0,76485.89,1.53,0.71,0.52,100090.24,0.2
std,2886.9,71936.19,96.65,10.49,2.89,62397.41,0.58,0.46,0.5,57510.49,0.4
min,1.0,15565701.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,2500.75,15628528.25,584.0,32.0,2.0,0.0,1.0,0.0,0.0,51002.11,0.0
50%,5000.5,15690738.0,652.0,37.0,5.0,97198.54,1.0,1.0,1.0,100193.91,0.0
75%,7500.25,15753233.75,718.0,44.0,7.0,127644.24,2.0,1.0,1.0,149388.25,0.0
max,10000.0,15815690.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0,199992.48,1.0




------------- Размер датасета -------------


(10000, 14)

Из представленных данных видно, что столбцы нужно привести к правильному(змеиному) формату,изучить столбец Tunure на кол-во пропущенных значений и перевести его в другой формат, явных дубликатов не обнаружено, аномальных выбросов на данном этапе не видно, размер датасета 10000 на 14
Также, можно избавиться от столбца RowNUmber,Customerid и Surname, они не нужны для анализа.

In [4]:
data = data.drop(['RowNumber', 'CustomerId', 'Surname'], axis=1)

In [5]:
data.shape

(10000, 11)

In [6]:
data.columns = data.columns.str.lower()
data.columns

Index(['creditscore', 'geography', 'gender', 'age', 'tenure', 'balance',
       'numofproducts', 'hascrcard', 'isactivemember', 'estimatedsalary',
       'exited'],
      dtype='object')

In [7]:
data = data.rename(columns={ 'creditscore':'credit_score',
       'numofproducts':'num_of_products', 'hascrcard':'has_cr_card',
       'isactivemember':'is_active_member', 'estimatedsalary':'estimated_salary'})
data.head()

Unnamed: 0,credit_score,geography,gender,age,tenure,balance,num_of_products,has_cr_card,is_active_member,estimated_salary,exited
0,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


видно, что доля в столбце tenure не очень высокая, порядка 1,5-2 %, в всязи с чем можно заменить их на ноль или избавиться от них вовсе. я заменю на ноль, будем считать, что клиент только появился. также переведем данный столбец в расширение int 

In [8]:
data['tenure'] = data['tenure'].fillna(0)
data['tenure'] = data['tenure'].astype('int')

In [9]:
display(data['tenure'].isna().sum())
display(data.info())

0

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   credit_score      10000 non-null  int64  
 1   geography         10000 non-null  object 
 2   gender            10000 non-null  object 
 3   age               10000 non-null  int64  
 4   tenure            10000 non-null  int32  
 5   balance           10000 non-null  float64
 6   num_of_products   10000 non-null  int64  
 7   has_cr_card       10000 non-null  int64  
 8   is_active_member  10000 non-null  int64  
 9   estimated_salary  10000 non-null  float64
 10  exited            10000 non-null  int64  
dtypes: float64(2), int32(1), int64(6), object(2)
memory usage: 820.4+ KB


None

отлично, убрали пропуски и сохранили кол-во строк, а также перевели столбец в int, все столбцы привели в божейский вид

просмотрим кол-во уникальных значений в столбцах gender и geography 

In [10]:
display(data['geography'].unique())
display(data['gender'].unique())

array(['France', 'Spain', 'Germany'], dtype=object)

array(['Female', 'Male'], dtype=object)

применим ко всему датусету One-Hot Encoding , что бы не попасть в дамми ловушку

In [11]:
data_ohe = pd.get_dummies(data, drop_first=True)
display(data_ohe.head())
display(data_ohe.shape)

Unnamed: 0,credit_score,age,tenure,balance,num_of_products,has_cr_card,is_active_member,estimated_salary,exited,geography_Germany,geography_Spain,gender_Male
0,619,42,2,0.0,1,1,1,101348.88,1,False,False,False
1,608,41,1,83807.86,1,0,1,112542.58,0,False,True,False
2,502,42,8,159660.8,3,1,0,113931.57,1,False,False,False
3,699,39,1,0.0,2,0,0,93826.63,0,False,False,False
4,850,43,2,125510.82,1,1,1,79084.1,0,False,True,False


(10000, 12)

In [12]:
data_ohe = data_ohe.rename(columns={ 'geography_Germany':'geography_germany',
       'geography_Spain':'geography_spain', 'gender_Male':'gender_male'})

после испоьзования OHE, кол-во столбцов стало 12

In [13]:
data_ohe.head()

Unnamed: 0,credit_score,age,tenure,balance,num_of_products,has_cr_card,is_active_member,estimated_salary,exited,geography_germany,geography_spain,gender_male
0,619,42,2,0.0,1,1,1,101348.88,1,False,False,False
1,608,41,1,83807.86,1,0,1,112542.58,0,False,True,False
2,502,42,8,159660.8,3,1,0,113931.57,1,False,False,False
3,699,39,1,0.0,2,0,0,93826.63,0,False,False,False
4,850,43,2,125510.82,1,1,1,79084.1,0,False,True,False


подитог:
1) преобразовали название столбцов в правильный вид
2) избавились от пропусков в столбце tenure и преобразовали данные в формат int
3) убрали столбцы 'RowNumber', 'CustomerId', 'Surname', т.к. они не нужны для анализа
4) преобразовали данные методом OHE

## Исследование задачи

Для исследования разделим на три выборки: обучающую,валидационную и тестовую

In [14]:
target = data_ohe['exited']
features = data_ohe.drop(['exited'], axis=1)

разделим  данные на обучающую и валидационную выборки в соотношении 60/40:

In [15]:
features_train, features_valid, target_train, target_valid = train_test_split(features,
                                                                              target, test_size=0.4,
                                                                              random_state=12345)

разделим валидационную выборку на валидационную и тестовую в соотношении 50/50:

In [16]:
features_test, features_valid, target_test, target_valid = train_test_split(features_valid,
                                                                            target_valid, test_size=0.5,
                                                                            random_state=12345)

проверим разбивку на train, valid, test в соотношении 3:1:1

In [17]:
features_train.shape, features_valid.shape, features_test.shape

((6000, 11), (2000, 11), (2000, 11))

Проверим на наличие дисбаланса в целевом показателе

In [18]:
target.value_counts(normalize=True)


exited
0   0.80
1   0.20
Name: proportion, dtype: float64

Видно, что в целевом признаке наблюдается сильный дисбаланс классов, т.е. нужно увеличть долю объектов положительного класса, т.к. всего 20 % приходится на положительные ответы


Обучим модели:

Дерево решений

In [19]:
best_model_tree = None
best_f1_tree = 0
best_depth_tree =0
best_auc_tree=0
for depth in range(1, 15):
    model_tree = DecisionTreeClassifier(random_state=12345,max_depth=depth)
    model_tree.fit(features_train, target_train)
    predictions_valid_tree = model_tree.predict(features_valid)
    f1_tree = f1_score(target_valid, predictions_valid_tree)
    auc_roc_tree = roc_auc_score(target_valid, model_tree.predict_proba(features_valid)[:, 1])
    if f1_tree > best_f1_tree:
        best_model_tree = model_tree
        best_depth_tree = depth
        best_f1_tree = f1_tree
        best_auc_tree = auc_roc_tree
    print("max_depth =", depth, ": ", end='')
    print("F1-мера:", f1_tree)
    print("AUC-ROC:",auc_roc_tree)
print()
print('max_depth для дерево решений =', best_depth_tree) 
print('F1 для дерево решений ', best_f1_tree)
print('AUC-ROC =', best_auc_tree)


max_depth = 1 : F1-мера: 0.0
AUC-ROC: 0.6811643738072859
max_depth = 2 : F1-мера: 0.4986301369863014
AUC-ROC: 0.7280154586243442
max_depth = 3 : F1-мера: 0.3795620437956204
AUC-ROC: 0.7918669826750078
max_depth = 4 : F1-мера: 0.48307692307692307
AUC-ROC: 0.8119015816907046
max_depth = 5 : F1-мера: 0.5015772870662459
AUC-ROC: 0.8309475303228592
max_depth = 6 : F1-мера: 0.5359877488514548
AUC-ROC: 0.8418061945430099
max_depth = 7 : F1-мера: 0.4976816074188563
AUC-ROC: 0.8255373116205023
max_depth = 8 : F1-мера: 0.5015290519877676
AUC-ROC: 0.8065595716198125
max_depth = 9 : F1-мера: 0.5398601398601399
AUC-ROC: 0.786374313978572
max_depth = 10 : F1-мера: 0.5114942528735632
AUC-ROC: 0.7571937619833571
max_depth = 11 : F1-мера: 0.49933244325767695
AUC-ROC: 0.7198761451179858
max_depth = 12 : F1-мера: 0.4973821989528795
AUC-ROC: 0.703689712189557
max_depth = 13 : F1-мера: 0.48382923673997413
AUC-ROC: 0.6794823939280825
max_depth = 14 : F1-мера: 0.48362720403022674
AUC-ROC: 0.6833552950135744


Случайный лес

In [20]:
best_model_forest = None
best_f1_forest=0
best_depth_forest = 0
best_est = 0
best_auc_forest=0
for depth in range(1, 15):
    for est in range(1, 100,10):
        model_forest = RandomForestClassifier(random_state=12345,n_estimators=est, max_depth=depth)
        model_forest.fit(features_train, target_train)
        predictions_valid_forest = model_forest.predict(features_valid)
        f1_forest = f1_score(target_valid, predictions_valid_forest)
        auc_roc_forest = roc_auc_score(target_valid, model_forest.predict_proba(features_valid)[:, 1])
        if f1_forest > best_f1_forest:
            best_model_forest = model_forest
            best_est = est
            best_depth_forest = depth
            best_auc_forest = auc_roc_forest
        

print('Число деревьев =', best_est)
print('max_depth для случайного леса =', best_depth_forest)
print('F1 для случайного леса - ', f1_forest)
print('AUC-ROC =', best_auc_forest)

Число деревьев = 91
max_depth для случайного леса = 14
F1 для случайного леса -  0.5303030303030303
AUC-ROC = 0.8526093924035073


Логистическая регрессия

Для логической регрессии масштабируем числовые признаки

In [21]:
numeric = ['credit_score', 'age', 'tenure', 'balance', 'num_of_products', 'estimated_salary']

scaler = StandardScaler()
scaler.fit(features_train[numeric])
features_train_log=features_train.copy()
features_valid_log=features_valid.copy()
features_test_log=features_test.copy()

features_train_log[numeric] = scaler.transform(features_train_log[numeric])
features_valid_log[numeric] = scaler.transform(features_valid_log[numeric])
features_test_log[numeric] = scaler.transform(features_test_log[numeric])

In [22]:
display(features_train_log)
display(features_valid_log)

Unnamed: 0,credit_score,age,tenure,balance,num_of_products,has_cr_card,is_active_member,estimated_salary,geography_germany,geography_spain,gender_male
7479,-0.89,-0.37,1.10,1.23,-0.89,1,0,-0.19,False,True,True
3411,0.61,-0.18,1.10,0.60,-0.89,0,0,-0.33,False,False,False
6027,2.05,0.48,-0.50,1.03,0.83,0,1,1.50,True,False,True
1247,-1.46,-1.42,0.46,-1.23,0.83,1,0,-1.07,False,False,True
3716,0.13,-1.13,-0.83,1.14,-0.89,0,0,1.52,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...
4478,-1.07,-0.75,-0.18,-1.23,0.83,0,1,-1.28,False,False,True
4094,-1.45,-0.94,1.75,-1.23,0.83,0,1,-1.28,False,False,True
3492,0.03,0.58,-1.47,-0.31,-0.89,0,1,-0.90,False,False,False
2177,0.15,-1.42,-0.18,-1.23,0.83,0,1,-1.13,False,False,False


Unnamed: 0,credit_score,age,tenure,balance,num_of_products,has_cr_card,is_active_member,estimated_salary,geography_germany,geography_spain,gender_male
7041,-2.23,-0.09,-0.83,-1.23,0.83,1,0,0.65,False,False,True
5709,-0.09,0.01,1.43,-1.23,-0.89,1,0,-1.66,False,False,False
7117,-0.92,-0.75,0.14,0.72,-0.89,1,1,-1.37,False,True,True
7775,-0.25,0.10,1.75,-1.23,0.83,1,0,0.08,False,True,True
8735,0.79,-0.85,1.75,0.62,-0.89,0,1,-1.07,False,False,True
...,...,...,...,...,...,...,...,...,...,...,...
9335,0.88,1.05,-0.18,0.82,0.83,1,0,-1.65,True,False,True
7999,1.80,-1.23,0.14,1.06,-0.89,0,0,-0.68,False,False,True
6139,-0.00,-0.18,-0.18,-1.23,0.83,1,0,0.76,False,False,False
9473,-0.46,0.58,-0.18,-1.23,0.83,0,0,-1.09,False,True,True


In [23]:
model_log = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=1000) 
model_log.fit(features_train_log, target_train) 
predictions_valid_log = model_log.predict(features_valid_log)
f1_log=f1_score(target_valid, predictions_valid_log)
auc_roc_log=roc_auc_score(target_valid, model_log.predict_proba(features_valid)[:, 1])

print('F1 для логистической регрессии =', f1_log)
print('AUC-ROC для логистической регрессии =', auc_roc_log)

F1 для логистической регрессии = 0.2743055555555555
AUC-ROC для логистической регрессии = 0.499535281851557


Таким образом,

Обучив три модели, выявили наилучшие показатели:

F1-метрики :
 -Дерево решений - 0.53781512605042
 -Случайный лес - 0.5303030303030303
 -Логистическая регрессия - 0.2743055555555555
 
AUC-ROC:
 -Дерево решений - 0.7843565377598487
 -Случайный лес - 0.8526093924035073
 -Логистическая регрессия - 0.7387354569453627

Видно, что наилучший показатель метрики F1 у дерево решений,далее идет случайный лес, т.е. данные практически одинаковые и совсем плохой показатель у Логистической регрессиии
В тоже время, показатель AUC-ROC выше всего у модели Случайного леса, на втором месте дерево решений и на последнем Логистическая регрессия

Далее, учитывая,небольшую разницу в F1 и то, что у случайного леса AUC-ROC выше, будем работать с дисбалонсом двух моделей

## Борьба с дисбалансом

Существует 3 метода для работы с дисбалансом: аргумент class_weight, upsampling и downsampling. 

Проверим все триа на моделях Дерево решений и Случайный лес

Модель аргументом class_weight

Дерево решений

In [24]:
best_model_tree = None
best_f1_tree = 0
best_depth_tree =0
best_auc_tree=0
for depth in range(1, 15):
    model_tree = DecisionTreeClassifier(random_state=12345,max_depth=depth,class_weight='balanced')
    model_tree.fit(features_train, target_train)
    predictions_valid_tree = model_tree.predict(features_valid)
    f1_tree = f1_score(target_valid, predictions_valid_tree)
    auc_roc_tree = roc_auc_score(target_valid, model_tree.predict_proba(features_valid)[:, 1])
    if f1_tree > best_f1_tree:
        best_model_tree = model_tree
        best_depth_tree = depth
        best_f1_tree = f1_tree
        best_auc_tree = auc_roc_tree
    print("max_depth =", depth, ": ", end='')
    print("F1-мера:", f1_tree)
    print("AUC-ROC:",auc_roc_tree)
print()
print('max_depth для дерево решений =', best_depth_tree) 
print('F1 для дерево решений ', best_f1_tree)
print('AUC-ROC =', best_auc_tree)

max_depth = 1 : F1-мера: 0.48514851485148514
AUC-ROC: 0.6811643738072859
max_depth = 2 : F1-мера: 0.5129682997118156
AUC-ROC: 0.7280154586243442
max_depth = 3 : F1-мера: 0.5129682997118156
AUC-ROC: 0.7914352445241962
max_depth = 4 : F1-мера: 0.5385239253852393
AUC-ROC: 0.8187396843814227
max_depth = 5 : F1-мера: 0.5809128630705395
AUC-ROC: 0.8355347481752318
max_depth = 6 : F1-мера: 0.5656934306569343
AUC-ROC: 0.8217948314347349
max_depth = 7 : F1-мера: 0.563407550822846
AUC-ROC: 0.7990318871604372
max_depth = 8 : F1-мера: 0.5473289597000938
AUC-ROC: 0.7767666410322138
max_depth = 9 : F1-мера: 0.5444126074498568
AUC-ROC: 0.7661493304310936
max_depth = 10 : F1-мера: 0.5263157894736843
AUC-ROC: 0.7498474675109547
max_depth = 11 : F1-мера: 0.5325325325325325
AUC-ROC: 0.7411947154051068
max_depth = 12 : F1-мера: 0.5163934426229507
AUC-ROC: 0.7173284403009574
max_depth = 13 : F1-мера: 0.5129310344827586
AUC-ROC: 0.707661553267943
max_depth = 14 : F1-мера: 0.5218365061590146
AUC-ROC: 0.70750

Случайный лес

In [25]:
best_model_forest = None
best_f1_forest=0
best_depth_forest = 0
best_est = 0
best_auc_forest=0
for depth in range(1, 20):
    for est in range(1, 100,10):
        model_forest = RandomForestClassifier(random_state=12345,n_estimators=est, max_depth=depth,class_weight='balanced')
        model_forest.fit(features_train, target_train)
        predictions_valid_forest = model_forest.predict(features_valid)
        f1_forest = f1_score(target_valid, predictions_valid_forest)
        auc_roc_forest = roc_auc_score(target_valid, model_forest.predict_proba(features_valid)[:, 1])
        if f1_forest > best_f1_forest:
            best_model_forest = model_forest
            best_est = est
            best_depth_forest = depth
            best_auc_forest = auc_roc_forest
        

print('Число деревьев =', best_est)
print('max_depth для случайного леса =', best_depth_forest)
print('F1 для случайного леса - ', f1_forest)
print('AUC-ROC =', best_auc_forest)

Число деревьев = 91
max_depth для случайного леса = 19
F1 для случайного леса -  0.5015384615384616
AUC-ROC = 0.852615388766713


Модель уменьшение выборки (downsampling)

Уменьшим выборку в 4 раза, что бы сравнять классы

In [26]:
def downsample(features, target, fraction):
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]

   
    features_downsampled = pd.concat([features_zeros.sample(frac=fraction, random_state=12345)] +
                                     [features_ones])
    target_downsampled = pd.concat([target_zeros.sample(frac=fraction, random_state=12345)] +
                                   [target_ones])
    
    features_downsampled = shuffle(features_downsampled, random_state=12345)
    target_downsampled = shuffle(target_downsampled, random_state=12345)

    return features_downsampled, target_downsampled

features_downsampled, target_downsampled = downsample(features_train, target_train, 0.25)

print(features_downsampled.shape)
print(target_downsampled.shape)

(2397, 11)
(2397,)


Дерево решений

In [27]:
model = DecisionTreeClassifier(random_state=12345)
model.fit(features_downsampled, target_downsampled) 
predicted_valid = model.predict(features_valid)

print('F1 для дерево решений при методе downsampling =', f1_score(target_valid, predicted_valid))
print('AUC-ROC =', roc_auc_score(target_valid, model.predict_proba(features_valid)[:,1]))

F1 для дерево решений при методе downsampling = 0.48954703832752616
AUC-ROC = 0.6913776794374212


Случайный лес


In [28]:
model = RandomForestClassifier(random_state=12345)
model.fit(features_downsampled, target_downsampled) 
predicted_valid = model.predict(features_valid)

print('F1 для случайного леса при методе downsampling =', f1_score(target_valid, predicted_valid))
print('AUC-ROC =', roc_auc_score(target_valid, model.predict_proba(features_valid)[:,1]))

F1 для случайного леса при методе downsampling = 0.5841035120147874
AUC-ROC = 0.8447256738787925


Модель уменьшение выборки (upsampling)

Увеличим выборку в 4 раза, что бы сравнять классы

In [29]:
def upsample(features, target, repeat):
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]

   
    features_upsampled = pd.concat([features_zeros] + [features_ones] * repeat)
    target_upsampled = pd.concat([target_zeros] + [target_ones] * repeat)
    
    features_upsampled = shuffle(features_upsampled, random_state=12345)
    target_upsampled = shuffle(target_upsampled, random_state=12345)
    
    return features_upsampled, target_upsampled
    


features_upsampled, target_upsampled = upsample(features_train, target_train, 4)

print(features_upsampled.shape)
print(target_upsampled.shape)

(9588, 11)
(9588,)


Дерево решений

In [30]:
model = DecisionTreeClassifier(random_state=12345)
model.fit(features_upsampled, target_upsampled) 
predicted_valid = model.predict(features_valid)

print('F1 для дерево решений при методе upsampling =', f1_score(target_valid, predicted_valid))
print('AUC-ROC =', roc_auc_score(target_valid, model.predict_proba(features_valid)[:,1]))

F1 для дерево решений при методе upsampling = 0.49388753056234713
AUC-ROC = 0.6775785486102679


Случайный лес

In [31]:
model = RandomForestClassifier(random_state=12345)
model.fit(features_upsampled, target_upsampled) 
predicted_valid = model.predict(features_valid)

print('F1 для случайного леса при методе upsampling =', f1_score(target_valid, predicted_valid))
print('AUC-ROC =', roc_auc_score(target_valid, model.predict_proba(features_valid)[:,1]))

F1 для случайного леса при методе upsampling = 0.5809018567639258
AUC-ROC = 0.8493413744563921


Для наглядности  и простоты сравнения моделей, собирем даные по обучению моделей в таблицу

In [32]:
all_data = {'model': ['дерево решений','случвйный лес','логическая регрессия'],
        'programm':['DecisionTreeClassifier','RandomForestClassifier','LogisticRegression'],
        'F-1 before':['0.5398','0.5303','0.2743'],
        'AUC-ROC before':['0.7863','0.8526','0.7387'],
        
           }
all_results = pd.DataFrame(all_data)
  
display(all_results) 

all_data_balance= {'model': ['class_weight','downsampling','upsampling'],
                   'model_v':['[дерево решений,случайный лес]','[дерево решений,случайный лес]','[дерево решений,случайный лес]'],
                    'F-1 after':['[0.5809, 0.5722]','[0.4912,0.5848]','[0.4957,0.5816]'],
                    'AUC-ROC after':['[0.8355,0.8529]','[0.6928,0.8450]','[0.6787,0.8495]']
                                      }
all_balance=pd.DataFrame(all_data_balance)
display(all_balance)

         


Unnamed: 0,model,programm,F-1 before,AUC-ROC before
0,дерево решений,DecisionTreeClassifier,0.5398,0.7863
1,случвйный лес,RandomForestClassifier,0.5303,0.8526
2,логическая регрессия,LogisticRegression,0.2743,0.7387


Unnamed: 0,model,model_v,F-1 after,AUC-ROC after
0,class_weight,"[дерево решений,случайный лес]","[0.5809, 0.5722]","[0.8355,0.8529]"
1,downsampling,"[дерево решений,случайный лес]","[0.4912,0.5848]","[0.6928,0.8450]"
2,upsampling,"[дерево решений,случайный лес]","[0.4957,0.5816]","[0.6787,0.8495]"


Таким образом, видим, что наилучший показателm F1 при использовании downsampling  модели случайного леса, чуть ниже при использовании upsamlinga, также в модели сулчайного леса, а на третьем месте class_weight в модели дерево решения.

Для тестирования возьмем наилучшую модель downsampling в сулчайном лесе

## Тестирование модели

Объединим для обучения валидационную и тренировочный набор данных

In [33]:
features_train_down = pd.concat([features_train] + [features_valid])
target_train_down = pd.concat([target_train] + [target_valid])
display(features_train_down)

Unnamed: 0,credit_score,age,tenure,balance,num_of_products,has_cr_card,is_active_member,estimated_salary,geography_germany,geography_spain,gender_male
7479,567,35,8,153137.74,1,1,0,88659.07,False,True,True
3411,711,37,8,113899.92,1,0,0,80215.20,False,False,False
6027,850,44,3,140393.65,2,0,1,186285.52,True,False,True
1247,512,24,6,0.00,2,1,0,37654.31,False,False,True
3716,665,27,2,147435.96,1,0,0,187508.06,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...
9335,737,50,4,127552.85,2,1,0,4225.11,True,False,True
7999,826,26,5,142662.68,1,0,0,60285.30,False,False,True
6139,652,37,4,0.00,2,1,0,143393.24,False,False,False
9473,608,45,4,0.00,2,0,0,36697.48,False,True,True


In [34]:
features_downsampled, target_downsampled = downsample(features_train_down, target_train_down, 0.25)

In [35]:
model_test_down = RandomForestClassifier(random_state=12345)
model_test_down.fit(features_downsampled, target_downsampled) 
predicted_test_down = model_test_down.predict(features_test)

print('F1 для случайного леса при методе downsampling =', f1_score(target_test, predicted_test_down))
print('AUC-ROC =', roc_auc_score(target_test, model_test_down.predict_proba(features_test)[:,1]))

F1 для случайного леса при методе downsampling = 0.5970425138632163
AUC-ROC = 0.8497435261524688


Вывод:

Общий вывод:

по итогу продаленной работы
1)провели исследование данных об оттоке клиентов банка.
2)подготовили исходные данные, заполнили пропуски, перевели категориальные признаки в численные
2.1 исследовали задачи тремя видами машинного обучения:логистическая регрессия, Дерево решений, Случайный лес на выборках с разным способом заполнения без учёта дисбаланса классов
3)Используя методы борьбы с дисбалансом: class_weight, upsampling, downsampling, провели исследования и выявили наилучший показател
4) Провели тестирование лучшей модели на тестовой выборке, получили метрику F-1 = 0.597, лучше чем на валидационной выборке, что доказывает адекватность выбранной модели. А AUC-ROC 0,85



## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные подготовлены
- [x]  Выполнен шаг 2: задача исследована
    - [x]  Исследован баланс классов
    - [x]  Изучены модели без учёта дисбаланса
    - [x]  Написаны выводы по результатам исследования
- [x]  Выполнен шаг 3: учтён дисбаланс
    - [x]  Применено несколько способов борьбы с дисбалансом
    - [x]  Написаны выводы по результатам исследования
- [x]  Выполнен шаг 4: проведено тестирование
- [x]  Удалось достичь *F1*-меры не менее 0.59
- [x]  Исследована метрика *AUC-ROC*