### Признаки  
RowNumber — индекс строки в данных  
CustomerId — уникальный идентификатор клиента  
Surname — фамилия  
CreditScore — кредитный рейтинг  
Geography — страна проживания  
Gender — пол  
Age — возраст  
Tenure — количество недвижимости у клиента  
Balance — баланс на счёте  
NumOfProducts — количество продуктов банка, используемых клиентом  
HasCrCard — наличие кредитной карты  
IsActiveMember — активность клиента  
EstimatedSalary — предполагаемая зарплата  
### Целевой признак  
Exited — факт ухода клиента  

# 1. Подготовка данных <a id="1"></a>

Загружаем библиотеки <a id="11"></a>

In [1]:
import pandas as pd
import random
from sklearn.ensemble import RandomForestClassifier 
from sklearn.linear_model import LogisticRegression 
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score
from sklearn.utils import shuffle
from sklearn.preprocessing import StandardScaler

Загрузка файла <a id="12"></a>

In [2]:
data = pd.read_csv('/datasets/Churn.csv')

смотрим таблицу <a id="13"></a>

In [3]:
data.head(15)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0
5,6,15574012,Chu,645,Spain,Male,44,8.0,113755.78,2,1,0,149756.71,1
6,7,15592531,Bartlett,822,France,Male,50,7.0,0.0,2,1,1,10062.8,0
7,8,15656148,Obinna,376,Germany,Female,29,4.0,115046.74,4,1,0,119346.88,1
8,9,15792365,He,501,France,Male,44,4.0,142051.07,2,0,1,74940.5,0
9,10,15592389,H?,684,France,Male,27,2.0,134603.88,1,1,1,71725.73,0


Удаление столбцов <a id="14"></a>

In [4]:
data = data.drop(['RowNumber', 'Surname', 'CustomerId'], axis=1)

смотрим информацию по таблице <a id="15"></a>

In [5]:
data.describe()

Unnamed: 0,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
count,10000.0,10000.0,9091.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,650.5288,38.9218,4.99769,76485.889288,1.5302,0.7055,0.5151,100090.239881,0.2037
std,96.653299,10.487806,2.894723,62397.405202,0.581654,0.45584,0.499797,57510.492818,0.402769
min,350.0,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,584.0,32.0,2.0,0.0,1.0,0.0,0.0,51002.11,0.0
50%,652.0,37.0,5.0,97198.54,1.0,1.0,1.0,100193.915,0.0
75%,718.0,44.0,7.0,127644.24,2.0,1.0,1.0,149388.2475,0.0
max,850.0,92.0,10.0,250898.09,4.0,1.0,1.0,199992.48,1.0


In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 11 columns):
CreditScore        10000 non-null int64
Geography          10000 non-null object
Gender             10000 non-null object
Age                10000 non-null int64
Tenure             9091 non-null float64
Balance            10000 non-null float64
NumOfProducts      10000 non-null int64
HasCrCard          10000 non-null int64
IsActiveMember     10000 non-null int64
EstimatedSalary    10000 non-null float64
Exited             10000 non-null int64
dtypes: float64(3), int64(6), object(2)
memory usage: 859.5+ KB


In [7]:
data.duplicated().sum()

0

In [8]:
data.isna().sum()

CreditScore          0
Geography            0
Gender               0
Age                  0
Tenure             909
Balance              0
NumOfProducts        0
HasCrCard            0
IsActiveMember       0
EstimatedSalary      0
Exited               0
dtype: int64

In [9]:
data.tail(20)

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
9980,741,Spain,Male,35,6.0,74371.49,1,0,0,99595.67,0
9981,498,Germany,Male,42,3.0,152039.7,1,1,1,53445.17,1
9982,655,Germany,Female,46,7.0,137145.12,1,1,0,115146.4,1
9983,613,France,Male,40,4.0,0.0,1,0,0,151325.24,0
9984,602,Germany,Male,35,7.0,90602.42,2,1,1,51695.41,0
9985,659,France,Male,36,,123841.49,2,1,0,96833.0,0
9986,673,Germany,Male,47,1.0,183579.54,2,0,1,34047.54,0
9987,606,Spain,Male,30,8.0,180307.73,2,1,1,1914.41,0
9988,775,France,Male,30,4.0,0.0,2,1,0,49337.84,0
9989,841,Spain,Male,28,4.0,0.0,2,1,1,179436.6,0


In [10]:
print(data['Tenure'].value_counts())

1.0     952
2.0     950
8.0     933
3.0     928
5.0     927
7.0     925
4.0     885
9.0     882
6.0     881
10.0    446
0.0     382
Name: Tenure, dtype: int64


Обработка пропусков, заполним пропуски нулями, так как пропуски свидетельствуют, о том что что у клиента нет собственности <a id="16"></a>

In [11]:
data['Tenure'] = data['Tenure'].fillna(0)
data.columns = map(str.lower, data.columns)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 11 columns):
creditscore        10000 non-null int64
geography          10000 non-null object
gender             10000 non-null object
age                10000 non-null int64
tenure             10000 non-null float64
balance            10000 non-null float64
numofproducts      10000 non-null int64
hascrcard          10000 non-null int64
isactivemember     10000 non-null int64
estimatedsalary    10000 non-null float64
exited             10000 non-null int64
dtypes: float64(3), int64(6), object(2)
memory usage: 859.5+ KB


In [12]:
print(data['tenure'].value_counts())

0.0     1291
1.0      952
2.0      950
8.0      933
3.0      928
5.0      927
7.0      925
4.0      885
9.0      882
6.0      881
10.0     446
Name: tenure, dtype: int64


изменение типов данных, что бы занимала меньше памяти <a id="17"></a>

In [14]:
data['creditscore'] = data['creditscore'].astype('int16')
data['age'] = data['age'].astype('int8')
data['tenure'] = data['tenure'].astype('int8')
data['balance'] = data['balance'].astype('float32')
data['numofproducts'] = data['numofproducts'].astype('int8')
data['hascrcard'] = data['hascrcard'].astype('int8')
data['isactivemember'] = data['isactivemember'].astype('int8')
data['exited'] = data['exited'].astype('int8')
data['estimatedsalary'] = data['estimatedsalary'].astype('float32')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 11 columns):
creditscore        10000 non-null int16
geography          10000 non-null object
gender             10000 non-null object
age                10000 non-null int8
tenure             10000 non-null int8
balance            10000 non-null float32
numofproducts      10000 non-null int8
hascrcard          10000 non-null int8
isactivemember     10000 non-null int8
estimatedsalary    10000 non-null float32
exited             10000 non-null int8
dtypes: float32(2), int16(1), int8(6), object(2)
memory usage: 312.6+ KB


 посмотрим на корреляцию <a id="18"></a>

In [15]:
corr = data.corr()
corr.style.background_gradient(cmap='coolwarm')

Unnamed: 0,creditscore,age,tenure,balance,numofproducts,hascrcard,isactivemember,estimatedsalary,exited
creditscore,1.0,-0.00396491,0.00308682,0.00626838,0.0122379,-0.00545848,0.0256513,-0.00138429,-0.0270935
age,-0.00396491,1.0,-0.00736757,0.0283084,-0.0306801,-0.011721,0.0854721,-0.00720104,0.285323
tenure,0.00308682,-0.00736757,1.0,-0.00582065,0.0101064,0.0213866,-0.0258555,0.0112248,-0.0133192
balance,0.00626838,0.0283084,-0.00582065,1.0,-0.30418,-0.0148583,-0.0100841,0.0127975,0.118533
numofproducts,0.0122379,-0.0306801,0.0101064,-0.30418,1.0,0.00318315,0.00961188,0.0142042,-0.0478199
hascrcard,-0.00545848,-0.011721,0.0213866,-0.0148583,0.00318315,1.0,-0.0118656,-0.00993341,-0.00713777
isactivemember,0.0256513,0.0854721,-0.0258555,-0.0100841,0.00961188,-0.0118656,1.0,-0.0114214,-0.156128
estimatedsalary,-0.00138429,-0.00720104,0.0112248,0.0127975,0.0142042,-0.00993341,-0.0114214,1.0,0.0120969
exited,-0.0270935,0.285323,-0.0133192,0.118533,-0.0478199,-0.00713777,-0.156128,0.0120969,1.0


воспользуемся функцией фиктивной переменной <a id="19"></a>

In [16]:
data_ohe = pd.get_dummies(data, drop_first=True)
data_ohe.head()

Unnamed: 0,creditscore,age,tenure,balance,numofproducts,hascrcard,isactivemember,estimatedsalary,exited,geography_Germany,geography_Spain,gender_Male
0,619,42,2,0.0,1,1,1,101348.882812,1,0,0,0
1,608,41,1,83807.859375,1,0,1,112542.578125,0,0,1,0
2,502,42,8,159660.796875,3,1,0,113931.570312,1,0,0,0
3,699,39,1,0.0,2,0,0,93826.632812,0,0,0,0
4,850,43,2,125510.820312,1,1,1,79084.101562,0,0,1,0


### Вывод <a id="191"></a>

Получили информацию по таблице, дубликкатов нет, обработали пропуски, пропуски связаны с тем, что у клиента нет собственности, поэтому этот пункт не был указан. Были удалены три столбца RowNumber, CustomerId, Surname, необходимости в этих столбцах нет. ПРоверили корреляционную зависимость, она везде низкая. и так же воспользовались функцией фиктивной переменой, что бы перевести категориальные признаки в численные

# 2. Исследование задачи <a id='2'></a>

Посмотрим на баланс классов <a id='21'></a>

In [17]:
data_ohe['exited'].value_counts(normalize=True)

0    0.7963
1    0.2037
Name: exited, dtype: float64

Разделим данные на признак и целевой признак <a id='22'></a>

In [36]:
features = data_ohe.drop(['exited'], axis=1)
target = data_ohe['exited']
features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.2, random_state=12345, stratify=target) 
features_train, features_test, target_train, target_test = train_test_split(features_train, target_train, test_size=0.25, random_state=12345, stratify=target_train)

scaler = StandardScaler()
scaler.fit(features_train) 

features_train = scaler.transform(features_train)
features_valid = scaler.transform(features_valid)
features_test = scaler.transform(features_test)

print(features_train.shape)
print(target_train.shape)
print(features_valid.shape)
print(target_valid.shape)
print(features_test.shape)
print(target_test.shape)

(6000, 11)
(6000,)
(2000, 11)
(2000,)
(2000, 11)
(2000,)


In [37]:
target_train.value_counts(normalize=True)

0    0.796167
1    0.203833
Name: exited, dtype: float64

In [38]:
target_valid.value_counts(normalize=True)

0    0.7965
1    0.2035
Name: exited, dtype: float64

In [39]:
target_test.value_counts(normalize=True)

0    0.7965
1    0.2035
Name: exited, dtype: float64

Обучение решающего дерева <a id='23'></a>

In [40]:
f1_mx = 0
auc_roc_mx = 0
for depth in range(1, 7):
    model_decision = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model_decision.fit(features_train, target_train)
    predicted = model_decision.predict(features_valid)
    
    f1 = f1_score(target_valid, predicted)
            
    probabilities_valid = model_decision.predict_proba(features_valid)
    probabilities_one_valid = probabilities_valid[:, 1]
    auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
    
    if f1 > f1_mx:
        f1_mx = f1
        best_depth = depth
        auc_roc_mx = auc_roc
        
print('Лучшая модель №', best_depth)
print('F1:', f1_mx)
print("AUC ROC:", auc_roc_mx)

    

Лучшая модель № 6
F1: 0.5701078582434514
AUC ROC: 0.844026615213056


  'precision', 'predicted', average, warn_for)


Обучение случайного леса <a id='24'></a>

In [41]:
f1_max = 0
auc_roc_max = 0
for mx_depth in range(1, 20):
    for est in range(1, 20):
        model1 = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=mx_depth) 
        model1.fit(features_train, target_train) 
        predicted1 = model1.predict(features_valid)
        
        f1_forest = f1_score(target_valid, predicted1)  
        probabilities_valid1 = model1.predict_proba(features_valid)
        probabilities_one_valid1 = probabilities_valid1[:, 1]
        auc_roc1 = roc_auc_score(target_valid, probabilities_one_valid1)

        if f1_forest > f1_max:
            f1_max = f1_forest
            best_depth1 = mx_depth
            best_est = est
            auc_roc_max = auc_roc1
        
print("Лучшая модель при числе деревьев", best_est, ',и глубине' ,best_depth1)
print('F1:', f1_max)
print("AUC ROC:", auc_roc_max)

  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)


Лучшая модель при числе деревьев 7 ,и глубине 11
F1: 0.5810397553516818
AUC ROC: 0.8434281739366485


Обучение логической регрессии <a id='25'></a>

In [42]:
model_logik = LogisticRegression(random_state=123456, solver='liblinear')
model_logik.fit(features_train, target_train)
predictions_logik = model_logik.predict(features_valid)

print('F1', f1_score(target_valid, predictions_logik))

probabilities_valid2 = model_logik.predict_proba(features_valid)
probabilities_one_valid2 = probabilities_valid2[:, 1]
print("AUC ROC:", roc_auc_score(target_valid, probabilities_one_valid2))

F1 0.29906542056074764
AUC ROC: 0.7745480457344865


### Вывод <a id='26'></a>

Увидели большой дисбаланс классов. Обучили три модели самый большой показатель F1 у модели "Случайный лес" при числе деревьев 15 ,и глубине 17

# 3. Борьба с дисбалансом <a id="3"></a>

Баласировка классов <a id="31"></a>

In [43]:
features_zeros = features_train[target_train == 0]
features_ones = features_train[target_train == 1]
target_zeros = target_train[target_train == 0]
target_ones = target_train[target_train == 1]

repeat = 2
features_upsampled = pd.concat([features_zeros] + [features_ones] * repeat)
target_upsampled = pd.concat([target_zeros] + [target_ones] * repeat) 

features_upsampled, target_upsampled = shuffle(features_upsampled, target_upsampled, random_state=12345)


print(features_upsampled.shape)
print(target_upsampled.shape)


TypeError: cannot concatenate object of type '<class 'numpy.ndarray'>'; only Series and DataFrame objs are valid

Обучение логической регрессии <a id='32'></a>

In [26]:
model_logik = LogisticRegression(random_state=123456, solver='liblinear')
model_logik.fit(features_upsampled, target_upsampled)
predicted_logik = model_logik.predict(features_valid)

print('F1', f1_score(target_valid, predicted_logik))

probabilities_valid2 = model_logik.predict_proba(features_valid)
probabilities_one_valid2 = probabilities_valid2[:, 1]
print("AUC ROC:", roc_auc_score(target_valid, probabilities_one_valid2))

F1 0.33630952380952384
AUC ROC: 0.7026240416070925


In [27]:
model_logik = LogisticRegression(random_state=123456, solver='liblinear', class_weight='balanced')
model_logik.fit(features_train, target_train)
predictions_logik = model_logik.predict(features_valid)

print('F1', f1_score(target_valid, predictions_logik))

probabilities_valid2 = model_logik.predict_proba(features_valid)
probabilities_one_valid2 = probabilities_valid2[:, 1]
print("AUC ROC:", roc_auc_score(target_valid, probabilities_one_valid2))

F1 0.4630225080385852
AUC ROC: 0.7284233385928301


Обучение решающего дерева <a id='33'></a>

In [28]:
f1_mx = 0
auc_roc_mx = 0
for depth in range(1, 10):
    model_decision = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model_decision.fit(features_upsampled, target_upsampled)
    predicted = model_decision.predict(features_valid)
    
    f1 = f1_score(target_valid, predicted)
            
    probabilities_valid = model_decision.predict_proba(features_valid)
    probabilities_one_valid = probabilities_valid[:, 1]
    auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
    
    if f1 > f1_mx:
        f1_mx = f1
        best_depth = depth
        auc_roc_mx = auc_roc
        
print('Лучшая модель №', best_depth)
print('F1:', f1_mx)
print("AUC ROC:", auc_roc_mx)


Лучшая модель № 5
F1: 0.6107921928817451
AUC ROC: 0.83472532625075


In [29]:
f1_mx = 0
auc_roc_mx = 0
for depth in range(1, 10):
    model_decision = DecisionTreeClassifier(random_state=12345, max_depth=depth, class_weight='balanced')
    model_decision.fit(features_train, target_train)
    predicted = model_decision.predict(features_valid)
    
    f1 = f1_score(target_valid, predicted)
            
    probabilities_valid = model_decision.predict_proba(features_valid)
    probabilities_one_valid = probabilities_valid[:, 1]
    auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
    
    if f1 > f1_mx:
        f1_mx = f1
        best_depth = depth
        auc_roc_mx = auc_roc
        
print('Лучшая модель №', best_depth)
print('F1:', f1_mx)
print("AUC ROC:", auc_roc_mx)

Лучшая модель № 6
F1: 0.5711727842435094
AUC ROC: 0.8363810651946244


Обучение случайного леса <a id='34'></a>

In [30]:
f1_max = 0
auc_roc_max = 0
for mx_depth in range(1, 20):
    for est in range(1, 30):
        model1 = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=mx_depth) 
        model1.fit(features_upsampled, target_upsampled) 
        predicted1 = model1.predict(features_valid)
        
        f1_forest = f1_score(target_valid, predicted1)  
        probabilities_valid1 = model1.predict_proba(features_valid)
        probabilities_one_valid1 = probabilities_valid1[:, 1]
        auc_roc1 = roc_auc_score(target_valid, probabilities_one_valid1)

        if f1_forest > f1_max:
            f1_max = f1_forest
            best_depth1 = mx_depth
            best_est = est
            auc_roc_max = auc_roc1
        
print("Лучшая модель при числе деревьев", best_est, ',и глубине' ,best_depth1)
print('F1:', f1_max)
print("AUC ROC:", auc_roc_max)

Лучшая модель при числе деревьев 6 ,и глубине 4
F1: 0.6337448559670781
AUC ROC: 0.8458304221016085


In [31]:
f1_max = 0
auc_roc_max = 0
for mx_depth in range(1, 20):
    for est in range(1, 30):
        model1 = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=mx_depth, class_weight='balanced') 
        model1.fit(features_train, target_train) 
        predicted1 = model1.predict(features_valid)
        
        f1_forest = f1_score(target_valid, predicted1)  
        probabilities_valid1 = model1.predict_proba(features_valid)
        probabilities_one_valid1 = probabilities_valid1[:, 1]
        auc_roc1 = roc_auc_score(target_valid, probabilities_one_valid1)

        if f1_forest > f1_max:
            f1_max = f1_forest
            best_depth1 = mx_depth
            best_est = est
            auc_roc_max = auc_roc1
        
print("Лучшая модель при числе деревьев", best_est, ',и глубине' ,best_depth1)
print('F1:', f1_max)
print("AUC ROC:", auc_roc_max)

Лучшая модель при числе деревьев 26 ,и глубине 8
F1: 0.6375545851528385
AUC ROC: 0.8636101432711604


### Вывод <a id='35'></a>

Провели балансировку классов, провели обучение моделей заново, у показатель F1 метрики увеличился, у всех моделей, самый высокий показатель, так же отсается у "случайного леса", но так же видим что изменилось число деревьева на 22 и глубина на 10


# 4. Тестирование модели  <a id="4">

проверка модели логической регрессии <a id="41">

In [33]:
predicted_logik = model_logik.predict(features_test)

print('F1', f1_score(target_test, predicted_logik))

probabilities_test2 = model_logik.predict_proba(features_test)
probabilities_one_test2 = probabilities_test2[:, 1]
print("AUC ROC:", roc_auc_score(target_test, probabilities_one_test2))

F1 0.4575586095392078
AUC ROC: 0.7294952888173226


проверка модели на тестовой выборке случайный лес <a id="42">

In [34]:
model1 = RandomForestClassifier(random_state=12345, n_estimators=22, max_depth=10) 
model1.fit(features_upsampled, target_upsampled) 
predicted1 = model1.predict(features_test)

 
probabilities_test = model1.predict_proba(features_test)
probabilities_one_test = probabilities_test[:, 1]

print('F1', f1_score(target_test, predicted1))
print("AUC ROC:", roc_auc_score(target_test, probabilities_one_test))

F1 0.6153846153846154
AUC ROC: 0.8642093557347794


проверка модели на тестовой выборке дерево решений <a id="43">

In [35]:
model_decision = DecisionTreeClassifier(random_state=12345, max_depth=5)
model_decision.fit(features_upsampled, target_upsampled)
predicted = model_decision.predict(features_test)   
       
probabilities_test1 = model_decision.predict_proba(features_test)
probabilities_one_test1 = probabilities_test1[:, 1]

print('F1', f1_score(target_test, predicted))
print("AUC ROC:", roc_auc_score(target_test, probabilities_one_test1))

F1 0.5874285714285714
AUC ROC: 0.8386861437708896


### Общий вывод  <a id="5">

Получили информацию по таблице, дубликкатов нет, обработали пропуски, пропуски связаны с тем, что у клиента нет собственности, поэтому этот пункт не был указан. Были удалены три столбца RowNumber, CustomerId, Surname, необходимости в этих столбцах нет. ПРоверили корреляционную зависимость, она везде низкая. и так же воспользовались функцией фиктивной переменой, что бы перевести категориальные признаки в численные.  
Увидели большой дисбаланс классов. Обучили три модели самый большой показатель F1 у модели "Случайный лес" при числе деревьев 15 ,и глубине 17.  
Провели балансировку классов, провели обучение моделей заново, у показатель F1 метрики увеличился, у всех моделей, самый высокий показатель, так же отсается у "случайного леса", но так же видим что изменилось число деревьева на 22 и глубина на 10 

При тестировании F1 метрика показала спад на всех моделях, у модели случайного леса показатель составил 0,60. самый высокий показатель среди трех моделей.