# Отток клиентов

Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.

Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Нам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. 

Построим модель с предельно большим значением *F1*-меры.

Дополнительно измерим *AUC-ROC*, сравнивая её значение с *F1*-мерой.

Источник данных: [https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling](https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling)

## Подготовка данных

In [1]:
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import StandardScaler 
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score
from sklearn.utils import shuffle
pd.options.mode.chained_assignment = None
from sklearn.dummy import DummyClassifier

In [2]:
data = pd.read_csv('******')

### Изучим данные

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           9091 non-null   float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB


In [4]:
display(data.head(5)) 

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


In [5]:
data.describe()

Unnamed: 0,RowNumber,CustomerId,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
count,10000.0,10000.0,10000.0,10000.0,9091.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,5000.5,15690940.0,650.5288,38.9218,4.99769,76485.889288,1.5302,0.7055,0.5151,100090.239881,0.2037
std,2886.89568,71936.19,96.653299,10.487806,2.894723,62397.405202,0.581654,0.45584,0.499797,57510.492818,0.402769
min,1.0,15565700.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,2500.75,15628530.0,584.0,32.0,2.0,0.0,1.0,0.0,0.0,51002.11,0.0
50%,5000.5,15690740.0,652.0,37.0,5.0,97198.54,1.0,1.0,1.0,100193.915,0.0
75%,7500.25,15753230.0,718.0,44.0,7.0,127644.24,2.0,1.0,1.0,149388.2475,0.0
max,10000.0,15815690.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0,199992.48,1.0


###### Пропуски присутствуют только в столбце `Tenure`.

##### Рассмотрим каждый столбец отдельно:

In [6]:
data['RowNumber'].duplicated().sum() # Столбец с индексацией. Можно удалить

0

In [7]:
data = data.drop('RowNumber', axis = 1)

In [8]:
data = data.drop('CustomerId', axis = 1)
# Также удалим

In [9]:
data = data.drop('Surname', axis = 1)
#этот столбец также не нужен

In [10]:
data.rename(columns = {'CreditScore' : 'Credit_score'}, inplace = True)
# В данных о кредитном рейтинге также поменяем только название столбца

In [11]:
data['Geography'].value_counts(normalize = True) # Оставим без изменений

France     0.5014
Germany    0.2509
Spain      0.2477
Name: Geography, dtype: float64

In [12]:
data['Gender'].value_counts(normalize = True)  # Оставим без изменений

Male      0.5457
Female    0.4543
Name: Gender, dtype: float64

In [13]:
data['Age'].value_counts(normalize = True)  # Оставим без изменений

37    0.0478
38    0.0477
35    0.0474
36    0.0456
34    0.0447
       ...  
92    0.0002
88    0.0001
82    0.0001
85    0.0001
83    0.0001
Name: Age, Length: 70, dtype: float64

In [14]:
(data['Tenure'].isna().sum() / len(data['Tenure'])) * 100

9.09

In [15]:
data.loc[data['Tenure'] == 0]

Unnamed: 0,Credit_score,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
29,411,France,Male,29,0.0,59697.17,2,1,1,53483.21,0
35,475,France,Female,45,0.0,134264.04,1,1,0,27822.99,1
57,725,Germany,Male,19,0.0,75888.20,1,0,0,45613.75,0
72,657,Spain,Female,37,0.0,163607.18,1,0,1,44203.55,0
127,625,Germany,Male,56,0.0,148507.24,1,1,0,46824.08,1
...,...,...,...,...,...,...,...,...,...,...,...
9793,772,Germany,Female,42,0.0,101979.16,1,1,0,90928.48,0
9799,653,France,Male,46,0.0,119556.10,1,1,0,78250.13,1
9843,646,Germany,Male,24,0.0,92398.08,1,1,1,18897.29,0
9868,718,France,Female,43,0.0,93143.39,1,1,0,167554.86,0


###### В столбце с информацией о том, сколько лет человек является клиентом банка, присутствует около 9% пропусков. Вероятнее всего это ошибка. Заменим их медианным значением.

In [16]:
data['Tenure'] = data['Tenure'].fillna(data['Tenure'].median())

In [17]:
data['Tenure'] = data['Tenure'].astype(int) # поменяем формат

In [18]:
data['Balance'].value_counts(normalize = True) # ~36% клиентов имеют нулевой баланс

0.00         0.3617
105473.74    0.0002
130170.82    0.0002
72594.00     0.0001
139723.90    0.0001
              ...  
130306.49    0.0001
92895.56     0.0001
132005.77    0.0001
166287.85    0.0001
104001.38    0.0001
Name: Balance, Length: 6382, dtype: float64

In [19]:
data['NumOfProducts'].value_counts(normalize = True) # Чуть больше половины клиентов используют только 1 продукт в банке

1    0.5084
2    0.4590
3    0.0266
4    0.0060
Name: NumOfProducts, dtype: float64

In [20]:
data.rename(columns = {'NumOfProducts' : 'Num_of_products'}, inplace = True) # поменяем имя столбца

In [21]:
data['HasCrCard'].value_counts(normalize = True)

1    0.7055
0    0.2945
Name: HasCrCard, dtype: float64

In [22]:
data.rename(columns = {'HasCrCard' : 'Has_сredit_сard'}, inplace = True) # поменяем имя столбца

In [23]:
data['IsActiveMember'].value_counts(normalize = True)

1    0.5151
0    0.4849
Name: IsActiveMember, dtype: float64

In [24]:
data.rename(columns = {'IsActiveMember' : 'Is_active_member'}, inplace = True) # поменяем имя столбцов
data.rename(columns = {'EstimatedSalary' : 'Estimated_salary'}, inplace = True)

In [25]:
data['Exited'].value_counts(normalize = True) # всего из банка ушло ~20% клиентов

0    0.7963
1    0.2037
Name: Exited, dtype: float64

#### Преобразуем категориальные признаки в численные:

In [26]:
data = pd.get_dummies(data, drop_first=True)

In [27]:
data

Unnamed: 0,Credit_score,Age,Tenure,Balance,Num_of_products,Has_сredit_сard,Is_active_member,Estimated_salary,Exited,Geography_Germany,Geography_Spain,Gender_Male
0,619,42,2,0.00,1,1,1,101348.88,1,0,0,0
1,608,41,1,83807.86,1,0,1,112542.58,0,0,1,0
2,502,42,8,159660.80,3,1,0,113931.57,1,0,0,0
3,699,39,1,0.00,2,0,0,93826.63,0,0,0,0
4,850,43,2,125510.82,1,1,1,79084.10,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...
9995,771,39,5,0.00,2,1,0,96270.64,0,0,0,1
9996,516,35,10,57369.61,1,1,1,101699.77,0,0,0,1
9997,709,36,7,0.00,1,0,1,42085.58,1,0,0,0
9998,772,42,3,75075.31,2,1,0,92888.52,1,1,0,1


### Информация о предобработке данных:

- Был удален столбец с индексацией (`RowNumber`) и столбец с фамилиями (`Surname`) 
- В столбце с информацией о продолжительности пользования клиентом услугами банка в годах (`Tenure`), выявлены и заменены медианными значениями по столбцу 909 пропусков (9%)
- Названия некоторых столбцов были заменены на более читаемые
- Преобразовали категориальные признаки в численные

## Исследование задачи

#### Разделим данные на обучающую, валидационную и тестовую выборки

In [28]:
data_train, data_test = train_test_split(data, test_size = 0.4, random_state=12345) 
data_test, data_valid = train_test_split(data_test, test_size = 0.5, random_state=12345)
print('Размер обучающей выборки:', data_train.shape[0] /len(data) * 100,'%')
print('Размер валидационной выборки:', data_valid.shape[0] /len(data)* 100,'%')
print('Размер тестовой выборки:', data_test.shape[0] /len(data)* 100,'%')

Размер обучающей выборки: 60.0 %
Размер валидационной выборки: 20.0 %
Размер тестовой выборки: 20.0 %


#### Присвоим признаки и целевой признак

In [29]:
features = data.drop(['Exited'], axis = 1)
target = data['Exited']

features_train = data_train.drop(['Exited'], axis = 1)
target_train = data_train['Exited']

features_valid = data_valid.drop(['Exited'], axis = 1)
target_valid = data_valid['Exited']

features_test = data_test.drop(['Exited'], axis = 1)
target_test = data_test['Exited'] 

#### Проверим данные на дисбаланс:

In [30]:
features[target == 0].shape, features[target == 1].shape

((7963, 11), (2037, 11))

### Используем аргумент `class_weight` для балансировки классов:

#### RandomForestClassifier(`class_weight`)

In [35]:
best_model_RF = None
best_result = 0
for est in range(1,51, 5):
    for samples_split in range(2,50,5):
        model_RF = RandomForestClassifier(random_state = 12345,max_depth = 15, n_estimators = est, min_samples_split= samples_split,  min_samples_leaf = 4, class_weight = 'balanced') 
        model_RF.fit(features_train, target_train) 
        predictions_RF = model_RF.predict(features_valid)
        result = model_RF.score(features_valid, target_valid) 
        probabilities_valid = model_RF.predict_proba(features_valid)
        probabilities_valid_1 = probabilities_valid[:, 1]
        if result > best_result:
            best_model_RF =  model_RF         
            best_result = result       
        print('n_estimators = ', est, ':', result)
print('Лучшая модель:', best_model_RF)
print('Accuracy:', best_result)
print('F1-мера:', f1_score(target_valid, predictions_RF))
print('Roc_auc:', roc_auc_score(target_valid, probabilities_valid_1))
print('Матрица ошибок:')
print(confusion_matrix(target_valid, predictions_RF))

n_estimators =  1 : 0.724
n_estimators =  1 : 0.724
n_estimators =  1 : 0.72
n_estimators =  1 : 0.7135
n_estimators =  1 : 0.705
n_estimators =  1 : 0.6895
n_estimators =  1 : 0.7015
n_estimators =  1 : 0.728
n_estimators =  1 : 0.703
n_estimators =  1 : 0.704
n_estimators =  6 : 0.8185
n_estimators =  6 : 0.8185
n_estimators =  6 : 0.8115
n_estimators =  6 : 0.8105
n_estimators =  6 : 0.805
n_estimators =  6 : 0.801
n_estimators =  6 : 0.804
n_estimators =  6 : 0.8035
n_estimators =  6 : 0.818
n_estimators =  6 : 0.798
n_estimators =  11 : 0.8345
n_estimators =  11 : 0.8345
n_estimators =  11 : 0.8215
n_estimators =  11 : 0.8135
n_estimators =  11 : 0.8165
n_estimators =  11 : 0.8165
n_estimators =  11 : 0.8115
n_estimators =  11 : 0.816
n_estimators =  11 : 0.8155
n_estimators =  11 : 0.8085
n_estimators =  16 : 0.832
n_estimators =  16 : 0.832
n_estimators =  16 : 0.8225
n_estimators =  16 : 0.826
n_estimators =  16 : 0.8245
n_estimators =  16 : 0.8185
n_estimators =  16 : 0.8115
n

### Результаты:


- RandomForestClassifier:
-  сlass_weight:
 - `Accuracy: 0.8485`
 - `F1-мера: 0.6266804550155118`
 - `Roc_auc: 0.8587376755997488`
 


### Проверим эту модель на тестовой выборке

## Тестирование модели

In [47]:
predictions_RF = best_model_RF.predict(features_test)
accuracy = accuracy_score(target_test, predictions_RF)
probabilities_test = model_RF.predict_proba(features_test)
probabilities_test_1 = probabilities_test[:, 1]
print('RandomForestClassifier accuracy =', accuracy)
print('F1-мера:', f1_score(target_test, predictions_RF))
print('Roc_auc:', roc_auc_score(target_test, probabilities_test_1))

RandomForestClassifier accuracy = 0.8415
F1-мера: 0.6203592814371257
Roc_auc: 0.8501200708932427


### Проверим модель на адекватность:

In [48]:
model_DUM = DummyClassifier(strategy='uniform', random_state=12345)
model_DUM.fit(features_train, target_train)
predictions_DUM = model_DUM.predict(features_test)
score_DUM = accuracy_score(target_test, predictions_DUM)
probabilities_test = model_DUM.predict_proba(features_test)
probabilities_test_1 = probabilities_test[:, 1]
print('Качество случайной модели:', score_DUM)
print('F1-мера:', f1_score(target_test, predictions_DUM))
print('Roc_auc:', roc_auc_score(target_test, probabilities_test_1))

Качество случайной модели: 0.4935
F1-мера: 0.2911126662001399
Roc_auc: 0.5


###### Модель можно считать адекватной

## Вывод:

###### По результатом тестов, лучший результат показала модель ` RandomForestClassifier` c аргументами (class_weight='balanced',max_depth=15,min_samples_leaf=3, min_samples_split=10, n_estimators=48, random_state=12345).
 #### Были получены слудующие результаты:
- Валидационная выборка:
 - Accuracy: 0.8485
 - F1-мера: 0.6266804550155118
 - Roc_auc: 0.8587376755997488
- Тестовая выборка:
 - Accuracy = 0.8415
 - F1-мера: 0.6203592814371257
 - Roc_auc: 0.8501200708932427
 
###### Также, модель была проверена на адекватность с помощью `DummyClassifier`:
- Accuracy: 0.4935
- F1-мера: 0.2911126662001399
- Roc_auc: 0.5

### Ссылка на репозиторий:
https://github.com/SayonaraFart/Supervised-learning-