<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка-данных" data-toc-modified-id="Подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка данных</a></span></li><li><span><a href="#Исследование-задачи" data-toc-modified-id="Исследование-задачи-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Исследование задачи</a></span></li><li><span><a href="#Борьба-с-дисбалансом" data-toc-modified-id="Борьба-с-дисбалансом-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Борьба с дисбалансом</a></span></li><li><span><a href="#Тестирование-модели" data-toc-modified-id="Тестирование-модели-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Тестирование модели</a></span></li><li><span><a href="#Чек-лист-готовности-проекта" data-toc-modified-id="Чек-лист-готовности-проекта-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист готовности проекта</a></span></li></ul></div>

# Отток клиентов

Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.

Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. 

Постройте модель с предельно большим значением *F1*-меры. Чтобы сдать проект успешно, нужно довести метрику до 0.59. Проверьте *F1*-меру на тестовой выборке самостоятельно.

Дополнительно измеряйте *AUC-ROC*, сравнивайте её значение с *F1*-мерой.

Источник данных: [https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling](https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling)

In [1]:
#Загружаем необходимые библиотеки

import pandas as pd

from sklearn.preprocessing import StandardScaler 
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score
from sklearn.metrics import confusion_matrix
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.utils import shuffle
from sklearn.metrics import roc_auc_score


pd.options.mode.chained_assignment = None

In [2]:
# Функция апсемплинга
def upsample(features, target, repeat):
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]
    
    features_upsampled = pd.concat([features_zeros] + [features_ones] * repeat)
    target_upsampled = pd.concat([target_zeros] + [target_ones] * repeat)
    
    features_upsampled, target_upsampled = shuffle(
        features_upsampled, target_upsampled, random_state=12345)
    
    return features_upsampled, target_upsampled

#Функция даунсеплинга
def downsample(features, target, fraction):
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]

    features_downsampled = pd.concat(
        [features_zeros.sample(frac=fraction, random_state=12345)] + [features_ones])
    target_downsampled = pd.concat(
        [target_zeros.sample(frac=fraction, random_state=12345)] + [target_ones])
    
    features_downsampled, target_downsampled = shuffle(
        features_downsampled, target_downsampled, random_state=12345)
    
    return features_downsampled, target_downsampled


## Подготовка данных

In [3]:
original_data = pd.read_csv('/datasets/Churn.csv')
display(original_data.head(10))
print(original_data.info())

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0
5,6,15574012,Chu,645,Spain,Male,44,8.0,113755.78,2,1,0,149756.71,1
6,7,15592531,Bartlett,822,France,Male,50,7.0,0.0,2,1,1,10062.8,0
7,8,15656148,Obinna,376,Germany,Female,29,4.0,115046.74,4,1,0,119346.88,1
8,9,15792365,He,501,France,Male,44,4.0,142051.07,2,0,1,74940.5,0
9,10,15592389,H?,684,France,Male,27,2.0,134603.88,1,1,1,71725.73,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           9091 non-null   float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB
None


Для дальнейшей работы с данными нам не труются поля с идентификатором клиента и его фамилией

In [4]:
data = original_data.drop(columns=['CustomerId','Surname','RowNumber'])
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   CreditScore      10000 non-null  int64  
 1   Geography        10000 non-null  object 
 2   Gender           10000 non-null  object 
 3   Age              10000 non-null  int64  
 4   Tenure           9091 non-null   float64
 5   Balance          10000 non-null  float64
 6   NumOfProducts    10000 non-null  int64  
 7   HasCrCard        10000 non-null  int64  
 8   IsActiveMember   10000 non-null  int64  
 9   EstimatedSalary  10000 non-null  float64
 10  Exited           10000 non-null  int64  
dtypes: float64(3), int64(6), object(2)
memory usage: 859.5+ KB
None


Уберем категориальные переменные прямым кодированием

In [5]:
data_ohe = pd.get_dummies(data, drop_first=True)
data_ohe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   CreditScore        10000 non-null  int64  
 1   Age                10000 non-null  int64  
 2   Tenure             9091 non-null   float64
 3   Balance            10000 non-null  float64
 4   NumOfProducts      10000 non-null  int64  
 5   HasCrCard          10000 non-null  int64  
 6   IsActiveMember     10000 non-null  int64  
 7   EstimatedSalary    10000 non-null  float64
 8   Exited             10000 non-null  int64  
 9   Geography_Germany  10000 non-null  uint8  
 10  Geography_Spain    10000 non-null  uint8  
 11  Gender_Male        10000 non-null  uint8  
dtypes: float64(3), int64(6), uint8(3)
memory usage: 732.5 KB


Поле Tenure имеет пропущенные значения.

Проверим, какие значения может принимать это поле

In [6]:
print(data_ohe['Tenure'].unique())

[ 2.  1.  8.  7.  4.  6.  3. 10.  5.  9.  0. nan]


10% NaN - может сильно повлиять на результат, следовательно присвоить одно из существвующих значений - некорректно.

Скорее всего система, из которой выгружены данные имеет какой-то дефект. 

Так как Tenure достаточно важный параметр, то его неоходимо заполнить. Чтобы корректнее предположить какими значениями заполнить Tenure - категоризируем всех клиентов по 10 корзинам по возрасту и по 10 корзинам по кредитному рейтингу. На основе этих категорий посчитаем среднее и заполним недостающие значения Tenure

In [7]:
data_ohe['cred_score_bin'] = pd.qcut(data_ohe['CreditScore'],10,labels=False)
data_ohe['age_bin'] = pd.qcut(data_ohe['Age'],10,labels=False)
data_ohe_group = data_ohe.groupby(['cred_score_bin', 'age_bin'])['Tenure'].mean()
data_ohe = data_ohe.join(data_ohe_group, on=['cred_score_bin','age_bin'],how='left',rsuffix='_avg')
data_ohe['Tenure'] = data_ohe['Tenure'].fillna(data_ohe['Tenure_avg'])
data_ohe = data_ohe.drop(labels=['cred_score_bin','age_bin','Tenure_avg'], axis=1)
data_ohe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   CreditScore        10000 non-null  int64  
 1   Age                10000 non-null  int64  
 2   Tenure             10000 non-null  float64
 3   Balance            10000 non-null  float64
 4   NumOfProducts      10000 non-null  int64  
 5   HasCrCard          10000 non-null  int64  
 6   IsActiveMember     10000 non-null  int64  
 7   EstimatedSalary    10000 non-null  float64
 8   Exited             10000 non-null  int64  
 9   Geography_Germany  10000 non-null  uint8  
 10  Geography_Spain    10000 non-null  uint8  
 11  Gender_Male        10000 non-null  uint8  
dtypes: float64(3), int64(6), uint8(3)
memory usage: 732.5 KB


Масштабируем числовые признаки

Разделим данные на тренировочную, валидационную и тестовую выборки

In [8]:
target = data_ohe['Exited']
features = data_ohe.drop('Exited', axis=1)
features_train_valid, features_test, target_train_valid, target_test = train_test_split(
    features, target, test_size=0.2, random_state=12345)
features_train, features_valid, target_train, target_valid = train_test_split(
    features_train_valid, target_train_valid, test_size=0.25, random_state=12345)

numeric = ['CreditScore','Age','Tenure','Balance','NumOfProducts','EstimatedSalary']
scaler = StandardScaler()
scaler.fit(data_ohe[numeric])
features_train[numeric] = scaler.transform(features_train[numeric])
features_valid[numeric] = scaler.transform(features_valid[numeric])
features_test[numeric] = scaler.transform(features_test[numeric])

## Исследование задачи

Обучим модель логистической регрессии ее accuracy на валидационной выборке:

In [9]:
model = LogisticRegression(random_state=12345)
model.fit(features_train, target_train)
predicted_valid = model.predict(features_valid)
accuracy_valid = accuracy_score(target_valid,predicted_valid)
print(accuracy_valid)

0.8145


Проверим модель на адекватность.

Для начала посчитаем классы в целевом признаке

In [10]:
class_frequency = data_ohe['Exited'].value_counts(normalize=True)
print(class_frequency)

0    0.7963
1    0.2037
Name: Exited, dtype: float64


**Вывод**

Получается, что константная модель с предсказанием 0 выдаст лучший результат не сильно хуже, чем обученная нами модель.

Построим матрицу ошибок:

In [11]:
print(confusion_matrix(target_valid, predicted_valid))

[[1549   60]
 [ 311   80]]


Посчитаем F1-меру

In [12]:
print(f1_score(target_valid, predicted_valid))

0.30131826741996237


## Борьба с дисбалансом

Снова обучим модель. При этом объектам редкого класса придадим больший вес. 

In [18]:
model = LogisticRegression(random_state=12345, class_weight='balanced',solver='lbfgs')
model.fit(features_train, target_train)
predicted_valid = model.predict(features_valid)
probabilities_valid = model.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print(f1_score(target_valid, predicted_valid), auc_roc)

0.4741532976827095 0.7725406481126782


Значение F1-меры улучшилось, но до целевого еще далеко. Попробуем другое решение: upsampling

In [17]:
best_f1 = 0
best_rep = 0
auc_roc = 0

for rep in range(1,30):
    features_upsampled, target_upsampled = upsample(features_train, target_train, rep)
    model = LogisticRegression(random_state=12345 ,solver='lbfgs')
    model.fit(features_upsampled, target_upsampled)
    predicted_valid = model.predict(features_valid)
    cur_f1 = f1_score(target_valid, predicted_valid)
    if best_f1 < cur_f1:
        best_f1 = cur_f1
        best_rep = rep
        probabilities_valid = model.predict_proba(features_valid)
        probabilities_one_valid = probabilities_valid[:, 1]
        auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('Лучшее значение f1 =', best_f1,'При Количестве:', best_rep, 'AUC-ROC:', auc_roc)

Лучшее значение f1 = 0.4833110814419226 При Количестве: 2 AUC-ROC: 0.771385063875038


Значение F1-меры и AUC-ROC улучшилось, но не сильно. Попробуем другое решение: downsampling

In [19]:
best_f1 = 0
best_rep = 0
auc_roc = 0

for rep in range(1,100):
    features_downsampled, target_downsampled = downsample(features_train, target_train, rep/100)
    model = LogisticRegression(random_state=12345, solver='lbfgs')
    model.fit(features_downsampled, target_downsampled)
    predicted_valid = model.predict(features_valid)
    cur_f1 = f1_score(target_valid, predicted_valid)
    if best_f1 < cur_f1:
        best_f1 = cur_f1
        best_rep = rep
        probabilities_valid = model.predict_proba(features_valid)
        probabilities_one_valid = probabilities_valid[:, 1]
        auc_roc = roc_auc_score(target_valid, probabilities_one_valid)      
print('Лучшее значение f1 =', best_f1,'При fraction:', best_rep/100, 'AUC-ROC:', auc_roc)

Лучшее значение f1 = 0.4936708860759494 При fraction: 0.47 AUC-ROC: 0.7719684193292525


Значение F1-меры и AUC-ROC лучше, чем после придания веса, но не сильно

Обучим решающее дерево и найдем максимально ввозможное значение F1-меры

In [20]:
best_f1=0
best_depth=0
auc_roc = 0

for depth in range(1,60):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth, class_weight='balanced')
    model.fit(features_train, target_train)
    predicted_valid = model.predict(features_valid)
    cur_f1 = f1_score(target_valid, predicted_valid)
    if best_f1 < cur_f1:
        best_f1 = cur_f1
        best_depth = depth
        probabilities_valid = model.predict_proba(features_valid)
        probabilities_one_valid = probabilities_valid[:, 1]
        auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('Лучшее значение f1 =', best_f1,'При глубине дерева:', best_depth, 'AUC-ROC:', auc_roc)

Лучшее значение f1 = 0.5592705167173252 При глубине дерева: 6 AUC-ROC: 0.8095813351687041


Все еще не дотягиваем до целевого значения. Поробуем апсемплинг и даунсеплинг:

In [24]:
best_f1 = 0
best_rep = 0
auc_roc = 0

for rep in range(1,30):
    features_upsampled, target_upsampled = upsample(features_train, target_train, rep)
    model = DecisionTreeClassifier(random_state=12345, max_depth=6,)
    model.fit(features_upsampled, target_upsampled)
    predicted_valid = model.predict(features_valid)
    cur_f1 = f1_score(target_valid, predicted_valid)
    if best_f1 < cur_f1:
        best_f1 = cur_f1
        best_rep = rep
        probabilities_valid = model.predict_proba(features_valid)
        probabilities_one_valid = probabilities_valid[:, 1]
        auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('Лучшее значение f1 =', best_f1,'При глубине дерева:', best_depth,'Повторения:',best_rep, 'AUC-ROC:', auc_roc)

Лучшее значение f1 = 0.5608695652173913 При глубине дерева: 6 Повторения: 3 AUC-ROC: 0.8123359809511397


In [25]:
best_f1 = 0
best_rep = 0
auc_roc = 0

for rep in range(1,100):
    features_downsampled, target_downsampled = downsample(features_train, target_train, rep/100)

    model = DecisionTreeClassifier(random_state=12345, max_depth=6)
    model.fit(features_downsampled, target_downsampled)
    predicted_valid = model.predict(features_valid)
    cur_f1 = f1_score(target_valid, predicted_valid)
    if best_f1 < cur_f1:
        best_f1 = cur_f1
        best_rep = rep
        probabilities_valid = model.predict_proba(features_valid)
        probabilities_one_valid = probabilities_valid[:, 1]
        auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('Лучшее значение f1 =', best_f1,'При глубине дерева:', best_depth, 'Fraction:',best_rep/100,'AUC-ROC:', auc_roc)

Лучшее значение f1 = 0.5728848114169216 При глубине дерева: 6 Fraction: 0.31 AUC-ROC: 0.8239935528890401


Получили что при даунсеплинге при обучении дерева лучше всего использовать fraction=0.31, а глубина дерева = 6.

Теперь проверим возможность улучшения результата обучением случайного леса:
- Downsample
- Upsample
- Balanced

In [26]:
best_f1 = 0
best_est = 0
best_depth = 0
best_frac = 0
auc_roc = 0


for est in [10,50,100,200]:
    for depth in range(1,10):
        for frac in [0.3,0.7,1]:
            features_downsampled, target_downsampled = downsample(features_train, target_train, frac)
            model = RandomForestClassifier(n_estimators=est, random_state=12345, max_depth=depth)
            model.fit(features_downsampled, target_downsampled)
            predicted_valid = model.predict(features_valid)
            cur_f1 = f1_score(target_valid, predicted_valid)
            if best_f1 < cur_f1:
                best_f1 = cur_f1
                best_est = est
                best_depth = depth
                best_frac = frac
                probabilities_valid = model.predict_proba(features_valid)
                probabilities_one_valid = probabilities_valid[:, 1]
                auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('Лучшее значение f1 =', best_f1,'При n_estimators = ', best_est,"При глубине =", best_depth, "Fraction =",best_frac,'AUC-ROC:', auc_roc )

Лучшее значение f1 = 0.5842026825633383 При n_estimators =  10 При глубине = 9 Fraction = 0.7 AUC-ROC: 0.8415490551072214


In [27]:
best_f1 = 0
best_est = 0
best_depth = 0
best_frac = 0


for est in [10,50,100,200]:
    for depth in range(1,10):
        for rep in range(1,10):
            features_upsampled, target_upsampled = upsample(features_train, target_train, rep)
            model = RandomForestClassifier(n_estimators=est, random_state=12345, max_depth=depth)
            model.fit(features_upsampled, target_upsampled)
            predicted_valid = model.predict(features_valid)
            cur_f1 = f1_score(target_valid, predicted_valid)
            if best_f1 < cur_f1:
                best_f1 = cur_f1
                best_est = est
                best_depth = depth
                best_frac = rep
                probabilities_valid = model.predict_proba(features_valid)
                probabilities_one_valid = probabilities_valid[:, 1]
                auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('Лучшее значение f1 =', best_f1,'При n_estimators = ', best_est,"При глубине =", best_depth, "rep =",rep,'AUC-ROC:', auc_roc)


Лучшее значение f1 = 0.6053748231966053 При n_estimators =  200 При глубине = 9 rep = 9 AUC-ROC: 0.8546570680586661


In [28]:
best_f1 = 0
best_est = 0
best_depth = 0
auc_roc = 0


for est in [10,50,100,200]:
    for depth in range(1,10):
            model = RandomForestClassifier(n_estimators=est, random_state=12345, max_depth=depth, class_weight='balanced' )
            model.fit(features_train, target_train)
            predicted_valid = model.predict(features_valid)
            cur_f1 = f1_score(target_valid, predicted_valid)
            if best_f1 < cur_f1:
                best_f1 = cur_f1
                best_est = est
                best_depth = depth
                probabilities_valid = model.predict_proba(features_valid)
                probabilities_one_valid = probabilities_valid[:, 1]
                auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
print('Лучшее значение f1 =', best_f1,'При n_estimators = ', best_est,"При глубине =", best_depth,'AUC-ROC:', auc_roc)

Лучшее значение f1 = 0.593200468933177 При n_estimators =  10 При глубине = 8 AUC-ROC: 0.8493377246594047


Получаем два варианта модели, которые нам подходят по условиям задачи.

Проверим модели на тестовой выборке:

## Тестирование модели

Проверим первую модель, которая показала наилучшее значение по f1 метрики:

In [35]:
features_upsampled, target_upsampled = upsample(features_train, target_train, 9)
model = RandomForestClassifier(n_estimators=200, random_state=12345, max_depth=7)
model.fit(features_upsampled, target_upsampled)
predicted_valid = model.predict(features_test)
auc_roc = roc_auc_score(target_test, predicted_valid)
print('F1:',f1_score(target_test, predicted_valid), 'AUC-ROC:', auc_roc)

F1: 0.514890800794176 AUC-ROC: 0.7345880646923867


Значение F1 хуже на тестовой выборке, чем на валидационной.

Проверим вторую модель

In [36]:
model = RandomForestClassifier(n_estimators=100, random_state=12345, max_depth=9, class_weight='balanced')
model.fit(features_train, target_train)
predicted_valid = model.predict(features_test)
auc_roc = roc_auc_score(target_test, predicted_valid)
print('F1:',f1_score(target_test, predicted_valid), 'AUC-ROC:', auc_roc)

F1: 0.6456692913385826 AUC-ROC: 0.7804393817806634


Значение F1 метрики в данном случае даже лучше на тестовой выборке, чем на валидационной.

F1 метрика и значение AUC-ROC в данном случае имеет наилучшее значение.

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные подготовлены
- [x]  Выполнен шаг 2: задача исследована
    - [x]  Исследован баланс классов
    - [x]  Изучены модели без учёта дисбаланса
    - [x]  Написаны выводы по результатам исследования
- [x]  Выполнен шаг 3: учтён дисбаланс
    - [x]  Применено несколько способов борьбы с дисбалансом
    - [x]  Написаны выводы по результатам исследования
- [x]  Выполнен шаг 4: проведено тестирование
- [x]  Удалось достичь *F1*-меры не менее 0.59
- [x]  Исследована метрика *AUC-ROC*