Ссылка на репозиторий Github

https://github.com/JJAn95/supervised_learning

## Вступление

**Описание**
Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.
Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Нам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. Необходимо построить модель с предельно большим значением F1-меры.
Дополнительно необходимо измерять AUC-ROC, сравнивать её значение с F1-мерой.

**Цель:** Найти и построить модель с максимально большим значением F1-меры.

**План действий:**

1. Открыть и изучить файл с данными.
2. Подготовить данные. Пояснить порядок действий.
3. Исследовать баланс классов, обучить модель без учёта дисбаланса. Кратко описать выводы.
4. Улучшить качество модели, учитывая дисбаланс классов. Обучить разные модели и найти лучшую. Кратко описать выводы.
5. Провести финальное тестирование.

## Подготовка

In [82]:
# Добавляем все необходимые библиотеки
import pandas as pd
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import Normalizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score
from sklearn.utils import shuffle

In [83]:
# открываем и чекаем исходный датасет
try:
    data = pd.read_csv('Churn.csv')
except FileNotFoundError:
    data = pd.read_csv('/datasets/Churn.csv')

**Признаки**
- RowNumber — индекс строки в данных
- CustomerId — уникальный идентификатор клиента
- Surname — фамилия
- CreditScore — кредитный рейтинг
- Geography — страна проживания
- Gender — пол
- Age — возраст
- Tenure — сколько лет человек является клиентом банка
- Balance — баланс на счёте
- NumOfProducts — количество продуктов банка, используемых клиентом
- HasCrCard — наличие кредитной карты
- IsActiveMember — активность клиента
- EstimatedSalary — предполагаемая зарплата

**Целевой признак**
- Exited — факт ухода клиента

In [84]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           9091 non-null   float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB


В целом данные хорошие. Полные, на первый взгляд тип данных везде верный. Но видим, что в столбце Tenure у нас есть пропуски. Так же. можно предположить, что для построения модели нам не нужны следующие данные: RowNumber, CustomerId, Surname. Это конечно будет крипово, если мы найдем какую-то закономерность между уходом клиента и его фамилий и idв базе, но нет.

In [85]:
data_model = data.drop(['RowNumber', 'CustomerId', 'Surname'], axis=1)
# data_model.info()

Далее изучим, какие значения у нас хранятся в Tenure, там где есть пропуски

In [86]:
data_model['Tenure'].value_counts()

1.0     952
2.0     950
8.0     933
3.0     928
5.0     927
7.0     925
4.0     885
9.0     882
6.0     881
10.0    446
0.0     382
Name: Tenure, dtype: int64

В целом, видим, что значения у нас все целые. Поэтому думаю можно заполнить пропуски медианным значением.

In [87]:
# data_model['Tenure'] = data_model['Tenure'].fillna(data_model['Tenure'].median())
# data_model['Tenure'].value_counts()

При таком подходе мне не понравилось, что у нас просто все 900+ пропусков плюсанулись к значению 5, поэтому я решил заполнить медианным значением в зависимости от пола, страны и возраста.

In [88]:
data_model['Tenure'] = data_model.groupby(['Gender', 'Geography', 'Age'])['Tenure'].apply(lambda x: x.fillna(x.median())).round()
data_model['Tenure'].value_counts()

5.0     1282
4.0     1166
6.0     1097
2.0      958
1.0      956
8.0      946
7.0      945
3.0      936
9.0      883
10.0     446
0.0      382
Name: Tenure, dtype: int64

In [89]:
# data_model.info()

# Осталось еще 3 пропуска. Их уж можно заменить общим медианым знаечнием, раз уж из группировки не нашлось
data_model['Tenure'] = data_model['Tenure'].fillna(data_model['Tenure'].median())

data_model.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   CreditScore      10000 non-null  int64  
 1   Geography        10000 non-null  object 
 2   Gender           10000 non-null  object 
 3   Age              10000 non-null  int64  
 4   Tenure           10000 non-null  float64
 5   Balance          10000 non-null  float64
 6   NumOfProducts    10000 non-null  int64  
 7   HasCrCard        10000 non-null  int64  
 8   IsActiveMember   10000 non-null  int64  
 9   EstimatedSalary  10000 non-null  float64
 10  Exited           10000 non-null  int64  
dtypes: float64(3), int64(6), object(2)
memory usage: 859.5+ KB


Стало получше, так хоть у нас нет значения, которое минимум в 2 раза отличается от остальных.

Изучим категориальные данные.

In [90]:
data_model['Geography'].value_counts()

France     5014
Germany    2509
Spain      2477
Name: Geography, dtype: int64

In [91]:
data_model['Gender'].value_counts()

Male      5457
Female    4543
Name: Gender, dtype: int64

Думаю можно закодировать эти номинальные категориальные данные: Geography и Gender.

In [92]:
# # номинальные переменные поэтому применяем OHE
# future_ohe = ['Geography', 'Gender']
# print(data_model.shape)
# # print(data_model.head(10))
# data_model = pd.get_dummies(data_model, drop_first=True, columns=future_ohe)
# print(data_model.shape)
# # print(data_model.head(10))


По размерам данных все гуд. Был один столбец со страной проживания - появилось два, так как мы учли ловушку. и из одного столбца с полом тоже, с учетом ловушки остался один столбец. Итого размерность увеличилась на 1 столбец.

Исследуем баланс классов теперь.

In [93]:
data_model['Exited'].value_counts() / data_model.shape[0]

0    0.7963
1    0.2037
Name: Exited, dtype: float64

В целом да, видим дисбаланс классов.

## Разделяем исходные данные на обучающую, валидационную и тестовую выборки.

In [94]:
# Разделим выборку на валидационную и тестовую.
data_train, data_test = train_test_split(data_model, test_size=0.2, random_state=12345, stratify=data['Exited'])
data_train, data_valid = train_test_split(data_train, test_size=0.25, random_state=12345, stratify=data_train['Exited'])

#  Определим зависимую и независимые переменные для выделенных датасетов
X_train = data_train.drop(['Exited'], axis=1)
Y_train = data_train['Exited']
X_test = data_test.drop(['Exited'], axis=1)
Y_test = data_test['Exited']
X_valid = data_valid.drop(['Exited'], axis=1)
Y_valid = data_valid['Exited']

# Создадим словарь на будущее: модель - качество
sl = {}

In [95]:
# # # Разделим выборку на валидационную и тестовую.
# # data_train, data_test = train_test_split(data_model, test_size=0.2, random_state=12345, stratify=data['Exited'])
# # data_train, data_valid = train_test_split(data_train, test_size=0.25, random_state=12345, stratify=data_train['Exited'])

# # # Создаем объект OneHotEncoder
# # ohe = OneHotEncoder()

# # # Преобразуем столбцы 'Geography' и 'Gender'
# # X_train_encoded = ohe.fit_transform(data_train[['Geography', 'Gender']])
# # print(X_train_encoded.shape)
# # X_valid_encoded = ohe.transform(data_valid[['Geography', 'Gender']])
# # print(X_valid_encoded.shape)
# # X_test_encoded = ohe.transform(data_test[['Geography', 'Gender']])
# # print(X_test_encoded.shape)

# # # Создаем новые датафреймы с закодированными столбцами
# # X_train = pd.concat([data_train.drop(['Geography', 'Gender', 'Exited'], axis=1), 
# #                      pd.DataFrame(X_train_encoded.toarray())], axis=1)
# # print(X_train.shape)
# # print(X_train.drop_duplicates().shape)
# # X_valid = pd.concat([data_valid.drop(['Geography', 'Gender', 'Exited'], axis=1), 
# #                      pd.DataFrame(X_valid_encoded.toarray())], axis=1)
# # print(X_valid.shape)
# # print(X_valid.drop_duplicates().shape)
# # X_test = pd.concat([data_test.drop(['Geography', 'Gender', 'Exited'], axis=1), 
# #                     pd.DataFrame(X_test_encoded.toarray())], axis=1)
# # print(X_test.shape)
# # print(X_test.drop_duplicates().shape)

# # # Определяем целевую переменную
# # y_train = data_train['Exited']
# # y_valid = data_valid['Exited']
# # y_test = data_test['Exited']

# # Нормализуем значения
# norm = Normalizer().fit(X_train)
# X_train = norm.transform(X_train)
# X_test = norm.transform(X_test)
# X_valid = norm.transform(X_valid)


# # Создадим словарь на будущее: модель - качество
# sl = {}
print(X_train.columns)

Index(['CreditScore', 'Geography', 'Gender', 'Age', 'Tenure', 'Balance',
       'NumOfProducts', 'HasCrCard', 'IsActiveMember', 'EstimatedSalary'],
      dtype='object')


Перекодируем данные методом OHE

In [96]:
features_categirical = ['Geography', 'Gender']

ohe = OneHotEncoder(sparse=False, drop='first')
ohe.fit(X_train[features_categirical])

def features_ohe(ohe_variable, df_features, features_categ):
    df_features_ohe = pd.DataFrame(
        data=ohe_variable.transform(df_features[features_categ]), 
        index=df_features.index,
        columns=ohe_variable.get_feature_names_out()
    )

    df_features = df_features.drop(features_categ, axis=1)
    df_features = df_features.join(df_features_ohe)
    return df_features    

X_train = features_ohe(ohe, X_train, features_categirical)
X_valid = features_ohe(ohe, X_valid, features_categirical)
X_test = features_ohe(ohe, X_test, features_categirical)



Стандартизируем количественные данные 

In [97]:
numeric = ['CreditScore', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'EstimatedSalary']
scaler = StandardScaler()
scaler.fit(X_train[numeric])

X_train[numeric] = scaler.transform(X_train[numeric])
X_valid[numeric] = scaler.transform(X_valid[numeric])
X_test[numeric] = scaler.transform(X_test[numeric])

## Построение изученных моделей для классификации. Исследуем их качество (f1_score).

### Решающее дерево

In [98]:
# Перебираем гиперпараметры и выбираем модель с максимальным значением f1_score, запоминая гипперпараметры такой модели

best_res = 0
good_tree = None
for depth in range(1,10):
    for split in range(2,10):
        for leaf in range(1,10):
            model = DecisionTreeClassifier(max_depth=depth, 
                                           min_samples_split=split, 
                                           min_samples_leaf=leaf, 
                                           criterion='gini',
                                           random_state=12345)
            model.fit(X_train, Y_train)
            pred_valid = model.predict(X_valid)
            res = f1_score(Y_valid, pred_valid)
            if res > best_res:
                best_valid = pred_valid
                best_res = res
                best_params = {'max_depth': depth, 'min_samples_split': split, 'min_samples_leaf': leaf}
                good_tree = model

print(best_res)                
print(best_params)
sl['Decision Tree'] = [best_res, best_params, good_tree]


0.593342981186686
{'max_depth': 8, 'min_samples_split': 2, 'min_samples_leaf': 7}


In [99]:
Y_prob = good_tree.predict_proba(X_valid)[:, 1]
auc_roc = roc_auc_score(Y_valid, Y_prob)
print("AUC-ROC для решаюшего дерева:", auc_roc)

AUC-ROC для решаюшего дерева: 0.8281170230322772


Получили наилушее значение f1_score = 0.593342981186686, при глубине = 8, мин количестве узлов = 2 и мин колве листьев = 7. Значение AUC-ROC - 0.8281170230322772. Оба показатели достаточно хорошие. f1_score больше 0.5, а AUC-ROC очень близко к 1.

### Случайный лес

In [100]:
best_res = 0
good_forest = None
for est in range(10,51,10):
    for depth in range(1, 16):
        for split in range(2,5):
            for leaf in range(1,5):
                model = RandomForestClassifier(n_estimators=est,
                                               min_samples_split=split,
                                               max_depth=depth,
                                               min_samples_leaf=leaf,
                                               random_state=12345)
                model.fit(X_train, Y_train)
                pred_valid = model.predict(X_valid)
                res = f1_score(Y_valid, pred_valid)
                if res > best_res:
                    best_valid = pred_valid
                    good_forest = model
                    best_res = res
                    best_params = {'n_estimators': est, 'max_depth': depth, 
                                   'min_samples_split': split, 'min_samples_leaf': leaf}
print(best_res)                
print(best_params)
sl['Random Forest'] = [best_res, best_params, good_forest]

0.5884146341463414
{'n_estimators': 50, 'max_depth': 15, 'min_samples_split': 4, 'min_samples_leaf': 1}


In [101]:
Y_prob = good_forest.predict_proba(X_valid)[:, 1]
auc_roc = roc_auc_score(Y_valid, Y_prob)
print("AUC-ROC для случайного леса:", auc_roc)

AUC-ROC для случайного леса: 0.8580922987702648


Получили наилушее значение f1_score = 0.5884146341463414, при колве деревьев = 50, глубине = 15, мин количеству узлов = 4 и мин колве листьев = 1.

### Логистическая регрессия

In [102]:
model = LogisticRegression(random_state=12345)
model.fit(X_train, Y_train)
pred_valid = model.predict(X_valid)
res = f1_score(Y_valid, pred_valid)
print(res)

sl['Logistic Regression'] = [res, model]

0.3214953271028037


In [103]:
Y_prob = model.predict_proba(X_valid)[:, 1]
auc_roc = roc_auc_score(Y_valid, Y_prob)
print("AUC-ROC для логистической регрессии:", auc_roc)

AUC-ROC для логистической регрессии: 0.7874808552774655


Получили наилушее значение f1_score = 0.3214953271028037. А значение AUC-ROC: 0.7874808552774655.

In [104]:
max_key = max(sl.items(), key=lambda x: x[1][0])[0]
print(max_key)
print('f1_score = ', sl[max_key][0])

Decision Tree
f1_score =  0.593342981186686


Самая лучшая модель получилась - Решающее дерево. Со значением метрики F1 = 0.593342981186686. Проверим модель на тестовой выборке

In [105]:
pred_test = good_tree.predict(X_test)
f1 = f1_score(Y_test, pred_test)
print("f1_score на тестовой выборке:", f1)

f1_score на тестовой выборке: 0.5911047345767575


Значение f1_score на тестовой выборке получилось 0.5911047345767575. Неплохой результат, но теперь посомтрим, что изменится, если мы учтем дисбаланс классов.

## Балансировка классов

In [106]:
data_model['Exited'].value_counts() / data_model.shape[0]

0    0.7963
1    0.2037
Name: Exited, dtype: float64

Помним, что классы у нас были не сбалансированы, поэтому попробуем их все же сбалансирвоать методом upsampling. То есть увеличим частоту положительных ответов на равне с отрицательными. У нас уже есть разделенные выборки. Осталось написать алгоритм для повышения частоты положительных. Так как видим, что 0-ей в 4 раза больше чем 1, то и увеличивать выборку будем в 4 раза

In [107]:
def upsample(X_train, Y_train, repeat):
    X_zeros = X_train[Y_train == 0]
    X_ones = X_train[Y_train == 1]
    Y_zeros = Y_train[Y_train == 0]
    Y_ones = Y_train[Y_train == 1]

    #repeat = 10
    X_upsampled = pd.concat([pd.DataFrame(X_zeros)] + [pd.DataFrame(X_ones)] * repeat)
    Y_upsampled = pd.concat([Y_zeros] + [Y_ones] * repeat)
    
# < добавьте перемешивание >
    X_upsampled, Y_upsampled = shuffle(X_upsampled, Y_upsampled, random_state=12345)
    return X_upsampled, Y_upsampled
    
X_upsampled, Y_upsampled = upsample(X_train, Y_train, 4)

print(X_train.shape)
print(Y_train.shape)
print(X_upsampled.shape)
print(Y_upsampled.shape)


(6000, 11)
(6000,)
(9669, 11)
(9669,)


Видим, что искусственное увеличение класса прошло успешно. Количество независимых и зависимой переменной одинаков увеличилось. Было 6000 строк - стало 9669. Теперь повторим предыдущие шаги с обучением разных моделей с выявлением наилучшей модели для данной задачи.

## Построение изученных моделей для классификации на сбалансирвоанных выборках. Исследуем их качество (f1_score).

In [108]:
sl_balance = {}

### Решающее дерево

In [109]:
# Перебираем гиперпараметры и выбираем модель с максимальным значением f1_score, запоминая гипперпараметры такой модели

best_res = 0
good_tree_balance = None
for depth in range(1,16):
    for split in range(2,10):
        for leaf in range(1,10):
            model = DecisionTreeClassifier(max_depth=depth, 
                                           min_samples_split=split, 
                                           min_samples_leaf=leaf, 
                                           criterion='gini',
                                           random_state=12345)
            model.fit(X_upsampled, Y_upsampled)
            pred_valid = model.predict(X_valid)
            res = f1_score(Y_valid, pred_valid)
            if res > best_res:
                best_valid = pred_valid
                best_res = res
                best_params = {'max_depth': depth, 'min_samples_split': split, 'min_samples_leaf': leaf}
                good_tree_balance = model

print(best_res)                
print(best_params)
sl_balance['Decision Tree'] = [best_res, best_params, good_tree_balance]


0.5796064400715564
{'max_depth': 6, 'min_samples_split': 2, 'min_samples_leaf': 3}


In [110]:
Y_prob = good_tree_balance.predict_proba(X_valid)[:, 1]
auc_roc = roc_auc_score(Y_valid, Y_prob)
print("AUC-ROC для решающего дерева:", auc_roc)

AUC-ROC для решающего дерева: 0.8409580612970443


Получили наилушее значение f1_score = 0.5796064400715564, при глубине = 6, мин количеству узлов = 2 и мин колве листьев = 3. Здесь результаты получились похуже, чем у такой же модели, но без балансирвоки. Метрика AUC-ROC для решающего дерева: 0.8409580612970443.

### Случайный лес

In [111]:
best_res = 0
good_forest_balance = None
for est in range(10,51,10):
    for depth in range(1, 16):
        for split in range(2,5):
            for leaf in range(1,3):
                model = RandomForestClassifier(n_estimators=est,
                                               min_samples_split=split,
                                               max_depth=depth,
                                               min_samples_leaf=leaf,
                                               random_state=12345)
                model.fit(X_upsampled, Y_upsampled)
                pred_valid = model.predict(X_valid)
                res = f1_score(Y_valid, pred_valid)
                if res > best_res:
                    best_valid = pred_valid
                    good_forest_balance = model
                    best_res = res
                    best_params = {'n_estimators': est, 'max_depth': depth, 
                                   'min_samples_split': split, 'min_samples_leaf': leaf}
print(best_res)                
print(best_params)
sl_balance['Random Forest'] = [best_res, best_params, good_forest_balance]

0.6362649294245385
{'n_estimators': 50, 'max_depth': 10, 'min_samples_split': 2, 'min_samples_leaf': 2}


In [112]:
Y_prob = good_forest_balance.predict_proba(X_valid)[:, 1]
auc_roc = roc_auc_score(Y_valid, Y_prob)
print("AUC-ROC для случайного леса:", auc_roc)

AUC-ROC для случайного леса: 0.8701336158963278


Получили наилушее значение f1_score = 0.6362649294245385, при колве деревьев = 50, глубине = 10, мин количеству узлов = 2 и мин колве листьев = 2. Здесь результат наоборот получился лучше, чем в модели с несбалансирвоанными классами. AUC-ROC для случайного леса: 0.8701336158963278

### Логистическая регрессия

In [113]:
model = LogisticRegression(random_state=12345, solver='liblinear')
model.fit(X_upsampled, Y_upsampled)
pred_valid = model.predict(X_valid)
res = f1_score(Y_valid, pred_valid)
print(res)

sl_balance['Logistic Regression'] = [res, model]

0.5081545064377684


In [114]:
Y_prob = model.predict_proba(X_valid)[:, 1]
auc_roc = roc_auc_score(Y_valid, Y_prob)
print("AUC-ROC для логистической регрессии:", auc_roc)

AUC-ROC для логистической регрессии: 0.7918442325221986


Получили значение f1_score = 0.5081545064377684. AUC-ROC для логистической регрессии: 0.7918442325221986.

In [115]:
max_key_balance = max(sl_balance.items(), key=lambda x: x[1][0])[0]
print(max_key_balance)
print('f1_score = ', sl_balance[max_key_balance][0])

Random Forest
f1_score =  0.6362649294245385


После балансирвоки классов самой лучшей моделью стал - Случайный лес. Со значением метрики F1 = 0.6362649294245385.

In [116]:
pred_test = good_forest_balance.predict(X_valid)
f1 = f1_score(Y_valid, pred_test)
print("f1_score на тестовой выборке:", f1)

f1_score на тестовой выборке: 0.6362649294245385


In [117]:
f1_list = [f1]
auc_roc_list = [auc_roc]

Судя по результату AUC-ROC, то наша наилучшея модель довольно неплохо различает классы "1" и "0". Наше значение довольно близко к значению 1. А вот значение f1_score плоховато. Во-первых, оно меньше 0.59 (пороговое значение), а во-вторых в целом такое значение не очень хорошо, так как довольно далеко от идеальной единицы.

 ## Попробуем занизить класс "0"

In [118]:
def downsample(features, target, fraction):
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]

    features_downsampled = pd.concat(
        [pd.DataFrame(features_zeros).sample(frac=fraction, random_state=12345)] + [pd.DataFrame(features_ones)])
    target_downsampled = pd.concat(
        [target_zeros.sample(frac=fraction, random_state=12345)] + [target_ones])
    
    features_downsampled, target_downsampled = shuffle(
        features_downsampled, target_downsampled, random_state=12345)
    
    return features_downsampled, target_downsampled

X_downsampled, Y_downsampled = downsample(X_train, Y_train, 0.25)

In [119]:
print(X_train.shape)
print(Y_train.shape)
print(X_downsampled.shape)
print(Y_downsampled.shape)

(6000, 11)
(6000,)
(2417, 11)
(2417,)


Проверили размерность выборки. Выглядит все гуд. Теперь обучим заново три модели по "заниженной" выборке, также найдем лучшую модель и посмотрим на прогноз по тестовой выборке.

### Решающее дерево

In [120]:
# Перебираем гиперпараметры и выбираем модель с максимальным значением f1_score, запоминая гипперпараметры такой модели

best_res = 0
good_tree_balance2 = None
for depth in range(1,10):
    for split in range(2,10):
        for leaf in range(1,10):
            model = DecisionTreeClassifier(max_depth=depth, 
                                           min_samples_split=split, 
                                           min_samples_leaf=leaf, 
                                           criterion='gini',
                                           random_state=12345)
            model.fit(X_downsampled, Y_downsampled)
            pred_valid = model.predict(X_valid)
            res = f1_score(Y_valid, pred_valid)
            if res > best_res:
                best_valid = pred_valid
                best_res = res
                best_params = {'max_depth': depth, 'min_samples_split': split, 'min_samples_leaf': leaf}
                good_tree_balance2 = model

print(best_res)                
print(best_params)
sl_balance['Decision Tree downsampling'] = [best_res, best_params, good_tree_balance2]


0.5969543147208122
{'max_depth': 6, 'min_samples_split': 2, 'min_samples_leaf': 8}


In [121]:
Y_prob = good_tree_balance2.predict_proba(X_valid)[:, 1]
auc_roc = roc_auc_score(Y_valid, Y_prob)
print("AUC-ROC для решающего дерева downsampling '0':", auc_roc)

AUC-ROC для решающего дерева downsampling '0': 0.8458435322842103


Получили неплохой и максимально возможный результат в 0.5969543147208122, при глубине = 6, мин колве узлов = 2 и мин колве листьев =8. AUC-ROC для решающего дерева downsampling '0': 0.8458435322842103.

### Случайный лес

In [122]:
best_res = 0
good_forest_balance2 = None
for est in range(10,51,10):
    for depth in range(1, 16):
        for split in range(2,5):
            for leaf in range(1,3):
                model = RandomForestClassifier(n_estimators=est,
                                               min_samples_split=split,
                                               max_depth=depth,
                                               min_samples_leaf=leaf,
                                               random_state=12345)
                model.fit(X_downsampled, Y_downsampled)
                pred_valid = model.predict(X_valid)
                res = f1_score(Y_valid, pred_valid)
                if res > best_res:
                    best_valid = pred_valid
                    good_forest_balance2 = model
                    best_res = res
                    best_params = {'n_estimators': est, 'max_depth': depth, 
                                   'min_samples_split': split, 'min_samples_leaf': leaf}
print(best_res)                
print(best_params)
sl_balance['Random Forest downsampling'] = [best_res, best_params, good_forest_balance2]

0.6251256281407036
{'n_estimators': 50, 'max_depth': 8, 'min_samples_split': 3, 'min_samples_leaf': 1}


In [123]:
Y_prob = good_forest_balance2.predict_proba(X_valid)[:, 1]
auc_roc = roc_auc_score(Y_valid, Y_prob)
print("AUC-ROC для случайного леса downsampling '0':", auc_roc)

AUC-ROC для случайного леса downsampling '0': 0.8703187008271754


Получили результат получше в 0.6251256281407036, при колве деревьев = 50, глубине = 8, мин колве узлов = 3 и мин колве листьев = 1. AUC-ROC для случайного леса downsampling '0': 0.8703187008271754

### Логистическая регерссия

In [124]:
model = LogisticRegression(random_state=12345, solver='liblinear')
model.fit(X_downsampled, Y_downsampled)
pred_valid = model.predict(X_valid)
res = f1_score(Y_valid, pred_valid)
print(res)

sl_balance['Logistic Regression downsampling'] = [res, model]

0.5047210300429185


In [125]:
Y_prob = model.predict_proba(X_valid)[:, 1]
auc_roc = roc_auc_score(Y_valid, Y_prob)
print("AUC-ROC для логистической регрессии downsampling '0':", auc_roc)

AUC-ROC для логистической регрессии downsampling '0': 0.7913244523414015


Визуально здесь получился снова не самый лучший результат - 0.5047210300429185. AUC-ROC для логистической регрессии downsampling '0': 0.7913244523414015.

Ищем победителя среди всех обученных моделей.


In [126]:
max_key_balance2 = max(sl_balance.items(), key=lambda x: x[1][0])[0]
print(max_key_balance2)
print('f1_score = ', sl_balance[max_key_balance2][0])

Random Forest
f1_score =  0.6362649294245385


Им оказался случайный лес при балансирвоке классов методом Upsampling. Предскажем значения на тестовой выбокре, используя модель случайного леса.

In [127]:
pred_test = good_forest_balance.predict(X_test)
f1 = f1_score(Y_test, pred_test)
print("f1_score на тестовой выборке:", f1)

f1_score на тестовой выборке: 0.6247288503253796


In [128]:
Y_prob = good_forest_balance.predict_proba(X_test)[:, 1]
auc_roc = roc_auc_score(Y_test, Y_prob)
print("AUC-ROC для случайного леса уже на тестовой выборке:", auc_roc)

AUC-ROC для случайного леса уже на тестовой выборке: 0.8637451010332367


Здесь мы уже получаем результат получше. f1 на тестовой выбокре равен - 0.6247288503253796. А AUC-ROC равен - 0.8637451010332367.

# Вывод

1. Проверили наши данные на пропуски. Заменили пропуски в Tenure медианным значением по сходим параметрам.
2. Разбили датафрейм на 3 выборки в классах: обучающую, валидационную и тестовую.
3. Закодировали две номинальные категориальные колонки: Geography и Gender. Методом OHE. Пременили стандартизацию количественных данных.


4. Построили 3 разных модели без учета дисбаланса классов: Решающее дерево, Случайный лес и Логистическую регрессию. Подобрали оптимальные гиперпарметры для каждой модели, чтобы получить максимальное значение f1 каждой модели для валдационной выборки.
5. Определили победителя - Решающее дерево, с f1 на тестовой выборке = 0.59 и гиперпарметрами у модели: глубина = 8, мин количество узлов = 2 и мин колве листьев = 7. И значением AUC-ROC 0.83.


6. Изучили дисбаланс классов. Сначала провели балансировку методом upsampling.
7. Построили 3 разных модели учетом дисбаланса классов: Решающее дерево, Случайный лес и Логистическую регрессию. Подобрали оптимальные гиперпарметры для каждой модели, чтобы получить максимальное значение f1 каждой модели для валидационной выборки.
8. Приняли решение попробовать другой подход в балансировке классов - downsampling.
10. Также построили 3 разных модели учетом дисбаланса классов: Решающее дерево, Случайный лес и Логистическую регрессию. Подобрали оптимальные гиперпарметры для каждой модели, чтобы получить максимальное значение f1 каждой модели для валидационной выборки.

11. Определили победителя - Случайный лес, построенный на выборках с балансировкой классов методом upsampling, с f1 на валидационной  выборке = 0.63, и с f1 на тестовой выборке = 0.62, auc_roc на тестовой выборке = 0.86 и гиперпарметрами у модели: при колве деревьев = 50, глубине = 10, мин колве узлов = 2 и мин колве листьев = 2.

Таким образом, лучшая модель у нас получилась обученная на выборке с балансировкой классов методом upsampling. Алгоритм обучения модели - Случайный лес. Пороговое значение в 0.59 тоже прошли. Успех.