<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка-данных" data-toc-modified-id="Подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка данных</a></span></li><li><span><a href="#Исследование-задачи" data-toc-modified-id="Исследование-задачи-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Исследование задачи</a></span></li><li><span><a href="#Борьба-с-дисбалансом" data-toc-modified-id="Борьба-с-дисбалансом-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Борьба с дисбалансом</a></span><ul class="toc-item"><li><span><a href="#Upsampling" data-toc-modified-id="Upsampling-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Upsampling</a></span></li><li><span><a href="#Балансировка-классов" data-toc-modified-id="Балансировка-классов-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Балансировка классов</a></span></li><li><span><a href="#Downsampling" data-toc-modified-id="Downsampling-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Downsampling</a></span></li><li><span><a href="#Выбор-лучшей-модели-и-подбор-порога-классификации" data-toc-modified-id="Выбор-лучшей-модели-и-подбор-порога-классификации-3.4"><span class="toc-item-num">3.4&nbsp;&nbsp;</span>Выбор лучшей модели и подбор порога классификации</a></span></li></ul></li><li><span><a href="#Тестирование-модели" data-toc-modified-id="Тестирование-модели-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Тестирование модели</a></span></li><li><span><a href="#Ключевые-выводы" data-toc-modified-id="Ключевые-выводы-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Ключевые выводы</a></span></li><li><span><a href="#Чек-лист-готовности-проекта" data-toc-modified-id="Чек-лист-готовности-проекта-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Чек-лист готовности проекта</a></span></li></ul></div>

# Отток клиентов

**Цель проекта:** необходимо построить модель прогнозирования ухода клиентов из банка на основе исторических данных о поведении клиентов и расторжении договоров с банком.

Качественной будет считаться модель с метрикой F1 не менее 0.59

## Подготовка данных

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score
import numpy as np
from sklearn.utils import shuffle


In [2]:
df = pd.read_csv('./datasets/Churn.csv')

In [3]:
print(df.shape)
display(df.head())

(10000, 14)


Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           9091 non-null   float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB


In [5]:
df['Exited'].sum()

2037

In [6]:
df[df['Tenure'].isna()]['Exited'].sum()

183

In [7]:
# удаляем строки, где нет данных по кол-ву лет, которые человек является клиентом

df = df.dropna(subset=['Tenure'])

In [8]:
df['CustomerId'].duplicated().sum()

0

In [9]:
# удаляем лишние столбцы

df = df.drop(['RowNumber','CustomerId','Surname'], axis=1)

**Комментарий:** удаляем данные столбцы, так как они содержат учетные данные и не влияют на признак-результат

In [10]:
df.head()

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


In [11]:
# проверяем признаки на парную корреляцию

df.corr()

Unnamed: 0,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
CreditScore,1.0,-0.004504,-6.2e-05,0.002804,0.01109,-0.003937,0.030947,0.005182,-0.02395
Age,-0.004504,1.0,-0.013134,0.031481,-0.031877,-0.014129,0.082269,-0.007037,0.283017
Tenure,-6.2e-05,-0.013134,1.0,-0.007911,0.011979,0.027232,-0.032178,0.01052,-0.016761
Balance,0.002804,0.031481,-0.007911,1.0,-0.301858,-0.019055,-0.003285,0.014351,0.117218
NumOfProducts,0.01109,-0.031877,0.011979,-0.301858,1.0,0.005805,0.009084,0.01399,-0.050271
HasCrCard,-0.003937,-0.014129,0.027232,-0.019055,0.005805,1.0,-0.00881,-0.006136,-0.005411
IsActiveMember,0.030947,0.082269,-0.032178,-0.003285,0.009084,-0.00881,1.0,-0.020049,-0.155062
EstimatedSalary,0.005182,-0.007037,0.01052,0.014351,0.01399,-0.006136,-0.020049,1.0,0.016029
Exited,-0.02395,0.283017,-0.016761,0.117218,-0.050271,-0.005411,-0.155062,0.016029,1.0


In [12]:
# Оцениваем сбалансированность выборки

df.groupby('Exited').agg({'Exited':'count'})

Unnamed: 0_level_0,Exited
Exited,Unnamed: 1_level_1
0,7237
1,1854


**Комментарий:** Выборка несбалансирована. Количество отрицательных объектов превышает количество положительных примерно в 4 раза

In [13]:
# коэффициент для апскейлинга

upsample_ratio = round((df['Exited'].count() - df['Exited'].sum()) / df['Exited'].sum())
print(upsample_ratio)

4


In [14]:
# Преобразовываем категориальные признаки в численные

# df_ohe = pd.get_dummies(df, drop_first=True)
# df_ohe.head()

In [15]:
# Разбиваем выборку на обучающую, валидационную и тестовую

target = df['Exited']
features = df.drop('Exited', axis=1)

features_core, features_test, target_core, target_test = train_test_split(
    features, target, test_size=0.2, random_state=12345)

features_train, features_valid, target_train, target_valid = train_test_split(
    features_core, target_core, test_size=0.25, random_state=12345)

print(features_train.shape)
print(target_train.shape)
print()
print(features_valid.shape)
print(target_valid.shape)
print()
print(features_test.shape)
print(target_test.shape)
print()

(5454, 10)
(5454,)

(1818, 10)
(1818,)

(1819, 10)
(1819,)



In [16]:
print(target_train.sum() / len(target_train))
print(target_valid.sum() / len(target_valid))
print(target_test.sum() / len(target_test))

0.20517051705170516
0.20132013201320131
0.2028587135788895


In [17]:
# Преобразовываем категориальные признаки в численные

features_train = pd.get_dummies(features_train, drop_first=True)
display(features_train.head(1))

features_valid = pd.get_dummies(features_valid, drop_first=True)
display(features_valid.head(1))

features_test = pd.get_dummies(features_test, drop_first=True)
display(features_test.head(1))

Unnamed: 0,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Geography_Germany,Geography_Spain,Gender_Male
3706,629,44,6.0,125512.98,2,0,0,79082.76,0,1,0


Unnamed: 0,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Geography_Germany,Geography_Spain,Gender_Male
4799,551,52,1.0,0.0,1,0,0,63584.55,0,0,1


Unnamed: 0,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Geography_Germany,Geography_Spain,Gender_Male
862,725,41,7.0,113980.21,1,1,1,116704.25,0,0,1


In [18]:
display(df.loc[[3706,4799,862], ['Geography','Gender']])

Unnamed: 0,Geography,Gender
3706,Spain,Female
4799,France,Male
862,France,Male


In [19]:
# Стандартизируем численные признаки

numeric = ['CreditScore','Age','Tenure','Balance','NumOfProducts','EstimatedSalary']

scaler = StandardScaler()
scaler.fit(features_train[numeric])
features_train[numeric] = scaler.transform(features_train[numeric])
features_valid[numeric] = scaler.transform(features_valid[numeric])
features_test[numeric] = scaler.transform(features_test[numeric])

features_train.head()

Unnamed: 0,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Geography_Germany,Geography_Spain,Gender_Male
3706,-0.203819,0.471273,0.352316,0.786022,0.782369,0,0,-0.357205,0,1,0
6805,-0.357513,-0.38493,-1.373506,-1.230577,0.782369,1,1,-1.671048,0,0,0
4449,0.17529,-0.289797,-0.683177,-1.230577,0.782369,1,0,-1.119181,0,0,1
598,0.349476,1.70801,0.007151,1.379462,-0.914942,0,0,-1.569064,1,0,0
1845,0.902771,-0.289797,1.387809,-1.230577,-0.914942,0,1,1.54379,0,0,1


**Комментарий:**
- было удалено 909 объектов, по которым отсутствовал признак кол-ва лет, которые человек является клиентом банка. С учетом того, что данное кол-во (909 объектов) относительно мало (~10% от выборки), данное действие видится допустимым
- были удалены столбцы RowNumber, CustomerId и Surname, так как они содержат учетные данные клиента и не влияют на признак-результат
- дисбаланс классов составляет 1 к 4 (положительные vs отрицательные), что потребудет его корректировки
- в выборке обработаны категориальные признаки и стандартизированны численные признаки

## Исследование задачи

In [20]:
# Константная модель

predicted_valid = pd.Series(1, index=target_valid.index)
result = f1_score(target_valid, predicted_valid)
print("f1_score константной модели:", result)

f1_score константной модели: 0.3351648351648352


In [21]:
basic_f1 = []
basic_auc = []

In [22]:
# Определяем лучшее дерево и его параметры

best_model_dtc = None
best_result_dtc = 0
best_depth_dtc = 0
for depth in range(1,11):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    predicted_valid = model.predict(features_valid)
    result = f1_score(target_valid, predicted_valid)
    if result > best_result_dtc:
        best_model_dtc = model
        best_result_dtc = result
        best_depth_dtc = depth
        
print("f1_score лучшей модели:", best_result_dtc)
print("Глубина лучшей модели:", best_depth_dtc)

probabilities_valid = best_model_dtc.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

auc_roc = roc_auc_score(target_valid, probabilities_one_valid)

print("AUC ROC лучшей модели:",auc_roc)

basic_f1.append(best_result_dtc)
basic_auc.append(auc_roc)

f1_score лучшей модели: 0.557427258805513
Глубина лучшей модели: 9
AUC ROC лучшей модели: 0.8062753089765011


In [23]:
# определяем лучшую модель леса и его параметры

best_model_rfc = None
best_result_rfc = 0
best_est_rfc = 0
best_depth_rfc = 0
for est in range(10, 201, 20):
    for depth in range (1, 21):
        model = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=depth)
        model.fit(features_train, target_train)
        predicted_valid = model.predict(features_valid)
        result = f1_score(target_valid, predicted_valid)
        if result > best_result_rfc:
            best_model_rfc = model
            best_result_rfc = result
            best_est_rfc = est
            best_depth_rfc = depth
            
print("f1_score лучшей модели:", best_result_rfc)
print("Кол-во оценщиков лучшей модели:", best_est_rfc)
print("Глубина лучшей модели:", best_depth_rfc)

probabilities_valid = best_model_rfc.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

auc_roc = roc_auc_score(target_valid, probabilities_one_valid)

print("AUC ROC лучшей модели:",auc_roc)

basic_f1.append(best_result_rfc)
basic_auc.append(auc_roc)

f1_score лучшей модели: 0.5689655172413792
Кол-во оценщиков лучшей модели: 150
Глубина лучшей модели: 17
AUC ROC лучшей модели: 0.8360655737704917


In [24]:
# определяем лучшую логистическую регрессию и ее параметры

best_model_lr = None
best_result_lr = 0
best_iter_lr = 0
for itr in range(100,501,50):
    model = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=itr)
    model.fit(features_train, target_train)
    predicted_valid = model.predict(features_valid)
    result = f1_score(target_valid, predicted_valid)
    if result > best_result_lr:
        best_model_lr = model
        best_result_lr = result
        best_iter_lr = itr
        
print("f1_score лучшей модели:", best_result_lr)
print("Кол-во итераций лучшей модели:", best_iter_lr)

probabilities_valid = best_model_lr.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

auc_roc = roc_auc_score(target_valid, probabilities_one_valid)

print("AUC ROC лучшей модели:",auc_roc)

basic_f1.append(best_result_lr)
basic_auc.append(auc_roc)

f1_score лучшей модели: 0.3004115226337448
Кол-во итераций лучшей модели: 100
AUC ROC лучшей модели: 0.7725184031070766


**Комментарий:**
- Модель логистической регрессии показывает результат хуже, чем константная модель
- Лучший результат показала модель RandomForest

**Комментарий:**

Без корректировки дисбаланса лучший результат на валидационной выборке показала модель RandomForest:
- F1 = 0.568
- AUC-ROC = 0.836
- Кол-во оценщиков: 150
- Глубина: 17

**Справочно - показатели других моделей:**

DecisionTree
- F1 = 0.557
- AUC-ROC = 0.806

LogisticRegression
- F1 = 0.300 (меньше показателя константной модели)
- AUC-ROC = 0.772

## Борьба с дисбалансом

### Upsampling

In [25]:
upsampling_f1 = []
upsampling_auc = []

In [26]:
def upsample(features, target, repeat):
    
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]

    features_upsampled = pd.concat([features_zeros] + [features_ones] * repeat)
    target_upsampled = pd.concat([target_zeros] + [target_ones] * repeat)
    features_upsampled = shuffle(features_upsampled, random_state=12345)
    target_upsampled = shuffle(target_upsampled, random_state=12345)
    
    return features_upsampled, target_upsampled

features_upsampled, target_upsampled = upsample(features_train, target_train, upsample_ratio)


In [27]:
features_upsampled.shape

(8811, 11)

In [28]:
best_model_dtc = None
best_result_dtc = 0
best_depth_dtc = 0
for depth in range(1,11):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_upsampled, target_upsampled)
    predicted_valid = model.predict(features_valid)
    result = f1_score(target_valid, predicted_valid)
    if result > best_result_dtc:
        best_model_dtc = model
        best_result_dtc = result
        best_depth_dtc = depth
        
print("f1_score лучшей модели:", best_result_dtc)
print("Глубина лучшей модели:", best_depth_dtc)

probabilities_valid = best_model_dtc.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

auc_roc = roc_auc_score(target_valid, probabilities_one_valid)

print("AUC ROC лучшей модели:",auc_roc)

upsampling_f1.append(best_result_dtc)
upsampling_auc.append(auc_roc)

f1_score лучшей модели: 0.5555555555555556
Глубина лучшей модели: 7
AUC ROC лучшей модели: 0.8150421878998629


In [29]:
best_model_rfc = None
best_result_rfc = 0
best_est_rfc = 0
best_depth_rfc = 0
for est in range(10, 201, 20):
    for depth in range (1, 21):
        model = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=depth)
        model.fit(features_upsampled, target_upsampled)
        predicted_valid = model.predict(features_valid)
        result = f1_score(target_valid, predicted_valid)
        if result > best_result_rfc:
            best_model_rfc = model
            best_result_rfc = result
            best_est_rfc = est
            best_depth_rfc = depth
            
print("f1_score лучшей модели:", best_result_rfc)
print("Кол-во оценщиков лучшей модели:", best_est_rfc)
print("Глубина лучшей модели:", best_depth_rfc)

probabilities_valid = best_model_rfc.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

auc_roc = roc_auc_score(target_valid, probabilities_one_valid)

print("AUC ROC лучшей модели:",auc_roc)

upsampling_f1.append(best_result_rfc)
upsampling_auc.append(auc_roc)

f1_score лучшей модели: 0.6046511627906976
Кол-во оценщиков лучшей модели: 50
Глубина лучшей модели: 14
AUC ROC лучшей модели: 0.8398365171837601


In [30]:
best_model_lr = None
best_result_lr = 0
best_iter_lr = 0
for itr in range(100,501,50):
    model = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=itr)
    model.fit(features_upsampled, target_upsampled)
    predicted_valid = model.predict(features_valid)
    result = f1_score(target_valid, predicted_valid)
    if result > best_result_lr:
        best_model_lr = model
        best_result_lr = result
        best_iter_lr = itr
        
print("f1_score лучшей модели:", best_result_lr)
print("Кол-во итераций лучшей модели:", best_iter_lr)

probabilities_valid = best_model_lr.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

auc_roc = roc_auc_score(target_valid, probabilities_one_valid)

print("AUC ROC лучшей модели:",auc_roc)

upsampling_f1.append(best_result_lr)
upsampling_auc.append(auc_roc)

f1_score лучшей модели: 0.4956605593056895
Кол-во итераций лучшей модели: 100
AUC ROC лучшей модели: 0.7748347860121332


### Балансировка классов

In [31]:
balancing_f1 = []
balancing_auc = []

In [32]:
best_model_dtc = None
best_result_dtc = 0
best_depth_dtc = 0
for depth in range(1,11):
    model = DecisionTreeClassifier(random_state=12345,
                                   max_depth=depth,
                                   class_weight='balanced')
    model.fit(features_train, target_train)
    predicted_valid = model.predict(features_valid)
    result = f1_score(target_valid, predicted_valid)
    if result > best_result_dtc:
        best_model_dtc = model
        best_result_dtc = result
        best_depth_dtc = depth
        
print("f1_score лучшей модели:", best_result_dtc)
print("Глубина лучшей модели:", best_depth_dtc)

probabilities_valid = best_model_dtc.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

auc_roc = roc_auc_score(target_valid, probabilities_one_valid)

print("AUC ROC лучшей модели:",auc_roc)

balancing_f1.append(best_result_dtc)
balancing_auc.append(auc_roc)

f1_score лучшей модели: 0.5555555555555556
Глубина лучшей модели: 7
AUC ROC лучшей модели: 0.8150158439838022


In [33]:
best_model_rfc = None
best_result_rfc = 0
best_est_rfc = 0
best_depth_rfc = 0
for est in range(10, 201, 20):
    for depth in range (1, 21):
        model = RandomForestClassifier(random_state=12345,
                                       n_estimators=est,
                                       max_depth=depth,
                                       class_weight='balanced')
        model.fit(features_train, target_train)
        predicted_valid = model.predict(features_valid)
        result = f1_score(target_valid, predicted_valid)
        if result > best_result_rfc:
            best_model_rfc = model
            best_result_rfc = result
            best_est_rfc = est
            best_depth_rfc = depth
            
print("f1_score лучшей модели:", best_result_rfc)
print("Кол-во оценщиков лучшей модели:", best_est_rfc)
print("Глубина лучшей модели:", best_depth_rfc)

probabilities_valid = best_model_rfc.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

auc_roc = roc_auc_score(target_valid, probabilities_one_valid)

print("AUC ROC лучшей модели:",auc_roc)

balancing_f1.append(best_result_rfc)
balancing_auc.append(auc_roc)

f1_score лучшей модели: 0.6075949367088607
Кол-во оценщиков лучшей модели: 150
Глубина лучшей модели: 10
AUC ROC лучшей модели: 0.8489214048081409


In [34]:
best_model_lr = None
best_result_lr = 0
best_iter_lr = 0
for itr in range(100,501,50):
    model = LogisticRegression(random_state=12345,
                               solver='lbfgs',
                               max_iter=itr,
                               class_weight='balanced')
    model.fit(features_train, target_train)
    predicted_valid = model.predict(features_valid)
    result = f1_score(target_valid, predicted_valid)
    if result > best_result_lr:
        best_model_lr = model
        best_result_lr = result
        best_iter_lr = itr
        
print("f1_score лучшей модели:", best_result_lr)
print("Кол-во итераций лучшей модели:", best_iter_lr)

probabilities_valid = best_model_lr.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

auc_roc = roc_auc_score(target_valid, probabilities_one_valid)

print("AUC ROC лучшей модели:",auc_roc)

balancing_f1.append(best_result_lr)
balancing_auc.append(auc_roc)

f1_score лучшей модели: 0.49506903353057197
Кол-во итераций лучшей модели: 100
AUC ROC лучшей модели: 0.7747820981800118


### Downsampling

In [35]:
downsampling_f1 = []
downsampling_auc = []

In [36]:
def downsample(features, target, fraction):
    
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]
    
    features_zeros = features_zeros.sample(frac=fraction, random_state=12345)
    target_zeros = target_zeros.sample(frac=fraction, random_state=12345)
    
    features_downsampled = pd.concat([features_zeros] + [features_ones])
    target_downsampled = pd.concat([target_zeros] + [target_ones])
    features_downsampled = shuffle(features_downsampled, random_state=12345)
    target_downsampled = shuffle(target_downsampled, random_state=12345)
    
    return features_downsampled, target_downsampled

downsample_ratio = 1 / upsample_ratio
features_downsampled, target_downsampled = downsample(features_train, target_train, downsample_ratio)


In [37]:
features_downsampled.shape

(2203, 11)

In [38]:
best_model_dtc = None
best_result_dtc = 0
best_depth_dtc = 0
for depth in range(1,11):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_downsampled, target_downsampled)
    predicted_valid = model.predict(features_valid)
    result = f1_score(target_valid, predicted_valid)
    if result > best_result_dtc:
        best_model_dtc = model
        best_result_dtc = result
        best_depth_dtc = depth
        
print("f1_score лучшей модели:", best_result_dtc)
print("Глубина лучшей модели:", best_depth_dtc)

probabilities_valid = best_model_dtc.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

auc_roc = roc_auc_score(target_valid, probabilities_one_valid)

print("AUC ROC лучшей модели:",auc_roc)

downsampling_f1.append(best_result_dtc)
downsampling_auc.append(auc_roc)

f1_score лучшей модели: 0.553191489361702
Глубина лучшей модели: 5
AUC ROC лучшей модели: 0.8094826807568983


In [39]:
best_model_rfc = None
best_result_rfc = 0
best_est_rfc = 0
best_depth_rfc = 0
for est in range(10, 201, 20):
    for depth in range (1, 21):
        model = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=depth)
        model.fit(features_downsampled, target_downsampled)
        predicted_valid = model.predict(features_valid)
        result = f1_score(target_valid, predicted_valid)
        if result > best_result_rfc:
            best_model_rfc = model
            best_result_rfc = result
            best_est_rfc = est
            best_depth_rfc = depth
            
print("f1_score лучшей модели:", best_result_rfc)
print("Кол-во оценщиков лучшей модели:", best_est_rfc)
print("Глубина лучшей модели:", best_depth_rfc)

probabilities_valid = best_model_rfc.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

auc_roc = roc_auc_score(target_valid, probabilities_one_valid)

print("AUC ROC лучшей модели:",auc_roc)

downsampling_f1.append(best_result_rfc)
downsampling_auc.append(auc_roc)

f1_score лучшей модели: 0.5930735930735932
Кол-во оценщиков лучшей модели: 130
Глубина лучшей модели: 10
AUC ROC лучшей модели: 0.8492770476749613


In [40]:
best_model_lr = None
best_result_lr = 0
best_iter_lr = 0
for itr in range(100,501,50):
    model = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=itr)
    model.fit(features_downsampled, target_downsampled)
    predicted_valid = model.predict(features_valid)
    result = f1_score(target_valid, predicted_valid)
    if result > best_result_lr:
        best_model_lr = model
        best_result_lr = result
        best_iter_lr = itr
        
print("f1_score лучшей модели:", best_result_lr)
print("Кол-во итераций лучшей модели:", best_iter_lr)

probabilities_valid = best_model_lr.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

auc_roc = roc_auc_score(target_valid, probabilities_one_valid)

print("AUC ROC лучшей модели:",auc_roc)

downsampling_f1.append(best_result_lr)
downsampling_auc.append(auc_roc)

f1_score лучшей модели: 0.5
Кол-во итераций лучшей модели: 100
AUC ROC лучшей модели: 0.7755178461214228


### Выбор лучшей модели и подбор порога классификации

In [41]:
# Сведем результаты моделей

index = ['dtc','rfc','lr']

f1_results = {'basic' : basic_f1,
              'upsampling' : upsampling_f1,
              'balancing' : balancing_f1,
              'downsampling' : downsampling_f1
             }
f1_results_df = pd.DataFrame(f1_results, index=index)
print('f1 results')
display(f1_results_df)

auc_results = {'basic' : basic_auc,
              'upsampling' : upsampling_auc,
              'balancing' : balancing_auc,
              'downsampling' : downsampling_auc
             }
auc_results_df = pd.DataFrame(auc_results, index=index)
print('auc-roc results')
display(auc_results_df)


f1 results


Unnamed: 0,basic,upsampling,balancing,downsampling
dtc,0.557427,0.555556,0.555556,0.553191
rfc,0.568966,0.604651,0.607595,0.593074
lr,0.300412,0.495661,0.495069,0.5


auc-roc results


Unnamed: 0,basic,upsampling,balancing,downsampling
dtc,0.806275,0.815042,0.815016,0.809483
rfc,0.836066,0.839837,0.848921,0.849277
lr,0.772518,0.774835,0.774782,0.775518


**Комментарий:**
- наилучший результат F1 показывает модель RandomForest c учетом балансировки классов
- модель также показывает топ-2 результат по AUC-ROC

In [42]:
model = RandomForestClassifier(random_state=12345,
                               n_estimators=90,
                               max_depth=10,
                               class_weight='balanced')
model.fit(features_train, target_train)
predicted_valid = model.predict(features_valid)
result = f1_score(target_valid, predicted_valid)
            
print("f1_score check:", result)

f1_score check: 0.6059743954480795


In [43]:
# Подберем порог классификации

probabilities_valid = model.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

best_result = 0
best_threshold = 0

for threshold in np.arange(0, 0.7, 0.02):
    predicted_valid = probabilities_one_valid > threshold
    result = f1_score(target_valid, predicted_valid)
    if result > best_result:
        best_result = result
        best_threshold = threshold

print("Порог", best_threshold, "f1_score", best_result)
model

Порог 0.5 f1_score 0.6059743954480795


RandomForestClassifier(class_weight='balanced', max_depth=10, n_estimators=90,
                       random_state=12345)

**Выводы:**

Наилучший результат F1 показывает модель RandomForest c учетом балансировки классов:
- F1 = 0.61
- AUC-ROC = 0.84 (топ-2 результат)

Параметры модели:
- Кол-во оценщиков: 90
- Глубина: 10
- Порог классификации: 0.5
- class_weight='balanced'


In [44]:
best_threshold

0.5

## Тестирование модели

In [45]:
probabilities_test = model.predict_proba(features_test)
probabilities_one_test = probabilities_test[:, 1]

predicted_test = probabilities_one_test > best_threshold
result = f1_score(target_test, predicted_test)
print("f1_score", result)

f1_score 0.5986206896551723


**Комментарий:** Выбранная модель (RandomForest) достигла целевого показателя по точности на тестовой выборке

## Ключевые выводы

Приоритетной является модель RandomForest, полученная с учетом балансировки классов.
Модель показала высокий уровень метрик качества на валидационной выборке:
- F1 = 0.61 (превышение целевого показателя)
- AUC-ROC = 0.84 (топ-2 результат)

На тестовой выборке F1 = 0.60 (превышение целевого показателя)

Параметры модели:
- Кол-во оценщиков: 90
- Глубина: 10
- Порог классификации: 0.5
- class_weight='balanced'