# Отток клиентов

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка-данных" data-toc-modified-id="Подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка данных</a></span></li><li><span><a href="#Исследование-задачи" data-toc-modified-id="Исследование-задачи-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Исследование задачи</a></span></li><li><span><a href="#Борьба-с-дисбалансом" data-toc-modified-id="Борьба-с-дисбалансом-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Борьба с дисбалансом</a></span></li><li><span><a href="#Тестирование-модели" data-toc-modified-id="Тестирование-модели-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Тестирование модели</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Вывод</a></span></li><li><span><a href="#Чек-лист-готовности-проекта" data-toc-modified-id="Чек-лист-готовности-проекта-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Чек-лист готовности проекта</a></span></li></ul></div>

<h2>Описание проекта<span class="tocSkip"></span></h2>

Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.

Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. 

Постройте модель с предельно большим значением *F1*-меры. Чтобы сдать проект успешно, нужно довести метрику до 0.59. Проверьте *F1*-меру на тестовой выборке самостоятельно.

Дополнительно измеряйте *AUC-ROC*, сравнивайте её значение с *F1*-мерой.


<h2>Описание данных<span class="tocSkip"></span></h2>

<h3>Признаки<span class="tocSkip"></span></h3>

RowNumber — индекс строки в данных<br>
CustomerId — уникальный идентификатор клиента<br>
Surname — фамилия<br>
CreditScore — кредитный рейтинг<br>
Geography — страна проживания<br>
Gender — пол<br>
Age — возраст<br>
Tenure — сколько лет человек является клиентом банка<br>
Balance — баланс на счёте<br>
NumOfProducts — количество продуктов банка, используемых клиентом<br>
HasCrCard — наличие кредитной карты<br>
IsActiveMember — активность клиента<br>
EstimatedSalary — предполагаемая зарплата<br>
<h3>Целевой признак<span class="tocSkip"></span></h3>

Exited — факт ухода клиента<br>

<h2>Описание данных<span class="tocSkip"></span></h2>

<h3>Признаки<span class="tocSkip"></span></h3>

RowNumber — индекс строки в данных<br>
CustomerId — уникальный идентификатор клиента<br>
Surname — фамилия<br>
CreditScore — кредитный рейтинг<br>
Geography — страна проживания<br>
Gender — пол<br>
Age — возраст<br>
Tenure — сколько лет человек является клиентом банка<br>
Balance — баланс на счёте<br>
NumOfProducts — количество продуктов банка, используемых клиентом<br>
HasCrCard — наличие кредитной карты<br>
IsActiveMember — активность клиента<br>
EstimatedSalary — предполагаемая зарплата<br>
<h3>Целевой признак<span class="tocSkip"></span></h3>

Exited — факт ухода клиента<br>

## Подготовка данных

In [1]:
# код ревьюера
!pip install scikit-learn==1.1.3
!pip install imblearn



In [45]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.preprocessing import (
    OneHotEncoder,
    OrdinalEncoder,
    StandardScaler
)
from sklearn.model_selection import GridSearchCV 
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import (
    accuracy_score, 
    confusion_matrix, 
    f1_score, 
    mean_squared_error, 
    roc_auc_score,
    precision_score,
    recall_score,
    roc_curve
)
from sklearn.utils import shuffle
from sklearn.dummy import DummyClassifier
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler
import warnings

warnings.filterwarnings("ignore")
state = 55555
#!pip install scikit-learn==1.1.3
#!pip install imblearn


In [3]:
data = pd.read_csv('/datasets/Churn.csv')
pd.set_option('display.max_columns', None)

In [4]:
data.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           9091 non-null   float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB


In [6]:
data.describe()

Unnamed: 0,RowNumber,CustomerId,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
count,10000.0,10000.0,10000.0,10000.0,9091.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,5000.5,15690940.0,650.5288,38.9218,4.99769,76485.889288,1.5302,0.7055,0.5151,100090.239881,0.2037
std,2886.89568,71936.19,96.653299,10.487806,2.894723,62397.405202,0.581654,0.45584,0.499797,57510.492818,0.402769
min,1.0,15565700.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,2500.75,15628530.0,584.0,32.0,2.0,0.0,1.0,0.0,0.0,51002.11,0.0
50%,5000.5,15690740.0,652.0,37.0,5.0,97198.54,1.0,1.0,1.0,100193.915,0.0
75%,7500.25,15753230.0,718.0,44.0,7.0,127644.24,2.0,1.0,1.0,149388.2475,0.0
max,10000.0,15815690.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0,199992.48,1.0


In [7]:
data.describe(include='all')

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
count,10000.0,10000.0,10000,10000.0,10000,10000,10000.0,9091.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
unique,,,2932,,3,2,,,,,,,,
top,,,Smith,,France,Male,,,,,,,,
freq,,,32,,5014,5457,,,,,,,,
mean,5000.5,15690940.0,,650.5288,,,38.9218,4.99769,76485.889288,1.5302,0.7055,0.5151,100090.239881,0.2037
std,2886.89568,71936.19,,96.653299,,,10.487806,2.894723,62397.405202,0.581654,0.45584,0.499797,57510.492818,0.402769
min,1.0,15565700.0,,350.0,,,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,2500.75,15628530.0,,584.0,,,32.0,2.0,0.0,1.0,0.0,0.0,51002.11,0.0
50%,5000.5,15690740.0,,652.0,,,37.0,5.0,97198.54,1.0,1.0,1.0,100193.915,0.0
75%,7500.25,15753230.0,,718.0,,,44.0,7.0,127644.24,2.0,1.0,1.0,149388.2475,0.0


Приведем к нижнему регистру

In [8]:
def rename(name):
  name = name.replace(name[0], name[0].lower())           
  for i in range(len(name)):
    if name[i].isupper():
      index = name.find(name[i])
      name = name.replace(name[i], name[i].lower())
      name = name[:index] + '_' + name[index:]
  return name

for i in range(len(data.columns)):
  x=data.columns[i]
  x2=rename(x)
  data = data.rename(columns={x:x2})

In [9]:
data.columns

Index(['row_number', 'customer_id', 'surname', 'credit_score', 'geography',
       'gender', 'age', 'tenure', 'balance', 'num_of_products', 'has_crcard',
       'is_active_member', 'estimated_salary', 'exited'],
      dtype='object')

По условию в задаче существуют следующие признаки признаки:

RowNumber — индекс строки в данных <br>
CustomerId — уникальный идентификатор клиента<br>
Surname — фамилия

Признак RowNumber дублирует нумератсую строк данных, никакой информативности данный признак не дает, <br>
Признак CustomerId уникальный идентификатор клиента, он уникальный и никакой другой табличной зависимости или условий с данными не имеет для дальнейшего иследования он бесполезен<br>
Признак CustomerId Surname, фамиилий клиентов не несут никой информация для иследований или обучения моделей<br>

Удалим эти столбцы

In [10]:
data.drop(columns=['row_number','customer_id','surname'],axis=1,inplace=True)

In [11]:
data.shape

(10000, 11)

Проверим на дубликаты

In [12]:
data.duplicated().sum()

0

при рассмотрении данный были замечены пропуски посмотрим сколько их

In [13]:
data.isna().sum()

credit_score          0
geography             0
gender                0
age                   0
tenure              909
balance               0
num_of_products       0
has_crcard            0
is_active_member      0
estimated_salary      0
exited                0
dtype: int64

Рассмотрим поближе

In [14]:
data['tenure'].value_counts()

1.0     952
2.0     950
8.0     933
3.0     928
5.0     927
7.0     925
4.0     885
9.0     882
6.0     881
10.0    446
0.0     382
Name: tenure, dtype: int64

так-как тут только целые значения можно поменять формат ячейки на Int

In [15]:
data['tenure'].describe()

count    9091.000000
mean        4.997690
std         2.894723
min         0.000000
25%         2.000000
50%         5.000000
75%         7.000000
max        10.000000
Name: tenure, dtype: float64

In [16]:
data.loc[data['tenure'].isna()].head(10)

Unnamed: 0,credit_score,geography,gender,age,tenure,balance,num_of_products,has_crcard,is_active_member,estimated_salary,exited
30,591,Spain,Female,39,,0.0,3,1,0,140469.38,1
48,550,Germany,Male,38,,103391.38,1,0,1,90878.13,0
51,585,Germany,Male,36,,146050.97,2,0,0,86424.57,0
53,655,Germany,Male,41,,125561.97,1,0,0,164040.94,1
60,742,Germany,Male,35,,136857.0,1,0,0,84509.57,0
82,543,France,Female,36,,0.0,2,0,0,26019.59,0
85,652,Spain,Female,75,,0.0,2,1,1,114675.75,0
94,730,Spain,Male,42,,0.0,2,0,1,85982.47,0
99,413,France,Male,34,,0.0,2,0,0,6534.18,0
111,538,Germany,Male,39,,108055.1,2,1,0,27231.26,0


In [17]:
data['tenure'] = data['tenure'].fillna(data['tenure'].median())

In [18]:
data.isna().sum()

credit_score        0
geography           0
gender              0
age                 0
tenure              0
balance             0
num_of_products     0
has_crcard          0
is_active_member    0
estimated_salary    0
exited              0
dtype: int64

Также переведем к целовчисленому типу

In [19]:
data['tenure'] = data['tenure'].astype('int')

In [20]:
data.shape

(10000, 11)

In [21]:
data.head(5)

Unnamed: 0,credit_score,geography,gender,age,tenure,balance,num_of_products,has_crcard,is_active_member,estimated_salary,exited
0,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [22]:
data['geography'].value_counts()

France     5014
Germany    2509
Spain      2477
Name: geography, dtype: int64

<b>Вывод:

    Подготовили данные к исследованию.
    Удалили пропуски, избежали ловушки фиктивных признаков, избавились от фиктивных признаков.

## Исследование задачи

<b>Разбиение на выборки

In [48]:
#OHE
target = data['exited']
features = data.drop('exited', axis=1)

features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.4,  random_state=state) 

features_test, features_valid, target_test, target_valid  = train_test_split(features_valid, target_valid, test_size=0.5,  random_state=state) 

Размеры выборок

In [49]:
print("Размеры обучающей выборки:", len(features_train), len(target_train))
print("Размеры валидной выборки:", len(features_valid), len(target_valid))
print("Размеры тестовой выборки:", len(features_test), len(target_test))

Размеры обучающей выборки: 6000 6000
Размеры валидной выборки: 2000 2000
Размеры тестовой выборки: 2000 2000


In [50]:
ohe_features = features_train.select_dtypes(include='object').columns.to_list()
signs = ohe_features
print(ohe_features)

['geography', 'gender']


In [51]:
features_train.head()

Unnamed: 0,credit_score,geography,gender,age,tenure,balance,num_of_products,has_crcard,is_active_member,estimated_salary
2569,641,Germany,Female,40,2,110086.69,1,1,0,159773.14
5450,803,France,Male,33,6,0.0,2,1,0,115676.61
4485,751,Germany,Male,34,9,108513.25,2,1,1,27097.82
6214,458,Germany,Male,35,9,146780.52,2,1,1,3476.38
9912,701,Spain,Female,34,6,107980.37,1,1,1,119374.74


#обратим внимание, что 'is_active_member' и 'has_crcard' — категориальные бинарные признаки.

In [52]:
data['is_active_member'].unique()

array([1, 0])

In [53]:
data['has_crcard'].unique()

array([1, 0])

In [54]:
num_features = features_train.select_dtypes(exclude='object').columns.to_list()
num_features.remove('has_crcard')
num_features.remove('is_active_member')
num_features

['credit_score',
 'age',
 'tenure',
 'balance',
 'num_of_products',
 'estimated_salary']

In [55]:
models_train = set(features_train['geography'].unique())
models_test = set(features_valid['geography'].unique())
num_models_train = len(models_train)
num_models_test = len(models_test)
print(f'''
Количество уникальных значений признка "geography" 
в обеих выборках одинаковое: {num_models_train == num_models_test}
''')
print(f'''
Уникальные значения признка "geography" 
в обеих выборках одинаковые: {models_train == models_test}
''')
print(f'''
Только в тренировочной выборке есть значения: {models_train - models_test}
''')
print(f'''
Только в тестовой выборке есть значения: {models_test - models_train}
''')


Количество уникальных значений признка "geography" 
в обеих выборках одинаковое: True


Уникальные значения признка "geography" 
в обеих выборках одинаковые: True


Только в тренировочной выборке есть значения: set()


Только в тестовой выборке есть значения: set()



In [56]:
encoder_ohe = OneHotEncoder(drop='first', handle_unknown='ignore', sparse=False)
encoder_ohe.fit(features_train[ohe_features])
features_train[
    encoder_ohe.get_feature_names_out()
] = encoder_ohe.transform(features_train[ohe_features])

features_train = features_train.drop(ohe_features, axis=1)
scaler = StandardScaler()
features_train[num_features] = scaler.fit_transform(features_train[num_features])

# смотрим на результат
features_train.head()

Unnamed: 0,credit_score,age,tenure,balance,num_of_products,has_crcard,is_active_member,estimated_salary,geography_Germany,geography_Spain,gender_Male
2569,-0.10271,0.097899,-1.098497,0.536042,-0.897394,1,0,1.035987,1.0,0.0,0.0
5450,1.578534,-0.56754,0.352862,-1.228183,0.799003,1,0,0.272952,0.0,0.0,1.0
4485,1.038876,-0.472477,1.441381,0.510826,0.799003,1,1,-1.259792,1.0,0.0,1.0
6214,-2.001893,-0.377415,1.441381,1.124089,0.799003,1,1,-1.668531,1.0,0.0,1.0
9912,0.519973,-0.472477,0.352862,0.502286,-0.897394,1,1,0.336943,0.0,1.0,0.0


In [57]:
features_valid[
    encoder_ohe.get_feature_names_out()
] = encoder_ohe.transform(features_valid[ohe_features])

features_valid = features_valid.drop(ohe_features, axis=1)

# скелером, который обучен на ТРЕНИРОВОЧНОЙ ВЫБОРКЕ, масштабируем тестовую
features_valid[num_features] = scaler.transform(
    features_valid[num_features]
)

# смотрим на результат
features_valid.head()

Unnamed: 0,credit_score,age,tenure,balance,num_of_products,has_crcard,is_active_member,estimated_salary,geography_Germany,geography_Spain,gender_Male
2214,2.066303,-1.232979,-0.372818,-0.224794,0.799003,0,1,1.375001,0.0,0.0,0.0
1334,-1.680174,-1.042853,-1.461337,0.045241,0.799003,1,1,1.177886,1.0,0.0,1.0
7304,0.291656,1.809027,1.078541,0.788669,0.799003,1,1,-0.223119,1.0,0.0,1.0
6900,0.239766,0.192961,-0.009978,0.800763,-0.897394,1,1,1.155759,0.0,1.0,0.0
884,-1.410344,2.474465,0.715701,0.248009,-0.897394,1,1,0.737933,0.0,0.0,1.0


In [58]:
features_test[
    encoder_ohe.get_feature_names_out()
] = encoder_ohe.transform(features_test[ohe_features])

features_test = features_test.drop(ohe_features, axis=1)

# скелером, который обучен на ТРЕНИРОВОЧНОЙ ВЫБОРКЕ, масштабируем тестовую
features_test[num_features] = scaler.transform(
    features_test[num_features]
)

# смотрим на результат
features_test.head()

Unnamed: 0,credit_score,age,tenure,balance,num_of_products,has_crcard,is_active_member,estimated_salary,geography_Germany,geography_Spain,gender_Male
9743,1.049254,-0.662603,1.441381,0.624196,0.799003,0,1,0.030714,1.0,0.0,1.0
4461,1.01812,-1.042853,-0.735658,-1.228183,-0.897394,1,0,-1.669702,0.0,1.0,0.0
5983,-0.331027,-1.042853,0.352862,0.360817,0.799003,1,0,-0.889885,1.0,0.0,0.0
8829,0.333168,0.097899,-1.461337,-1.228183,0.799003,0,0,-0.41772,0.0,0.0,0.0
1448,-0.995222,0.668275,-0.372818,0.701208,-0.897394,1,0,1.346532,1.0,0.0,0.0


In [59]:
features_train.shape, features_valid.shape , features_test.shape

((6000, 11), (2000, 11), (2000, 11))

<b>Исследование моделей</b>

In [60]:
dummy = DummyClassifier(strategy='most_frequent').fit(features_train, target_train)
dummy_pred = dummy.predict(features_valid)
print('Test score: ', accuracy_score(target_test, dummy_pred))

Test score:  0.8


In [61]:
print(data['exited'].mean().round(3))
features[target == 0].shape, features[target == 1].shape

0.204


((7963, 10), (2037, 10))

In [160]:
dummy_model = DummyClassifier(strategy='constant', constant=1).fit(features_train, target_train)
dummy_pred = dummy_model.predict(features_valid)
print('Test score: ', accuracy_score(target_test, dummy_pred))

Test score:  0.2


Наша модель показывает 80% результат  не удивительно ведь если везде поставить 0, то модель угадает в 4 случаях из 5.

Так как на 1 ушедшего клиента приходится 4 оставшихся, с этим будем разбиратся в пункте три (3. Борьба с дисбалансом)

Модели показавшие результат ниже 80% процентов учитывать не будем

Поиск наилучших Гипер параметров

In [63]:
### Дерево решений

In [64]:
best_model = None
best_result = 0
best_depth = 0

for depth in range(2,45):
    model_tree = DecisionTreeClassifier(random_state = state, max_depth = depth, criterion='entropy')
    model_tree.fit(features_train,target_train)
    prediction_valid = model_tree.predict(features_valid)
    res = model_tree.score(features_valid, target_valid)
    F1 = f1_score(target_valid, prediction_valid)
    Roc_auc = roc_auc_score(target_valid, prediction_valid)
    #print('max_depth =',depth, 'результат = ', res, "F1:", F1, 'Roc_auc', Roc_auc)  
    if best_result < F1:
        Roc_auc_t = Roc_auc
        best_model = model_tree
        best_result = F1
        best_depth = depth
        best_tree_res = best_result

print(' ')        
print('Лучший результат дерева F1-меры:', best_tree_res, 'Глубина:', best_depth, 'Roc_auc:', Roc_auc_t)

 
Лучший результат дерева F1-меры: 0.5476190476190477 Глубина: 7 Roc_auc: 0.7011416850497311


In [65]:
### Случайный лес
best_model = None
best_result = 0
best_est = 0

for est in range(10,600,10):
    model_forest = RandomForestClassifier(random_state = state, n_estimators = est, n_jobs = -1)
    model_forest.fit(features_train,target_train)
    prediction_valid = model_forest.predict(features_valid)
    res = model_forest.score(features_valid, target_valid)
    F1 = f1_score(target_valid, prediction_valid)
    Roc_auc = roc_auc_score(target_valid, prediction_valid)
    print('est',est, 'результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
    if best_result < F1:
        Roc_auc_f = Roc_auc
        best_model = model_forest
        best_result = F1
        best_forest_res = best_result
        n_estimators = est

print(' ')        
print('Лучший результат cлучайного леса F1-меры:', best_forest_res,'n_estimators', n_estimators,'Roc_auc:', Roc_auc_f)

est 10 результат 0.8505 F1: 0.5392912172573189 Roc_auc 0.6944192886721622
est 20 результат 0.855 F1: 0.5538461538461538 Roc_auc 0.7018460466736328
est 30 результат 0.854 F1: 0.5521472392638037 Roc_auc 0.701219087425984
est 40 результат 0.854 F1: 0.5535168195718654 Roc_auc 0.702140175703394
est 50 результат 0.855 F1: 0.5524691358024693 Roc_auc 0.7009249583962227
est 60 результат 0.855 F1: 0.5552147239263804 Roc_auc 0.702767134951043
est 70 результат 0.8535 F1: 0.5485362095531587 Roc_auc 0.6990634312473393
est 80 результат 0.856 F1: 0.5569230769230769 Roc_auc 0.7033940941986918
est 90 результат 0.86 F1: 0.5679012345679013 Roc_auc 0.7086651960215179
est 100 результат 0.86 F1: 0.5679012345679013 Roc_auc 0.7086651960215179
est 110 результат 0.86 F1: 0.56656346749226 Roc_auc 0.7077441077441077
est 120 результат 0.8575 F1: 0.5608628659476117 Roc_auc 0.7052556213475754
est 130 результат 0.8585 F1: 0.563944530046225 Roc_auc 0.7068036688726343
est 140 результат 0.859 F1: 0.5648148148148147 Roc_a

In [66]:
best_model = None
best_result = 0
best_est = 0


for depth in range(5,20):
    for est in range(310,330):
        model_forest = RandomForestClassifier(random_state = state , n_estimators = est, n_jobs=-1, max_depth=depth)
        model_forest.fit(features_train,target_train)
        prediction_valid = model_forest.predict(features_valid)
        res = model_forest.score(features_valid, target_valid)
        F1 = f1_score(target_valid, prediction_valid)
        Roc_auc = roc_auc_score(target_valid, prediction_valid)
        print('depth =',depth,'est',est, 'Результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
        if best_result < F1:
            Roc_auc_f = Roc_auc
            best_model = model_forest
            best_result = F1
            best_depth = depth
            best_forest_ress = best_result
            n_estimators = est

print(' ')        
print('Лучший результат cлучайного леса F1-меры:', best_forest_ress, 'Глубина:', best_depth, 
      'n_estimators', n_estimators, 'Roc_auc:', Roc_auc_f)

depth = 5 est 310 Результат 0.852 F1: 0.46762589928057546 Roc_auc 0.6539107550601804
depth = 5 est 311 Результат 0.8525 F1: 0.4684684684684684 Roc_auc 0.6542242346840049
depth = 5 est 312 Результат 0.8525 F1: 0.4684684684684684 Roc_auc 0.6542242346840049
depth = 5 est 313 Результат 0.8525 F1: 0.4684684684684684 Roc_auc 0.6542242346840049
depth = 5 est 314 Результат 0.8525 F1: 0.4684684684684684 Roc_auc 0.6542242346840049
depth = 5 est 315 Результат 0.852 F1: 0.46762589928057546 Roc_auc 0.6539107550601804
depth = 5 est 316 Результат 0.852 F1: 0.46762589928057546 Roc_auc 0.6539107550601804
depth = 5 est 317 Результат 0.852 F1: 0.46762589928057546 Roc_auc 0.6539107550601804
depth = 5 est 318 Результат 0.8525 F1: 0.4684684684684684 Roc_auc 0.6542242346840049
depth = 5 est 319 Результат 0.8525 F1: 0.4684684684684684 Roc_auc 0.6542242346840049
depth = 5 est 320 Результат 0.8525 F1: 0.4684684684684684 Roc_auc 0.6542242346840049
depth = 5 est 321 Результат 0.8525 F1: 0.4684684684684684 Roc_auc

Лучший результат cлучайного леса F1-меры: 0.5718701700154559 Глубина: 18 n_estimators 310 Roc_auc: 0.7105267231704013

In [None]:
### Регрессию

In [68]:
best_model = None
best_result = 0
best_est = 0
parameters = ['lbfgs', 'liblinear', 'newton-cg', 'sag', 'saga']
for p in parameters:
    model_reg = LogisticRegression(random_state = state , solver=p)
    model_reg.fit(features_train,target_train)
    prediction_valid = model_reg.predict(features_valid)
    res = model_reg.score(features_valid, target_valid)
    F1 = f1_score(target_valid, prediction_valid)
    Roc_auc_r = roc_auc_score(target_valid, prediction_valid)
    print('solver =',p, 'Результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
    if best_result < F1:
        Roc_auc_f = Roc_auc
        best_model = model_reg
        best_result = F1
        best_reg_res = best_result
        sov = p 

print(' ')        
print('Лучший результат логической регрессии F1-меры:', best_reg_res,'solver', sov, 'Roc_auc:', Roc_auc_r)

solver = lbfgs Результат 0.8135 F1: 0.3155963302752294 Roc_auc 0.6991021324354657
solver = liblinear Результат 0.8135 F1: 0.3155963302752294 Roc_auc 0.6991021324354657
solver = newton-cg Результат 0.8135 F1: 0.3155963302752294 Roc_auc 0.6991021324354657
solver = sag Результат 0.8135 F1: 0.3155963302752294 Roc_auc 0.6991021324354657
solver = saga Результат 0.8135 F1: 0.3155963302752294 Roc_auc 0.6991021324354657
 
Лучший результат логической регрессии F1-меры: 0.3155963302752294 solver lbfgs Roc_auc: 0.5892449398196524


Выведем на экран результаты f1 трех моделей

In [69]:
print('DecisionTreeClassifier', best_tree_res)
print('RandomForestClassifier', best_forest_ress)
print('LogisticRegression', best_reg_res)

DecisionTreeClassifier 0.5476190476190477
RandomForestClassifier 0.5718701700154559
LogisticRegression 0.3155963302752294


Вычислим accuracy, precision и recall, F1-метрику.

In [75]:
model_reg = LogisticRegression(random_state=state, solver='lbfgs')
model_reg.fit(features_train, target_train)
predicted_valid = model_reg.predict(features_valid)
print()
print('Логистическая регрессия')
print('Accuracy', accuracy_score(target_valid, predicted_valid))
print('Precision', precision_score(target_valid, predicted_valid))
print('Recall', recall_score(target_valid, predicted_valid))
print('F1', f1_score(target_valid, predicted_valid))
print()

model_tree = DecisionTreeClassifier(random_state=state, max_depth=6, criterion='entropy')
model_tree.fit(features_train, target_train)
predicted_valid = model_tree.predict(features_valid)
print('Решающее дерево')
print('Accuracy', accuracy_score(target_valid, predicted_valid))
print('Precision', precision_score(target_valid, predicted_valid))
print('Recall', recall_score(target_valid, predicted_valid))
print('F1', f1_score(target_valid, predicted_valid))
print()

model_forest = RandomForestClassifier(random_state=state, max_depth=18, n_estimators=310)
model_forest.fit(features_train, target_train)
predicted_valid = model_forest.predict(features_valid)
print('Случайный лес')
print('Accuracy', accuracy_score(target_valid, predicted_valid))
print('Precision', precision_score(target_valid, predicted_valid))
print('Recall', recall_score(target_valid, predicted_valid))
print('F1', f1_score(target_valid, predicted_valid))
print()


Логистическая регрессия
Accuracy 0.8135
Precision 0.6142857142857143
Recall 0.2123456790123457
F1 0.3155963302752294

Решающее дерево
Accuracy 0.853
Precision 0.7402597402597403
Recall 0.4222222222222222
F1 0.5377358490566039

Случайный лес
Accuracy 0.8615
Precision 0.7644628099173554
Recall 0.4567901234567901
F1 0.5718701700154559



Лучший результат у модели cлучайного леса F1-меры: 0.5718701700154559 Глубина: 18 n_estimators 310 Roc_auc: 0.7105267231704013

<b>Вывод:</b><br>
        В данных сущестует дисбаланс классов в отношении 1:4.<br>
        После первого обучения модели показывают результат F1-меры:<br>
        DecisionTreeClassifier 0.5377358490566039<br>
        RandomForestClassifier 0.5718701700154559<br>
        LogisticRegression 0.3155963302752294<br>
        
Лучшая F1-мера у модели случайного леса с гипер параметрами max_depth=18 и n_estimators = 310
Чтобы достичь тебуемое задания F1 - меры требуется еще лучшить наши модели для достичения отметки F1 меры более 0.59
У модели два решений близкий к порогу результат 0.573, возможно его сможем лучшить в дальнейшем

## Борьба с дисбалансом

In [76]:
data['exited'].mean().round(3)

0.204

In [77]:
features[target == 0].shape, features[target == 1].shape

((7963, 10), (2037, 10))

In [78]:
7963/2037

3.9091801669121256

В среднем по нашим данным на одного ушедшего человека четыре остаются.
Будем это учитывать при обучнении моделей.

Применение class_weight для борьбы с дисбалансом

In [79]:
### Дерево решений
best_model = None
best_result = 0
best_depth = 0

for depth in range(2,40):
    model_tree = DecisionTreeClassifier(random_state = state, max_depth = depth, criterion='entropy', class_weight='balanced')
    model_tree.fit(features_train,target_train)
    prediction_valid = model_tree.predict(features_valid)
    res = model_tree.score(features_valid, target_valid)
    F1 = f1_score(target_valid, prediction_valid)
    Roc_auc = roc_auc_score(target_valid, prediction_valid)
    print('max_depth =',depth, 'результат = ', res, "F1:", F1, 'Roc_auc', Roc_auc)  
    if best_result < F1:
        Roc_auc_t = Roc_auc
        best_model = model_tree
        best_result = F1
        best_depth = depth
        best_tree_res_blans = best_result

print(' ')        
print('Лучший результат дерева F1-меры:', best_tree_res_blans, 'Глубина:', best_depth, 'Roc_auc:', Roc_auc_t)

max_depth = 2 результат =  0.682 F1: 0.4829268292682926 Roc_auc 0.7011494252873562
max_depth = 3 результат =  0.7805 F1: 0.5191675794085433 Roc_auc 0.7076396145361662
max_depth = 4 результат =  0.711 F1: 0.5159128978224455 Roc_auc 0.7294632145206859
max_depth = 5 результат =  0.72 F1: 0.5197255574614066 Roc_auc 0.7305004063624753
max_depth = 6 результат =  0.731 F1: 0.5272407732864673 Roc_auc 0.7346336932543829
max_depth = 7 результат =  0.7285 F1: 0.5314926660914582 Roc_auc 0.7404350013545415
max_depth = 8 результат =  0.7955 F1: 0.5671957671957671 Roc_auc 0.7455977398506134
max_depth = 9 результат =  0.789 F1: 0.5539112050739958 Roc_auc 0.7359959750764349
max_depth = 10 результат =  0.8 F1: 0.5575221238938052 Roc_auc 0.7336816440264716
max_depth = 11 результат =  0.7715 F1: 0.5303186022610483 Roc_auc 0.7213398351329385
max_depth = 12 результат =  0.769 F1: 0.5177453027139874 Roc_auc 0.7105615542397152
max_depth = 13 результат =  0.7825 F1: 0.5203969128996692 Roc_auc 0.707972444754054

In [80]:
### Случайный лес
best_model = None
best_result = 0
best_est = 0

for est in range(10,600,10):
    model_forest = RandomForestClassifier(random_state = state, n_estimators = est, class_weight='balanced')
    model_forest.fit(features_train,target_train)
    prediction_valid = model_forest.predict(features_valid)
    res = model_forest.score(features_valid, target_valid)
    F1 = f1_score(target_valid, prediction_valid)
    Roc_auc = roc_auc_score(target_valid, prediction_valid)
    print('est',est, 'результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
    if best_result < F1:
        Roc_auc_f = Roc_auc
        best_model = model_forest
        best_result = F1
        best_forest_res = best_result
        n_estimators = est

print(' ')        
print('Лучший результат cлучайного леса F1-меры:', best_forest_res,'n_estimators', n_estimators,'Roc_auc:', Roc_auc_f)

est 10 результат 0.8425 F1: 0.48613376835236544 Roc_auc 0.665455319478308
est 20 результат 0.8525 F1: 0.5218800648298216 Roc_auc 0.6827779712837184
est 30 результат 0.856 F1: 0.5339805825242718 Roc_auc 0.6886566817601301
est 40 результат 0.8565 F1: 0.5408000000000001 Roc_auc 0.6926545144935949
est 50 результат 0.8595 F1: 0.5489566613162119 Roc_auc 0.6963775687913619
est 60 результат 0.8585 F1: 0.5442834138486313 Roc_auc 0.6939084329888928
est 70 результат 0.8595 F1: 0.5489566613162119 Roc_auc 0.6963775687913619
est 80 результат 0.8615 F1: 0.5568 Roc_auc 0.70039475211889
est 90 результат 0.8585 F1: 0.5515055467511886 Roc_auc 0.6985138743759434
est 100 результат 0.858 F1: 0.5492063492063491 Roc_auc 0.6972793064747088
est 110 результат 0.8605 F1: 0.5578446909667195 Roc_auc 0.7016099694260614
est 120 результат 0.861 F1: 0.560126582278481 Roc_auc 0.702844537327296
est 130 результат 0.8605 F1: 0.5578446909667195 Roc_auc 0.7016099694260614
est 140 результат 0.861 F1: 0.5587301587301587 Roc_au

In [83]:
best_model = None
best_result = 0
best_est = 0

for depth in range(5,20):
    for est in range(350,370):
        model_forest = RandomForestClassifier(random_state = state,max_depth = depth, n_estimators = est, class_weight='balanced', n_jobs=-1)
        model_forest.fit(features_train,target_train)
        prediction_valid = model_forest.predict(features_valid)
        res = model_forest.score(features_valid, target_valid)
        F1 = f1_score(target_valid, prediction_valid)
        Roc_auc = roc_auc_score(target_valid, prediction_valid)
        print('est',est,'Глубина:', depth, 'результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
        if best_result < F1:
            Roc_auc_f = Roc_auc
            best_model = model_forest
            best_result = F1
            best_forest_res_blans = best_result
            n_estimators = est

print(' ')        
print('Лучший результат cлучайного леса F1-меры:', best_forest_res_blans,'Глубина:', best_depth,'n_estimators', n_estimators,'Roc_auc:', Roc_auc_f)

est 350 Глубина: 5 результат 0.7955 F1: 0.5787847579814623 Roc_auc 0.757571887456945
est 351 Глубина: 5 результат 0.7945 F1: 0.576725025746653 Roc_auc 0.7560238399318858
est 352 Глубина: 5 результат 0.7945 F1: 0.576725025746653 Roc_auc 0.7560238399318858
est 353 Глубина: 5 результат 0.795 F1: 0.577319587628866 Roc_auc 0.7563373195557104
est 354 Глубина: 5 результат 0.7945 F1: 0.576725025746653 Roc_auc 0.7560238399318858
est 355 Глубина: 5 результат 0.7945 F1: 0.576725025746653 Roc_auc 0.7560238399318858
est 356 Глубина: 5 результат 0.7945 F1: 0.576725025746653 Roc_auc 0.7560238399318858
est 357 Глубина: 5 результат 0.794 F1: 0.5761316872427983 Roc_auc 0.7557103603080614
est 358 Глубина: 5 результат 0.7945 F1: 0.576725025746653 Roc_auc 0.7560238399318858
est 359 Глубина: 5 результат 0.7945 F1: 0.576725025746653 Roc_auc 0.7560238399318858
est 360 Глубина: 5 результат 0.7935 F1: 0.5755395683453237 Roc_auc 0.7553968806842369
est 361 Глубина: 5 результат 0.794 F1: 0.5770020533880904 Roc_auc

In [84]:
### Регрессия
best_model = None
best_result = 0
best_est = 0
parameters = ['lbfgs', 'liblinear', 'newton-cg', 'sag', 'saga']
for p in parameters:
    model_reg = LogisticRegression(random_state = state , solver=p, class_weight='balanced')
    model_reg.fit(features_train,target_train)
    prediction_valid = model_reg.predict(features_valid)
    res = model_reg.score(features_valid, target_valid)
    F1 = f1_score(target_valid, prediction_valid)
    Roc_auc_r = roc_auc_score(target_valid, prediction_valid)
    print('solver =',p, 'Результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
    if best_result < F1:
        Roc_auc_f = Roc_auc
        best_model = model_reg
        best_result = F1
        best_reg_res_blans = best_result
        sov = p 

print(' ')        
print('Лучший результат логической регрессии F1-меры:', best_reg_res_blans,'solver', sov, 'Roc_auc:', Roc_auc_r)

solver = lbfgs Результат 0.7145 F1: 0.5056277056277056 Roc_auc 0.7012964898022368
solver = liblinear Результат 0.715 F1: 0.5069204152249135 Roc_auc 0.7012964898022368
solver = newton-cg Результат 0.7145 F1: 0.5056277056277056 Roc_auc 0.7012964898022368
solver = sag Результат 0.7145 F1: 0.5056277056277056 Roc_auc 0.7012964898022368
solver = saga Результат 0.7145 F1: 0.5056277056277056 Roc_auc 0.7012964898022368
 
Лучший результат логической регрессии F1-меры: 0.5069204152249135 solver liblinear Roc_auc: 0.7169201594488951


Три прошлых результата на не сбалансированной выборке

In [87]:
print('DecisionTreeClassifier', best_tree_res)
print('RandomForestClassifier', best_forest_ress)
print('LogisticRegression', best_reg_res)

DecisionTreeClassifier 0.5476190476190477
RandomForestClassifier 0.5718701700154559
LogisticRegression 0.3155963302752294


Выведем три результата с балансом классов и подобраными гипер параметрами

In [85]:
print('DecisionTreeClassifier', best_tree_res_blans)
print('RandomForestClassifier', best_forest_res_blans)
print('LogisticRegression', best_reg_res_blans)

DecisionTreeClassifier 0.5671957671957671
RandomForestClassifier 0.6134663341645885
LogisticRegression 0.5069204152249135


Лучшая модель с балансом классов:
Модель cлучайного леса F1-меры: 0.6134663341645885 Глубина: 8 n_estimators 351 Roc_auc: 0.7563682805062115

Баланс классов лучший показатели всех моделей, мы получили первую модель с гиперпараментрами где F1-мера больше 0,59.

<b>Увеличение выборки

In [88]:
oversample = SMOTE(random_state=state)
features_train_up, target_train_up = oversample.fit_resample(features_train, target_train)

In [89]:
### Дерево решений
best_model = None
best_result = 0
best_depth = 0

for depth in range(2,40):
    model_tree = DecisionTreeClassifier(random_state = state, max_depth = depth, criterion='entropy')
    model_tree.fit(features_train_up,target_train_up)
    prediction_valid = model_tree.predict(features_valid)
    res = model_tree.score(features_valid, target_valid)
    F1 = f1_score(target_valid, prediction_valid)
    Roc_auc = roc_auc_score(target_valid, prediction_valid)
    print('max_depth =',depth, 'результат = ', res, "F1:", F1, 'Roc_auc', Roc_auc)  
    if best_result < F1:
        Roc_auc_t = Roc_auc
        best_model = model_tree
        best_result = F1
        best_depth = depth
        best_tree_res_up = best_result

print(' ')        
print('Лучший результат дерева F1-меры:', best_tree_res_up, 'Глубина:', best_depth, 'Roc_auc:', Roc_auc_t)

max_depth = 2 результат =  0.7125 F1: 0.49781659388646293 Roc_auc 0.7092186230117264
max_depth = 3 результат =  0.8195 F1: 0.5377720870678617 Roc_auc 0.7072216417044004
max_depth = 4 результат =  0.7745 F1: 0.5355303810504635 Roc_auc 0.7250628894307055
max_depth = 5 результат =  0.7825 F1: 0.5464025026068822 Roc_auc 0.731920739966717
max_depth = 6 результат =  0.749 F1: 0.5493716337522442 Roc_auc 0.7514454893765239
max_depth = 7 результат =  0.828 F1: 0.5742574257425743 Roc_auc 0.7328147374124385
max_depth = 8 результат =  0.8255 F1: 0.5830346475507767 Roc_auc 0.7423003986222377
max_depth = 9 результат =  0.8075 F1: 0.5629965947786606 Roc_auc 0.734699485274198
max_depth = 10 результат =  0.8075 F1: 0.5559400230680507 Roc_auc 0.7282518673323272
max_depth = 11 результат =  0.7995 F1: 0.5549389567147613 Roc_auc 0.7315259878478269
max_depth = 12 результат =  0.7895 F1: 0.5337763012181618 Roc_auc 0.7169666008746469
max_depth = 13 результат =  0.785 F1: 0.5190156599552572 Roc_auc 0.705855489

In [90]:
### Случайный лес
best_model = None
best_result = 0
best_est = 0

for est in range(10,600,5):
    model_forest = RandomForestClassifier(random_state = state, n_estimators = est, n_jobs=-1)
    model_forest.fit(features_train_up,target_train_up)
    prediction_valid = model_forest.predict(features_valid)
    res = model_forest.score(features_valid, target_valid)
    F1 = f1_score(target_valid, prediction_valid)
    Roc_auc = roc_auc_score(target_valid, prediction_valid)
    print('est',est, 'результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
    if best_result < F1:
        Roc_auc_f = Roc_auc
        best_model = model_forest
        best_result = F1
        best_forest_res_up = best_result
        n_estimators = est

print(' ')        
print('Лучший результат cлучайного леса F1-меры:', best_forest_res_up,'n_estimators', n_estimators,'Roc_auc:', Roc_auc_f)

est 10 результат 0.835 F1: 0.5467032967032968 Roc_auc 0.7068075389914471
est 15 результат 0.8325 F1: 0.567741935483871 Roc_auc 0.7245829946979372
est 20 результат 0.844 F1: 0.5760869565217391 Roc_auc 0.7244243198266187
est 25 результат 0.8375 F1: 0.5740498034076016 Roc_auc 0.7267967026587716
est 30 результат 0.8415 F1: 0.571041948579161 Roc_auc 0.7219358334300864
est 35 результат 0.842 F1: 0.5797872340425532 Roc_auc 0.7286969309957816
est 40 результат 0.846 F1: 0.5860215053763441 Roc_auc 0.7312047679863771
est 45 результат 0.842 F1: 0.582010582010582 Roc_auc 0.7305391075506019
est 50 результат 0.847 F1: 0.5864864864864865 Roc_auc 0.730910638956616
est 55 результат 0.8425 F1: 0.583883751651255 Roc_auc 0.7317736754518365
est 60 результат 0.847 F1: 0.5898123324396781 Roc_auc 0.7336739037888463
est 65 результат 0.8435 F1: 0.5854304635761589 Roc_auc 0.7324006346994852
est 70 результат 0.846 F1: 0.588235294117647 Roc_auc 0.7330469445411973
est 75 результат 0.8425 F1: 0.5849802371541503 Roc_a

In [91]:
best_model = None
best_result = 0
best_est = 0

for depth in range(10,30):
    for est in range(210,230):
        model_forest = RandomForestClassifier(random_state = state,max_depth = depth, n_estimators = est)
        model_forest.fit(features_train_up,target_train_up)
        prediction_valid = model_forest.predict(features_valid)
        res = model_forest.score(features_valid, target_valid)
        F1 = f1_score(target_valid, prediction_valid)
        Roc_auc = roc_auc_score(target_valid, prediction_valid)
        print('est',est,'Глубина:', depth, 'результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
        if best_result < F1:
            Roc_auc_f = Roc_auc
            best_model = model_forest
            best_result = F1
            best_depth = depth
            best_forest_res_up = best_result
            n_estimators = est

print(' ')        
print('Лучший результат cлучайного леса F1-меры:', best_forest_res_up,'Глубина:', best_depth,'n_estimators', n_estimators,'Roc_auc:', Roc_auc_f)


est 210 Глубина: 10 результат 0.833 F1: 0.5926829268292683 Roc_auc 0.7460815047021944
est 211 Глубина: 10 результат 0.8325 F1: 0.5919610231425091 Roc_auc 0.7457680250783699
est 212 Глубина: 10 результат 0.833 F1: 0.5926829268292683 Roc_auc 0.7460815047021944
est 213 Глубина: 10 результат 0.833 F1: 0.5926829268292683 Roc_auc 0.7460815047021944
est 214 Глубина: 10 результат 0.8335 F1: 0.5943970767356883 Roc_auc 0.747316072603429
est 215 Глубина: 10 результат 0.8325 F1: 0.5919610231425091 Roc_auc 0.7457680250783699
est 216 Глубина: 10 результат 0.8335 F1: 0.5943970767356883 Roc_auc 0.747316072603429
est 217 Глубина: 10 результат 0.8335 F1: 0.5943970767356883 Roc_auc 0.747316072603429
est 218 Глубина: 10 результат 0.8325 F1: 0.5919610231425091 Roc_auc 0.7457680250783699
est 219 Глубина: 10 результат 0.8325 F1: 0.5919610231425091 Roc_auc 0.7457680250783699
est 220 Глубина: 10 результат 0.833 F1: 0.5936739659367396 Roc_auc 0.7470025929796045
est 221 Глубина: 10 результат 0.834 F1: 0.59512195

In [92]:
best_model = None
best_result = 0
best_est = 0

for depth in range(7,30):
    for est in range(180,211):
        model_forest = RandomForestClassifier(random_state = state,max_depth = depth, n_estimators = est)
        model_forest.fit(features_train_up,target_train_up)
        prediction_valid = model_forest.predict(features_valid)
        res = model_forest.score(features_valid, target_valid)
        F1 = f1_score(target_valid, prediction_valid)
        Roc_auc = roc_auc_score(target_valid, prediction_valid)
        print('est',est,'Глубина:', depth, 'результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
        if best_result < F1:
            Roc_auc_f = Roc_auc
            best_model = model_forest
            best_result = F1
            best_depth = depth
            best_forest_res_up = best_result
            n_estimators = est

print(' ')        
print('Лучший результат cлучайного леса F1-меры:', best_forest_res_up,'Глубина:', best_depth,'n_estimators', n_estimators,'Roc_auc:', Roc_auc_f)


est 180 Глубина: 7 результат 0.8295 F1: 0.6057803468208092 Roc_auc 0.7613878246062155
est 181 Глубина: 7 результат 0.8285 F1: 0.6025492468134415 Roc_auc 0.7589186888037462
est 182 Глубина: 7 результат 0.8285 F1: 0.6006984866123399 Roc_auc 0.757076512248926
est 183 Глубина: 7 результат 0.828 F1: 0.599067599067599 Roc_auc 0.7558419443476916
est 184 Глубина: 7 результат 0.8285 F1: 0.6006984866123399 Roc_auc 0.757076512248926
est 185 Глубина: 7 результат 0.829 F1: 0.6023255813953488 Roc_auc 0.7583110801501607
est 186 Глубина: 7 результат 0.829 F1: 0.6023255813953488 Roc_auc 0.7583110801501607
est 187 Глубина: 7 результат 0.829 F1: 0.6023255813953488 Roc_auc 0.7583110801501607
est 188 Глубина: 7 результат 0.8295 F1: 0.6030267753201397 Roc_auc 0.7586245597739851
est 189 Глубина: 7 результат 0.829 F1: 0.6013986013986015 Roc_auc 0.7573899918727505
est 190 Глубина: 7 результат 0.829 F1: 0.6023255813953488 Roc_auc 0.7583110801501607
est 191 Глубина: 7 результат 0.8295 F1: 0.6030267753201397 Roc_

In [None]:
Лучший результат cлучайного леса F1-меры: 0.611260053619303 Глубина: 23 n_estimators 196 Roc_auc: 0.7460582839893184

In [94]:
### Регрессия
best_model = None
best_result = 0
best_est = 0
parameters = ['lbfgs', 'liblinear', 'newton-cg', 'sag', 'saga']
for p in parameters:
    model_reg = LogisticRegression(random_state = state , solver=p)
    model_reg.fit(features_train_up,target_train_up)
    prediction_valid = model_reg.predict(features_valid)
    res = model_reg.score(features_valid, target_valid)
    F1 = f1_score(target_valid, prediction_valid)
    Roc_auc_r = roc_auc_score(target_valid, prediction_valid)
    print('solver =',p, 'Результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
    if best_result < F1:
        Roc_auc_f = Roc_auc
        best_model = model_reg
        best_result = F1
        best_reg_res_up = best_result
        sov = p 

print(' ')        
print('Лучший результат логической регрессии F1-меры:', best_reg_res_up,'solver', sov, 'Roc_auc:', Roc_auc_r)

solver = lbfgs Результат 0.7145 F1: 0.4995617879053462 Roc_auc 0.7432563179689616
solver = liblinear Результат 0.714 F1: 0.49824561403508766 Roc_auc 0.7432563179689616
solver = newton-cg Результат 0.7145 F1: 0.4995617879053462 Roc_auc 0.7432563179689616
solver = sag Результат 0.7145 F1: 0.4995617879053462 Roc_auc 0.7432563179689616
solver = saga Результат 0.7145 F1: 0.4995617879053462 Roc_auc 0.7432563179689616
 
Лучший результат логической регрессии F1-меры: 0.4995617879053462 solver lbfgs Roc_auc: 0.7104725415070242


Балансная выборка 

In [95]:
print('DecisionTreeClassifier', best_tree_res_blans)
print('RandomForestClassifier', best_forest_res_blans)
print('LogisticRegression', best_reg_res_blans)

DecisionTreeClassifier 0.5671957671957671
RandomForestClassifier 0.6134663341645885
LogisticRegression 0.5069204152249135


Увеличенная выборка

In [99]:
print('DecisionTreeClassifier', best_tree_res_up)
print('RandomForestClassifier', best_forest_res_up)
print('LogisticRegression', best_reg_res_up)

DecisionTreeClassifier 0.5830346475507767
RandomForestClassifier 0.611260053619303
LogisticRegression 0.4995617879053462


Заметно улутшились результаты Древа решений F1-меры на 0.26 на увеличениеной выборке
У древа решений показатели сснова превысили 0.59, но результат хуже чем при балансе классов 0.611260053619303
У логическуой регрессий результаты не улучшились

<b>Уменьшение выборки

In [101]:
oversample = RandomUnderSampler(random_state=state)
features_train_down, target_train_down = oversample.fit_resample(features_train, target_train)

In [102]:
### Дерево решений
best_model = None
best_result = 0
best_depth = 0

for depth in range(2,40):
    model_tree = DecisionTreeClassifier(random_state = state, max_depth = depth, criterion='entropy')
    model_tree.fit(features_train_down,target_train_down)
    prediction_valid = model_tree.predict(features_valid)
    res = model_tree.score(features_valid, target_valid)
    F1 = f1_score(target_valid, prediction_valid)
    Roc_auc = roc_auc_score(target_valid, prediction_valid)
    print('max_depth =',depth, 'результат = ', res, "F1:", F1, 'Roc_auc', Roc_auc)  
    if best_result < F1:
        Roc_auc_t = Roc_auc
        best_model = model_tree
        best_result = F1
        best_depth = depth
        best_tree_res_down = best_result

print(' ')        
print('Лучший результат дерева F1-меры:', best_tree_res_down, 'Глубина:', best_depth, 'Roc_auc:', Roc_auc_t)

max_depth = 2 результат =  0.682 F1: 0.4829268292682926 Roc_auc 0.7011494252873562
max_depth = 3 результат =  0.7805 F1: 0.5191675794085433 Roc_auc 0.7076396145361662
max_depth = 4 результат =  0.712 F1: 0.5043029259896729 Roc_auc 0.716273849607183
max_depth = 5 результат =  0.7675 F1: 0.5391476709613479 Roc_auc 0.7317272340260846
max_depth = 6 результат =  0.7355 F1: 0.5371828521434819 Roc_auc 0.7439026278106737
max_depth = 7 результат =  0.77 F1: 0.555984555984556 Roc_auc 0.7480320445837689
max_depth = 8 результат =  0.7725 F1: 0.5552297165200392 Roc_auc 0.7459150895932506
max_depth = 9 результат =  0.7625 F1: 0.5419479267116682 Roc_auc 0.7368822322845311
max_depth = 10 результат =  0.742 F1: 0.5104364326375711 Roc_auc 0.7129765083788073
max_depth = 11 результат =  0.7425 F1: 0.505283381364073 Roc_auc 0.7077634583381709
max_depth = 12 результат =  0.75 F1: 0.5155038759689922 Roc_auc 0.715228917527768
max_depth = 13 результат =  0.7345 F1: 0.48195121951219505 Roc_auc 0.688010371918417

In [103]:
### Случайный лес
best_model = None
best_result = 0
best_est = 0

for est in range(10,600,10):
    model_forest = RandomForestClassifier(random_state = state, n_estimators = est, n_jobs=-1)
    model_forest.fit(features_train_down,target_train_down)
    prediction_valid = model_forest.predict(features_valid)
    res = model_forest.score(features_valid, target_valid)
    F1 = f1_score(target_valid, prediction_valid)
    Roc_auc = roc_auc_score(target_valid, prediction_valid)
    print('est',est, 'результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
    if best_result < F1:
        Roc_auc_f = Roc_auc
        best_model = model_forest
        best_result = F1
        best_forest_res_down = best_result
        n_estimators = est

print(' ')        
print('Лучший результат cлучайного леса F1-меры:', best_forest_res_down,'n_estimators', n_estimators,'Roc_auc:', Roc_auc_f)

est 10 результат 0.784 F1: 0.5537190082644629 Roc_auc 0.738387708502651
est 20 результат 0.778 F1: 0.5612648221343874 Roc_auc 0.7493633654553196
est 30 результат 0.7915 F1: 0.579212916246216 Roc_auc 0.76059058013081
est 40 результат 0.791 F1: 0.579476861167002 Roc_auc 0.7611981887843957
est 50 результат 0.7865 F1: 0.5725725725725725 Roc_auc 0.7565346956151554
est 60 результат 0.785 F1: 0.5725646123260437 Roc_auc 0.7574364332985023
est 70 результат 0.7905 F1: 0.5805805805805805 Roc_auc 0.7627268857153915
est 80 результат 0.7875 F1: 0.5779543197616683 Roc_auc 0.7617670962498548
est 90 результат 0.789 F1: 0.5813492063492063 Roc_auc 0.7645497116761485
est 100 результат 0.784 F1: 0.5739644970414202 Roc_auc 0.7595727388830837
est 110 результат 0.7845 F1: 0.576204523107178 Roc_auc 0.7617283950617284
est 120 результат 0.782 F1: 0.5691699604743082 Roc_auc 0.7555555555555556
est 130 результат 0.784 F1: 0.5722772277227722 Roc_auc 0.7577305623282634
est 140 результат 0.785 F1: 0.575098814229249 Ro

In [106]:
best_model = None
best_result = 0
best_est = 0

for depth in range(10,25):
    for est in range(85,95):
        model_forest = RandomForestClassifier(random_state = state, n_estimators = est, n_jobs=-1)
        model_forest.fit(features_train_down,target_train_down)
        prediction_valid = model_forest.predict(features_valid)
        res = model_forest.score(features_valid, target_valid)
        F1 = f1_score(target_valid, prediction_valid)
        Roc_auc = roc_auc_score(target_valid, prediction_valid)
        print('est',est,'Глубина:', depth, 'результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
        if best_result < F1:
            Roc_auc_f = Roc_auc
            best_model = model_forest
            best_result = F1
            best_depth = depth
            best_forest_res_down = best_result
            n_estimators = est

print(' ')        
print('Лучший результат cлучайного леса F1-меры:', best_forest_res_down,'Глубина:', best_depth,'n_estimators', n_estimators,'Roc_auc:', Roc_auc_f)

est 85 Глубина: 10 результат 0.7865 F1: 0.5784797630799605 Roc_auc 0.7629823135570262
est 86 Глубина: 10 результат 0.7865 F1: 0.5759682224428997 Roc_auc 0.7602190487247958
est 87 Глубина: 10 результат 0.785 F1: 0.5767716535433071 Roc_auc 0.7620418746855528
est 88 Глубина: 10 результат 0.79 F1: 0.5825049701789264 Roc_auc 0.7651766709237975
est 89 Глубина: 10 результат 0.7865 F1: 0.5784797630799605 Roc_auc 0.7629823135570262
est 90 Глубина: 10 результат 0.789 F1: 0.5813492063492063 Roc_auc 0.7645497116761485
est 91 Глубина: 10 результат 0.787 F1: 0.5815324165029468 Roc_auc 0.7660590580130809
est 92 Глубина: 10 результат 0.791 F1: 0.5853174603174603 Roc_auc 0.7676458067262666
est 93 Глубина: 10 результат 0.7875 F1: 0.5829244357212953 Roc_auc 0.7672936259143156
est 94 Глубина: 10 результат 0.79 F1: 0.5841584158415841 Roc_auc 0.7670188474786177
est 85 Глубина: 11 результат 0.7865 F1: 0.5784797630799605 Roc_auc 0.7629823135570262
est 86 Глубина: 11 результат 0.7865 F1: 0.5759682224428997 Roc

In [107]:
### Регрессия
best_model = None
best_result = 0
best_est = 0
parameters = ['lbfgs', 'liblinear', 'newton-cg', 'sag', 'saga']
for p in parameters:
    model_reg = LogisticRegression(random_state = state , solver=p)
    model_reg.fit(features_train_down,target_train_down)
    prediction_valid = model_reg.predict(features_valid)
    res = model_reg.score(features_valid, target_valid)
    F1 = f1_score(target_valid, prediction_valid)
    Roc_auc_r = roc_auc_score(target_valid, prediction_valid)
    print('solver =',p, 'Результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
    if best_result < F1:
        Roc_auc_f = Roc_auc
        best_model = model_reg
        best_result = F1
        best_reg_res_down = best_result
        sov = p 

print(' ')        
print('Лучший результат логической регрессии F1-меры:', best_reg_res_down,'solver', sov, 'Roc_auc:', Roc_auc_r)

solver = lbfgs Результат 0.717 F1: 0.5078260869565216 Roc_auc 0.7670188474786177
solver = liblinear Результат 0.717 F1: 0.5069686411149826 Roc_auc 0.7670188474786177
solver = newton-cg Результат 0.717 F1: 0.5078260869565216 Roc_auc 0.7670188474786177
solver = sag Результат 0.717 F1: 0.5078260869565216 Roc_auc 0.7670188474786177
solver = saga Результат 0.717 F1: 0.5078260869565216 Roc_auc 0.7670188474786177
 
Лучший результат логической регрессии F1-меры: 0.5078260869565216 solver lbfgs Roc_auc: 0.7184875575680173


<h>Результаты:

In [None]:
Балансной выборки

In [108]:
print('DecisionTreeClassifier', best_tree_res_blans)
print('RandomForestClassifier', best_forest_res_blans)
print('LogisticRegression', best_reg_res_blans)

DecisionTreeClassifier 0.5671957671957671
RandomForestClassifier 0.6134663341645885
LogisticRegression 0.5069204152249135


Увеличенной

In [109]:
print('DecisionTreeClassifier', best_tree_res_up)
print('RandomForestClassifier', best_forest_res_up)
print('LogisticRegression', best_reg_res_up)

DecisionTreeClassifier 0.5830346475507767
RandomForestClassifier 0.611260053619303
LogisticRegression 0.4995617879053462


Уменьшеной выборки после подбора гипер параметров.

In [111]:
print('DecisionTreeClassifier', best_tree_res_down)
print('RandomForestClassifier', best_forest_res_down)
print('LogisticRegression', best_reg_res_down)

DecisionTreeClassifier 0.555984555984556
RandomForestClassifier 0.5853174603174603
LogisticRegression 0.5078260869565216


При уменьшении выборки результат предсказаний получается даже хуже чем у моделей с не баласными классами, и увеливенной выбокой, только модель логисчтической регрессии показала улучшение и лучший свой результат.
Но ниодна модель так и не достигла порога 0.59

<b>Изменение порога

probabilities_one_valid = probabilities_valid[:, 1]

for threshold in np.arange(0, 0.8, 0.02):
    predicted_valid = probabilities_one_valid > threshold 
    precision = precision_score(target_valid, predicted_valid)
    recall = recall_score(target_valid, predicted_valid)

    print("Порог = {:.2f} | Точность = {:.3f}, Полнота = {:.3f}".format(
        threshold, precision, recall))

In [115]:
### Дерево решений

model_tree = DecisionTreeClassifier(random_state = state, max_depth = 8)
model_tree.fit(features_valid, target_valid)

res_model_tree = model_tree.score(features_valid, target_valid)

probabilities_valid = model_tree.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

for threshold in np.arange(0, 0.81, 0.02):
    predicted_valid = probabilities_one_valid > threshold 
    precision = precision_score(target_valid, predicted_valid)
    recall = recall_score(target_valid, predicted_valid)

    print("Порог = {:.2f} | Точность = {:.3f}, Полнота = {:.3f}".format(
        threshold, precision, recall))
    
print('')    
print('Дерево решений')
print('Accuraty: ', res_model_tree)
print('Precision:', precision_score(target_valid, predicted_valid))
print('Recall:', recall_score(target_valid, predicted_valid))
print("F1:", f1_score(target_valid, prediction_valid))
print("ROC_auc:", roc_auc_score(target_valid, prediction_valid))

Порог = 0.00 | Точность = 0.285, Полнота = 1.000
Порог = 0.02 | Точность = 0.285, Полнота = 1.000
Порог = 0.04 | Точность = 0.346, Полнота = 0.980
Порог = 0.06 | Точность = 0.359, Полнота = 0.975
Порог = 0.08 | Точность = 0.386, Полнота = 0.960
Порог = 0.10 | Точность = 0.480, Полнота = 0.906
Порог = 0.12 | Точность = 0.561, Полнота = 0.869
Порог = 0.14 | Точность = 0.613, Полнота = 0.847
Порог = 0.16 | Точность = 0.658, Полнота = 0.830
Порог = 0.18 | Точность = 0.669, Полнота = 0.825
Порог = 0.20 | Точность = 0.669, Полнота = 0.825
Порог = 0.22 | Точность = 0.682, Полнота = 0.817
Порог = 0.24 | Точность = 0.699, Полнота = 0.807
Порог = 0.26 | Точность = 0.729, Полнота = 0.790
Порог = 0.28 | Точность = 0.741, Полнота = 0.783
Порог = 0.30 | Точность = 0.741, Полнота = 0.783
Порог = 0.32 | Точность = 0.741, Полнота = 0.783
Порог = 0.34 | Точность = 0.749, Полнота = 0.775
Порог = 0.36 | Точность = 0.749, Полнота = 0.775
Порог = 0.38 | Точность = 0.798, Полнота = 0.731
Порог = 0.40 | Точно

In [116]:
### Случайный лес
model_forest = RandomForestClassifier(random_state = state , n_estimators = 351, max_depth = 8)
model_forest.fit(features_valid, target_valid)

res_model_forest = model_forest.score(features_valid, target_valid)

probabilities_valid = model_forest.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

for threshold in np.arange(0, 0.81, 0.02):
    predicted_valid = probabilities_one_valid > threshold 
    precision = precision_score(target_valid, predicted_valid)
    recall = recall_score(target_valid, predicted_valid)

    print("Порог = {:.2f} | Точность = {:.3f}, Полнота = {:.3f}".format(
        threshold, precision, recall))
    
print('')    
print('Случайного леса')
print('Accuraty: ', res_model_forest)
print('Precision:', precision_score(target_valid, predicted_valid))
print('Recall:', recall_score(target_valid, predicted_valid))
print("F1:", f1_score(target_valid, prediction_valid))
print("ROC_auc:", roc_auc_score(target_valid, prediction_valid))


Порог = 0.00 | Точность = 0.203, Полнота = 1.000
Порог = 0.02 | Точность = 0.207, Полнота = 1.000
Порог = 0.04 | Точность = 0.228, Полнота = 1.000
Порог = 0.06 | Точность = 0.266, Полнота = 1.000
Порог = 0.08 | Точность = 0.309, Полнота = 1.000
Порог = 0.10 | Точность = 0.356, Полнота = 1.000
Порог = 0.12 | Точность = 0.410, Полнота = 1.000
Порог = 0.14 | Точность = 0.467, Полнота = 0.993
Порог = 0.16 | Точность = 0.518, Полнота = 0.960
Порог = 0.18 | Точность = 0.577, Полнота = 0.941
Порог = 0.20 | Точность = 0.620, Полнота = 0.916
Порог = 0.22 | Точность = 0.660, Полнота = 0.891
Порог = 0.24 | Точность = 0.702, Полнота = 0.867
Порог = 0.26 | Точность = 0.752, Полнота = 0.844
Порог = 0.28 | Точность = 0.781, Полнота = 0.830
Порог = 0.30 | Точность = 0.822, Полнота = 0.810
Порог = 0.32 | Точность = 0.835, Полнота = 0.785
Порог = 0.34 | Точность = 0.882, Полнота = 0.753
Порог = 0.36 | Точность = 0.899, Полнота = 0.728
Порог = 0.38 | Точность = 0.916, Полнота = 0.696
Порог = 0.40 | Точно

In [117]:
### Регрессия

model_reg = LogisticRegression(random_state = state, solver='lbfgs')
model_reg.fit(features_valid, target_valid)

res_model_reg = model_reg.score(features_valid,target_valid)

probabilities_valid = model_reg.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

for threshold in np.arange(0, 0.81, 0.02):
    predicted_valid = probabilities_one_valid > threshold 
    precision = precision_score(target_valid, predicted_valid)
    recall = recall_score(target_valid, predicted_valid)

    print("Порог = {:.2f} | Точность = {:.3f}, Полнота = {:.3f}".format(
        threshold, precision, recall))
    
print('')    
print('Логистическая регрессия')
print('Accuraty: ', res_model_reg)
print('Precision:', precision_score(target_valid, predicted_valid))
print('Recall:', recall_score(target_valid, predicted_valid))
print("F1:", f1_score(target_valid, prediction_valid))
print("ROC_auc:", roc_auc_score(target_valid, prediction_valid))

Порог = 0.00 | Точность = 0.203, Полнота = 1.000
Порог = 0.02 | Точность = 0.205, Полнота = 1.000
Порог = 0.04 | Точность = 0.219, Полнота = 0.990
Порог = 0.06 | Точность = 0.240, Полнота = 0.963
Порог = 0.08 | Точность = 0.260, Полнота = 0.936
Порог = 0.10 | Точность = 0.279, Полнота = 0.889
Порог = 0.12 | Точность = 0.295, Полнота = 0.842
Порог = 0.14 | Точность = 0.314, Полнота = 0.822
Порог = 0.16 | Точность = 0.335, Полнота = 0.790
Порог = 0.18 | Точность = 0.355, Полнота = 0.760
Порог = 0.20 | Точность = 0.380, Полнота = 0.719
Порог = 0.22 | Точность = 0.389, Полнота = 0.664
Порог = 0.24 | Точность = 0.416, Полнота = 0.632
Порог = 0.26 | Точность = 0.446, Полнота = 0.605
Порог = 0.28 | Точность = 0.469, Полнота = 0.568
Порог = 0.30 | Точность = 0.483, Полнота = 0.528
Порог = 0.32 | Точность = 0.505, Полнота = 0.499
Порог = 0.34 | Точность = 0.525, Полнота = 0.472
Порог = 0.36 | Точность = 0.518, Полнота = 0.425
Порог = 0.38 | Точность = 0.538, Полнота = 0.398
Порог = 0.40 | Точно

При изменении проге результат F1 у всех моделей стал 0.5, Наивысшая точность и полнота у случайного леса равные 1

In [None]:
Вывод:

Лучший результат среди всех показала модель 
с балансным весом классов случайного  леса со следующими показателями: <br>
Лучший результат cлучайного леса F1-меры: 0.6134663341645885 Глубина: 8 n_estimators 351 Roc_auc: 0.7563682805062115
на втором месте<br>
с cлучайного леса c увеличенной выборкой со следующими показателями: <br>
Лучший результат cлучайного леса F1-меры: 0.611260053619303 Глубина: 23 n_estimators 196 Roc_auc: 0.7460582839893184<br>
Остальные модели так и не превысили порог в 0.59

## Тестирование модели

Для работы Будем использовать модель Случайного леса

Поэкспериментируем с параметрами на увеличенной выборке,балансной и смешанной.чтобы получить лучший результат F1-меры

In [126]:
model_forest = RandomForestClassifier(random_state = state,max_depth = 23, n_estimators = 196, n_jobs=-1)
model_forest.fit(features_train_up,target_train_up)
prediction_valid = model_forest.predict(features_valid)
res = model_forest.score(features_valid, target_valid)
F1 = f1_score(target_valid, prediction_valid)
print('F1', F1)
print('результат', res)

F1 0.611260053619303
результат 0.855


In [129]:
best_model = None
best_result = 0
best_est = 0


for est in range(120,500):
    model_forest = RandomForestClassifier(random_state = state,max_depth = depth, n_estimators = est, class_weight='balanced', n_jobs=-1)
    model_forest.fit(features_train,target_train)
    prediction_valid = model_forest.predict(features_valid)
    res = model_forest.score(features_valid, target_valid)
    F1 = f1_score(target_valid, prediction_valid)
    Roc_auc = roc_auc_score(target_valid, prediction_valid)
    print('est',est,'результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
    if best_result < F1:
        Roc_auc_f = Roc_auc
        best_model = model_forest
        best_result = F1
        best_forest_res_blans = best_result
        n_estimators = est

print(' ')        
print('Лучший результат cлучайного леса F1-меры:', best_forest_res_blans, 'n_estimators', n_estimators,'Roc_auc:', Roc_auc_f)

est 120 Глубина: 5 результат 0.792 F1: 0.5772357723577236 Roc_auc 0.7581407949224042
est 121 Глубина: 5 результат 0.791 F1: 0.5760649087221096 Roc_auc 0.7575138356747553
est 122 Глубина: 5 результат 0.7905 F1: 0.5754812563323202 Roc_auc 0.7572003560509308
est 123 Глубина: 5 результат 0.7915 F1: 0.5766497461928933 Roc_auc 0.7578273152985797
est 124 Глубина: 5 результат 0.791 F1: 0.5760649087221096 Roc_auc 0.7575138356747553
est 125 Глубина: 5 результат 0.7905 F1: 0.5754812563323202 Roc_auc 0.7572003560509308
est 126 Глубина: 5 результат 0.7895 F1: 0.5743174924165825 Roc_auc 0.7565733968032818
est 127 Глубина: 5 результат 0.789 F1: 0.5745967741935484 Roc_auc 0.7571810054568675
est 128 Глубина: 5 результат 0.789 F1: 0.5745967741935484 Roc_auc 0.7571810054568675
est 129 Глубина: 5 результат 0.7895 F1: 0.5743174924165825 Roc_auc 0.7565733968032818
est 130 Глубина: 5 результат 0.7895 F1: 0.5751765893037336 Roc_auc 0.757494485080692
est 131 Глубина: 5 результат 0.789 F1: 0.5745967741935484 Ro

In [130]:
best_model = None
best_result = 0
best_est = 0


for est in range(120,500):
    model_forest = RandomForestClassifier(random_state = state,max_depth = depth, n_estimators = est, n_jobs=-1)
    model_forest.fit(features_train_up,target_train_up)
    prediction_valid = model_forest.predict(features_valid)
    res = model_forest.score(features_valid, target_valid)
    F1 = f1_score(target_valid, prediction_valid)
    Roc_auc = roc_auc_score(target_valid, prediction_valid)
    print('est',est, 'результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
    if best_result < F1:
        Roc_auc_f = Roc_auc
        best_model = model_forest
        best_result = F1
        best_forest_res_blans = best_result
        n_estimators = est

print(' ')        
print('Лучший результат cлучайного леса F1-меры:', best_forest_res_blans,'n_estimators', n_estimators,'Roc_auc:', Roc_auc_f)

est 120 Глубина: 5 результат 0.8095 F1: 0.5790055248618784 Roc_auc 0.7488486396532374
est 121 Глубина: 5 результат 0.81 F1: 0.579646017699115 Roc_auc 0.7491621192770619
est 122 Глубина: 5 результат 0.8105 F1: 0.5802879291251384 Roc_auc 0.7494755989008863
est 123 Глубина: 5 результат 0.8105 F1: 0.5802879291251384 Roc_auc 0.7494755989008863
est 124 Глубина: 5 результат 0.811 F1: 0.5809312638580931 Roc_auc 0.7497890785247108
est 125 Глубина: 5 результат 0.8105 F1: 0.5802879291251384 Roc_auc 0.7494755989008863
est 126 Глубина: 5 результат 0.8105 F1: 0.5793562708102109 Roc_auc 0.7485545106234761
est 127 Глубина: 5 результат 0.8095 F1: 0.5790055248618784 Roc_auc 0.7488486396532374
est 128 Глубина: 5 результат 0.81 F1: 0.579646017699115 Roc_auc 0.7491621192770619
est 129 Глубина: 5 результат 0.81 F1: 0.579646017699115 Roc_auc 0.7491621192770619
est 130 Глубина: 5 результат 0.809 F1: 0.5783664459161147 Roc_auc 0.7485351600294129
est 131 Глубина: 5 результат 0.8085 F1: 0.5777287761852259 Roc_au

In [131]:
best_model = None
best_result = 0
best_est = 0


for est in range(120,500):
    model_forest = RandomForestClassifier(random_state = state,max_depth = depth, n_estimators = est, class_weight='balanced', n_jobs=-1)
    model_forest.fit(features_train_up,target_train_up)
    prediction_valid = model_forest.predict(features_valid)
    res = model_forest.score(features_valid, target_valid)
    F1 = f1_score(target_valid, prediction_valid)
    Roc_auc = roc_auc_score(target_valid, prediction_valid)
    print('est',est,'результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
    if best_result < F1:
        Roc_auc_f = Roc_auc
        best_model = model_forest
        best_result = F1
        best_forest_res_blans = best_result
        n_estimators = est

print(' ')        
print('Лучший результат cлучайного леса F1-меры:', best_forest_res_blans,'n_estimators', n_estimators,'Roc_auc:', Roc_auc_f)

est 120 Глубина: 5 результат 0.8095 F1: 0.5790055248618784 Roc_auc 0.7488486396532374
est 121 Глубина: 5 результат 0.81 F1: 0.579646017699115 Roc_auc 0.7491621192770619
est 122 Глубина: 5 результат 0.8105 F1: 0.5802879291251384 Roc_auc 0.7494755989008863
est 123 Глубина: 5 результат 0.8105 F1: 0.5802879291251384 Roc_auc 0.7494755989008863
est 124 Глубина: 5 результат 0.811 F1: 0.5809312638580931 Roc_auc 0.7497890785247108
est 125 Глубина: 5 результат 0.8105 F1: 0.5802879291251384 Roc_auc 0.7494755989008863
est 126 Глубина: 5 результат 0.8105 F1: 0.5793562708102109 Roc_auc 0.7485545106234761
est 127 Глубина: 5 результат 0.8095 F1: 0.5790055248618784 Roc_auc 0.7488486396532374
est 128 Глубина: 5 результат 0.81 F1: 0.579646017699115 Roc_auc 0.7491621192770619
est 129 Глубина: 5 результат 0.81 F1: 0.579646017699115 Roc_auc 0.7491621192770619
est 130 Глубина: 5 результат 0.809 F1: 0.5783664459161147 Roc_auc 0.7485351600294129
est 131 Глубина: 5 результат 0.8085 F1: 0.5777287761852259 Roc_au

In [134]:
for depth in range(5,30):
    for est in range(205,214):
        model_forest = RandomForestClassifier(random_state = state, n_estimators = est, max_depth=depth, n_jobs=-1,class_weight='balanced')
        model_forest.fit(features_train,target_train)
        prediction_valid = model_forest.predict(features_valid)
        res = model_forest.score(features_valid, target_valid)
        F1 = f1_score(target_valid, prediction_valid)
        Roc_auc = roc_auc_score(target_valid, prediction_valid)
        print('est',est, 'Глубина:', depth, 'результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
        if best_result < F1:
            Roc_auc_f = Roc_auc
            best_model = model_forest
            best_result = F1
            best_depth = depth
            best_forest_res_down = best_result
            n_estimators = est

print(' ')        
print('Лучший результат cлучайного леса F1-меры:', best_forest_res_down,'Глубина:', best_depth,'n_estimators', n_estimators,'Roc_auc:', Roc_auc_f)

est 205 Глубина: 5 результат 0.791 F1: 0.5743380855397148 Roc_auc 0.755671659119935
est 206 Глубина: 5 результат 0.7925 F1: 0.5769622833843018 Roc_auc 0.7575331862688185
est 207 Глубина: 5 результат 0.7935 F1: 0.5781409601634321 Roc_auc 0.7581601455164673
est 208 Глубина: 5 результат 0.7935 F1: 0.5790010193679919 Roc_auc 0.7590812337938775
est 209 Глубина: 5 результат 0.793 F1: 0.5775510204081633 Roc_auc 0.7578466658926428
est 210 Глубина: 5 результат 0.7945 F1: 0.5801838610827375 Roc_auc 0.7597081930415264
est 211 Глубина: 5 результат 0.7935 F1: 0.5781409601634321 Roc_auc 0.7581601455164673
est 212 Глубина: 5 результат 0.794 F1: 0.5787321063394683 Roc_auc 0.7584736251402918
est 213 Глубина: 5 результат 0.793 F1: 0.5775510204081633 Roc_auc 0.7578466658926428
est 205 Глубина: 6 результат 0.806 F1: 0.5932914046121592 Roc_auc 0.7659971361120786
est 206 Глубина: 6 результат 0.8055 F1: 0.5926701570680628 Roc_auc 0.7656836564882542
est 207 Глубина: 6 результат 0.8065 F1: 0.5939139559286463 R

In [139]:
best_result = 0
for depth in range(5,10):
    for est in range(347, 355):
        model_forest = RandomForestClassifier(random_state = state, n_estimators = est, max_depth=depth, n_jobs=-1,class_weight='balanced')
        model_forest.fit(features_train,target_train)
        prediction_valid = model_forest.predict(features_valid)
        res = model_forest.score(features_valid, target_valid)
        F1 = f1_score(target_valid, prediction_valid)
        Roc_auc = roc_auc_score(target_valid, prediction_valid)
        print('est',est, 'Глубина:', depth, 'результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
        if best_result < F1:
            Roc_auc_f = Roc_auc
            best_model = model_forest
            best_result = F1
            best_depth = depth
            best_forest_res_down = best_result
            n_estimators = est

print(' ')        
print('Лучший результат cлучайного леса F1-меры:', best_forest_res_down,'Глубина:', best_depth,'n_estimators', n_estimators,'Roc_auc:', Roc_auc_f)

est 347 Глубина: 5 результат 0.7945 F1: 0.5775950668037 Roc_auc 0.756944928209296
est 348 Глубина: 5 результат 0.795 F1: 0.577319587628866 Roc_auc 0.7563373195557104
est 349 Глубина: 5 результат 0.795 F1: 0.5781893004115226 Roc_auc 0.7572584078331205
est 350 Глубина: 5 результат 0.7955 F1: 0.5787847579814623 Roc_auc 0.757571887456945
est 351 Глубина: 5 результат 0.7945 F1: 0.576725025746653 Roc_auc 0.7560238399318858
est 352 Глубина: 5 результат 0.7945 F1: 0.576725025746653 Roc_auc 0.7560238399318858
est 353 Глубина: 5 результат 0.795 F1: 0.577319587628866 Roc_auc 0.7563373195557104
est 354 Глубина: 5 результат 0.7945 F1: 0.576725025746653 Roc_auc 0.7560238399318858
est 347 Глубина: 6 результат 0.8045 F1: 0.5879873551106427 Roc_auc 0.7613723441309648
est 348 Глубина: 6 результат 0.805 F1: 0.5886075949367089 Roc_auc 0.7616858237547892
est 349 Глубина: 6 результат 0.805 F1: 0.5886075949367089 Roc_auc 0.7616858237547892
est 350 Глубина: 6 результат 0.806 F1: 0.5907172995780591 Roc_auc 0.7

In [135]:
best_result = 0
for depth in range(5,30):
    for est in range(175,190):
        model_forest = RandomForestClassifier(random_state = state, n_estimators = est, max_depth=depth, n_jobs=-1)
        model_forest.fit(features_train_up,target_train_up)
        prediction_valid = model_forest.predict(features_valid)
        res = model_forest.score(features_valid, target_valid)
        F1 = f1_score(target_valid, prediction_valid)
        Roc_auc = roc_auc_score(target_valid, prediction_valid)
        print('est',est,'Глубина:', depth, 'результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
        if best_result < F1:
            Roc_auc_f = Roc_auc
            best_model = model_forest
            best_result = F1
            best_depth = depth
            best_forest_res_down = best_result
            n_estimators = est

print(' ')        
print('Лучший результат cлучайного леса F1-меры:', best_forest_res_down,'Глубина:', best_depth,'n_estimators', n_estimators,'Roc_auc:', Roc_auc_f)

est 175 Глубина: 5 результат 0.808 F1: 0.5780219780219781 Roc_auc 0.7488292890591741
est 176 Глубина: 5 результат 0.809 F1: 0.5802197802197803 Roc_auc 0.7503773365842332
est 177 Глубина: 5 результат 0.809 F1: 0.5802197802197803 Roc_auc 0.7503773365842332
est 178 Глубина: 5 результат 0.8095 F1: 0.580858085808581 Roc_auc 0.7506908162080577
est 179 Глубина: 5 результат 0.8095 F1: 0.5826944140197152 Roc_auc 0.7525329927628778
est 180 Глубина: 5 результат 0.81 F1: 0.5833333333333334 Roc_auc 0.7528464723867022
est 181 Глубина: 5 результат 0.81 F1: 0.5833333333333334 Roc_auc 0.7528464723867022
est 182 Глубина: 5 результат 0.8095 F1: 0.5817782656421514 Roc_auc 0.7516119044854677
est 183 Глубина: 5 результат 0.81 F1: 0.5833333333333334 Roc_auc 0.7528464723867022
est 184 Глубина: 5 результат 0.809 F1: 0.5802197802197803 Roc_auc 0.7503773365842332
est 185 Глубина: 5 результат 0.8085 F1: 0.5786578657865786 Roc_auc 0.7491427686829986
est 186 Глубина: 5 результат 0.808 F1: 0.5770925110132159 Roc_auc

In [136]:
best_result = 0
for depth in range(10,30):
    for est in range(170,190):
        model_forest = RandomForestClassifier(random_state = state, n_estimators = est, max_depth=depth, n_jobs=-1, class_weight='balanced')
        model_forest.fit(features_train_up,target_train_up)
        prediction_valid = model_forest.predict(features_valid)
        res = model_forest.score(features_valid, target_valid)
        F1 = f1_score(target_valid, prediction_valid)
        Roc_auc = roc_auc_score(target_valid, prediction_valid)
        print('est',est,'Глубина:', depth, 'результат', res, "F1:", F1, 'Roc_auc', Roc_auc)  
        if best_result < F1:
            Roc_auc_f = Roc_auc
            best_model = model_forest
            best_result = F1
            best_depth = depth
            best_forest_res_down = best_result
            n_estimators = est

print(' ')        
print('Лучший результат cлучайного леса F1-меры:', best_forest_res_down,'Глубина:', best_depth,'n_estimators', n_estimators,'Roc_auc:', Roc_auc_f)

est 170 Глубина: 10 результат 0.834 F1: 0.5951219512195123 Roc_auc 0.7476295522272535
est 171 Глубина: 10 результат 0.8345 F1: 0.5958485958485958 Roc_auc 0.7479430318510778
est 172 Глубина: 10 результат 0.8335 F1: 0.5934065934065934 Roc_auc 0.7463949843260189
est 173 Глубина: 10 результат 0.833 F1: 0.5926829268292683 Roc_auc 0.7460815047021944
est 174 Глубина: 10 результат 0.834 F1: 0.5941320293398533 Roc_auc 0.7467084639498434
est 175 Глубина: 10 результат 0.8345 F1: 0.594859241126071 Roc_auc 0.7470219435736678
est 176 Глубина: 10 результат 0.8335 F1: 0.5934065934065934 Roc_auc 0.7463949843260189
est 177 Глубина: 10 результат 0.833 F1: 0.5926829268292683 Roc_auc 0.7460815047021944
est 178 Глубина: 10 результат 0.8335 F1: 0.5934065934065934 Roc_auc 0.7463949843260189
est 179 Глубина: 10 результат 0.834 F1: 0.5941320293398533 Roc_auc 0.7467084639498434
est 180 Глубина: 10 результат 0.834 F1: 0.5941320293398533 Roc_auc 0.7467084639498434
est 181 Глубина: 10 результат 0.8335 F1: 0.5934065

In [None]:
Лучший результат cлучайного леса с ув.выборкой и балансом классов F1-меры: 0.6111111111111112 Глубина: 24 n_estimators 181 Roc_auc: 0.7475676303262511

In [None]:
Возмем модель Случайного леса с увеличенной выборкой и балансом классов и подберем ей остальные гипер параметры.

In [None]:
Изменим гиперпараметр min_samples_split.

In [145]:
best_f1= 0
sam_n = 0
for samples in range(2, 30):
    model_forest =  RandomForestClassifier(random_state = state, n_estimators = 181, max_depth=24, min_samples_split = samples, n_jobs=-1,class_weight='balanced')
    model_forest.fit(features_train_up, target_train_up)
    prediction_valid = model_forest.predict(features_valid)
    res = model_forest.score(features_valid, target_valid)
    F1 = f1_score(target_valid, prediction_valid)
    print('Samples_split', samples,'accuraty', res, 'f1',f1 )
    if best_f1 < f1:
        sam_n = samples
        best_f1 = f1Best_samples_split
print( )
print('', sam_n, 'F1 =', best_f1)


Samples_split 2 accuraty 0.853 f1 0.605296343001261
Samples_split 3 accuraty 0.8505 f1 0.605296343001261
Samples_split 4 accuraty 0.849 f1 0.605296343001261
Samples_split 5 accuraty 0.8485 f1 0.605296343001261
Samples_split 6 accuraty 0.8475 f1 0.605296343001261
Samples_split 7 accuraty 0.8445 f1 0.605296343001261
Samples_split 8 accuraty 0.849 f1 0.605296343001261
Samples_split 9 accuraty 0.8465 f1 0.605296343001261
Samples_split 10 accuraty 0.8475 f1 0.605296343001261
Samples_split 11 accuraty 0.846 f1 0.605296343001261
Samples_split 12 accuraty 0.848 f1 0.605296343001261
Samples_split 13 accuraty 0.8415 f1 0.605296343001261
Samples_split 14 accuraty 0.844 f1 0.605296343001261
Samples_split 15 accuraty 0.84 f1 0.605296343001261
Samples_split 16 accuraty 0.8445 f1 0.605296343001261
Samples_split 17 accuraty 0.842 f1 0.605296343001261
Samples_split 18 accuraty 0.8435 f1 0.605296343001261
Samples_split 19 accuraty 0.8415 f1 0.605296343001261
Samples_split 20 accuraty 0.8435 f1 0.6052963

In [None]:
Изменим гиперпараметр min_samples_leaf.

In [147]:
best_est = 0
best_min_samples_leaf = 0
sam_l = 0
best_f1 = 0

for samples_leaf in range(1, 50):
    model =  RandomForestClassifier(random_state = state, n_estimators = 181, max_depth=24,,class_weight='balanced'
                                   min_samples_leaf = samples_leaf)
    model.fit(features_train_up, target_train_up)
    predicted_valid = model.predict(features_valid)
    res = model.score(features_valid, target_valid)
    f1 = f1_score(target_valid, predicted_valid)
    print('samples_leaf', samples_leaf,'accuraty', res, 'f1',f1 )
    if best_f1 < f1:
        sam_l = samples_leaf
        best_f1 = f1
print( )
print('Best_samples_leaf', sam_l, 'F1 =', best_f1)


samples_leaf 1 accuraty 0.853 f1 0.6111111111111112
samples_leaf 2 accuraty 0.845 f1 0.5921052631578948
samples_leaf 3 accuraty 0.8415 f1 0.5941101152368758
samples_leaf 4 accuraty 0.84 f1 0.5918367346938775
samples_leaf 5 accuraty 0.8395 f1 0.5982478097622028
samples_leaf 6 accuraty 0.8395 f1 0.6032138442521633
samples_leaf 7 accuraty 0.835 f1 0.5965770171149144
samples_leaf 8 accuraty 0.8355 f1 0.596319018404908
samples_leaf 9 accuraty 0.835 f1 0.5985401459854014
samples_leaf 10 accuraty 0.833 f1 0.5966183574879227
samples_leaf 11 accuraty 0.8335 f1 0.5992779783393503
samples_leaf 12 accuraty 0.837 f1 0.6100478468899523
samples_leaf 13 accuraty 0.8325 f1 0.5978391356542616
samples_leaf 14 accuraty 0.8355 f1 0.6069295101553166
samples_leaf 15 accuraty 0.8315 f1 0.5983313468414779
samples_leaf 16 accuraty 0.8265 f1 0.593200468933177
samples_leaf 17 accuraty 0.8295 f1 0.5954922894424675
samples_leaf 18 accuraty 0.828 f1 0.6
samples_leaf 19 accuraty 0.826 f1 0.5925058548009368
samples_le

In [152]:
best_est = 0
best_min_samples_leaf = 0
sam_l = 0
best_f1 = 0

for samples in range(2, 50):
    model =  RandomForestClassifier(random_state = state, n_estimators = 181, max_depth=24, class_weight='balanced', min_samples_split = samples, min_samples_leaf = 1)
    model.fit(features_train_up, target_train_up)
    predicted_valid = model.predict(features_valid)
    res = model.score(features_valid, target_valid)
    f1 = f1_score(target_valid, predicted_valid)
    print('Samples_split', samples,'accuraty', res, 'f1',f1 )
    if best_f1 < f1:
        sam_n = samples
        best_f1 = f1
print( )
print('Best_samples_split', sam_n, 'F1 =', best_f1)

Samples_split 2 accuraty 0.853 f1 0.6111111111111112
Samples_split 3 accuraty 0.8505 f1 0.5986577181208054
Samples_split 4 accuraty 0.849 f1 0.5973333333333333
Samples_split 5 accuraty 0.8485 f1 0.596537949400799
Samples_split 6 accuraty 0.8475 f1 0.594953519256308
Samples_split 7 accuraty 0.8445 f1 0.5913272010512484
Samples_split 8 accuraty 0.849 f1 0.6026315789473683
Samples_split 9 accuraty 0.8465 f1 0.5986928104575162
Samples_split 10 accuraty 0.8475 f1 0.6002621231979031
Samples_split 11 accuraty 0.846 f1 0.6
Samples_split 12 accuraty 0.848 f1 0.6041666666666667
Samples_split 13 accuraty 0.8415 f1 0.5930680359435173
Samples_split 14 accuraty 0.844 f1 0.6000000000000001
Samples_split 15 accuraty 0.84 f1 0.5907928388746804
Samples_split 16 accuraty 0.8445 f1 0.600770218228498
Samples_split 17 accuraty 0.842 f1 0.5969387755102041
Samples_split 18 accuraty 0.8435 f1 0.602287166454892
Samples_split 19 accuraty 0.8415 f1 0.5972045743329097
Samples_split 20 accuraty 0.8435 f1 0.60329531

Протестируем модель.

Посмотрим как ведет себя модель на тестовой выборке

In [162]:
model = RandomForestClassifier(random_state = state, n_estimators = 181, max_depth=25, min_samples_split=2, class_weight='balanced',
                                   min_samples_leaf = 1 )
model.fit(features_train_up, target_train_up)
predicted_valid = model.predict(features_test)
res = model.score(features_test, target_test)
Roc_auc = roc_auc_score(target_test, predicted_valid)
F1 = f1_score(target_test, predicted_valid)
dummy_pred = dummy_model.predict(features_valid)
print('F1', F1)
print('Roc_auc', Roc_auc)
print('результат', res)

F1 0.5974025974025973
Roc_auc 0.7437499999999999
результат 0.845


Вывод: Результат F1-меры на тестовой выборке больше 0.59 достигнут.

## Вывод

В данном проекте мы избавились от фиктивных признаков не влияющих на обучение моделей,<br>
обработали пропуски(пропуски заполнены медианным значениям) и проревели преобразование типов данных,<br>
привели категориальные признаки к числовому типу,<br>
избежали ловушки фиктивных признаков,<br>
провели масштабирование признаков,<br>
исследование моделей(Модель логистической регрессии, Модель дерева решений, Модель случайного леса)<br>
проверили исследование баланса классов,<br>
установлен дисбаланс классов и проведена работа по его устранению,<br>
провели подбор гиперпараметров <br>
определили лучшею модель,<br>
провели тестирование лучшей модели.<br>


Мы добились решения поставленной задачи, используя методы борьбы с дисбалансом классов. <br>
Увеличение выборки и баланс классов помог решить поставленную задачу. <br>
Модель со следующими параметрами:<br>
RandomForestClassifier (random_state = state, n_estimators = 181, max_depth=25,<br>
                                                   min_samples_split=2, class_weight='balanced',min_samples_leaf = 1 )<br>
Также мы получили не плохое значите AUC-ROC = 0.74375<br>
Результат предсказания случайной модели 0.2, мы добились лучшего результата 0.845<br>
Успешно решили поставленную перед нами задачу
