In [1]:
#импорт библиотек
import numpy as np #для матричных вычислений
import pandas as pd #для анализа и предобработки данных
import matplotlib.pyplot as plt #для визуализации
import seaborn as sns #для визуализации

from sklearn import linear_model #линейные моделиё
from sklearn import tree #деревья решений
from sklearn import ensemble #ансамбли
from sklearn import metrics #метрики
from sklearn import preprocessing #предобработка
from sklearn.model_selection import train_test_split #сплитование выборки

from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV

from sklearn.model_selection import cross_val_score
import hyperopt
from hyperopt import hp, fmin, tpe, Trials, STATUS_OK

import optuna

%matplotlib inline

from colorama import Fore, Back, Style
pd.set_option('display.max_colwidth', None)
pd.set_option('display.float_format', '{:.3f}'.format)

import warnings
warnings.filterwarnings("ignore")

# Данные

In [2]:
data = pd.read_csv('data/_train_sem09 (1).csv')

In [3]:
data.head(2)

Unnamed: 0,Activity,D1,D2,D3,D4,D5,D6,D7,D8,D9,...,D1767,D1768,D1769,D1770,D1771,D1772,D1773,D1774,D1775,D1776
0,1,0.0,0.497,0.1,0.0,0.133,0.678,0.273,0.585,0.744,...,0,0,0,0,0,0,0,0,0,0
1,1,0.367,0.606,0.05,0.0,0.111,0.803,0.106,0.412,0.837,...,1,1,1,1,0,1,0,0,1,0


In [4]:
data.shape

(3751, 1777)

In [5]:
# Подготовка данных для следующей работы
X = data.drop(['D1776'], axis=1)
y = data['D1776']

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state = 1, test_size = 0.2)

In [6]:
# В данную переменную буду сохранять результаты моделей [f1_train, f1_test, название]
f1_score_results = []
# Константы часто используемых параметров
RANDOM_STATE = 42
MAX_ITER = 500

In [7]:

def printAndSaveModelResults(model, methodName):
  """функция для вывода результатов score для train и test 
     и также для сохранения этих значений для последующего использования
  Args:
      model (model): Ссылка на обучепнную модель
      methodName (string): Название примененной модели
  """
  y_train_pred = model.predict(X_train)
  metrics_train = metrics.f1_score(y_train, y_train_pred).round(6)
  print(f"{Fore.LIGHTBLUE_EX}f1_score на тренировочном наборе: {Fore.LIGHTGREEN_EX}{metrics_train:.3f}{Fore.RESET}")
  y_test_pred = model.predict(X_test)
  metrics_test = metrics.f1_score(y_test, y_test_pred).round(6)
  print(f"{Fore.LIGHTBLUE_EX}f1_score на тестовом наборе: {Fore.LIGHTGREEN_EX}{metrics_test:.3f}{Fore.RESET}")

  f1_score_results.append({'result_train': metrics_train,
                           'result_test': metrics_test,
                          'method': methodName})

# Моделирование

Зафиксируем только метрики, которые были получены без дополнительной настройки, т.е со значениями гиперпараметров, установленных по умолчанию:

## Логистическая регрессия

In [8]:
#Создаем объект класса логистическая регрессия
log_reg = linear_model.LogisticRegression(max_iter = MAX_ITER)
#Обучаем модель, минимизируя logloss
log_reg.fit(X_train, y_train)

printAndSaveModelResults(log_reg,'LogisticRegression native')



[94mf1_score на тренировочном наборе: [92m1.000[39m
[94mf1_score на тестовом наборе: [92m0.824[39m


## Случайный лес

In [9]:
#Создаем объект класса случайный лес
rf = ensemble.RandomForestClassifier(random_state=RANDOM_STATE)

#Обучаем модель
rf.fit(X_train, y_train)

printAndSaveModelResults(rf,'RandomForestClassifier native')

[94mf1_score на тренировочном наборе: [92m1.000[39m
[94mf1_score на тестовом наборе: [92m0.857[39m


# Оптимизация гиперпараметров модели

### **GridSearchCV**

#### Логистическая регрессия

In [10]:
param_grid = {'penalty': ['l2', None] ,
              'solver': ['lbfgs', 'sag'],
               'C': list(np.linspace(0.01, 10, 10, dtype=float))},

grid_search = GridSearchCV(
    estimator=linear_model.LogisticRegression(random_state=RANDOM_STATE, max_iter=MAX_ITER), 
    param_grid=param_grid, 
    cv=5, 
    n_jobs = -1
)  

%time grid_search.fit(X_train, y_train) 

printAndSaveModelResults(grid_search,'LogisticRegression GridSearch Optimization')

print(f"{Fore.LIGHTBLUE_EX} Наилучшие значения гиперпараметров: {Fore.LIGHTGREEN_EX}{grid_search.best_params_}{Fore.RESET}")


CPU times: total: 26.3 s
Wall time: 2min 20s
[94mf1_score на тренировочном наборе: [92m1.000[39m
[94mf1_score на тестовом наборе: [92m0.824[39m
[94m Наилучшие значения гиперпараметров: [92m{'C': 0.01, 'penalty': None, 'solver': 'sag'}[39m


#### Случайный лес

In [11]:
param_grid = {'n_estimators': list(range(100, 500, 50)),
              'min_samples_leaf': [3,5,7],
              'max_depth': list(np.linspace(2, 40, 5, dtype=int))
              }
            
grid_search_forest = GridSearchCV(
    estimator=ensemble.RandomForestClassifier(random_state=RANDOM_STATE), 
    param_grid=param_grid, 
    cv=5, 
    n_jobs = -1
)  
%time grid_search_forest.fit(X_train, y_train) 

printAndSaveModelResults(grid_search_forest,'RandomForestClassifier GridSearch Optimization')

print(f"{Fore.LIGHTBLUE_EX}Наилучшие значения гиперпараметров: {Fore.LIGHTGREEN_EX}{grid_search_forest.best_params_}{Fore.RESET}")



CPU times: total: 4.56 s
Wall time: 36.1 s
[94mf1_score на тренировочном наборе: [92m0.985[39m
[94mf1_score на тестовом наборе: [92m0.769[39m
[94mНаилучшие значения гиперпараметров: [92m{'max_depth': 11, 'min_samples_leaf': 3, 'n_estimators': 350}[39m


### **RandomizedSearchCV**

#### Логистическая регрессия

In [12]:
param_distributions = {'penalty': ['l2', None] ,
              'solver': ['lbfgs', 'sag'],
               'C': list(np.linspace(0.01, 1, 10, dtype=float))},
            
random_search = RandomizedSearchCV(
    estimator=linear_model.LogisticRegression(random_state=RANDOM_STATE, max_iter=MAX_ITER), 
    param_distributions=param_distributions, 
    cv=5, 
    n_iter = 10, 
    n_jobs = -1
)  
%time random_search.fit(X_train, y_train) 

printAndSaveModelResults(random_search,'LogisticRegression RandomSearch Optimization')

print(f"{Fore.LIGHTBLUE_EX} Наилучшие значения гиперпараметров: {Fore.LIGHTGREEN_EX}{random_search.best_params_}{Fore.RESET}")



CPU times: total: 25.5 s
Wall time: 1min 1s
[94mf1_score на тренировочном наборе: [92m1.000[39m
[94mf1_score на тестовом наборе: [92m0.875[39m
[94m Наилучшие значения гиперпараметров: [92m{'solver': 'sag', 'penalty': 'l2', 'C': 0.89}[39m


#### Случайный лес

In [13]:
param_distributions = {'n_estimators': list(range(100, 500, 50)),
              'min_samples_leaf': [3,5,7],
              'max_depth': list(np.linspace(2, 40, 5, dtype=int))
              }
            
random_search_forest = RandomizedSearchCV(
    estimator = ensemble.RandomForestClassifier(random_state=RANDOM_STATE), 
    param_distributions=param_distributions, 
    cv=5, 
    n_iter = 50, 
    n_jobs = -1
)  
%time random_search_forest.fit(X_train, y_train) 

printAndSaveModelResults(random_search_forest,'RandomForestClassifier RandomSearch Optimization')

print(f"{Fore.LIGHTBLUE_EX} Наилучшие значения гиперпараметров: {Fore.LIGHTGREEN_EX}{random_search_forest.best_params_}{Fore.RESET}")



CPU times: total: 3.05 s
Wall time: 16.6 s
[94mf1_score на тренировочном наборе: [92m0.985[39m
[94mf1_score на тестовом наборе: [92m0.769[39m
[94m Наилучшие значения гиперпараметров: [92m{'n_estimators': 350, 'min_samples_leaf': 3, 'max_depth': 21}[39m


### **Hyperopt**

##### Подготовка функций для расчета

In [14]:
# Как то hyperopt не зажелал норм работать с hp.не помню как, поэтому триканул с hp.choice
# обьявил отдельно, так как в предсказании, метод выдает индексы категорий, а не сами категории,
# поэтому обьявил параметры отдельными переменными
penalty = ['l2', None]
solver = ['lbfgs', 'sag']
C = np.arange(.1,1.1,.1)

space = {'penalty': hp.choice('penalty', penalty) ,
          'solver': hp.choice('solver', solver),
          'C': hp.choice('C', C)
          }

scoreCalc = 'standard'
modelType = 'logReg'

In [15]:
def hyperparameter_tuning(params):
    """Функция для проведения оптимизации библиотекой Hyperopt
       так же внутри проверяем для какого типа модели провести гиперпараметризацию 
       и с кроссвалидацией или без 
    Args:
        params (params): Обьект с параметрами для обучения

    Returns:
        object: Обьект с результатом 
    """
    if modelType =='logReg':
        model = linear_model.LogisticRegression(**params, random_state=RANDOM_STATE, max_iter=MAX_ITER,n_jobs=-1)
    elif modelType == 'ranFor':
        model = ensemble.RandomForestClassifier(**params, random_state=RANDOM_STATE, n_jobs=-1)
    if scoreCalc == 'standard':
        model.fit(X_train, y_train)
        score = metrics.f1_score(y_test, model.predict(X_test))
    elif scoreCalc == 'cross':
        score = cross_val_score(model, X_train, y_train, cv = 5, scoring="f1", n_jobs = -1).mean()
    return {"loss": -score, "status": STATUS_OK}

#### Логистическая регрессия

##### Стандартный расчет score

In [16]:
# Initialize trials object
trials = Trials()

best = fmin(
    fn=hyperparameter_tuning,
    space = space, 
    algo=tpe.suggest, 
    max_evals=10, 
    trials=trials
)


100%|██████████| 10/10 [01:51<00:00, 11.15s/trial, best loss: -0.9333333333333333]


In [17]:
log_reg_Hyperopt = linear_model.LogisticRegression(
    random_state=RANDOM_STATE, 
    penalty=penalty[int(best['penalty'])],
    solver=solver[int(best['solver'])],
    C=C[int(best['C'])]
)

#Обучаем модель
log_reg_Hyperopt.fit(X_train, y_train)

printAndSaveModelResults(log_reg_Hyperopt,'LogisticRegression Hyperopt Optimization')

[94mf1_score на тренировочном наборе: [92m1.000[39m
[94mf1_score на тестовом наборе: [92m0.933[39m


##### Кросс-валидация

In [18]:
# Initialize trials object
scoreCalc = 'cross'

trials = Trials()

best = fmin(
    fn=hyperparameter_tuning,
    space = space, 
    algo=tpe.suggest, 
    max_evals=10, 
    trials=trials
)


100%|██████████| 10/10 [02:04<00:00, 12.45s/trial, best loss: -0.7050727050727051]


In [19]:
log_reg_Hyperopt_cross = linear_model.LogisticRegression(
    random_state=RANDOM_STATE, 
    penalty=penalty[int(best['penalty'])],
    solver=solver[int(best['solver'])],
    C=C[int(best['C'])]
)

#Обучаем модель
log_reg_Hyperopt_cross.fit(X_train, y_train)

printAndSaveModelResults(log_reg_Hyperopt_cross,'LogisticRegression Hyperopt Optimization with Cross Validation')

[94mf1_score на тренировочном наборе: [92m1.000[39m
[94mf1_score на тестовом наборе: [92m0.875[39m


#### Случайный лес

In [20]:
n_estimators = np.arange(100, 500, 2, dtype = int)
max_depth = np.arange(15, 26, 1, dtype = int)
min_samples_leaf = np.arange(2, 11, 1, dtype=int)

# зададим пространство поиска гиперпараметров
space={'n_estimators': hp.choice('n_estimators', n_estimators ),
       'max_depth' : hp.choice('max_depth', max_depth),
       'min_samples_leaf': hp.choice('min_samples_leaf', min_samples_leaf)
      }
scoreCalc = 'standard'
modelType = 'ranFor'

##### Стандартный расчет score

In [21]:
# Initialize trials object
trials = Trials()

best = fmin(
    fn=hyperparameter_tuning,
    space = space, 
    algo=tpe.suggest, 
    max_evals=10, 
    trials=trials
)

100%|██████████| 10/10 [00:06<00:00,  1.55trial/s, best loss: -0.8571428571428571]


In [22]:
rf_Hyperopt = ensemble.RandomForestClassifier(
    random_state=RANDOM_STATE, 
    n_estimators=n_estimators[int(best['n_estimators'])],
    max_depth=max_depth[int(best['max_depth'])],
    min_samples_leaf=min_samples_leaf[int(best['min_samples_leaf'])],
)

#Обучаем модель
rf_Hyperopt.fit(X_train, y_train)

printAndSaveModelResults(rf_Hyperopt,'RandomForestClassifier Hyperopt Optimization')

[94mf1_score на тренировочном наборе: [92m1.000[39m
[94mf1_score на тестовом наборе: [92m0.857[39m


##### Кросс-валидация

In [23]:
scoreCalc = 'cross'
# Initialize trials object
trials = Trials()

best = fmin(
    fn=hyperparameter_tuning,
    space = space, 
    algo=tpe.suggest, 
    max_evals=10, 
    trials=trials
)

100%|██████████| 10/10 [00:14<00:00,  1.49s/trial, best loss: -0.48666666666666664]


In [24]:
rf_Hyperopt_cross = ensemble.RandomForestClassifier(
    random_state=RANDOM_STATE, 
    n_estimators=n_estimators[int(best['n_estimators'])],
    max_depth=max_depth[int(best['max_depth'])],
    min_samples_leaf=min_samples_leaf[int(best['min_samples_leaf'])],
)

#Обучаем модель
rf_Hyperopt_cross.fit(X_train, y_train)

printAndSaveModelResults(rf_Hyperopt_cross,'RandomForestClassifier Hyperopt Optimization with Crossvalidation')

[94mf1_score на тренировочном наборе: [92m0.985[39m
[94mf1_score на тестовом наборе: [92m0.769[39m


## Optuna

##### Подготовка функций для расчета

In [25]:
scoreCalc = 'standard'
modelType = 'logReg'

In [26]:
def optuna_optimize(trial):
  
  # задаем пространства поиска гиперпараметров
  if modelType == 'logReg':
    penalty = ['l2', None]
    solver = ['lbfgs', 'sag']
    C = np.arange(.1,1.1,.1)
  
    penalty=trial.suggest_categorical('penalty', penalty)
    solver=trial.suggest_categorical('solver',solver)
    C=trial.suggest_categorical('C',C)
    
    model = linear_model.LogisticRegression(
      penalty = penalty,
      solver = solver,
      C = C,
      random_state = RANDOM_STATE,
    )

  elif modelType == 'ranFor':
    n_estimators = trial.suggest_int('n_estimators', 100, 310, 10)
    min_samples_leaf = trial.suggest_int('min_samples_leaf', 3, 7, 1)
    max_depth = trial.suggest_int('max_depth', 15, 40, 1)

    # создаем модель
    model = ensemble.RandomForestClassifier(n_estimators=n_estimators,
                                          max_depth=max_depth,
                                          min_samples_leaf=min_samples_leaf,
                                          random_state=RANDOM_STATE)
  # обучаем модель
  if scoreCalc == 'standard':
    model.fit(X_train, y_train)
    score = metrics.f1_score(y_train, model.predict(X_train))
  elif scoreCalc == 'cross':
      score = cross_val_score(model, X_train, y_train, cv = 5, scoring="f1", n_jobs = -1).mean()  
  return score

#### Логистическая регрессия

##### Стандартный расчет score

In [27]:
%time

# cоздаем объект исследования
# можем напрямую указать, что нам необходимо максимизировать метрику direction="maximize"
study_logreg = optuna.create_study(study_name="LogisticRegression Optuna Optimization", direction="maximize")
# ищем лучшую комбинацию гиперпараметров n_trials раз
study_logreg.optimize(optuna_optimize, n_trials=20)

# выводим результаты на обучающей выборке
print("Наилучшие значения гиперпараметров {}".format(study_logreg.best_params))
print("f1_score на обучающем наборе: {:.2f}".format(study_logreg.best_value))

[32m[I 2023-04-20 19:43:16,032][0m A new study created in memory with name: LogisticRegression Optuna Optimization[0m


CPU times: total: 0 ns
Wall time: 0 ns


[32m[I 2023-04-20 19:43:21,183][0m Trial 0 finished with value: 1.0 and parameters: {'penalty': None, 'solver': 'sag', 'C': 0.30000000000000004}. Best is trial 0 with value: 1.0.[0m
[32m[I 2023-04-20 19:43:26,393][0m Trial 1 finished with value: 1.0 and parameters: {'penalty': 'l2', 'solver': 'sag', 'C': 0.8}. Best is trial 0 with value: 1.0.[0m
[32m[I 2023-04-20 19:43:31,552][0m Trial 2 finished with value: 1.0 and parameters: {'penalty': None, 'solver': 'sag', 'C': 1.0}. Best is trial 0 with value: 1.0.[0m
[32m[I 2023-04-20 19:43:31,823][0m Trial 3 finished with value: 1.0 and parameters: {'penalty': None, 'solver': 'lbfgs', 'C': 0.4}. Best is trial 0 with value: 1.0.[0m
[32m[I 2023-04-20 19:43:36,959][0m Trial 4 finished with value: 1.0 and parameters: {'penalty': None, 'solver': 'sag', 'C': 0.7000000000000001}. Best is trial 0 with value: 1.0.[0m
[32m[I 2023-04-20 19:43:42,436][0m Trial 5 finished with value: 1.0 and parameters: {'penalty': 'l2', 'solver': 'sag', '

Наилучшие значения гиперпараметров {'penalty': None, 'solver': 'sag', 'C': 0.30000000000000004}
f1_score на обучающем наборе: 1.00


In [28]:
# рассчитаем точность для тестовой выборки
model = linear_model.LogisticRegression(**study_logreg.best_params,random_state=RANDOM_STATE, )
model.fit(X_train, y_train)

printAndSaveModelResults(model,'LogisticRegression Optuna Optimization')

[94mf1_score на тренировочном наборе: [92m1.000[39m
[94mf1_score на тестовом наборе: [92m0.824[39m


##### Кросс-валидация

In [29]:
%time

scoreCalc = "cross"
# cоздаем объект исследования
# можем напрямую указать, что нам необходимо максимизировать метрику direction="maximize"
study_logreg_cross = optuna.create_study(study_name="LogisticRegression Optuna Optimization with Cross Validation", direction="maximize")
# ищем лучшую комбинацию гиперпараметров n_trials раз
study_logreg_cross.optimize(optuna_optimize, n_trials=20)

# выводим результаты на обучающей выборке
print("Наилучшие значения гиперпараметров {}".format(study_logreg_cross.best_params))
print("f1_score на обучающем наборе: {:.2f}".format(study_logreg_cross.best_value))

[32m[I 2023-04-20 19:44:40,985][0m A new study created in memory with name: LogisticRegression Optuna Optimization with Cross Validation[0m


CPU times: total: 0 ns
Wall time: 0 ns


[32m[I 2023-04-20 19:44:42,614][0m Trial 0 finished with value: 0.5867832167832168 and parameters: {'penalty': 'l2', 'solver': 'lbfgs', 'C': 0.7000000000000001}. Best is trial 0 with value: 0.5867832167832168.[0m
[32m[I 2023-04-20 19:44:43,827][0m Trial 1 finished with value: 0.6110256410256409 and parameters: {'penalty': 'l2', 'solver': 'lbfgs', 'C': 0.8}. Best is trial 1 with value: 0.6110256410256409.[0m
[32m[I 2023-04-20 19:44:45,194][0m Trial 2 finished with value: 0.6110256410256409 and parameters: {'penalty': 'l2', 'solver': 'lbfgs', 'C': 0.9}. Best is trial 1 with value: 0.6110256410256409.[0m
[32m[I 2023-04-20 19:44:50,430][0m Trial 3 finished with value: 0.5976923076923077 and parameters: {'penalty': 'l2', 'solver': 'sag', 'C': 0.1}. Best is trial 1 with value: 0.6110256410256409.[0m
[32m[I 2023-04-20 19:44:51,349][0m Trial 4 finished with value: 0.691046731046731 and parameters: {'penalty': None, 'solver': 'lbfgs', 'C': 0.6}. Best is trial 4 with value: 0.69104

Наилучшие значения гиперпараметров {'penalty': 'l2', 'solver': 'sag', 'C': 0.6}
f1_score на обучающем наборе: 0.71


In [30]:
# рассчитаем точность для тестовой выборки
model = linear_model.LogisticRegression(**study_logreg_cross.best_params,random_state=RANDOM_STATE, )
model.fit(X_train, y_train)

printAndSaveModelResults(model,'LogisticRegression Optuna Optimization with Cross Validation')

[94mf1_score на тренировочном наборе: [92m1.000[39m
[94mf1_score на тестовом наборе: [92m0.875[39m


#### Случайный лес

##### Стандартный расчет score

In [31]:
%time

scoreCalc = "standard"
modelType = "ranFor"
# cоздаем объект исследования
# можем напрямую указать, что нам необходимо максимизировать метрику direction="maximize"
study_ranFor = optuna.create_study(study_name="RandomForestClassifier Optuna Optimization", direction="maximize")
# ищем лучшую комбинацию гиперпараметров n_trials раз
study_ranFor.optimize(optuna_optimize, n_trials=20)

# выводим результаты на обучающей выборке
print("Наилучшие значения гиперпараметров {}".format(study_ranFor.best_params))
print("f1_score на обучающем наборе: {:.2f}".format(study_ranFor.best_value))

[32m[I 2023-04-20 19:45:57,288][0m A new study created in memory with name: RandomForestClassifier Optuna Optimization[0m


CPU times: total: 0 ns
Wall time: 0 ns


[32m[I 2023-04-20 19:45:58,276][0m Trial 0 finished with value: 0.7931034482758621 and parameters: {'n_estimators': 160, 'min_samples_leaf': 6, 'max_depth': 18}. Best is trial 0 with value: 0.7931034482758621.[0m
[32m[I 2023-04-20 19:45:59,477][0m Trial 1 finished with value: 0.6538461538461539 and parameters: {'n_estimators': 210, 'min_samples_leaf': 7, 'max_depth': 32}. Best is trial 0 with value: 0.7931034482758621.[0m
[32m[I 2023-04-20 19:46:00,611][0m Trial 2 finished with value: 0.8524590163934426 and parameters: {'n_estimators': 190, 'min_samples_leaf': 5, 'max_depth': 32}. Best is trial 2 with value: 0.8524590163934426.[0m
[32m[I 2023-04-20 19:46:01,435][0m Trial 3 finished with value: 0.955223880597015 and parameters: {'n_estimators': 130, 'min_samples_leaf': 4, 'max_depth': 30}. Best is trial 3 with value: 0.955223880597015.[0m
[32m[I 2023-04-20 19:46:02,990][0m Trial 4 finished with value: 0.8709677419354839 and parameters: {'n_estimators': 270, 'min_samples_le

Наилучшие значения гиперпараметров {'n_estimators': 230, 'min_samples_leaf': 3, 'max_depth': 40}
f1_score на обучающем наборе: 0.99


In [32]:
# рассчитаем точность для тестовой выборки
model = ensemble.RandomForestClassifier(**study_ranFor.best_params,random_state=RANDOM_STATE, )
model.fit(X_train, y_train)

printAndSaveModelResults(model,'RandomForestClassifier Optuna Optimization')

[94mf1_score на тренировочном наборе: [92m0.985[39m
[94mf1_score на тестовом наборе: [92m0.769[39m


##### Кросс-валидация

In [33]:
%time

scoreCalc = "cross"

# cоздаем объект исследования
# можем напрямую указать, что нам необходимо максимизировать метрику direction="maximize"
study_ranFor_cross = optuna.create_study(study_name="RandomForestClassifier Optuna Optimization with Cross Validation", direction="maximize")
# ищем лучшую комбинацию гиперпараметров n_trials раз
study_ranFor_cross.optimize(optuna_optimize, n_trials=20)

# выводим результаты на обучающей выборке
print("Наилучшие значения гиперпараметров {}".format(study_ranFor_cross.best_params))
print("f1_score на обучающем наборе: {:.2f}".format(study_ranFor_cross.best_value))

[32m[I 2023-04-20 19:46:21,904][0m A new study created in memory with name: RandomForestClassifier Optuna Optimization with Cross Validation[0m


CPU times: total: 0 ns
Wall time: 0 ns


[32m[I 2023-04-20 19:46:23,337][0m Trial 0 finished with value: 0.25 and parameters: {'n_estimators': 170, 'min_samples_leaf': 6, 'max_depth': 15}. Best is trial 0 with value: 0.25.[0m
[32m[I 2023-04-20 19:46:25,101][0m Trial 1 finished with value: 0.306031746031746 and parameters: {'n_estimators': 230, 'min_samples_leaf': 5, 'max_depth': 15}. Best is trial 1 with value: 0.306031746031746.[0m
[32m[I 2023-04-20 19:46:26,612][0m Trial 2 finished with value: 0.4833333333333333 and parameters: {'n_estimators': 180, 'min_samples_leaf': 3, 'max_depth': 39}. Best is trial 2 with value: 0.4833333333333333.[0m
[32m[I 2023-04-20 19:46:28,335][0m Trial 3 finished with value: 0.044444444444444446 and parameters: {'n_estimators': 230, 'min_samples_leaf': 7, 'max_depth': 38}. Best is trial 2 with value: 0.4833333333333333.[0m
[32m[I 2023-04-20 19:46:30,440][0m Trial 4 finished with value: 0.08 and parameters: {'n_estimators': 300, 'min_samples_leaf': 6, 'max_depth': 36}. Best is trial 

Наилучшие значения гиперпараметров {'n_estimators': 280, 'min_samples_leaf': 3, 'max_depth': 21}
f1_score на обучающем наборе: 0.49


In [34]:
# рассчитаем точность для тестовой выборки
model = ensemble.RandomForestClassifier(**study_ranFor_cross.best_params,random_state=RANDOM_STATE, )
model.fit(X_train, y_train)

printAndSaveModelResults(model,'RandomForestClassifier Optuna Optimization with Cross Validation')

[94mf1_score на тренировочном наборе: [92m0.985[39m
[94mf1_score на тестовом наборе: [92m0.769[39m


In [35]:
optuna.visualization.is_available()

True

Немного графиков для одной из выборок Optuna. 

In [36]:
optuna.visualization.plot_optimization_history(study_ranFor, target_name="f1_score")

In [37]:
optuna.visualization.plot_param_importances(study_ranFor, target_name="f1_score")

In [38]:
optuna.visualization.plot_contour(study_ranFor, params=["max_depth", "min_samples_leaf"],
                                  target_name="f1_score")

In [39]:
resultf1ScoreData = pd.DataFrame(f1_score_results).set_index('method').sort_values(by='result_test',ascending=False)

display(resultf1ScoreData.\
        style.background_gradient(\
        axis=0, cmap='GnBu',
        low = 0.8,
        high=0.9,
        vmin = 0.8,
        vmax = 1))

Unnamed: 0_level_0,result_train,result_test
method,Unnamed: 1_level_1,Unnamed: 2_level_1
LogisticRegression Hyperopt Optimization,1.0,0.933333
LogisticRegression RandomSearch Optimization,1.0,0.875
LogisticRegression Hyperopt Optimization with Cross Validation,1.0,0.875
LogisticRegression Optuna Optimization with Cross Validation,1.0,0.875
RandomForestClassifier native,1.0,0.857143
RandomForestClassifier Hyperopt Optimization,1.0,0.857143
LogisticRegression native,1.0,0.823529
LogisticRegression GridSearch Optimization,1.0,0.823529
LogisticRegression Optuna Optimization,1.0,0.823529
RandomForestClassifier GridSearch Optimization,0.985075,0.769231


## Немного выводов (хотя по заданию их вроде не надо)

* Обе модели(Логистической регрессии и Случайный лес) показали не самые худшие результаты. Т.е значения обучения по умолчанию, можно сказать, подобраны достаточно оптимально
* Также, важно отметить, что к подбору параметров также надо относится "с головой", так как видно из таблицы выше, мы также и испортили предсказательные особенности в некоторых случаях
* В нашем случае LogisticRegression в большинстве случаев показала лучшие результаты

Попробуем немного поиграться на отсающем RandomForestClassifier

Учитывая что f1_train всегда очень высокая, поменяю расчет f1_score на test.
Также, увеличу диапазон минимального количества листьев, так как алгоритм считает это важным параметром.

In [50]:
def optuna_optimize_improvement(trial):
  
  n_estimators = trial.suggest_int('n_estimators', 100, 310, 10)
  min_samples_leaf = trial.suggest_int('min_samples_leaf', 1, 15, 1)
  max_depth = trial.suggest_int('max_depth', 15, 40, 1)

    # создаем модель
  model = ensemble.RandomForestClassifier(n_estimators=n_estimators,
                                          max_depth=max_depth,
                                          min_samples_leaf=min_samples_leaf,
                                          random_state=RANDOM_STATE)
  model.fit(X_train, y_train)
  score = metrics.f1_score(y_test, model.predict(X_test))
  # score = cross_val_score(model, X_train, y_train, cv = 5, scoring="f1", n_jobs = -1).mean()  
  return score

In [51]:
%time

# cоздаем объект исследования
# можем напрямую указать, что нам необходимо максимизировать метрику direction="maximize"
study_ranFor_opt = optuna.create_study(study_name="RandomForestClassifier Optuna Optimization Improved", direction="maximize")
# ищем лучшую комбинацию гиперпараметров n_trials раз
study_ranFor_opt.optimize(optuna_optimize_improvement, n_trials=50)

# выводим результаты на обучающей выборке
print("Наилучшие значения гиперпараметров {}".format(study_ranFor_opt.best_params))
print("f1_score на обучающем наборе: {:.2f}".format(study_ranFor_opt.best_value))

[32m[I 2023-04-20 20:15:51,904][0m A new study created in memory with name: RandomForestClassifier Optuna Optimization Improved[0m


CPU times: total: 0 ns
Wall time: 0 ns


[32m[I 2023-04-20 20:15:53,729][0m Trial 0 finished with value: 0.6666666666666666 and parameters: {'n_estimators': 310, 'min_samples_leaf': 7, 'max_depth': 22}. Best is trial 0 with value: 0.6666666666666666.[0m
[32m[I 2023-04-20 20:15:55,660][0m Trial 1 finished with value: 0.8571428571428571 and parameters: {'n_estimators': 300, 'min_samples_leaf': 1, 'max_depth': 39}. Best is trial 1 with value: 0.8571428571428571.[0m
[32m[I 2023-04-20 20:15:56,902][0m Trial 2 finished with value: 0.8571428571428571 and parameters: {'n_estimators': 210, 'min_samples_leaf': 2, 'max_depth': 19}. Best is trial 1 with value: 0.8571428571428571.[0m
[32m[I 2023-04-20 20:15:58,443][0m Trial 3 finished with value: 0.0 and parameters: {'n_estimators': 280, 'min_samples_leaf': 14, 'max_depth': 27}. Best is trial 1 with value: 0.8571428571428571.[0m
[32m[I 2023-04-20 20:15:59,437][0m Trial 4 finished with value: 0.9333333333333333 and parameters: {'n_estimators': 160, 'min_samples_leaf': 1, 'max

Наилучшие значения гиперпараметров {'n_estimators': 160, 'min_samples_leaf': 1, 'max_depth': 21}
f1_score на обучающем наборе: 0.93


Как мы видим один из лучших вариантов имеет минимальное кол-во листьев 1. До этого мы рассматривали только диапазон [3,5,7]

In [52]:
# рассчитаем точность для тестовой выборки
model = ensemble.RandomForestClassifier(**study_ranFor_opt.best_params,random_state=RANDOM_STATE, )
model.fit(X_train, y_train)

In [53]:
y_train_pred = model.predict(X_train)
metrics_train = metrics.f1_score(y_train, y_train_pred).round(6)
print(f"{Fore.LIGHTBLUE_EX}f1_score на тренировочном наборе: {Fore.LIGHTGREEN_EX}{metrics_train:.3f}{Fore.RESET}")
y_test_pred = model.predict(X_test)
metrics_test = metrics.f1_score(y_test, y_test_pred).round(6)
print(f"{Fore.LIGHTBLUE_EX}f1_score на тестовом наборе: {Fore.LIGHTGREEN_EX}{metrics_test:.3f}{Fore.RESET}")


[94mf1_score на тренировочном наборе: [92m1.000[39m
[94mf1_score на тестовом наборе: [92m0.933[39m


In [54]:
f1_score_results.append({'result_train': metrics_train,
                           'result_test': metrics_test,
                          'method': 'RandomForestClassifier Optuna Optimization Improved'})

Посмотрим еще раз на результаты
Как видно, путем "разумной" оптимизации гиперпараметров, мы получили ТОП 1 результат по f1_score метрике для RandomForestClassifier

In [55]:
resultf1ScoreData = pd.DataFrame(f1_score_results).set_index('method').sort_values(by='result_test',ascending=False)

display(resultf1ScoreData.\
        style.background_gradient(\
        axis=0, cmap='GnBu',
        low = 0.8,
        high=0.9,
        vmin = 0.8,
        vmax = 1))

Unnamed: 0_level_0,result_train,result_test
method,Unnamed: 1_level_1,Unnamed: 2_level_1
LogisticRegression Hyperopt Optimization,1.0,0.933333
RandomForestClassifier Optuna Optimization Improved,1.0,0.933333
LogisticRegression RandomSearch Optimization,1.0,0.875
LogisticRegression Hyperopt Optimization with Cross Validation,1.0,0.875
LogisticRegression Optuna Optimization with Cross Validation,1.0,0.875
RandomForestClassifier native,1.0,0.857143
RandomForestClassifier Hyperopt Optimization,1.0,0.857143
LogisticRegression native,1.0,0.823529
LogisticRegression GridSearch Optimization,1.0,0.823529
LogisticRegression Optuna Optimization,1.0,0.823529


И напоследок графики

* Как видно, максимального f1_score мы уже добились примерно на 5-6 иттерации
* Важность минимального кол-ва листьев выросла аж до 99%
* Четко проглядывается, что f1_score улучшается при уменьшении листьев до 1-2 и увеличением глубины дерева. Ярко выраженные две области в правом нижнем углу на последнем графике

Так что можно смело заявить, оптимизация гиперпараметров может достаточно сильно улучшить качество модели, при правильном использовании

In [56]:
optuna.visualization.plot_optimization_history(study_ranFor_opt, target_name="f1_score")

In [57]:
optuna.visualization.plot_param_importances(study_ranFor_opt, target_name="f1_score")

In [58]:
optuna.visualization.plot_contour(study_ranFor_opt, params=["max_depth", "min_samples_leaf"],
                                  target_name="f1_score")