### 4. ПРАКТИКА

Необходимо предсказать биологический ответ молекул (столбец 'Activity') по их химическому составу (столбцы D1-D1776).

Данные представлены в формате CSV.  Каждая строка представляет молекулу. 

- Первый столбец Activity содержит экспериментальные данные, описывающие фактический биологический ответ [0, 1]; 
- Остальные столбцы D1-D1776 представляют собой молекулярные дескрипторы — это вычисляемые свойства, которые могут фиксировать некоторые характеристики молекулы, например размер, форму или состав элементов.

Предварительная обработка не требуется, данные уже закодированы и нормализованы.

В качестве метрики будем использовать F1-score.

Необходимо обучить две модели: 
- логистическую регрессию 
- случайный лес 

Далее нужно сделать подбор гиперпараметров с помощью базовых и продвинутых методов оптимизации. Важно использовать все четыре метода (GridSeachCV, RandomizedSearchCV, Hyperopt, Optuna) хотя бы по разу, максимальное количество итераций не должно превышать 50.

КРИТЕРИИ ОЦЕНКИ

Балл	Критерий
- 0	Задание не выполнено
- 1	Обучено две модели; гипепараметры подобраны при помощи одного метода
- 2	Обучено две модели; гипепараметры подобраны при помощи двух методов
- 3	Обучено две модели; гипепараметры подобраны при помощи трёх методов
- 4	Обучено две модели; гипепараметры подобраны при помощи четырёх методов
- 5	Обучено две модели; гипепараметры подобраны при помощи четырёх методов; использована кросс-валидация

Импортируем библиотеки

In [60]:
#импорт библиотек
import numpy as np #для матричных вычислений
import pandas as pd #для анализа и предобработки данных
import matplotlib.pyplot as plt #для визуализации
import seaborn as sns #для визуализации

from sklearn import linear_model #линейные моделиё
from sklearn import tree #деревья решений
from sklearn import ensemble #ансамбли
from sklearn import metrics #метрики
from sklearn import preprocessing #предобработка
from sklearn.model_selection import train_test_split #сплитование выборки

%matplotlib inline
plt.style.use('seaborn')

  plt.style.use('seaborn')


Загрузим данные

In [61]:
data = pd.read_csv('data\_train_sem09 (1).csv')
data.head(3)

Unnamed: 0,Activity,D1,D2,D3,D4,D5,D6,D7,D8,D9,...,D1767,D1768,D1769,D1770,D1771,D1772,D1773,D1774,D1775,D1776
0,1,0.0,0.497009,0.1,0.0,0.132956,0.678031,0.273166,0.585445,0.743663,...,0,0,0,0,0,0,0,0,0,0
1,1,0.366667,0.606291,0.05,0.0,0.111209,0.803455,0.106105,0.411754,0.836582,...,1,1,1,1,0,1,0,0,1,0
2,1,0.0333,0.480124,0.0,0.0,0.209791,0.61035,0.356453,0.51772,0.679051,...,0,0,0,0,0,0,0,0,0,0


Создаем матрицу наблюдений $X$ и вектор ответов $y$

In [62]:
X = data.drop(['Activity'], axis=1)
y = data['Activity']

Разделяем выборку на тренировочную и тестовую в соотношении 80/20. Для сохранения соотношений целевого признака используем параметр stratify (стратифицированное разбиение). 

In [63]:
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state = 1, test_size = 0.2)

### Оптимизация гиперпараметров модели

## **Логистическая регрессия**

Зафиксируем только метрики, которые были получены без дополнительной настройки, т.е со значениями гиперпараметров, установленных по умолчанию:

In [64]:
#Создаем объект класса логистическая регрессия
log_reg = linear_model.LogisticRegression(max_iter = 1000)
#Обучаем модель, минимизируя logloss
log_reg.fit(X_train, y_train)
print("accuracy на тестовом наборе: {:.2f}".format(log_reg.score(X_test, y_test)))
y_train_pred = log_reg.predict(X_train)
print('f1_score на обучающем наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
y_test_pred = log_reg.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))

accuracy на тестовом наборе: 0.76
f1_score на обучающем наборе: 0.89
f1_score на тестовом наборе: 0.78


### <center> **GridSearchCV**

In [65]:
from sklearn.model_selection import GridSearchCV

param_grid = {'penalty': ['l2', 'none'] ,#тип регурялизации
              'solver': ['lbfgs', 'saga'], #алгоритм оптимизации
              }
grid_search = GridSearchCV(
    estimator=linear_model.LogisticRegression(
        random_state=42, #генератор случайных чисел
        max_iter=50 #количество итераций на сходимость
    ), 
    param_grid=param_grid, 
    cv=5, 
    n_jobs = -1
)  
%time grid_search.fit(X_train, y_train) 
print("accuracy на тестовом наборе: {:.2f}".format(grid_search.score(X_test, y_test)))
y_train_pred = grid_search.predict(X_train)
print('f1_score на обучающем наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
y_test_pred = grid_search.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))
print("Наилучшие значения гиперпараметров: {}".format(grid_search.best_params_))
print("Наилучшая модель:\n{}".format(grid_search.best_estimator_))
print("Наилучшее значение точности при кросс-валидаци: {:.2f}".format(grid_search.best_score_))

CPU times: total: 1.25 s
Wall time: 10.8 s
accuracy на тестовом наборе: 0.76
f1_score на обучающем наборе: 0.86
f1_score на тестовом наборе: 0.78
Наилучшие значения гиперпараметров: {'penalty': 'l2', 'solver': 'saga'}
Наилучшая модель:
LogisticRegression(max_iter=50, random_state=42, solver='saga')
Наилучшее значение точности при кросс-валидаци: 0.76




In [66]:
# результаты кросс-валидации
result_cv = pd.DataFrame(grid_search.cv_results_)
result_cv.head(2)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_penalty,param_solver,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,1.018218,0.047889,0.040853,0.004671,l2,lbfgs,"{'penalty': 'l2', 'solver': 'lbfgs'}",0.72,0.748333,0.756667,0.753333,0.745,0.744667,0.01297,3
1,3.711972,0.102853,0.015507,0.000993,l2,saga,"{'penalty': 'l2', 'solver': 'saga'}",0.735,0.775,0.765,0.758333,0.76,0.758667,0.013182,1


### <center> **RandomizedSearchCV**

In [67]:
from sklearn.model_selection import RandomizedSearchCV

#np.linspace(start(от), stop(до), num=50(количество),dtype- тип данных)
param_distributions = {'penalty': ['l2', 'none'] ,
              'solver': ['lbfgs', 'sag'],
               'C': list(np.linspace(0.01, 1, 10, dtype=float))},
            
random_search = RandomizedSearchCV(
    estimator=linear_model.LogisticRegression(random_state=42, max_iter=1000), 
    param_distributions=param_distributions, 
    cv=5, 
    n_iter = 10, 
    n_jobs = -1
)  
%time random_search.fit(X_train, y_train) 
print("accuracy на тестовом наборе: {:.2f}".format(random_search.score(X_test, y_test)))
y_train_pred = random_search.predict(X_train)
print('f1_score на обучающем наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
y_test_pred = random_search.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))
print("Наилучшие значения гиперпараметров: {}".format(random_search.best_params_))

CPU times: total: 1.88 s
Wall time: 2min 19s
accuracy на тестовом наборе: 0.77
f1_score на обучающем наборе: 0.82
f1_score на тестовом наборе: 0.80
Наилучшие значения гиперпараметров: {'solver': 'sag', 'penalty': 'l2', 'C': 0.01}


### <center> **Hyperopt**

In [68]:
#делаем импорт и выведем версию библиотеки
from sklearn.model_selection import cross_val_score
import hyperopt
from hyperopt import hp, fmin, tpe, Trials
# fmin - основная функция, она будет минимизировать наш функционал
# tpe - алгоритм оптимизации
# hp - включает набор методов для объявления пространства поиска гиперпараметров
# trails - используется для логирования результатов

print("Версия Hyperopt : {}".format(hyperopt.__version__))

Версия Hyperopt : 0.2.7


Настроим оптимизацию гиперпараметров для алгоритма линейной регрессии.

In [69]:
# зададим пространство поиска гиперпараметров
space={'penalty': hp.choice(label='penalty', options=['l1','l2']),
       'solver': hp.choice(label='solver', options=['liblinear', 'saga']),
       'C': hp.uniform('C', 0.01, 1)
      }

In [70]:
# зафксируем random_state
random_state = 42

def hyperopt_rf(params, cv=5, X=X_train, y=y_train, random_state=random_state):
    # функция получает комбинацию гиперпараметров в "params"
    params = {'penalty': params['penalty'], 
              'solver': params['solver'], 
             'C': float(params['C'])
              }
  
    # используем эту комбинацию для построения модели
    model = linear_model.LogisticRegression(**params, random_state=42)

    # обучаем модель
    model.fit(X, y)
    # score = metrics.f1_score(y, model.predict(X))
    
    # обучать модель можно также с помощью кросс-валидации
    # применим  cross validation с тем же количеством фолдов
    score = cross_val_score(model, X, y, cv=cv, scoring="f1", n_jobs=-1).mean()

    # метрику необходимо минимизировать, поэтому ставим знак минус
    return -score

In [71]:
%%time
# начинаем подбор гиперпараметров

trials = Trials() # используется для логирования результатов

best=fmin(hyperopt_rf, # наша функция 
          space=space, # пространство гиперпараметров
          algo=tpe.suggest, # алгоритм оптимизации, установлен по умолчанию, задавать необязательно
          max_evals=20, # максимальное количество итераций
          trials=trials, # логирование результатов
          rstate=np.random.default_rng(random_state)# фиксируем для повторяемости результата
         )
print("Наилучшие значения гиперпараметров {}".format(best))

  0%|          | 0/20 [00:00<?, ?trial/s, best loss=?]

  5%|▌         | 1/20 [00:01<00:32,  1.69s/trial, best loss: -0.7706169946428503]




 15%|█▌        | 3/20 [00:17<01:34,  5.58s/trial, best loss: -0.7807204491271118]




 25%|██▌       | 5/20 [00:33<01:33,  6.22s/trial, best loss: -0.7826782883390004]




 30%|███       | 6/20 [00:43<01:47,  7.68s/trial, best loss: -0.7826782883390004]




 45%|████▌     | 9/20 [00:57<00:54,  4.96s/trial, best loss: -0.7826782883390004]




 55%|█████▌    | 11/20 [01:13<00:52,  5.82s/trial, best loss: -0.7826782883390004]




 65%|██████▌   | 13/20 [01:25<00:39,  5.69s/trial, best loss: -0.7826782883390004]




 70%|███████   | 14/20 [01:42<00:53,  8.96s/trial, best loss: -0.7826782883390004]




 80%|████████  | 16/20 [02:02<00:34,  8.72s/trial, best loss: -0.7826782883390004]




 85%|████████▌ | 17/20 [02:12<00:27,  9.14s/trial, best loss: -0.7826782883390004]




 90%|█████████ | 18/20 [02:26<00:21, 10.58s/trial, best loss: -0.7843573900686336]




100%|██████████| 20/20 [02:44<00:00,  8.20s/trial, best loss: -0.7843573900686336]
Наилучшие значения гиперпараметров {'C': 0.11205124547519595, 'penalty': 0, 'solver': 1}
CPU times: total: 31.2 s
Wall time: 2min 44s


In [72]:
# рассчитаем точность для тестовой выборки
pen = ['l1','l2']
sol = ['liblinear', 'saga']
    
model = linear_model.LogisticRegression(
    random_state=random_state, 
    penalty=pen[best['penalty']],
    solver=sol[best['solver']],
    C=float(best['C']),
    max_iter=50
)

model.fit(X_train, y_train)
y_train_pred = model.predict(X_train)
print('f1_score на обучающем наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
# print("accuracy на тестовом наборе: {:.2f}".format(model.score(X_test, y_test)))
y_test_pred = model.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))

f1_score на обучающем наборе: 0.80
f1_score на тестовом наборе: 0.78




## <center> Optuna

In [73]:
import optuna
print("Версия Optuna: {}".format(optuna.__version__))

Версия Optuna: 3.2.0


Настроим оптимизацию гиперпараметров для алгоритма линейной регрессии.

In [74]:
random_state=42
def optuna_rf(trial):
  # задаем пространства поиска гиперпараметров
  penalty = trial.suggest_categorical('penalty', ['l1','l2'])
  solver = trial.suggest_categorical('solver', ['liblinear', 'saga'])
  C = trial.suggest_float('C', 0.01, 1)

  # создаем модель
  model = linear_model.LogisticRegression(penalty=penalty,
                                          solver=solver,
                                          C=C,
                                          random_state=random_state)
  # обучаем модель
  model.fit(X_train, y_train)
  score = metrics.f1_score(y_train, model.predict(X_train))

  return score

In [75]:
%%time
# cоздаем объект исследования
# можем напрямую указать, что нам необходимо максимизировать метрику direction="maximize"
study = optuna.create_study(study_name="LogisticRegression", direction="maximize")
# ищем лучшую комбинацию гиперпараметров n_trials раз
study.optimize(optuna_rf, n_trials=20)

[I 2023-07-19 09:23:38,697] A new study created in memory with name: LogisticRegression
[I 2023-07-19 09:23:43,799] Trial 0 finished with value: 0.8658536585365855 and parameters: {'penalty': 'l2', 'solver': 'saga', 'C': 0.30006947107459336}. Best is trial 0 with value: 0.8658536585365855.
[I 2023-07-19 09:23:44,218] Trial 1 finished with value: 0.8679706601466993 and parameters: {'penalty': 'l2', 'solver': 'liblinear', 'C': 0.34572524684874373}. Best is trial 1 with value: 0.8679706601466993.
[I 2023-07-19 09:23:49,141] Trial 2 finished with value: 0.8670131458269642 and parameters: {'penalty': 'l2', 'solver': 'saga', 'C': 0.6044031526318938}. Best is trial 1 with value: 0.8679706601466993.
[I 2023-07-19 09:23:53,674] Trial 3 finished with value: 0.8476219327476522 and parameters: {'penalty': 'l2', 'solver': 'saga', 'C': 0.08728552630634073}. Best is trial 1 with value: 0.8679706601466993.
[I 2023-07-19 09:23:58,267] Trial 4 finished with value: 0.8664017120146745 and parameters: {'pe

CPU times: total: 8.95 s
Wall time: 42.4 s


In [76]:
# выводим результаты на обучающей выборке
print("Наилучшие значения гиперпараметров {}".format(study.best_params))
print("f1_score на обучающем наборе: {:.2f}".format(study.best_value))

Наилучшие значения гиперпараметров {'penalty': 'l2', 'solver': 'liblinear', 'C': 0.9985179779952094}
f1_score на обучающем наборе: 0.89


In [77]:
# рассчитаем точность для тестовой выборки
model = linear_model.LogisticRegression(**study.best_params,random_state=random_state, )
model.fit(X_train, y_train)
y_train_pred = model.predict(X_train)
print('f1_score на обучающем наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
y_test_pred = model.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))

f1_score на обучающем наборе: 0.89
f1_score на тестовом наборе: 0.78


## **Случайный лес**

Зафиксируем только метрики, которые были получены без дополнительной настройки, т.е со значениями гиперпараметров, установленных по умолчанию:

In [78]:
#Создаем объект класса логистическая регрессия
rf = ensemble.RandomForestClassifier(random_state=42)
#Обучаем модель, минимизируя logloss
rf.fit(X_train, y_train)
print("accuracy на тестовом наборе: {:.2f}".format(rf.score(X_test, y_test)))
y_train_pred = rf.predict(X_train)
print('f1_score на обучающем наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
y_test_pred = rf.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))

accuracy на тестовом наборе: 0.79
f1_score на обучающем наборе: 1.00
f1_score на тестовом наборе: 0.81


### <center> **GridSearchCV**

In [79]:
from sklearn.model_selection import GridSearchCV

param_grid = {'n_estimators': list(range(80, 200, 30)),
              'min_samples_leaf': [5],
              'max_depth': list(np.linspace(20, 40, 10, dtype=int))
              }
grid_search = GridSearchCV(
    estimator=ensemble.RandomForestClassifier(random_state=42), #количество итераций на сходимость
    param_grid=param_grid, 
    cv=5, 
    n_jobs = -1
)  
%time grid_search.fit(X_train, y_train) 
print("accuracy на тестовом наборе: {:.2f}".format(grid_search.score(X_test, y_test)))
y_train_pred = grid_search.predict(X_train)
print('f1_score на обучающем наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
y_test_pred = grid_search.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))
print("Наилучшие значения гиперпараметров: {}".format(grid_search.best_params_))
print("Наилучшая модель:\n{}".format(grid_search.best_estimator_))
print("Наилучшее значение точности при кросс-валидаци: {:.2f}".format(grid_search.best_score_))

CPU times: total: 1.88 s
Wall time: 42.6 s
accuracy на тестовом наборе: 0.80
f1_score на обучающем наборе: 0.94
f1_score на тестовом наборе: 0.82
Наилучшие значения гиперпараметров: {'max_depth': 20, 'min_samples_leaf': 5, 'n_estimators': 140}
Наилучшая модель:
RandomForestClassifier(max_depth=20, min_samples_leaf=5, n_estimators=140,
                       random_state=42)
Наилучшее значение точности при кросс-валидаци: 0.78


In [80]:
# результаты кросс-валидации
result_cv = pd.DataFrame(grid_search.cv_results_)
result_cv.head(2)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_max_depth,param_min_samples_leaf,param_n_estimators,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,1.906665,0.239083,0.052915,0.014009,20,5,80,"{'max_depth': 20, 'min_samples_leaf': 5, 'n_es...",0.768333,0.788333,0.795,0.776667,0.775,0.780667,0.009638,26
1,2.804722,0.330023,0.074878,0.01909,20,5,110,"{'max_depth': 20, 'min_samples_leaf': 5, 'n_es...",0.771667,0.79,0.8,0.775,0.773333,0.782,0.011126,23


### <center> **RandomizedSearchCV**

In [81]:
from sklearn.model_selection import RandomizedSearchCV

#np.linspace(start(от), stop(до), num=50(количество),dtype- тип данных)
param_distributions = {'n_estimators': list(range(80, 200, 30)),
              'min_samples_leaf': [5],
              'max_depth': list(np.linspace(20, 40, 10, dtype=int))
              },
            
random_search = RandomizedSearchCV(
    estimator=ensemble.RandomForestClassifier(random_state=42), 
    param_distributions=param_distributions, 
    cv=5, 
    n_iter = 10, 
    n_jobs = -1
)  
%time random_search.fit(X_train, y_train) 
print("accuracy на тестовом наборе: {:.2f}".format(random_search.score(X_test, y_test)))
y_train_pred = random_search.predict(X_train)
print('f1_score на обучающем наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
y_test_pred = random_search.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))
print("Наилучшие значения гиперпараметров: {}".format(random_search.best_params_))

CPU times: total: 1.45 s
Wall time: 13.4 s
accuracy на тестовом наборе: 0.80
f1_score на обучающем наборе: 0.94
f1_score на тестовом наборе: 0.82
Наилучшие значения гиперпараметров: {'n_estimators': 80, 'min_samples_leaf': 5, 'max_depth': 33}


### <center> **Hyperopt**

In [82]:
# зададим пространство поиска гиперпараметров
space={'n_estimators': hp.quniform('n_estimators', 100, 200, 1),
       'max_depth' : hp.quniform('max_depth', 15, 26, 1),
       'min_samples_leaf': hp.quniform('min_samples_leaf', 2, 10, 1)
      }

In [83]:
# зафксируем random_state
random_state = 42
def hyperopt_rf(params, cv=5, X=X_train, y=y_train, random_state=random_state):
    # функция получает комбинацию гиперпараметров в "params"
    params = {'n_estimators': int(params['n_estimators']), 
              'max_depth': int(params['max_depth']), 
             'min_samples_leaf': int(params['min_samples_leaf'])
              }
  
    # используем эту комбинацию для построения модели
    model = ensemble.RandomForestClassifier(**params, random_state=random_state)

    # обучаем модель
    model.fit(X, y)
    # score = metrics.f1_score(y, model.predict(X))
    
    # обучать модель можно также с помощью кросс-валидации
    # применим  cross validation с тем же количеством фолдов
    score = cross_val_score(model, X, y, cv=cv, scoring="f1", n_jobs=-1).mean()

    # метрику необходимо минимизировать, поэтому ставим знак минус
    return -score

In [84]:
%%time
# начинаем подбор гиперпараметров

trials = Trials() # используется для логирования результатов

best=fmin(hyperopt_rf, # наша функция 
          space=space, # пространство гиперпараметров
          algo=tpe.suggest, # алгоритм оптимизации, установлен по умолчанию, задавать необязательно
          max_evals=20, # максимальное количество итераций
          trials=trials, # логирование результатов
          rstate=np.random.default_rng(random_state)# фиксируем для повторяемости результата
         )
print("Наилучшие значения гиперпараметров {}".format(best))

  0%|          | 0/20 [00:00<?, ?trial/s, best loss=?]

100%|██████████| 20/20 [02:07<00:00,  6.39s/trial, best loss: -0.8080577050312506]
Наилучшие значения гиперпараметров {'max_depth': 18.0, 'min_samples_leaf': 2.0, 'n_estimators': 103.0}
CPU times: total: 32 s
Wall time: 2min 7s


In [85]:
# рассчитаем точность для тестовой выборки
model = ensemble.RandomForestClassifier(
    random_state=random_state, 
    n_estimators=int(best['n_estimators']),
    max_depth=int(best['max_depth']),
    min_samples_leaf=int(best['min_samples_leaf'])
)
model.fit(X_train, y_train)
y_train_pred = model.predict(X_train)
print('f1_score на обучающем наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
print("accuracy на тестовом наборе: {:.2f}".format(model.score(X_test, y_test)))
y_test_pred = model.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))

f1_score на обучающем наборе: 0.99
accuracy на тестовом наборе: 0.80
f1_score на тестовом наборе: 0.82


## <center> Optuna

In [86]:
def optuna_rf(trial):
  # задаем пространства поиска гиперпараметров
  n_estimators = trial.suggest_int('n_estimators', 100, 200, 1)
  max_depth = trial.suggest_int('max_depth', 10, 30, 1)
  min_samples_leaf = trial.suggest_int('min_samples_leaf', 2, 10, 1)

  # создаем модель
  model = ensemble.RandomForestClassifier(n_estimators=n_estimators,
                                          max_depth=max_depth,
                                          min_samples_leaf=min_samples_leaf,
                                          random_state=random_state)
  # обучаем модель
  model.fit(X_train, y_train)
  score = metrics.f1_score(y_train, model.predict(X_train))

  return score

In [87]:
%%time
# cоздаем объект исследования
# можем напрямую указать, что нам необходимо максимизировать метрику direction="maximize"
study = optuna.create_study(study_name="RandomForestClassifier", direction="maximize")
# ищем лучшую комбинацию гиперпараметров n_trials раз
study.optimize(optuna_rf, n_trials=20)

[I 2023-07-19 09:27:32,557] A new study created in memory with name: RandomForestClassifier
[I 2023-07-19 09:27:34,732] Trial 0 finished with value: 0.945054945054945 and parameters: {'n_estimators': 102, 'max_depth': 30, 'min_samples_leaf': 5}. Best is trial 0 with value: 0.945054945054945.
[I 2023-07-19 09:27:37,529] Trial 1 finished with value: 0.9160305343511451 and parameters: {'n_estimators': 140, 'max_depth': 10, 'min_samples_leaf': 4}. Best is trial 0 with value: 0.945054945054945.
[I 2023-07-19 09:27:40,629] Trial 2 finished with value: 0.9911124731841863 and parameters: {'n_estimators': 110, 'max_depth': 28, 'min_samples_leaf': 2}. Best is trial 2 with value: 0.9911124731841863.
[I 2023-07-19 09:27:44,402] Trial 3 finished with value: 0.9074243813015583 and parameters: {'n_estimators': 188, 'max_depth': 21, 'min_samples_leaf': 9}. Best is trial 2 with value: 0.9911124731841863.
[I 2023-07-19 09:27:46,852] Trial 4 finished with value: 0.918423464711274 and parameters: {'n_esti

CPU times: total: 14.6 s
Wall time: 1min 10s


In [88]:
# выводим результаты на обучающей выборке
print("Наилучшие значения гиперпараметров {}".format(study.best_params))
y_train_pred = model.predict(X_train)
print('f1_score на обучающем наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
# рассчитаем точность для тестовой выборки
model = ensemble.RandomForestClassifier(**study.best_params,random_state=random_state, )
model.fit(X_train, y_train)
y_train_pred = model.predict(X_train)
print("accuracy на тестовом наборе: {:.2f}".format(model.score(X_test, y_test)))
y_test_pred = model.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))

Наилучшие значения гиперпараметров {'n_estimators': 165, 'max_depth': 25, 'min_samples_leaf': 2}
f1_score на обучающем наборе: 0.99
accuracy на тестовом наборе: 0.80
f1_score на тестовом наборе: 0.82


### Выводы на основе полученных данных метрики F1-score, рассчитанной на основе двух моделей машинного обучения (логистическая регрессия и случайный лес) пятью методами (базовым, GridSeachCV, RandomizedSearchCV, Hyperopt, Optuna).

|Метод           |Логистическая регрессия f1_score на обучающем наборе|Логистическая регрессия f1_score на тестовом наборе|Случайный лес f1_score на обучающем наборе|Случайный лес f1_score на тестовом наборе|
|----------------|----------------------------|---------------------------|----------------------------|---------------------------|
|Базовый|0.89|0.78|1.00|0.81|
|GridSeachCV|0.86|0.78|0.94|0.82|
|RandomizedSearchCV|0.86|0.78|0.94|0.82|
|Hyperopt|0.80|0.78|0.99|0.82|
|Optuna|0.89|0.78|0.99|0.82|


1. Обе модели машинного обучения (логистическая регрессия и случайный лес) обладают достаточно высокими значениями F1-score на обучающем наборе данных, что свидетельствует о хорошем качестве предсказаний на обучающей выборке.

2. Однако, результаты на тестовом наборе данных несколько ниже, что может указывать на переобучение моделей. 

3. В методе GridSeachCV значения F1-score на тестовом наборе данных не изменились по сравнению с базовым методом, что означает, что подбор гиперпараметров не привел к улучшению модели.

4. Методы RandomizedSearchCV, Hyperopt и Optuna показали схожие результаты с базовыми методами как для логистической регрессии, так и для случайного леса.

5. В целом, результаты метрики F1-score на тестовом наборе данных для случайного леса оказались немного выше, чем для логистической регрессии, что может говорить о более высокой эффективности случайного леса в данной задаче классификации.