# <center> **4. Практика**

Наша практика будет основана на соревновании Kaggle: Predicting a Biological Response (Прогнозирование биологического ответа).

Необходимо предсказать биологический ответ молекул (столбец *'Activity'*) по химическому составу (столбцы D1-D1776).

Данные представлены в формате CSV. Каждая строка представляет молекулу.

- Первый столбец *Activity* содержит экспериментальные данные, описывающие фактический биологический ответ [0, 1];
- Остальные столбцы D1-D1776 представляют собой молекулярные **дескрипторы** - это вычисляемые свойства, которые могут фиксировать некоторые характеристики молекулы, например размер, форму или состав элементов.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/243fdc2d8abf9f176c01a429f1ae68ab/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-3-ml-7-10.png)

Предварительная обработка не требуется, данные уже закодированы и нормализованы.

В качестве метрики будем использовать **f1-score**.

Необходимо обучить две модели: **логистическую регрессию и случайный лес**. Далее нужно сделать подбор гиперпараметров с помощью базовых и продвинутых методов оптимизации. Важно использовать **все четыре метода** (*GridSeachCV, RandomizedSearchCV, Hyperopt, Optuna*) хотя бы по разу, максимальное количество итераций не должно превышать 50.

---

In [2]:
#импорт библиотек
import numpy as np #для матричных вычислений
import pandas as pd #для анализа и предобработки данных
import matplotlib.pyplot as plt #для визуализации
import seaborn as sns #для визуализации

from sklearn import linear_model #линейные моделиё
from sklearn import tree #деревья решений
from sklearn import ensemble #ансамбли
from sklearn import metrics #метрики
from sklearn import preprocessing #предобработка
from sklearn.model_selection import train_test_split #сплитование выборки

%matplotlib inline
plt.style.use('seaborn')

data = pd.read_csv('data/train_sem.csv')

  plt.style.use('seaborn')


In [3]:
data.head()

Unnamed: 0,Activity,D1,D2,D3,D4,D5,D6,D7,D8,D9,...,D1767,D1768,D1769,D1770,D1771,D1772,D1773,D1774,D1775,D1776
0,1,0.0,0.497009,0.1,0.0,0.132956,0.678031,0.273166,0.585445,0.743663,...,0,0,0,0,0,0,0,0,0,0
1,1,0.366667,0.606291,0.05,0.0,0.111209,0.803455,0.106105,0.411754,0.836582,...,1,1,1,1,0,1,0,0,1,0
2,1,0.0333,0.480124,0.0,0.0,0.209791,0.61035,0.356453,0.51772,0.679051,...,0,0,0,0,0,0,0,0,0,0
3,1,0.0,0.538825,0.0,0.5,0.196344,0.72423,0.235606,0.288764,0.80511,...,0,0,0,0,0,0,0,0,0,0
4,0,0.1,0.517794,0.0,0.0,0.494734,0.781422,0.154361,0.303809,0.812646,...,0,0,0,0,0,0,0,0,0,0


Создадим матрицу наблюдений $X$ и вектор ответов $y$

In [4]:
X = data.drop(['Activity'], axis=1)
y = data['Activity']

Разделяем выборку на тренировочную и тестовую в соотношении 80/20. Для сохранения соотношений целевого признака используем параметр stratify (стратифицированное разбиение). 

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 1, stratify = y, test_size = 0.2)

---

## <center> **ОПТИМИЗАЦИЯ ГИПЕРПАРАМЕТРОВ МОДЕЛИ**

## **Базовая оптимизация**

### **Логистическая регрессия**



Зафиксируем только метрики, которые были получены без дополнительной настройки, т.е со значениями гиперпараметров, установленных по умолчанию:

In [6]:
#Создаем объект класса логистическая регрессия
log_reg = linear_model.LogisticRegression(max_iter = 1000)
#Обучаем модель, минимизируя logloss
log_reg.fit(X_train, y_train)
y_test_pred = log_reg.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))

f1_score на тестовом наборе: 0.78


---

#### <center> **GridSearchCV**

In [7]:
from sklearn.model_selection import GridSearchCV

param_grid = {'penalty': ['l2', 'none'] ,#тип регурялизации
              'solver': ['lbfgs', 'saga'], #алгоритм оптимизации
              }
grid_search = GridSearchCV(
    estimator=linear_model.LogisticRegression(
        random_state=42, #генератор случайных чисел
        max_iter=50 #количество итераций на сходимость
    ), 
    param_grid=param_grid, 
    cv=5, 
    n_jobs = -1
)  
%time grid_search.fit(X_train, y_train) 
y_test_pred = grid_search.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))
print("Наилучшие значения гиперпараметров: {}".format(grid_search.best_params_))

CPU times: total: 406 ms
Wall time: 8.08 s
f1_score на тестовом наборе: 0.78
Наилучшие значения гиперпараметров: {'penalty': 'l2', 'solver': 'saga'}




Значения метрик не изменились, но это значит лишь, что мы не нашли комбинацию внешних параметров лучше, чем заданы по умолчанию. Это не удивительно и достаточно часто исходные  гиперпараметры дают неплохой результат, но это не повод останавливаться.

Попробуем расширить сетку гиперпараметров:

In [9]:
param_grid = [
              {'penalty': ['l2', 'none'] , # тип регуляризации
              'solver': ['lbfgs', 'sag'], # алгоритм оптимизации
               'C': [0.01, 0.1, 0.3, 0.5, 0.7, 0.9, 1]}, # уровень силы регурялизации
              
              {'penalty': ['l1', 'l2'] ,
              'solver': ['liblinear', 'saga'],
               'C': [0.01, 0.1, 0.3, 0.5, 0.7, 0.9, 1]}
]
grid_search_1 = GridSearchCV(
    estimator=linear_model.LogisticRegression(random_state=1, max_iter=50), 
    param_grid=param_grid, 
    cv=5, 
    n_jobs = -1
)  
%time grid_search_1.fit(X_train, y_train) 
y_test_pred = grid_search_1.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))
print("Наилучшие значения гиперпараметров: {}".format(grid_search_1.best_params_))

CPU times: total: 891 ms
Wall time: 40.8 s
f1_score на тестовом наборе: 0.79
Наилучшие значения гиперпараметров: {'C': 0.1, 'penalty': 'l2', 'solver': 'lbfgs'}


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


НАм удалось незначительно улучшить оценку f1-score на 0.01. И подобрать лучшую комбинацию за счет *GridSearchCV*: {'C': 0.1, 'penalty': 'l2', 'solver': 'lbfgs'}

In [10]:
print("Наилучшая модель:\n{}".format(grid_search.best_estimator_))

Наилучшая модель:
LogisticRegression(max_iter=50, random_state=42, solver='saga')


In [11]:
print("Наилучшее значение точности при кросс-валидаци: {:.2f}".format(grid_search.best_score_))

Наилучшее значение точности при кросс-валидаци: 0.76


---

#### <center> **RandomizedSearchCV**

In [12]:
from sklearn.model_selection import RandomizedSearchCV

#np.linspace(start(от), stop(до), num=50(количество),dtype- тип данных)
param_distributions = {'penalty': ['l2', 'none'] ,
              'solver': ['lbfgs', 'sag'],
               'C': list(np.linspace(0.01, 1, 10, dtype=float))}
            
random_search = RandomizedSearchCV(
    estimator=linear_model.LogisticRegression(random_state=42, max_iter=50), 
    param_distributions=param_distributions, 
    cv=5, 
    n_iter = 10, 
    n_jobs = -1
)  
%time random_search.fit(X_train, y_train) 
y_test_pred = random_search.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))
print("Наилучшие значения гиперпараметров: {}".format(random_search.best_params_))

CPU times: total: 219 ms
Wall time: 9.13 s
f1_score на тестовом наборе: 0.79
Наилучшие значения гиперпараметров: {'solver': 'lbfgs', 'penalty': 'l2', 'C': 0.12}


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Вышло сильно быстрее по времени + мы достигли той же метрики f1-score, как и при лучших параметров найденных при *GridSearchCV*: **0.79**

---

### **Случайный лес**

Проделаем аналогичное для RandomForestClassifier().
Сначала посчитаем модель с параметрами по умолчанию и оценим метрику:

In [14]:
#Создаем объект класса случайный лес
rf = ensemble.RandomForestClassifier(random_state=42)

#Обучаем модель
rf.fit(X_train, y_train)
#Выводим значения метрики 
y_test_pred = rf.predict(X_test)
print('Test: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))

Test: 0.81


Теперь зададим сетку гиперпараметров: 

*   'n_estimators' - количество деревьев в лесу, по умолчанию =100

*  'min_samples_leaf' - минимальное количество объектов в листе;
*  'max_depth': максимальная глубина дерева, не должна быть слишком большой, иначе будет переобучение;




И посчитаем RandomizedSearchCV() и затем GridSearchCV()

---

#### <center> **RandomizedSearchCV**

In [15]:
param_distributions = {'n_estimators': list(range(80, 200, 30)),
              'min_samples_leaf': [5],
              'max_depth': list(np.linspace(20, 40, 10, dtype=int))
              }
            
random_search_forest = RandomizedSearchCV(
    estimator=ensemble.RandomForestClassifier(random_state=42), 
    param_distributions=param_distributions, 
    cv=5,
    n_iter = 10, 
    n_jobs = -1
)  
%time random_search_forest.fit(X_train, y_train) 
y_test_pred = random_search_forest.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))
print("Наилучшие значения гиперпараметров: {}".format(random_search_forest.best_params_))

CPU times: total: 609 ms
Wall time: 12.5 s
f1_score на тестовом наборе: 0.82
Наилучшие значения гиперпараметров: {'n_estimators': 80, 'min_samples_leaf': 5, 'max_depth': 40}


#### <center> **GridSearchCV**

In [16]:
param_grid = {'n_estimators': list(range(80, 200, 30)),
              'min_samples_leaf': [5],
              'max_depth': list(np.linspace(20, 40, 10, dtype=int))
              }
            
grid_search_forest = GridSearchCV(
    estimator=ensemble.RandomForestClassifier(random_state=42), 
    param_grid=param_grid, 
    cv=5, 
    n_jobs = -1
)  
%time grid_search_forest.fit(X_train, y_train) 
y_test_pred = grid_search_forest.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))
print("Наилучшие значения гиперпараметров: {}".format(grid_search_forest.best_params_))

CPU times: total: 1.2 s
Wall time: 34.5 s
f1_score на тестовом наборе: 0.82
Наилучшие значения гиперпараметров: {'max_depth': 20, 'min_samples_leaf': 5, 'n_estimators': 140}


Метрику удалось еще больше улучшить с помощью обоих методов, но RandomizedSearchCV опять же потребовалось в два раза меньше времени;

---

## **Продвинутая оптимизация**

### <center> **Hyperopt**

#### **Логистическая регрессия**

In [26]:
from sklearn.model_selection import cross_val_score
import hyperopt
from hyperopt import hp, fmin, tpe, Trials

Настроим оптимизацию гиперпараметров для алгоритма логистической регрессии.

In [77]:
# Зададим пространство поиска гиперпараметров
space= {'penalty': hp.choice('penalty', ['l1', 'l2']), 
        'solver': hp.choice('solver', ['liblinear', 'saga']),
        'C': hp.uniform('C', 0.01, 1)
        }

In [78]:
# зафксируем random_state
random_state = 42
def hyperopt_rf(params, cv=5, X=X_train, y=y_train, random_state=random_state):
    # функция получает комбинацию гиперпараметров в "params"
    params = {'penalty': str(params['penalty']), 
              'solver': str(params['solver']), 
              'C': float(params['C'])
              }
    
    # используем эту комбинацию для построения модели
    model = linear_model.LogisticRegression(**params, random_state=random_state, max_iter = 50)

    # обучаем модель
    model.fit(X, y)
    score = metrics.f1_score(y, model.predict(X))
    
    # метрику необходимо минимизировать, поэтому ставим знак минус
    return -score

In [80]:
%%time
# начинаем подбор гиперпараметров

trials = Trials() # используется для логирования результатов

best=fmin(hyperopt_rf, # наша функция 
          space=space, # пространство гиперпараметров
          algo=tpe.suggest, # алгоритм оптимизации, установлен по умолчанию, задавать необязательно
          max_evals=20, # максимальное количество итераций
          trials=trials, # логирование результатов
          rstate=np.random.default_rng(random_state)# фиксируем для повторяемости результата
         )
print("Наилучшие значения гиперпараметров {}".format(best))

  0%|          | 0/20 [00:00<?, ?trial/s, best loss=?]

 10%|█         | 2/20 [00:04<00:48,  2.70s/trial, best loss: -0.8760330578512396]




 20%|██        | 4/20 [00:08<00:38,  2.43s/trial, best loss: -0.8760330578512396]




 30%|███       | 6/20 [00:11<00:26,  1.92s/trial, best loss: -0.8760330578512396]




 35%|███▌      | 7/20 [00:13<00:27,  2.09s/trial, best loss: -0.8760330578512396]




 50%|█████     | 10/20 [00:19<00:21,  2.16s/trial, best loss: -0.8807339449541284]




 60%|██████    | 12/20 [00:22<00:14,  1.87s/trial, best loss: -0.8807339449541284]




 70%|███████   | 14/20 [00:26<00:13,  2.24s/trial, best loss: -0.8807339449541284]




 75%|███████▌  | 15/20 [00:30<00:14,  2.80s/trial, best loss: -0.8807339449541284]




 85%|████████▌ | 17/20 [00:34<00:06,  2.28s/trial, best loss: -0.8850855745721271]




 90%|█████████ | 18/20 [00:37<00:05,  2.67s/trial, best loss: -0.8850855745721271]




 95%|█████████▌| 19/20 [00:41<00:03,  3.15s/trial, best loss: -0.8850855745721271]




100%|██████████| 20/20 [00:42<00:00,  2.12s/trial, best loss: -0.8850855745721271]
Наилучшие значения гиперпараметров {'C': 0.9878598398404349, 'penalty': 1, 'solver': 0}
CPU times: total: 37.6 s
Wall time: 42.4 s


In [83]:
if best['solver'] == 0:
    best['solver'] = 'liblinear'
else:
    best['solver'] = 'saga'
    
if best['penalty'] == 0:
    best['penalty'] = 'l1'
else:
    best['penalty'] = 'l2'

# рассчитаем точноть для тестовой выборки
model = linear_model.LogisticRegression(penalty=str(best['penalty']),
                                        random_state=random_state,
                                        solver=str(best['solver']),
                                        C=float(best['C']),
                                        max_iter=50)
model.fit(X_train, y_train)
y_test_pred = model.predict(X_test)
print("f1_score на тестовом наборе: {:.2f}".format(metrics.f1_score(y_test, y_test_pred)))

f1_score на тестовом наборе: 0.78




---

#### **Случайный лес**

Настроим оптимизацию гиперпараметров для алгоритма случайного леса.

In [59]:
# зададим пространство поиска гиперпараметров
space={'n_estimators': hp.quniform('n_estimators', 100, 200, 1),
       'max_depth' : hp.quniform('max_depth', 15, 26, 1),
       'min_samples_leaf': hp.quniform('min_samples_leaf', 2, 10, 1)
      }

In [60]:
# зафксируем random_state
random_state = 42
def hyperopt_rf(params, cv=5, X=X_train, y=y_train, random_state=random_state):
    # функция получает комбинацию гиперпараметров в "params"
    params = {'n_estimators': int(params['n_estimators']), 
              'max_depth': int(params['max_depth']), 
             'min_samples_leaf': int(params['min_samples_leaf'])
              }
  
    # используем эту комбинацию для построения модели
    model = ensemble.RandomForestClassifier(**params, random_state=random_state)

    # обучаем модель
    model.fit(X, y)
    score = metrics.f1_score(y, model.predict(X))

    # метрику необходимо минимизировать, поэтому ставим знак минус
    return -score

In [61]:
%%time
# начинаем подбор гиперпараметров

trials = Trials() # используется для логирования результатов

best=fmin(hyperopt_rf, # наша функция 
          space=space, # пространство гиперпараметров
          algo=tpe.suggest, # алгоритм оптимизации, установлен по умолчанию, задавать необязательно
          max_evals=50, # максимальное количество итераций
          trials=trials, # логирование результатов
          rstate=np.random.default_rng(random_state)# фиксируем для повторяемости результата
         )
print("Наилучшие значения гиперпараметров {}".format(best))

100%|██████████| 50/50 [02:25<00:00,  2.92s/trial, best loss: -0.9920343137254902]
Наилучшие значения гиперпараметров {'max_depth': 23.0, 'min_samples_leaf': 2.0, 'n_estimators': 172.0}
CPU times: total: 2min 14s
Wall time: 2min 25s


In [63]:
# рассчитаем точность для тестовой выборки
model = ensemble.RandomForestClassifier(
    random_state=random_state, 
    n_estimators=int(best['n_estimators']),
    max_depth=int(best['max_depth']),
    min_samples_leaf=int(best['min_samples_leaf'])
)
model.fit(X_train, y_train)
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))

f1_score на тестовом наборе: 0.82


---

### <center> Optuna

#### **Линейная регрессия**

In [62]:
import optuna

  from .autonotebook import tqdm as notebook_tqdm


In [69]:
def optuna_lr(trial):
    # задаем пространства поиска гиперпараметров
    penalty = trial.suggest_categorical('penalty', ['l1', 'l2'])
    solver = trial.suggest_categorical('solver', ['liblinear', 'saga'])
    C = trial.suggest_float('C', 0.01, 1)
    
    # создаем модель
    model = linear_model.LogisticRegression(penalty=penalty, solver=solver, C=C, random_state=42)

    # Обучаем модель
    model.fit(X_train, y_train)
    score = metrics.f1_score(y_train, model.predict(X_train))

    return score

In [70]:
%%time
# созжаем объект исследования
# можем напрямую укзаать, что нам необходимо максимизировать метрику direction="maximize"
study = optuna.create_study(study_name="LogisticRegression", direction="maximize")
# ищем лучшую комбинацию гиперпараметров n_trials раз
study.optimize(optuna_lr, n_trials=20)

[I 2024-01-30 16:21:28,812] A new study created in memory with name: LogisticRegression


[I 2024-01-30 16:21:29,441] Trial 0 finished with value: 0.8820293398533007 and parameters: {'penalty': 'l2', 'solver': 'liblinear', 'C': 0.8788172984869944}. Best is trial 0 with value: 0.8820293398533007.
[I 2024-01-30 16:21:37,292] Trial 1 finished with value: 0.8530574992394282 and parameters: {'penalty': 'l1', 'solver': 'saga', 'C': 0.794284568576517}. Best is trial 0 with value: 0.8820293398533007.
[I 2024-01-30 16:21:44,427] Trial 2 finished with value: 0.8383777239709443 and parameters: {'penalty': 'l1', 'solver': 'saga', 'C': 0.43560333248054944}. Best is trial 0 with value: 0.8820293398533007.
[I 2024-01-30 16:21:44,770] Trial 3 finished with value: 0.8476219327476522 and parameters: {'penalty': 'l2', 'solver': 'liblinear', 'C': 0.08609053418443884}. Best is trial 0 with value: 0.8820293398533007.
[I 2024-01-30 16:21:44,988] Trial 4 finished with value: 0.8087661362954068 and parameters: {'penalty': 'l1', 'solver': 'liblinear', 'C': 0.1383927322871477}. Best is trial 0 with v

CPU times: total: 34.4 s
Wall time: 39.2 s


In [72]:
# рассчитаем точноть для тестовой выборки
model = linear_model.LogisticRegression(**study.best_params, random_state=random_state)
model.fit(X_train, y_train)
y_test_pred = model.predict(X_test)
print("f1_score на тестовом наборе: {:.2f}".format(metrics.f1_score(y_test, y_test_pred)))

f1_score на тестовом наборе: 0.78


---

#### **Случайный лес**

In [74]:
def optuna_rf(trial):
    # задаем пространства поиска гиперпараметров
    n_estimators = trial.suggest_int('n_estimators', 100, 200, 1)
    max_depth = trial.suggest_int('max_depth', 10, 30, 1)
    min_samples_leaf = trial.suggest_int('min_samples_leaf', 2, 10, 1)
    
    # создаем модель
    model = ensemble.RandomForestClassifier(n_estimators=n_estimators,
                                            max_depth=max_depth,
                                            min_samples_leaf=min_samples_leaf,
                                            random_state=random_state)

    # Обучаем модель
    model.fit(X_train, y_train)
    score = metrics.f1_score(y_train, model.predict(X_train))

    return score

In [75]:
%%time
# созжаем объект исследования
# можем напрямую укзаать, что нам необходимо максимизировать метрику direction="maximize"
study = optuna.create_study(study_name="RandomForestClassifier", direction="maximize")
# ищем лучшую комбинацию гиперпараметров n_trials раз
study.optimize(optuna_rf, n_trials=20)

[I 2024-01-30 16:27:44,052] A new study created in memory with name: RandomForestClassifier
[I 2024-01-30 16:27:47,509] Trial 0 finished with value: 0.9273060476481368 and parameters: {'n_estimators': 169, 'max_depth': 26, 'min_samples_leaf': 7}. Best is trial 0 with value: 0.9273060476481368.
[I 2024-01-30 16:27:51,467] Trial 1 finished with value: 0.9908031882280809 and parameters: {'n_estimators': 176, 'max_depth': 19, 'min_samples_leaf': 2}. Best is trial 1 with value: 0.9908031882280809.
[I 2024-01-30 16:27:53,518] Trial 2 finished with value: 0.904209884075656 and parameters: {'n_estimators': 125, 'max_depth': 18, 'min_samples_leaf': 9}. Best is trial 1 with value: 0.9908031882280809.
[I 2024-01-30 16:27:56,924] Trial 3 finished with value: 0.9075887392900858 and parameters: {'n_estimators': 194, 'max_depth': 21, 'min_samples_leaf': 9}. Best is trial 1 with value: 0.9908031882280809.
[I 2024-01-30 16:27:59,746] Trial 4 finished with value: 0.9450884685784015 and parameters: {'n_e

CPU times: total: 1min
Wall time: 1min 8s


In [76]:
# рассчитаем точноть для тестовой выборки
model = ensemble.RandomForestClassifier(**study.best_params, random_state=random_state)
model.fit(X_train, y_train)
y_test_pred = model.predict(X_test)
print("f1_score на тестовом наборе: {:.2f}".format(metrics.f1_score(y_test, y_test_pred)))

f1_score на тестовом наборе: 0.82


---