# ML-7. Практика

In [1]:
#импорт библиотек
import numpy as np #для матричных вычислений
import pandas as pd #для анализа и предобработки данных
import matplotlib.pyplot as plt #для визуализации
import seaborn as sns #для визуализации

from sklearn import linear_model #линейные моделиё
from sklearn import tree #деревья решений
from sklearn import ensemble #ансамбли
from sklearn import metrics #метрики
from sklearn import preprocessing #предобработка
from sklearn.model_selection import train_test_split #сплитование выборки

import warnings # для игнорирования предупреждений
#Игнорируем варнинги
warnings.filterwarnings('ignore')
warnings.simplefilter(action="ignore")

%matplotlib inline
plt.style.use('seaborn')

from sklearn.model_selection import cross_val_score
import hyperopt
from hyperopt import hp, fmin, tpe, Trials

In [2]:
#подгружаем данные
data = pd.read_csv('data/_train_sem09.csv')
data.head()

Unnamed: 0,Activity,D1,D2,D3,D4,D5,D6,D7,D8,D9,...,D1767,D1768,D1769,D1770,D1771,D1772,D1773,D1774,D1775,D1776
0,1,0.0,0.497009,0.1,0.0,0.132956,0.678031,0.273166,0.585445,0.743663,...,0,0,0,0,0,0,0,0,0,0
1,1,0.366667,0.606291,0.05,0.0,0.111209,0.803455,0.106105,0.411754,0.836582,...,1,1,1,1,0,1,0,0,1,0
2,1,0.0333,0.480124,0.0,0.0,0.209791,0.61035,0.356453,0.51772,0.679051,...,0,0,0,0,0,0,0,0,0,0
3,1,0.0,0.538825,0.0,0.5,0.196344,0.72423,0.235606,0.288764,0.80511,...,0,0,0,0,0,0,0,0,0,0
4,0,0.1,0.517794,0.0,0.0,0.494734,0.781422,0.154361,0.303809,0.812646,...,0,0,0,0,0,0,0,0,0,0


In [3]:
#проверяем на наличие пропусков в данных
data.isnull().sum().sum()

0

In [4]:
#Создаем матрицу наблюдений X и вектор ответов y
X = data.drop(['Activity'], axis=1)
y = data['Activity']

In [5]:
#Разделяем выборку на тренировочную и тестовую в соотношении 80/20
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state = 1, test_size = 0.2)

## Логистическая регрессия

In [6]:
#Создаем объект класса логистическая регрессия
log_reg = linear_model.LogisticRegression(random_state=42, max_iter = 1000)
#Обучаем модель, минимизируя logloss
log_reg.fit(X_train, y_train)
y_train_pred = log_reg.predict(X_train)
print('f1_score на тренировочном наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
y_test_pred = log_reg.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))

f1_score на тренировочном наборе: 0.88
f1_score на тестовом наборе: 0.78


### Логистическая регрессия - GridSearchCV

In [7]:
from sklearn.model_selection import GridSearchCV

param_grid = {'penalty': ['l2', 'None'] ,#тип регуляризации
              'solver': ['lbfgs', 'saga'], #алгоритм оптимизации
              }
grid_search = GridSearchCV(
    estimator=linear_model.LogisticRegression(
        random_state=42, #генератор случайных чисел
        max_iter=1000 #количество итераций на сходимость
    ), 
    param_grid=param_grid, 
    cv=10, 
    n_jobs = -1
)  
grid_search.fit(X_train, y_train) 
y_train_pred = grid_search.predict(X_train)
print('f1_score на тренировочном наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
y_test_pred = grid_search.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))
print("Наилучшие значения гиперпараметров: {}".format(grid_search.best_params_))

f1_score на тренировочном наборе: 0.88
f1_score на тестовом наборе: 0.78
Наилучшие значения гиперпараметров: {'penalty': 'l2', 'solver': 'lbfgs'}


### Логистическая регрессия - RandomisedSearchCV

In [8]:
from sklearn.model_selection import RandomizedSearchCV

param_distributions = {'penalty': ['l2', 'None'] ,
              'solver': ['lbfgs', 'sag'],
               'C': list(np.linspace(0.01, 1, 10, dtype=float))},
            
random_search = RandomizedSearchCV(
    estimator=linear_model.LogisticRegression(random_state=42, max_iter=1000), 
    param_distributions=param_distributions, 
    cv=5, 
    n_iter = 10, 
    n_jobs = -1
)  
random_search.fit(X_train, y_train) 
y_train_pred = random_search.predict(X_train)
print('f1_score на тренировочном наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
y_test_pred = random_search.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))
print("Наилучшие значения гиперпараметров: {}".format(random_search.best_params_))

f1_score на тренировочном наборе: 0.87
f1_score на тестовом наборе: 0.78
Наилучшие значения гиперпараметров: {'solver': 'lbfgs', 'penalty': 'l2', 'C': 0.34}


### Логистическая регрессия - Hyperopt

In [9]:
# зададим пространство поиска гиперпараметров
pen = ['l1', 'l2']
sol = ['liblinear', 'saga']
space={'penalty': hp.choice('penalty', pen),
       'solver' : hp.choice('solver', sol),
       'C': hp.uniform('C', 0.01, 1)
      }


# Зафиксируем random_state
random_state = 42

def hyperopt_rf(params, cv=5, X=X_train, y=y_train, random_state=random_state):
    # Функция получает комбинацию гиперпараметров в "params"
    params = {'penalty': params['penalty'], 
              'solver': params['solver'], 
              'C': float(params['C'])
              }
  
    # Используем эту комбинацию для построения модели
    model = linear_model.LogisticRegression(**params, random_state=random_state)

    # Обучаем модель
    model.fit(X, y)
         
    # Применим  cross validation с тем же количеством фолдов
    score = cross_val_score(model, X, y, cv=cv, scoring="f1", n_jobs=-1).mean()

    # Метрику необходимо максимизировать, поэтому ставим знак минус
    return -score

# Начинаем подбор гиперпараметров

trials = Trials() # используется для логирования результатов

best=fmin(hyperopt_rf, # наша функция 
          space=space, # пространство гиперпараметров
          algo=tpe.suggest, # алгоритм оптимизации, установлен по умолчанию, задавать необязательно
          max_evals=20, # максимальное количество итераций
          trials=trials, # логирование результатов
          rstate=np.random.default_rng(random_state)
         )
print("Наилучшие значения гиперпараметров {}".format(best))

# берем наилучшие параметры
# рассчитаем точность для тестовой выборки
model = linear_model.LogisticRegression(
    random_state=random_state, 
    penalty=pen[best['penalty']],
    solver=sol[best['solver']],
    C=float(best['C'])
)
model.fit(X_train, y_train)
y_train_pred = model.predict(X_train)
print('f1_score на обучающем наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
y_test_pred = model.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))

  5%|▌         | 1/20 [00:02<00:40,  2.13s/trial, best loss: -0.7706169946428503]



 10%|█         | 2/20 [00:25<04:27, 14.85s/trial, best loss: -0.7807204491271118]



 15%|█▌        | 3/20 [00:27<02:26,  8.60s/trial, best loss: -0.7807204491271118]



 20%|██        | 4/20 [00:48<03:40, 13.78s/trial, best loss: -0.7826782883390004]



 25%|██▌       | 5/20 [00:50<02:20,  9.37s/trial, best loss: -0.7826782883390004]



 30%|███       | 6/20 [01:05<02:40, 11.44s/trial, best loss: -0.7826782883390004]



 35%|███▌      | 7/20 [01:21<02:45, 12.72s/trial, best loss: -0.7826782883390004]



 45%|████▌     | 9/20 [01:26<01:19,  7.27s/trial, best loss: -0.7826782883390004]



 50%|█████     | 10/20 [01:54<02:17, 13.75s/trial, best loss: -0.7826782883390004]



 55%|█████▌    | 11/20 [02:03<01:49, 12.17s/trial, best loss: -0.7826782883390004]



 60%|██████    | 12/20 [02:20<01:50, 13.77s/trial, best loss: -0.7826782883390004]



 65%|██████▌   | 13/20 [02:27<01:21, 11.64s/trial, best loss: -0.7826782883390004]



 70%|███████   | 14/20 [02:55<01:39, 16.65s/trial, best loss: -0.7826782883390004]



 75%|███████▌  | 15/20 [03:20<01:36, 19.23s/trial, best loss: -0.7826782883390004]



 80%|████████  | 16/20 [03:22<00:56, 14.10s/trial, best loss: -0.7826782883390004]



 85%|████████▌ | 17/20 [03:38<00:43, 14.54s/trial, best loss: -0.7826782883390004]



 90%|█████████ | 18/20 [03:59<00:33, 16.54s/trial, best loss: -0.7843573900686336]



 95%|█████████▌| 19/20 [04:24<00:19, 19.06s/trial, best loss: -0.7843573900686336]



100%|██████████| 20/20 [04:26<00:00, 13.34s/trial, best loss: -0.7843573900686336]
Наилучшие значения гиперпараметров {'C': 0.11205124547519595, 'penalty': 0, 'solver': 1}
f1_score на обучающем наборе: 0.81
f1_score на тестовом наборе: 0.79


### Логистическая регрессия - Optuna

In [10]:
import optuna

def optuna_lr(trial):
  # задаем пространства поиска гиперпараметров
  penalty = trial.suggest_categorical('penalty', ['l1', 'l2'])
  solver = trial.suggest_categorical('solver', ['liblinear', 'saga'])
  C = trial.suggest_float('C', 0.01, 10)

  # создаем модель
  model = linear_model.LogisticRegression(penalty=penalty,
                                          solver=solver,
                                          C=C,
                                          random_state=random_state)
  # обучаем модель
  model.fit(X_train, y_train)
  score = metrics.f1_score(y_train, model.predict(X_train))

  return score
  
# cоздаем объект исследования
# можем напрямую указать, что нам необходимо максимизировать метрику direction="maximize"
study = optuna.create_study(study_name="LogisticRegression", direction="maximize")
# ищем лучшую комбинацию гиперпараметров n_trials раз
study.optimize(optuna_lr, n_trials=20)

# выводим результаты на обучающей выборке
print("Наилучшие значения гиперпараметров {}".format(study.best_params))
print("f1_score на обучающем наборе: {:.2f}".format(study.best_value))

# рассчитаем точность для тестовой выборки
model = linear_model.LogisticRegression(**study.best_params,random_state=random_state)
model.fit(X_train, y_train)
y_test_pred = model.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))

[I 2023-07-27 01:58:35,190] A new study created in memory with name: LogisticRegression
[I 2023-07-27 01:58:36,355] Trial 0 finished with value: 0.9209160305343511 and parameters: {'penalty': 'l2', 'solver': 'liblinear', 'C': 6.802764703388858}. Best is trial 0 with value: 0.9209160305343511.
[I 2023-07-27 01:58:37,341] Trial 1 finished with value: 0.911863372979567 and parameters: {'penalty': 'l2', 'solver': 'liblinear', 'C': 3.6954930946356277}. Best is trial 0 with value: 0.9209160305343511.
[I 2023-07-27 01:58:46,716] Trial 2 finished with value: 0.870602630773937 and parameters: {'penalty': 'l1', 'solver': 'saga', 'C': 9.640486255673993}. Best is trial 0 with value: 0.9209160305343511.
[I 2023-07-27 01:58:55,083] Trial 3 finished with value: 0.8376741368867353 and parameters: {'penalty': 'l1', 'solver': 'saga', 'C': 0.4178533896046464}. Best is trial 0 with value: 0.9209160305343511.
[I 2023-07-27 01:59:04,774] Trial 4 finished with value: 0.8697247706422018 and parameters: {'pena

Наилучшие значения гиперпараметров {'penalty': 'l2', 'solver': 'liblinear', 'C': 9.93624034640905}
f1_score на обучающем наборе: 0.93
f1_score на тестовом наборе: 0.76


## Случайный лес

In [11]:
#Создаем объект класса случайный лес
rf = ensemble.RandomForestClassifier(random_state=42)

#Обучаем модель
rf.fit(X_train, y_train)
#Выводим значения метрики 
y_train_pred_rf = rf.predict(X_train)
print('f1_score на тренировочном наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred_rf)))
y_test_pred_rf = rf.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred_rf)))

f1_score на тренировочном наборе: 1.00
f1_score на тестовом наборе: 0.81


### Случайный лес - GridSearchCV

In [12]:
param_grid = {'n_estimators': list(range(80, 200, 30)),
              'min_samples_leaf': [5],
              'max_depth': list(np.linspace(20, 40, 5, dtype=int))
              }
            
grid_search_forest = GridSearchCV(
    estimator=ensemble.RandomForestClassifier(random_state=42), 
    param_grid=param_grid, 
    cv=5, 
    n_jobs = -1
)  
grid_search_forest.fit(X_train, y_train) 
y_train_pred = grid_search_forest.predict(X_train)
print('f1_score на обучающем наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
y_test_pred = grid_search_forest.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))
print("Наилучшие значения гиперпараметров: {}".format(grid_search_forest.best_params_))

f1_score на обучающем наборе: 0.94
f1_score на тестовом наборе: 0.82
Наилучшие значения гиперпараметров: {'max_depth': 20, 'min_samples_leaf': 5, 'n_estimators': 140}


### Случайный лес - RandomisedSearchCV

In [13]:
param_distributions = {'n_estimators': list(range(80, 200, 30)),
              'min_samples_leaf': [5],
              'max_depth': list(np.linspace(20, 40, 10, dtype=int))
              }
            
random_search_forest = RandomizedSearchCV(
    estimator=ensemble.RandomForestClassifier(random_state=42), 
    param_distributions=param_distributions, 
    cv=5,
    n_iter = 10, 
    n_jobs = -1
)  
random_search_forest.fit(X_train, y_train) 
y_train_pred = random_search_forest.predict(X_train)
print('f1_score на обучающем наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
y_test_pred = random_search_forest.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))
print("Наилучшие значения гиперпараметров: {}".format(random_search_forest.best_params_))

f1_score на обучающем наборе: 0.94
f1_score на тестовом наборе: 0.83
Наилучшие значения гиперпараметров: {'n_estimators': 80, 'min_samples_leaf': 5, 'max_depth': 22}


### Случайный лес - Hyperopt

In [14]:
# зададим пространство поиска гиперпараметров
space={'n_estimators': hp.quniform('n_estimators', 100, 200, 1),
       'max_depth' : hp.quniform('max_depth', 15, 26, 1),
       'min_samples_leaf': hp.quniform('min_samples_leaf', 2, 10, 1)
      }


# зафксируем random_state
random_state = 42
def hyperopt_rf(params, cv=5, X=X_train, y=y_train, random_state=random_state):
    # функция получает комбинацию гиперпараметров в "params"
    params = {'n_estimators': int(params['n_estimators']), 
              'max_depth': int(params['max_depth']), 
             'min_samples_leaf': int(params['min_samples_leaf'])
              }
  
    # используем эту комбинацию для построения модели
    model = ensemble.RandomForestClassifier(**params, random_state=random_state)

    # обучаем модель
    model.fit(X, y)
    #score = metrics.f1_score(y, model.predict(X))
    # применим  cross validation с тем же количеством фолдов
    score = cross_val_score(model, X, y, cv=cv, scoring="f1", n_jobs=-1).mean()

    # метрику необходимо минимизировать, поэтому ставим знак минус
    return -score

# начинаем подбор гиперпараметров

trials = Trials() # используется для логирования результатов

best=fmin(hyperopt_rf, # наша функция 
          space=space, # пространство гиперпараметров
          algo=tpe.suggest, # алгоритм оптимизации, установлен по умолчанию, задавать необязательно
          max_evals=20, # максимальное количество итераций
          trials=trials, # логирование результатов
          rstate=np.random.default_rng(random_state)# фиксируем для повторяемости результата
         )
print("Наилучшие значения гиперпараметров {}".format(best))

# рассчитаем точность для тестовой выборки
model = ensemble.RandomForestClassifier(
    random_state=random_state, 
    n_estimators=int(best['n_estimators']),
    max_depth=int(best['max_depth']),
    min_samples_leaf=int(best['min_samples_leaf'])
)
model.fit(X_train, y_train)
y_train_pred = model.predict(X_train)
print('f1_score на обучающем наборе: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
y_test_pred = model.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))

100%|██████████| 20/20 [03:02<00:00,  9.12s/trial, best loss: -0.8080577050312506]
Наилучшие значения гиперпараметров {'max_depth': 18.0, 'min_samples_leaf': 2.0, 'n_estimators': 103.0}
f1_score на обучающем наборе: 0.99
f1_score на тестовом наборе: 0.82


### Случайный лес - Optuna

In [15]:
import optuna

def optuna_rf(trial):
  # задаем пространства поиска гиперпараметров
  n_estimators = trial.suggest_int('n_estimators', 100, 200, 1)
  max_depth = trial.suggest_int('max_depth', 10, 30, 1)
  min_samples_leaf = trial.suggest_int('min_samples_leaf', 2, 10, 1)

  # создаем модель
  model = ensemble.RandomForestClassifier(n_estimators=n_estimators,
                                          max_depth=max_depth,
                                          min_samples_leaf=min_samples_leaf,
                                          random_state=random_state)
  # обучаем модель
  model.fit(X_train, y_train)
  score = metrics.f1_score(y_train, model.predict(X_train))

  return score
  
# cоздаем объект исследования
# можем напрямую указать, что нам необходимо максимизировать метрику direction="maximize"
study = optuna.create_study(study_name="RandomForestClassifier", direction="maximize")
# ищем лучшую комбинацию гиперпараметров n_trials раз
study.optimize(optuna_rf, n_trials=20)

# выводим результаты на обучающей выборке
print("Наилучшие значения гиперпараметров {}".format(study.best_params))
print("f1_score на обучающем наборе: {:.2f}".format(study.best_value))

# рассчитаем точность для тестовой выборки
model = ensemble.RandomForestClassifier(**study.best_params,random_state=random_state, )
model.fit(X_train, y_train)
y_train_pred = model.predict(X_train)
print("accuracy на тестовом наборе: {:.2f}".format(model.score(X_test, y_test)))
y_test_pred = model.predict(X_test)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))

[I 2023-07-27 02:04:14,172] A new study created in memory with name: RandomForestClassifier
[I 2023-07-27 02:04:16,741] Trial 0 finished with value: 0.9074809160305344 and parameters: {'n_estimators': 200, 'max_depth': 26, 'min_samples_leaf': 9}. Best is trial 0 with value: 0.9074809160305344.
[I 2023-07-27 02:04:19,334] Trial 1 finished with value: 0.9143730886850152 and parameters: {'n_estimators': 197, 'max_depth': 23, 'min_samples_leaf': 8}. Best is trial 1 with value: 0.9143730886850152.
[I 2023-07-27 02:04:21,578] Trial 2 finished with value: 0.9010989010989011 and parameters: {'n_estimators': 176, 'max_depth': 20, 'min_samples_leaf': 10}. Best is trial 1 with value: 0.9143730886850152.
[I 2023-07-27 02:04:23,715] Trial 3 finished with value: 0.9285277947464875 and parameters: {'n_estimators': 157, 'max_depth': 27, 'min_samples_leaf': 7}. Best is trial 3 with value: 0.9285277947464875.
[I 2023-07-27 02:04:25,458] Trial 4 finished with value: 0.9908088235294118 and parameters: {'n

Наилучшие значения гиперпараметров {'n_estimators': 121, 'max_depth': 20, 'min_samples_leaf': 2}
f1_score на обучающем наборе: 0.99
accuracy на тестовом наборе: 0.80
f1_score на тестовом наборе: 0.82
