**Библиотеки Python для DS (семинары в записи)**

***Урок 8. На практике использование методов генерации признаков***

В вашем распоряжении набор данных о качестве сна Sleep_health_and_lifestyle_dataset.csv.

Ваша задача — подготовить данные к моделированию, сгенерировать новые признаки, применить методы отбора признаков для улучшения качества предсказательной модели и подобрать оптимальные гиперпараметры для модели регрессии.

1. Предобработка данных:
— Очистите данные от пропусков и аномалий.
— Преобразуйте категориальные переменные с помощью One-Hot Encoding или Label Encoding.

2. Генерация новых признаков:
— Создайте комбинированные признаки, которые могут помочь улучшить модель.
— Используйте полиномиальные признаки для числовых переменных.

3. Отбор признаков:
— Примените несколько методов отбора признаков (например, RFE, SelectKBest).
— Сравните качество модели до и после отбора признаков.

4. Подбор гиперпараметров:
— Используйте GridSearchCV или RandomizedSearchCV для настройки параметров вашей модели регрессии.
— Оцените, как изменение гиперпараметров влияет на качество предсказаний.

Импорт библиотек

In [1]:
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import r2_score, accuracy_score

In [3]:
!!pip install scikit-optimize

['Collecting scikit-optimize',
 '  Downloading scikit_optimize-0.10.2-py2.py3-none-any.whl.metadata (9.7 kB)',
 'Collecting pyaml>=16.9 (from scikit-optimize)',
 '  Downloading pyaml-24.9.0-py3-none-any.whl.metadata (11 kB)',
 'Downloading scikit_optimize-0.10.2-py2.py3-none-any.whl (107 kB)',
 '\x1b[?25l   \x1b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\x1b[0m \x1b[32m0.0/107.8 kB\x1b[0m \x1b[31m?\x1b[0m eta \x1b[36m-:--:--\x1b[0m',
 '\x1b[2K   \x1b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\x1b[0m \x1b[32m107.8/107.8 kB\x1b[0m \x1b[31m4.2 MB/s\x1b[0m eta \x1b[36m0:00:00\x1b[0m',
 '\x1b[?25hDownloading pyaml-24.9.0-py3-none-any.whl (24 kB)',
 'Installing collected packages: pyaml, scikit-optimize',
 'Successfully installed pyaml-24.9.0 scikit-optimize-0.10.2']

In [4]:
from skopt.space import Real, Integer
from skopt import BayesSearchCV

Загрузим датасет и посмотрим на признаки

In [72]:
df = pd.read_csv('sample_data/Sleep_health_and_lifestyle_dataset.csv')
df.head()

Unnamed: 0,Person ID,Gender,Age,Occupation,Sleep Duration,Quality of Sleep,Physical Activity Level,Stress Level,BMI Category,Blood Pressure,Heart Rate,Daily Steps,Sleep Disorder
0,1,Male,27,Software Engineer,6.1,6,42,6,Overweight,126/83,77,4200,
1,2,Male,28,Doctor,6.2,6,60,8,Normal,125/80,75,10000,
2,3,Male,28,Doctor,6.2,6,60,8,Normal,125/80,75,10000,
3,4,Male,28,Sales Representative,5.9,4,30,8,Obese,140/90,85,3000,Sleep Apnea
4,5,Male,28,Sales Representative,5.9,4,30,8,Obese,140/90,85,3000,Sleep Apnea


**Датасет Sleep Health and Lifestyle содержит информацию о здоровье сна и образе жизни 374 человек.**

**Описание столбцов датасета Sleep health and lifestyle dataset**:

- Person ID: уникальный идентификатор для каждого человека
- Gender: 	пол человека (мужчина/женщина)
- Age: возраст человека в годах
- Occupation:	профессия или род деятельности человека
- Sleep Duration (hours):	количество часов, которое человек спит в день
- Quality of Sleep (scale: 1-10):	субъективная оценка качества сна по шкале от 1 до 10, где 1 — наихудшее качество, а 10 — наилучшее
- Physical Activity Level (minutes/day):	количество минут физической активности в день
- Stress Level (scale: 1-10):	субъективная оценка уровня стресса по шкале от 1 до 10
- BMI Category:	категория индекса массы тела (например: нормальный, избыточный вес, ожирение)
- Blood Pressure (systolic/diastolic): измерение артериального давления, указано как систолическое/диастолическое давление
- Heart Rate (bpm):	пульс в состоянии покоя в ударах в минуту
- Daily Steps:	количество шагов, которые человек проходит за день
- Sleep Disorder:	наличие или отсутствие расстройства сна у человека (нет, инсомния, апноэ сна).

In [73]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 374 entries, 0 to 373
Data columns (total 13 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Person ID                374 non-null    int64  
 1   Gender                   374 non-null    object 
 2   Age                      374 non-null    int64  
 3   Occupation               374 non-null    object 
 4   Sleep Duration           374 non-null    float64
 5   Quality of Sleep         374 non-null    int64  
 6   Physical Activity Level  374 non-null    int64  
 7   Stress Level             374 non-null    int64  
 8   BMI Category             374 non-null    object 
 9   Blood Pressure           374 non-null    object 
 10  Heart Rate               374 non-null    int64  
 11  Daily Steps              374 non-null    int64  
 12  Sleep Disorder           155 non-null    object 
dtypes: float64(1), int64(7), object(5)
memory usage: 38.1+ KB


In [74]:
df['Sleep Disorder'].value_counts()

Unnamed: 0_level_0,count
Sleep Disorder,Unnamed: 1_level_1
Sleep Apnea,78
Insomnia,77


In [75]:
df['Sleep Disorder'] = df['Sleep Disorder'].fillna('No information')

In [76]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 374 entries, 0 to 373
Data columns (total 13 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Person ID                374 non-null    int64  
 1   Gender                   374 non-null    object 
 2   Age                      374 non-null    int64  
 3   Occupation               374 non-null    object 
 4   Sleep Duration           374 non-null    float64
 5   Quality of Sleep         374 non-null    int64  
 6   Physical Activity Level  374 non-null    int64  
 7   Stress Level             374 non-null    int64  
 8   BMI Category             374 non-null    object 
 9   Blood Pressure           374 non-null    object 
 10  Heart Rate               374 non-null    int64  
 11  Daily Steps              374 non-null    int64  
 12  Sleep Disorder           374 non-null    object 
dtypes: float64(1), int64(7), object(5)
memory usage: 38.1+ KB


In [77]:
df.isna().sum()

Unnamed: 0,0
Person ID,0
Gender,0
Age,0
Occupation,0
Sleep Duration,0
Quality of Sleep,0
Physical Activity Level,0
Stress Level,0
BMI Category,0
Blood Pressure,0


In [78]:
df.duplicated().sum()

0

Изучим статистические данные

In [79]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Person ID,374.0,187.5,108.108742,1.0,94.25,187.5,280.75,374.0
Age,374.0,42.184492,8.673133,27.0,35.25,43.0,50.0,59.0
Sleep Duration,374.0,7.132086,0.795657,5.8,6.4,7.2,7.8,8.5
Quality of Sleep,374.0,7.312834,1.196956,4.0,6.0,7.0,8.0,9.0
Physical Activity Level,374.0,59.171123,20.830804,30.0,45.0,60.0,75.0,90.0
Stress Level,374.0,5.385027,1.774526,3.0,4.0,5.0,7.0,8.0
Heart Rate,374.0,70.165775,4.135676,65.0,68.0,70.0,72.0,86.0
Daily Steps,374.0,6816.84492,1617.915679,3000.0,5600.0,7000.0,8000.0,10000.0


Преобразование категориальных переменных с помощью One-Hot Encoding или Label Encoding

In [80]:
df.describe(include='object').T

Unnamed: 0,count,unique,top,freq
Gender,374,2,Male,189
Occupation,374,11,Nurse,73
BMI Category,374,4,Normal,195
Blood Pressure,374,25,130/85,99
Sleep Disorder,374,3,No information,219


In [81]:
df['Gender'].value_counts()

Unnamed: 0_level_0,count
Gender,Unnamed: 1_level_1
Male,189
Female,185


In [82]:
df['Gender'] = df['Gender'].replace({'Female': 0, 'Male': 1})

In [83]:
df['Sleep Disorder'].value_counts()

Unnamed: 0_level_0,count
Sleep Disorder,Unnamed: 1_level_1
No information,219
Sleep Apnea,78
Insomnia,77


In [84]:
df['Sleep_Disorder'] = df['Sleep Disorder'].map({
    'No information': 0,
    'Sleep Apnea': 2,
    'Insomnia': 1
})
df = df.drop('Sleep Disorder', axis=1)

In [85]:
df['BMI Category'].value_counts()

Unnamed: 0_level_0,count
BMI Category,Unnamed: 1_level_1
Normal,195
Overweight,148
Normal Weight,21
Obese,10


In [86]:
df['BMI Category'] = df['BMI Category'].replace({'Normal Weight': 'Normal'})
df['BMI Category Coded'] = pd.Categorical(df['BMI Category'], categories=['Normal', 'Overweight', 'Obese'], ordered=True)
df['BMI Category Coded'] = df['BMI Category Coded'].cat.codes

print(df['BMI Category Coded'].value_counts())

BMI Category Coded
0    216
1    148
2     10
Name: count, dtype: int64


In [87]:
df['Occupation'].value_counts()

Unnamed: 0_level_0,count
Occupation,Unnamed: 1_level_1
Nurse,73
Doctor,71
Engineer,63
Lawyer,47
Teacher,40
Accountant,37
Salesperson,32
Software Engineer,4
Scientist,4
Sales Representative,2


In [88]:
df.loc[df['Occupation'] == 'Sales Representative', 'Occupation'] = 'Salesperson'

In [89]:
df['Occupation'].value_counts()

Unnamed: 0_level_0,count
Occupation,Unnamed: 1_level_1
Nurse,73
Doctor,71
Engineer,63
Lawyer,47
Teacher,40
Accountant,37
Salesperson,34
Software Engineer,4
Scientist,4
Manager,1


In [90]:
frequency = df['Occupation'].value_counts(normalize=True)
df['Occupation'] = df['Occupation'].map(frequency)
df['Occupation'].value_counts()

Unnamed: 0_level_0,count
Occupation,Unnamed: 1_level_1
0.195187,73
0.18984,71
0.168449,63
0.125668,47
0.106952,40
0.09893,37
0.090909,34
0.010695,8
0.002674,1


Добавим новые признаки из уже имеющихся

In [91]:
df['Blood Pressure'].value_counts()

Unnamed: 0_level_0,count
Blood Pressure,Unnamed: 1_level_1
130/85,99
140/95,65
125/80,65
120/80,45
115/75,32
135/90,27
140/90,4
125/82,4
132/87,3
128/85,3


In [92]:
# Разделения значения давления и преобразование в числовой формат
df[['Systilic BP', 'Diastolic BP']] = df['Blood Pressure'].str.split('/', expand=True).astype(int)

# Разбиение на категории по систолическому давлению
df['Systolic Category'] = pd.cut(df['Systilic BP'], bins=[0, 119, 129, 139, 159, 180], labels=[0, 1, 2, 3, 4], right=False)

# Разбиение на категории по диаистолическому давлению
df['Diastolic Category'] = pd.cut(df['Diastolic BP'], bins=[0, 79, 89, 99, 109, 120], labels=[0, 1, 2, 3, 4], right=False)

print(df[['Systilic BP', 'Systolic Category', 'Diastolic BP', 'Diastolic Category']].head())

   Systilic BP Systolic Category  Diastolic BP Diastolic Category
0          126                 1            83                  1
1          125                 1            80                  1
2          125                 1            80                  1
3          140                 3            90                  2
4          140                 3            90                  2


In [93]:
df.drop(['Blood Pressure', 'BMI Category', 'Person ID'], axis=1, inplace=True)

In [94]:
df.head()

Unnamed: 0,Gender,Age,Occupation,Sleep Duration,Quality of Sleep,Physical Activity Level,Stress Level,Heart Rate,Daily Steps,Sleep_Disorder,BMI Category Coded,Systilic BP,Diastolic BP,Systolic Category,Diastolic Category
0,1,27,0.010695,6.1,6,42,6,77,4200,0,1,126,83,1,1
1,1,28,0.18984,6.2,6,60,8,75,10000,0,0,125,80,1,1
2,1,28,0.18984,6.2,6,60,8,75,10000,0,0,125,80,1,1
3,1,28,0.090909,5.9,4,30,8,85,3000,2,2,140,90,3,2
4,1,28,0.090909,5.9,4,30,8,85,3000,2,2,140,90,3,2


Используем полиномиальные признаки для числовых переменных

In [95]:
features = df[['Age', 'Daily Steps', 'Heart Rate']]

poly = PolynomialFeatures(degree=2, include_bias=False)
poly_features = poly.fit_transform(features)
poly_features_df = pd.DataFrame(poly_features, columns=poly.get_feature_names_out(features.columns))

df = pd.concat([df, poly_features_df], axis=1)

df.head()

Unnamed: 0,Gender,Age,Occupation,Sleep Duration,Quality of Sleep,Physical Activity Level,Stress Level,Heart Rate,Daily Steps,Sleep_Disorder,...,Diastolic Category,Age.1,Daily Steps.1,Heart Rate.1,Age^2,Age Daily Steps,Age Heart Rate,Daily Steps^2,Daily Steps Heart Rate,Heart Rate^2
0,1,27,0.010695,6.1,6,42,6,77,4200,0,...,1,27.0,4200.0,77.0,729.0,113400.0,2079.0,17640000.0,323400.0,5929.0
1,1,28,0.18984,6.2,6,60,8,75,10000,0,...,1,28.0,10000.0,75.0,784.0,280000.0,2100.0,100000000.0,750000.0,5625.0
2,1,28,0.18984,6.2,6,60,8,75,10000,0,...,1,28.0,10000.0,75.0,784.0,280000.0,2100.0,100000000.0,750000.0,5625.0
3,1,28,0.090909,5.9,4,30,8,85,3000,2,...,2,28.0,3000.0,85.0,784.0,84000.0,2380.0,9000000.0,255000.0,7225.0
4,1,28,0.090909,5.9,4,30,8,85,3000,2,...,2,28.0,3000.0,85.0,784.0,84000.0,2380.0,9000000.0,255000.0,7225.0


Применим несколько методов отбора признаков, сравним модели

In [96]:
X = df.drop('Sleep Duration', axis=1)
y = df['Sleep Duration']


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [97]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score
tree = DecisionTreeRegressor()

tree.fit(X_train, y_train)
prediction = tree.predict(X_test)

print(f'R^2 на тренировочных данных {r2_score(y_train, tree.predict(X_train))}')
print(f'R^2 на тестовых данных {r2_score(y_test, tree.predict(X_test))}')

R^2 на тренировочных данных 0.9962613763571585
R^2 на тестовых данных 0.9868675910957962


Показатели модели DecisionTreeRegressor указывают на высокую степень объяснения вариации целевой переменной как на тренировочных, так и на тестовых данных.

Показатели R2:
- на тренировочных данных: 0.9963
- на тестовых данных: 0.9869

**Интерпретация значений**

1.	Высокое значение на тренировочных данных (0.9963) указывает на то, что модель объясняет 99.63% вариации в тренировочных данных. Такой высокий коэффициент может свидетельствовать о том, что модель хорошо подстраивается под данные, однако это также может быть признаком переобучения.
2.	Значение на тестовых данных (0.9869) также высоко, что говорит о том, что модель сохраняет свою способность объяснять вариацию и на новых данных, что является положительным признаком.

Разница между значениями R2 для тренировочных и тестовых данных составляет всего около 0.0094. Это указывает на то, что модель скорее всего не переобучена и хорошо обобщает информацию, но все-таки риск переобучения сохраняется.

In [98]:
from sklearn.feature_selection import RFE
# Создаем RFE модель
rfe = RFE(estimator=tree, n_features_to_select=13)
rfe = rfe.fit(X, y)

# Показываем какие признаки выбраны
selected_features = pd.DataFrame({
    'Feature': X.columns,  # Здесь X.columns должен содержать названия столбцов, использованных для X
    'Ranking': rfe.ranking_
})
print(selected_features.sort_values(by='Ranking', ascending=False))

                    Feature  Ranking
0                    Gender       11
13       Diastolic Category       10
12        Systolic Category        9
9        BMI Category Coded        8
20            Daily Steps^2        7
22             Heart Rate^2        6
11             Diastolic BP        5
15              Daily Steps        4
6                Heart Rate        3
1                       Age        2
5              Stress Level        1
10              Systilic BP        1
4   Physical Activity Level        1
3          Quality of Sleep        1
7               Daily Steps        1
8            Sleep_Disorder        1
16               Heart Rate        1
17                    Age^2        1
18          Age Daily Steps        1
19           Age Heart Rate        1
2                Occupation        1
21   Daily Steps Heart Rate        1
14                      Age        1


In [110]:
top_features = selected_features.sort_values(by='Ranking', ascending=False)[:10]
X_train_selected = X_train[top_features.Feature]
X_test_selected = X_test[top_features.Feature]

# Обучение дерева решений на отобранных признаках
dt1 = DecisionTreeRegressor(random_state=42)
dt1.fit(X_train_selected, y_train)
print(f'R^2 на тренировочных данных {r2_score(y_train, dt1.predict(X_train_selected))}')
print(f'R^2 на тестовых данных {r2_score(y_test, dt1.predict(X_test_selected))}')

R^2 на тренировочных данных 0.9695903063979994
R^2 на тестовых данных 0.9112903406272175


Результаты обучения на топ 10 признаках не значительно, но хуже.

**Показатели R2:**

- на тренировочных данных: 0.9696
- на тестовых данных: 0.9113

**Интерпретация значений**:

1.	R2 на тренировочных данных указывает на то, что модель объясняет 96.96% вариации в тренировочных данных. Это высокий показатель, который говорит о том, что модель все еще хорошо подстраивается под данные.
2.	R2 на тестовых данных составляет 91.13%. Это также хороший результат, но заметно ниже, чем на тренировочных данных. Это может указывать на то, что модель не так хорошо обобщает информацию на новых, невидимых данных.

Разница между R2 для тренировочных и тестовых данных составляет примерно 0.0583 (или 5.83%). Это может быть признаком некоторого переобучения модели, так как она показывает значительно лучшие результаты на тренировочных данных по сравнению с тестовыми.


In [123]:
feature_importances = pd.Series(tree.feature_importances_, index=X_train.columns)

# Отбор 10 наиболее важных признаков
top_features2 = feature_importances.nlargest(10).index
top_features2

Index(['Quality of Sleep', 'Physical Activity Level', 'BMI Category Coded',
       'Stress Level', 'Age Daily Steps', 'Daily Steps Heart Rate',
       'Sleep_Disorder', 'Heart Rate', 'Daily Steps^2', 'Age'],
      dtype='object')

Мы получили другой набор признаков

In [124]:
X_train_selected2 = X_train[top_features2]
X_test_selected2 = X_test[top_features2]

# Обучение дерева решений на отобранных признаках
dt2 = DecisionTreeRegressor(random_state=42)
dt2.fit(X_train_selected2, y_train)
print(f'R^2 на тренировочных данных {r2_score(y_train, dt2.predict(X_train_selected2))}')
print(f'R^2 на тестовых данных {r2_score(y_test, dt2.predict(X_test_selected2))}')

R^2 на тренировочных данных 0.9962583708514867
R^2 на тестовых данных 0.9842129364177964


In [125]:
from sklearn.feature_selection import SelectKBest, f_classif
import pandas as pd

# Предположим, что X - ваши признаки, а y - целевая переменная.
# Создаем SelectKBest модель с выбранной функцией оценки
select_k_best = SelectKBest(score_func=f_classif, k=10)  # k - количество признаков, которые нужно выбрать
select_k_best.fit(X, y)

# Получаем оценки признаков
scores = select_k_best.scores_

# Создаем DataFrame для выбранных признаков и их оценок
selected_features3 = pd.DataFrame({
    'Feature': X.columns,
    'Score': scores
})

# Сортируем по убыванию оценок
print(selected_features3.sort_values(by='Score', ascending=False))

                    Feature       Score
3          Quality of Sleep  140.586632
5              Stress Level   81.618461
17                    Age^2   26.189193
9        BMI Category Coded   22.880618
2                Occupation   22.605191
14                      Age   20.766194
1                       Age   20.766194
4   Physical Activity Level   20.453638
13       Diastolic Category   16.587580
6                Heart Rate   15.352599
16               Heart Rate   15.352599
22             Heart Rate^2   14.613826
11             Diastolic BP   14.174391
19           Age Heart Rate   13.988468
10              Systilic BP   13.633807
0                    Gender   13.409809
8            Sleep_Disorder   13.130067
12        Systolic Category   11.749833
21   Daily Steps Heart Rate    9.984257
15              Daily Steps    8.839822
7               Daily Steps    8.839822
20            Daily Steps^2    8.556099
18          Age Daily Steps    4.711809


In [126]:
top_features3 = selected_features3.sort_values(by='Score', ascending=False)[:10]
X_train_selected3 = X_train[top_features3.Feature]
X_test_selected3 = X_test[top_features3.Feature]

# Обучение дерева решений на отобранных признаках
dt3 = DecisionTreeRegressor(random_state=42)
dt3.fit(X_train_selected3, y_train)
print(f'R^2 на тренировочных данных {r2_score(y_train, dt3.predict(X_train_selected3))}')
print(f'R^2 на тестовых данных {r2_score(y_test, dt3.predict(X_test_selected3))}')

R^2 на тренировочных данных 0.9958222096265205
R^2 на тестовых данных 0.9916862785688405


Как мы видим, качество модели с уменьшением признаков не снижается, а растет, что само по себе можно рассматривать как положительный момент, но при этом очень большая вероятность того, что наша модель переобучена: показатели R2 очень высокие что на тренировочных данных, что на тестовых.

Подбор гиперпараметров

In [133]:
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import GridSearchCV, train_test_split, cross_val_score
from sklearn.metrics import mean_squared_error, r2_score
from skopt import BayesSearchCV


# Функция для оценки модели с помощью перекрестной проверки
def evaluate_model(model, X_train, y_train):
    scores = cross_val_score(model, X_train, y_train, scoring='r2', cv=5)
    return scores.mean()

# Поиск гиперпараметров с помощью сетки параметров
param_grid = {
    'max_depth': [3, 5, 7, 9],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

dt = DecisionTreeRegressor(random_state=42)
grid_search = GridSearchCV(estimator=tree, param_grid=param_grid, scoring='r2', cv=5, n_jobs=-1)
grid_search.fit(X_train, y_train)

print(f"Лучшие гиперпараметры (Grid Search): {grid_search.best_params_}")
print(f"Лучшая оценка (Grid Search): {grid_search.best_score_:.2f}")

Лучшие гиперпараметры (Grid Search): {'max_depth': 7, 'min_samples_leaf': 1, 'min_samples_split': 2}
Лучшая оценка (Grid Search): 0.98


In [137]:
# Функция для оценки модели с помощью перекрестной проверки
def evaluate_model(model, X_train, y_train):
    scores = cross_val_score(model, X_train, y_train, scoring='r2', cv=5)
    return scores.mean()

# Поиск гиперпараметров с помощью сетки параметров
param_grid = {
    'max_depth': [3, 5, 7, 9],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

dt = DecisionTreeRegressor(random_state=42)
grid_search = GridSearchCV(estimator=dt3, param_grid=param_grid, scoring='r2', cv=5, n_jobs=-1)
grid_search.fit(X_train, y_train)

print(f"Лучшие гиперпараметры (Grid Search): {grid_search.best_params_}")
print(f"Лучшая оценка (Grid Search): {grid_search.best_score_:.2f}")

Лучшие гиперпараметры (Grid Search): {'max_depth': 9, 'min_samples_leaf': 1, 'min_samples_split': 10}
Лучшая оценка (Grid Search): 0.97


In [139]:
from skopt.space import Real, Categorical, Integer

# Define your model and search space
search_space = {
    "max_depth": Integer(6, 10),
    #"max_features": Categorical(['auto', 'sqrt']),
    "max_features": Categorical([1, 'sqrt']),
    "min_samples_leaf": Integer(3, 5),
    "min_samples_split": Integer(4, 6),

}

# Initialize BayesSearchCV
clf_bayes = BayesSearchCV(
    estimator=tree,
    search_spaces=search_space,
    random_state=0,
    cv=3,
    verbose=2,
    n_jobs=-1
)
clf_bayes.fit(X, y)

# Get the best hyperparameters and R2 score
best_params = clf_bayes.best_params_
best_r2 = clf_bayes.best_score_

print(f"Лучшие гиперпараметры (Bayesian Optimization): {best_params}")
print(f"Лучшая оценка (Bayesian Optimization): {best_r2:.2f}")

Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fi

**Результаты оптимизации гиперпараметров**

1. Grid Search

Лучшие гиперпараметры:
- max_depth: 7
- min_samples_leaf: 1
- min_samples_split: 2

Лучшая оценка: 0.98

2. Bayesian Optimization

Лучшие гиперпараметры:
- max_depth: 9
- max_features: 'sqrt'
- min_samples_leaf: 4
- min_samples_split: 5

Лучшая оценка: 0.63

**Интерпретация результатов**

***Grid Search***

- Высокая оценка (0.98): это указывает на то, что модель с подобранными гиперпараметрами хорошо справляется с задачей на валидационном наборе данных. Значение R2 близко к 1, что говорит о высокой степени объяснения вариации целевой переменной.

Гиперпараметры:
- max_depth = 7: ограничение глубины дерева помогает предотвратить переобучение
- min_samples_leaf = 1: позволяет иметь листья с минимальным количеством образцов, что может привести к более сложной модели
- min_samples_split = 2: минимальное количество образцов для разделения узла, что позволяет дереву более гибко адаптироваться к данным

***Bayesian Optimization***

- Низкая оценка (0.63):это значение значительно ниже, чем у Grid Search, что может указывать на то, что подобранные гиперпараметры не подходят для данной задачи или что модель переобучена на тренировочных данных.

Гиперпараметры:
- max_depth = 9: более глубокое дерево, что может привести к переобучению.
- max_features = 'sqrt': использование квадратного корня от общего числа признаков для выбора признаков на каждом узле.
- min_samples_leaf = 4 и min_samples_split = 5: эти параметры увеличивают минимальные требования для создания новых узлов и листьев, что может уменьшить сложность модели.

***Сравнение методов***

1.	Grid Search продемонстрировал значительно лучшие результаты по сравнению с Bayesian Optimization. Это может быть связано с тем, что Grid Search исследует все возможные комбинации гиперпараметров в заданных диапазонах, тогда как Bayesian Optimization использует более сложные методы поиска, которые могут не всегда находить оптимальные значения.
2.	Переобучение: высокая оценка при использовании Grid Search может указывать на то, что модель хорошо подстраивается под данные, но важно проверить ее обобщающую способность на тестовых данных.
3.	Сложность модели: гиперпараметры от Bayesian Optimization могут привести к более сложной модели с более высоким риском переобучения.
