In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

In [2]:
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

In [3]:
# Загрузка датасета
diabetes_data = load_diabetes()

In [4]:
# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(diabetes_data.data, diabetes_data.target, test_size=0.2, random_state=42)

In [5]:
# Используем RandomForestRegressor для задачи регрессии
model = RandomForestRegressor()

In [6]:
# Перекрестная проверка (cross-validation) для регрессии
cv_scores = cross_val_score(model, X_train, y_train, cv=5)
mean_cv_score = np.mean(cv_scores)

In [7]:
print("Результаты перекрестной проверки:", cv_scores)
print("Средняя оценка перекрестной проверки:", mean_cv_score)

Результаты перекрестной проверки: [0.51877375 0.19769053 0.4230813  0.57851194 0.32417069]
Средняя оценка перекрестной проверки: 0.40844564254187266


In [8]:
# Решетчатый поиск для настройки параметров модели
param_grid = {'n_estimators': [50, 100, 200],
              'max_depth': [None, 10, 20],
              'min_samples_split': [2, 5, 10]}
grid_search = GridSearchCV(model, param_grid, cv=5)
grid_search.fit(X_train, y_train)

In [9]:
# Вывод результатов
print("Лучшие параметры решетчатого поиска:", grid_search.best_params_)

Лучшие параметры решетчатого поиска: {'max_depth': 10, 'min_samples_split': 10, 'n_estimators': 50}


In [10]:
# Оценка на тестовом наборе
y_pred = grid_search.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("MSE(тестовый набор):", mse)
print("Оценка(тестовый набор):", r2)

MSE(тестовый набор): 3064.87981240536
Оценка(тестовый набор): 0.42151905836531045


In [11]:
# Оценка на обучающем наборе
y_train_pred = grid_search.predict(X_train)

mse_train = mean_squared_error(y_train, y_train_pred)
r2_train = r2_score(y_train, y_train_pred)

print("MSE(обучающий набор):", mse_train)
print("Оценка(обучающий набор)", r2_train)


MSE(обучающий набор): 1079.6194652055804
Оценка(обучающий набор) 0.8223257490871156


<h1>Выводы</h1>
В предыдущей лабораторной работе мои результаты на тестовом наборе данных показывали оценку равной 0.36, в то время как на обучающем наборе было достигнуто значение равное 0.56. Я совершил улучшения, применяя различные методы повышения качества, такие как "перекрестная проверка" и "решетчатый поиск", а также использовал RandomForestRegressor вместо линейной регрессии.

Принципиальное различие заключается в том, что RandomForestRegressor с решетчатым поиском и перекрестной проверкой способен предотвращать переобучение, настраивая параметры модели и оценивая ее производительность на различных фолдах данных. В отличие от этого, линейная регрессия, без использования таких методов, более подвержена риску переобучения, что может сказаться на ее способности обобщения на новые данные.