In [3]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

In [20]:
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

In [21]:
# Загрузка датасета
diabetes_data = load_diabetes()
X, y = diabetes_data.data, diabetes_data.target

In [22]:
# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [23]:
# Используем RandomForestRegressor для задачи регрессии
model = RandomForestRegressor()

In [24]:
# Перекрестная проверка (cross-validation) для регрессии
cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
mean_cv_score = np.mean(cv_scores)

In [25]:
# Решетчатый поиск для настройки параметров модели
param_grid = {'n_estimators': [50, 100, 200],
              'max_depth': [None, 10, 20],
              'min_samples_split': [2, 5, 10]}
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

In [26]:
# Вывод результатов
print("Cross-Validation Scores (neg_mean_squared_error):", cv_scores)
print("Mean CV Score (neg_mean_squared_error):", mean_cv_score)
print("Best Parameters:", grid_search.best_params_)

Cross-Validation Scores (neg_mean_squared_error): [-2943.98014648 -4568.88857746 -2993.7653169  -3644.02942857
 -3094.39205   ]
Mean CV Score (neg_mean_squared_error): -3449.0111038832997
Best Parameters: {'max_depth': 20, 'min_samples_split': 5, 'n_estimators': 100}


In [27]:
# Оценка на тестовом наборе
y_pred = grid_search.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Test Mean Squared Error:", mse)
print("Test R2 Score:", r2)

Test Mean Squared Error: 3033.8164901661953
Test R2 Score: 0.42738210716300906


In [19]:
# Оценка на обучающем наборе
y_train_pred = grid_search.predict(X_train)

mse_train = mean_squared_error(y_train, y_train_pred)
r2_train = r2_score(y_train, y_train_pred)

print("Train Mean Squared Error:", mse_train)
print("Train R2 Score:", r2_train)


Train Mean Squared Error: 468.62119185552416
Train R2 Score: 0.922878456800537


<h1>Выводы</h1>
В предыдущей лабораторной работе на тестовом наборе у меня получалось R-squared on the test set: 0.36, на обучающем наборе же R-squared on the training set: 0.56. Результаты были улучшены алгоритмами улучшения качества и оценками моделей такиз как "перекркстная проверка" и "решетчатый поиск", а так же я использовала модель    RandomForestRegressor, в пятой же лабораторной был только подход линейной регрессии к построению модели. Причина была в том, что RandomForestRegressor с решетчатым поиском и перекрестной проверкой может помочь предотвратить переобучение, так как он настраивает параметры модели и оценивает её производительность на различных фолдах. Линейная регрессия,без использования таких методов, более подвержена переобучению.