In [None]:
# Импорт библиотек и загрузка данных

import numpy as np
import pandas as pd
from sklearn.datasets import load_diabetes, load_linnerud
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression, Ridge, Lasso, LogisticRegression
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score


In [17]:
# Загрузка данных
diabetes = load_diabetes()
linnerud = load_linnerud()

print("Diabetes dataset:")
print(diabetes.data[:5])
print("Linnerud dataset:")
print(linnerud.data[:5])


Diabetes dataset:
[[ 0.03807591  0.05068012  0.06169621  0.02187239 -0.0442235  -0.03482076
  -0.04340085 -0.00259226  0.01990749 -0.01764613]
 [-0.00188202 -0.04464164 -0.05147406 -0.02632753 -0.00844872 -0.01916334
   0.07441156 -0.03949338 -0.06833155 -0.09220405]
 [ 0.08529891  0.05068012  0.04445121 -0.00567042 -0.04559945 -0.03419447
  -0.03235593 -0.00259226  0.00286131 -0.02593034]
 [-0.08906294 -0.04464164 -0.01159501 -0.03665608  0.01219057  0.02499059
  -0.03603757  0.03430886  0.02268774 -0.00936191]
 [ 0.00538306 -0.04464164 -0.03638469  0.02187239  0.00393485  0.01559614
   0.00814208 -0.00259226 -0.03198764 -0.04664087]]
Linnerud dataset:
[[  5. 162.  60.]
 [  2. 110.  60.]
 [ 12. 101. 101.]
 [ 12. 105.  37.]
 [ 13. 155.  58.]]


In [21]:
# Разделение данных на обучающие и тестовые наборы, масштабирование

X_diabetes_train, X_diabetes_test, y_diabetes_train, y_diabetes_test = train_test_split(
    diabetes.data, diabetes.target, test_size=0.2, random_state=42
)

X_linnerud_train, X_linnerud_test, y_linnerud_train, y_linnerud_test = train_test_split(
    linnerud.data, linnerud.target, test_size=0.2, random_state=42
)

scaler = StandardScaler()
X_diabetes_train_scaled = scaler.fit_transform(X_diabetes_train)
X_diabetes_test_scaled = scaler.transform(X_diabetes_test)

X_linnerud_train_scaled = scaler.fit_transform(X_linnerud_train)
X_linnerud_test_scaled = scaler.transform(X_linnerud_test)


In [19]:
# Построение моделей и оценка результатов

models = {
    "KNeighborsRegressor": KNeighborsRegressor(),
    "LinearRegression": LinearRegression(),
    "Ridge": Ridge(),
    "Lasso": Lasso(),
}

for model_name, model in models.items():
    print(f"\n{model_name}:")
    
    model.fit(X_diabetes_train_scaled, y_diabetes_train)
    y_diabetes_pred = model.predict(X_diabetes_test_scaled)
    
    print("Diabetes dataset:")
    print(f"Mean Squared Error: {mean_squared_error(y_diabetes_test, y_diabetes_pred)}")
    print(f"R-squared: {r2_score(y_diabetes_test, y_diabetes_pred)}")

    model.fit(X_linnerud_train_scaled, y_linnerud_train)
    y_linnerud_pred = model.predict(X_linnerud_test_scaled)
    
    print("Linnerud dataset:")
    print(f"Mean Squared Error: {mean_squared_error(y_linnerud_test, y_linnerud_pred)}")
    print(f"R-squared: {r2_score(y_linnerud_test, y_linnerud_pred)}")



KNeighborsRegressor:
Diabetes dataset:
Mean Squared Error: 3047.449887640449
R-squared: 0.42480887066066253
Linnerud dataset:
Mean Squared Error: 137.80000000000004
R-squared: -0.281915632667826

LinearRegression:
Diabetes dataset:
Mean Squared Error: 2900.1936284934836
R-squared: 0.45260276297191904
Linnerud dataset:
Mean Squared Error: 239.15367187682742
R-squared: -1.350411554208635

Ridge:
Diabetes dataset:
Mean Squared Error: 2892.014565750172
R-squared: 0.45414652070698236
Linnerud dataset:
Mean Squared Error: 200.34272319577903
R-squared: -0.890152547505442

Lasso:
Diabetes dataset:
Mean Squared Error: 2824.5680940499587
R-squared: 0.4668767094410248
Linnerud dataset:
Mean Squared Error: 184.28863303030985
R-squared: -0.3554205381596633


In [22]:
# Подбор параметров для Linear Regression с использованием GridSearchCV

param_grid = {"fit_intercept": [True, False]}
grid_search = GridSearchCV(LinearRegression(), param_grid, cv=5)
grid_search.fit(X_diabetes_train_scaled, y_diabetes_train)

best_params = grid_search.best_params_
print("\nBest Parameters for Linear Regression:")
print(best_params)



Best Parameters for Linear Regression:
{'fit_intercept': True}


In [None]:
# 1. Загрузка данных:
#     Успешно загрузили два набора данных: Diabetes и Linnerud.
# 2. Подготовка данных:
#     Разделили данные на обучающие и тестовые наборы.
#     Произвели масштабирование признаков для обеспечения более стабильного обучения моделей.
# 3. Модели регрессии:
#     Использовали несколько моделей регрессии, таких как KNeighborsRegressor, LinearRegression, Ridge и          Lasso.
# 4. Оценка моделей:
#     Оценка производилась с использованием метрик MSE (Mean Squared Error) и R-squared.
#     Результаты оценок предоставлены для обоих наборов данных.
# 5. Подбор параметров:
#     Применили GridSearchCV для настройки параметров модели LinearRegression.
# 6. Выводы:
#     Каждая модель реагирует по-разному на различные наборы данных.
#     Результаты оценки позволяют сделать выводы о том, какая модель лучше всего соответствует конкретным         данным.
#     Подробный анализ параметров может помочь оптимизировать производительность моделей.
# 7. Дальнейшие шаги:
#     Можно рассмотреть более сложные методы настройки параметров и сравнения моделей.
#     Расширить анализ на большее количество моделей и параметров для более полного понимания.