In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression, Ridge, Lasso, LogisticRegression
from sklearn.datasets import load_diabetes, load_linnerud

In [None]:
diabetes = load_diabetes()
X_diabetes, y_diabetes = diabetes.data, diabetes.target

linnerud = load_linnerud()
X_linnerud, y_linnerud = linnerud.data, linnerud.target

In [4]:
print(pd.DataFrame(X_diabetes).describe())
print(pd.DataFrame(X_linnerud).describe())

                  0             1             2             3             4  \
count  4.420000e+02  4.420000e+02  4.420000e+02  4.420000e+02  4.420000e+02   
mean  -2.511817e-19  1.230790e-17 -2.245564e-16 -4.797570e-17 -1.381499e-17   
std    4.761905e-02  4.761905e-02  4.761905e-02  4.761905e-02  4.761905e-02   
min   -1.072256e-01 -4.464164e-02 -9.027530e-02 -1.123988e-01 -1.267807e-01   
25%   -3.729927e-02 -4.464164e-02 -3.422907e-02 -3.665608e-02 -3.424784e-02   
50%    5.383060e-03 -4.464164e-02 -7.283766e-03 -5.670422e-03 -4.320866e-03   
75%    3.807591e-02  5.068012e-02  3.124802e-02  3.564379e-02  2.835801e-02   
max    1.107267e-01  5.068012e-02  1.705552e-01  1.320436e-01  1.539137e-01   

                  5             6             7             8             9  
count  4.420000e+02  4.420000e+02  4.420000e+02  4.420000e+02  4.420000e+02  
mean   3.918434e-17 -5.777179e-18 -9.042540e-18  9.293722e-17  1.130318e-17  
std    4.761905e-02  4.761905e-02  4.761905e-02  4.761

In [16]:
X_train, X_test, y_train, y_test = train_test_split(X_diabetes, y_diabetes, test_size=0.3, random_state=42)

print('Коэффициент детерминации для датасета diabetes')

knn_regressor = KNeighborsRegressor(n_neighbors=3)
knn_regressor.fit(X_train, y_train)
print("KNeighborsRegressor R2:", knn_regressor.score(X_test, y_test))

linear_regressor = LinearRegression()
linear_regressor.fit(X_train, y_train)
print("LinearRegression R2:", linear_regressor.score(X_test, y_test))

ridge_regressor = Ridge(alpha=1.0)
ridge_regressor.fit(X_train, y_train)
print("Ridge R2:", ridge_regressor.score(X_test, y_test))

lasso_regressor = Lasso(alpha=0.1)
lasso_regressor.fit(X_train, y_train)
print("Lasso R2:", lasso_regressor.score(X_test, y_test))


Коэффициент детерминации для датасета diabetes
KNeighborsRegressor R2: 0.3213026740575181
LinearRegression R2: 0.4772897164322617
Ridge R2: 0.4233440269603015
Lasso R2: 0.4859194402036221


In [51]:
from sklearn.model_selection import GridSearchCV, cross_val_score

print('Датасет diabetes:')

knn_params = {'n_neighbors': [1, 3, 5, 7, 10]} 
knn_search = GridSearchCV(KNeighborsRegressor(), param_grid=knn_params, cv=5)
knn_search.fit(X_train, y_train)
print("Лучшее значение n_neighbors для KNeighborsRegressor:", knn_search.best_params_)
print("Точность для KNeighborsRegressor:", knn_search.best_score_)

ridge_params = {'alpha': [0.1, 1.0, 10.0]} 
ridge_search = GridSearchCV(Ridge(), param_grid=ridge_params, cv=5)
ridge_search.fit(X_train, y_train)
print("Лучшее значение alpha для Ridge:", ridge_search.best_params_)
print("Точность для Ridge:", ridge_search.best_score_)

lasso_params = {'alpha': [0.01, 0.1, 1.0, 10.0]}  
lasso_search = GridSearchCV(Lasso(max_iter=10000), param_grid=lasso_params, cv=5)
lasso_search.fit(X_train, y_train)
print("Лучшее значение alpha для Lasso:", lasso_search.best_params_)
print("Точность для Lasso:", lasso_search.best_score_)

logreg_params = {'C': [0.01, 0.1, 1.0, 10.0, 100.0]} 
logreg_search = GridSearchCV(LogisticRegression(max_iter=10000), param_grid=logreg_params, cv=5)
logreg_search.fit(X_train, y_train)
print("Лучшее значение C для LogisticRegression:", logreg_search.best_params_)
print("Точность для LogisticRegression:", logreg_search.best_score_)
# Linear Regression (без гиперпараметров)
lin_reg = LinearRegression()
lin_reg_scores = cross_val_score(lin_reg, X_train, y_train, cv=5)
print("Точность для LinearRegression:", lin_reg_scores.mean())


Датасет diabetes:
Лучшее значение n_neighbors для KNeighborsRegressor: {'n_neighbors': 10}
Точность для KNeighborsRegressor: 0.38221060862839773
Лучшее значение alpha для Ridge: {'alpha': 0.1}
Точность для Ridge: 0.4508506334242748
Лучшее значение alpha для Lasso: {'alpha': 0.01}
Точность для Lasso: 0.4525820024533835
Лучшее значение C для LogisticRegression: {'C': 100.0}
Точность для LogisticRegression: 0.013061872025383395
Точность для LinearRegression: 0.4522814753909528


In [37]:
X_train2, X_test2, y_train2, y_test2 = train_test_split(X_linnerud, y_linnerud, test_size=0.3, random_state=42)

print('Датасет linnerud:')
print('-' * 100)
print()

res = [0, -10000]

print('Точность для KNeighborsRegressor:')
for n in [1, 3, 5, 7, 10]:
    knn_regressor = KNeighborsRegressor(n_neighbors=n)
    knn_regressor.fit(X_train2, y_train2)
    score = knn_regressor.score(X_test2, y_test2)
    print(f'n_neighbours = {n}: ', score)
    if score > res[1]:
        res[0], res[1] = n, score

print(f'\nЛучшая точность = {res[0]} при n = {res[1]}\n')
print('-' * 100)

res = [0, -10000]
print('Точность для Ridge:')
for n in [0.1, 1.0, 10.0]:
    ridge_regressor = Ridge(alpha=n)
    ridge_regressor.fit(X_train2, y_train2)
    score = ridge_regressor.score(X_test2, y_test2)
    print(f'alpha = {n}: ', score)
    if score > res[1]:
        res[0], res[1] = n, score

print(f'\nЛучшая точность = {res[0]} при alpha = {res[1]}\n')
print('-' * 100)

res = [0, -10000]
print('Точность для Lasso:')
for n in [0.01, 0.1, 1.0, 10.0]:
    lasso_regressor = Lasso(alpha=n)
    lasso_regressor.fit(X_train2, y_train2)
    score = lasso_regressor.score(X_test2, y_test2)
    print(f'alpha = {n}: ', score)
    if score > res[1]:
        res[0], res[1] = n, score

print(f'\nЛучшая точность = {res[0]} при alpha = {res[1]}\n')
print('-' * 100)

res = [0, -10000]
print('Точность для LogisticRegression:')
for n in [0.01, 0.1, 1.0, 10.0, 100.0]:
    logreg = LogisticRegression(C=n, max_iter=10000)
    logreg.fit(X_train2, y_train2[:, 0])
    score = logreg.score(X_test2, y_test2[:, 0])
    print(f'C = {n}: ', score)
    if score > res[1]:
        res[0], res[1] = n, score

print(f'\nЛучшая точность = {res[0]} при C = {res[1]}\n')
print('-' * 100)

linreg = LinearRegression()
linreg.fit(X_train2, y_train2)
print('Точность для LinearRegression:', linreg.score(X_test2, y_test2))


Коэффициент детерминации для датасета linnerud
KNeighborsRegressor R2: -0.493222205958987
LinearRegression R2: -0.677586078290422
Ridge R2: -0.6763909533736495
Lasso R2: -0.6754642608236038


In [50]:
from sklearn.model_selection import GridSearchCV

print('Датасет linnerud:')

knn_params = {'n_neighbors': [1, 3, 5, 7, 10]} 
knn_search = GridSearchCV(KNeighborsRegressor(), param_grid=knn_params, cv=5)
knn_search.fit(X_train2, y_train2)
print("Лучшее значение n_neighbors для KNeighborsRegressor:", knn_search.best_params_)
print("Точность для KNeighborsRegressor:", knn_search.best_score_)

ridge_params = {'alpha': [0.1, 1.0, 10.0]} 
ridge_search = GridSearchCV(Ridge(), param_grid=ridge_params, cv=5)
ridge_search.fit(X_train2, y_train2)
print("Лучшее значение alpha для Ridge:", ridge_search.best_params_)
print("Точность для Ridge:", ridge_search.best_score_)

lasso_params = {'alpha': [0.01, 0.1, 1.0, 10.0]}  
lasso_search = GridSearchCV(Lasso(max_iter=10000), param_grid=lasso_params, cv=5)
lasso_search.fit(X_train2, y_train2)
print("Лучшее значение alpha для Lasso:", lasso_search.best_params_)
print("Точность для Lasso:", lasso_search.best_score_)

logreg_params = {'C': [0.01, 0.1, 1.0, 10.0, 100.0]} 
logreg_search = GridSearchCV(LogisticRegression(max_iter=10000), param_grid=logreg_params, cv=2)
logreg_search.fit(X_train2, y_train2[:, 0])
print("Лучшее значение C для LogisticRegression:", logreg_search.best_params_)
print("Точность для LogisticRegression:", logreg_search.best_score_)

# Linear Regression (без гиперпараметров)
lin_reg = LinearRegression()
lin_reg_scores = cross_val_score(lin_reg, X_train2, y_train2, cv=5)
print("Точность для LinearRegression:", lin_reg_scores.mean())


Датасет linnerud:
Лучшее значение n_neighbors для KNeighborsRegressor: {'n_neighbors': 7}
Точность для KNeighborsRegressor: -2.3701769671487227
Лучшее значение alpha для Ridge: {'alpha': 10.0}
Точность для Ridge: -5.218283360806057
Лучшее значение alpha для Lasso: {'alpha': 10.0}
Точность для Lasso: -3.030421793823458
Точность для LogisticRegression: 0.07142857142857142
Точность для LinearRegression: 0.4522814753909528


Лучшее значение C для LogisticRegression: {'C': 0.01}
Точность для LogisticRegression: 0.07142857142857142


## Выводы
В результате выполнения данной работы были получены такие результаты:

**1. Для датасета diabetes: 
**
Лучшей моделью с наибольшей точностью оказалась модель Lasso со значением alpha=0.01.
Далее следуют LinearRegression, Ridge, KNN.
Наихудший результат показала модель LogisticRegression. Скорее всего из-за того что она предназначена для задач классификации, тогда как датасет diabetes больше подходит для регресссионных моделей.

2 Для датасета linnerud: 

