In [3]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression, Ridge, Lasso, LogisticRegression
from sklearn.datasets import load_diabetes, load_linnerud


In [4]:
diabetes = load_diabetes()
X_diabetes, y_diabetes = diabetes.data, diabetes.target

In [5]:
print(f'Ключи diabetes: {diabetes.keys()}')

Ключи diabetes: dict_keys(['data', 'target', 'frame', 'DESCR', 'feature_names', 'data_filename', 'target_filename', 'data_module'])


In [6]:
print(f'Описание датасета diabetes: {diabetes.DESCR}')

Описание датасета diabetes: .. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

:Number of Instances: 442

:Number of Attributes: First 10 columns are numeric predictive values

:Target: Column 11 is a quantitative measure of disease progression one year after baseline

:Attribute Information:
    - age     age in years
    - sex
    - bmi     body mass index
    - bp      average blood pressure
    - s1      tc, total serum cholesterol
    - s2      ldl, low-density lipoproteins
    - s3      hdl, high-density lipoproteins
    - s4      tch, total cholesterol / HDL
    - s5      ltg, possibly log of serum triglycerides level
    - s6      glu, blood sugar level

Note: Each of these 1

In [7]:
print(f'Названия признаков diabetes: {diabetes.feature_names}')

Названия признаков diabetes: ['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']


In [8]:
print(f'Данные diabetes: {diabetes.data[:5]}')

Данные diabetes: [[ 0.03807591  0.05068012  0.06169621  0.02187239 -0.0442235  -0.03482076
  -0.04340085 -0.00259226  0.01990749 -0.01764613]
 [-0.00188202 -0.04464164 -0.05147406 -0.02632753 -0.00844872 -0.01916334
   0.07441156 -0.03949338 -0.06833155 -0.09220405]
 [ 0.08529891  0.05068012  0.04445121 -0.00567042 -0.04559945 -0.03419447
  -0.03235593 -0.00259226  0.00286131 -0.02593034]
 [-0.08906294 -0.04464164 -0.01159501 -0.03665608  0.01219057  0.02499059
  -0.03603757  0.03430886  0.02268774 -0.00936191]
 [ 0.00538306 -0.04464164 -0.03638469  0.02187239  0.00393485  0.01559614
   0.00814208 -0.00259226 -0.03198764 -0.04664087]]


In [9]:
print(f'Ответы diabetes: {diabetes.target[:5]}')

Ответы diabetes: [151.  75. 141. 206. 135.]


In [17]:
X_train, X_test, y_train, y_test = train_test_split(X_diabetes, y_diabetes, test_size=0.3, random_state=42)
print('Датасет diabetes:')
print('-' * 100)
print()

res = [0, -10000]

print('Точность для KNeighborsRegressor:')
for n in [1, 3, 5, 7, 10]:
    knn_regressor = KNeighborsRegressor(n_neighbors=n)
    knn_regressor.fit(X_train, y_train)
    score = knn_regressor.score(X_test, y_test)
    print(f'n_neighbours = {n}: ', score)
    if score > res[1]:
        res[0], res[1] = n, score

print(f'\nЛучшая точность = {res[1]} при n = {res[0]}\n')
print('-' * 100)

res = [0, -10000]
print('Точность для Ridge:')
for n in [0.1, 1.0, 10.0]:
    ridge_regressor = Ridge(alpha=n)
    ridge_regressor.fit(X_train, y_train)
    score = ridge_regressor.score(X_test, y_test)
    print(f'alpha = {n}: ', score)
    if score > res[1]:
        res[0], res[1] = n, score

print(f'\nЛучшая точность = {res[1]} при alpha = {res[0]}\n')
print('-' * 100)

res = [0, -10000]
print('Точность для Lasso:')
for n in [0.01, 0.1, 1.0, 10.0]:
    lasso_regressor = Lasso(alpha=n)
    lasso_regressor.fit(X_train, y_train)
    score = lasso_regressor.score(X_test, y_test)
    print(f'alpha = {n}: ', score)
    if score > res[1]:
        res[0], res[1] = n, score

print(f'\nЛучшая точность = {res[1]} при alpha = {res[0]}\n')
print('-' * 100)

res = [0, -10000]
print('Точность для LogisticRegression:')
for n in [0.01, 0.1, 1.0, 10.0, 100.0]:
    logreg = LogisticRegression(C=n, max_iter=10000)
    logreg.fit(X_train, y_train)
    score = logreg.score(X_test, y_test)
    print(f'C = {n}: ', score)
    if score > res[1]:
        res[0], res[1] = n, score

print(f'\nЛучшая точность = {res[1]} при C = {res[0]}\n')
print('-' * 100)

linreg = LinearRegression()
linreg.fit(X_train, y_train)
print('Точность для LinearRegression:', linreg.score(X_test, y_test))

Датасет diabetes:
----------------------------------------------------------------------------------------------------

Точность для KNeighborsRegressor:
n_neighbours = 1:  -0.042846994071650935
n_neighbours = 3:  0.3213026740575181
n_neighbours = 5:  0.4031244536507893
n_neighbours = 7:  0.40059131762978506
n_neighbours = 10:  0.41528315113018477

Лучшая точность = 0.41528315113018477 при n = 10

----------------------------------------------------------------------------------------------------
Точность для Ridge:
alpha = 0.1:  0.4803183845636724
alpha = 1.0:  0.4233440269603015
alpha = 10.0:  0.15156589965831158

Лучшая точность = 0.4803183845636724 при alpha = 0.1

----------------------------------------------------------------------------------------------------
Точность для Lasso:
alpha = 0.01:  0.47871428812904404
alpha = 0.1:  0.4859194402036221
alpha = 1.0:  0.361898028619579
alpha = 10.0:  -0.006405449804164132

Лучшая точность = 0.4859194402036221 при alpha = 0.1

---------

In [13]:
linnerud = load_linnerud()
X_linnerud, y_linnerud = linnerud.data, linnerud.target

In [14]:
print(f'Ключи linnerud: {linnerud.keys()}')

Ключи linnerud: dict_keys(['data', 'feature_names', 'target', 'target_names', 'frame', 'DESCR', 'data_filename', 'target_filename', 'data_module'])


In [55]:
print(f'Описание датасета linnerud: {linnerud.DESCR}')

Описание датасета linnerud: .. _linnerrud_dataset:

Linnerrud dataset
-----------------

**Data Set Characteristics:**

:Number of Instances: 20
:Number of Attributes: 3
:Missing Attribute Values: None

The Linnerud dataset is a multi-output regression dataset. It consists of three
exercise (data) and three physiological (target) variables collected from
twenty middle-aged men in a fitness club:

- *physiological* - CSV containing 20 observations on 3 physiological variables:
   Weight, Waist and Pulse.
- *exercise* - CSV containing 20 observations on 3 exercise variables:
   Chins, Situps and Jumps.

|details-start|
**References**
|details-split|

* Tenenhaus, M. (1998). La regression PLS: theorie et pratique. Paris:
  Editions Technic.

|details-end|



In [57]:
print(f'Названия признаков linnerud: {linnerud.feature_names}')

Названия признаков linnerud: ['Chins', 'Situps', 'Jumps']


In [58]:
print(f'Данные linnerud: {linnerud.data[:5]}')

Данные linnerud: [[  5. 162.  60.]
 [  2. 110.  60.]
 [ 12. 101. 101.]
 [ 12. 105.  37.]
 [ 13. 155.  58.]]


In [60]:
print(f'Данные linnerud: {linnerud.target[:5]}')

Данные linnerud: [[191.  36.  50.]
 [189.  37.  52.]
 [193.  38.  58.]
 [162.  35.  62.]
 [189.  35.  46.]]


In [28]:
X_train2, X_test2, y_train2, y_test2 = train_test_split(X_linnerud, y_linnerud, test_size=0.3, random_state=42)
print('Датасет linnerud:')
print("-" * 100)
print()
res = [0, -10000]

print("Точность для KNeighborsRegressor:")
for n in [1, 3, 5, 7, 10]:
    knn_regressor = KNeighborsRegressor(n_neighbors=n)
    knn_regressor.fit(X_train2, y_train2)
    score = knn_regressor.score(X_test2, y_test2)
    print(f"n_neighbours = {n}: ", score)
    if score > res[1]:
        res[0], res[1] = n, score

print(f"\nЛучшая точность = {res[1]} при n = {res[0]}\n")
print("-" * 100)

res = [0, -10000]
print("Точность для Ridge:")
for n in [0.1, 1.0, 10.0]:
    ridge_regressor = Ridge(alpha=n)
    ridge_regressor.fit(X_train2, y_train2)
    score = ridge_regressor.score(X_test2, y_test2)
    print(f"alpha = {n}: ", score)
    if score > res[1]:
        res[0], res[1] = n, score

print(f"\nЛучшая точность = {res[1]} при alpha = {res[0]}\n")
print("-" * 100)

res = [0, -10000]
print("Точность для Lasso")
for n in [0.01, 0.1, 1.0, 10.0]:
    lasso_regressor = Lasso(alpha=n)
    lasso_regressor.fit(X_train2, y_train2)
    score = lasso_regressor.score(X_test2, y_test2)
    print(f"alpha = {n}: ", score)
    if score > res[1]:
        res[0], res[1] = n, score

print(f"\nЛучшая точность = {res[1]} при alpha = {res[0]}\n")
print("-" * 100)

res = [0, -10000]
print("Точность для LogisticRegression")
for n in [0.01, 0.1, 1.0, 10.0, 100.0]:
    logreg = LogisticRegression(C=n, solver='liblinear', max_iter=1000)
    logreg.fit(X_train2, y_train2[:, 0])
    score = logreg.score(X_test2, y_test2[:, 0])
    print(f"C = {n}: ", score)
    if score > res[1]:
        res[0], res[1] = n, score
print(f"\nЛучшая точность = {res[1]} при C = {res[0]}\n")
print("-" * 100)


linreg = LinearRegression()
linreg.fit(X_train2, y_train2)
print("Точность для LinearRegression:", linreg.score(X_test2, y_test2))

Датасет linnerud:
----------------------------------------------------------------------------------------------------

Точность для KNeighborsRegressor:
n_neighbours = 1:  -1.4752231940086948
n_neighbours = 3:  -0.493222205958987
n_neighbours = 5:  -0.33389753516931914
n_neighbours = 7:  -0.10825251652759438
n_neighbours = 10:  -0.193287254633246

Лучшая точность = -0.10825251652759438 при n = 7

----------------------------------------------------------------------------------------------------
Точность для Ridge:
alpha = 0.1:  -0.6774658115138991
alpha = 1.0:  -0.6763909533736504
alpha = 10.0:  -0.6663392480852324

Лучшая точность = -0.6663392480852324 при alpha = 10.0

----------------------------------------------------------------------------------------------------
Точность для Lasso
alpha = 0.01:  -0.6773581999234755
alpha = 0.1:  -0.6754642608236033
alpha = 1.0:  -0.6638935667244193
alpha = 10.0:  -0.49780293979358325

Лучшая точность = -0.49780293979358325 при alpha = 10.0

-


## Выводы
В результате выполнения данной работы были получены такие результаты:

**1. Для датасета diabetes:** 
Лучшей моделью с наибольшей точностью оказалась модель Lasso со значением alpha=0.1. 

Далее по порядку следуют Ridge, LinearRegression и KNN. 

Наихудший результат показала модель LogisticRegression. 
Скорее всего из-за того что она предназначена для задач классификации, тогда как датасет diabetes больше подходит для регресссионных моделей.

**2 Для датасета linnerud:** 
Все регрессионные модели выдали отрицательные значения метрики R2. Это значит что они не подходят для обучения на данном датасете. 
Но среди них лучше справилась модель KNN. 
Логистическая регрессия показала результат 0. Это значит что она также не подходит для датасета linnerud.
