## Задание 2.1 Построение модели машинного обучения для решения задачи регрессии

### 1. Импорты

In [293]:
import pandas as pd
from matplotlib import pyplot as plt
from sklearn import tree
from sklearn.datasets import load_diabetes  # загрузка датасета
from sklearn.linear_model import LinearRegression
from sklearn.metrics import (mean_absolute_error,  # импорт метрик
                             mean_squared_error, r2_score)
from sklearn.model_selection import train_test_split


### 2. Ознакомление с дата сетом 

In [294]:
print(load_diabetes().DESCR)

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

:Number of Instances: 442

:Number of Attributes: First 10 columns are numeric predictive values

:Target: Column 11 is a quantitative measure of disease progression one year after baseline

:Attribute Information:
    - age     age in years
    - sex
    - bmi     body mass index
    - bp      average blood pressure
    - s1      tc, total serum cholesterol
    - s2      ldl, low-density lipoproteins
    - s3      hdl, high-density lipoproteins
    - s4      tch, total cholesterol / HDL
    - s5      ltg, possibly log of serum triglycerides level
    - s6      glu, blood sugar level

Note: Each of these 10 feature variables have bee

<div style="border: 2px solid pink; padding: 10px; border-radius: 5px;">
<strong> <em>Характеристики набора данных:</strong> </em>
<ul>
<li><strong>Количество экземпляров:</strong> 150 (по 50 в каждом из трех классов)</li>

<li><strong>Количество атрибутов:</strong> Первые 10 столбцов представляют собой числовые прогностические значения</li>
<li><strong>Цель:</strong> Столбец 11 представляет собой количественный показатель прогрессирования заболевания через год после исходного уровня</li>

<li><strong>Информация об атрибутах:</strong> </li>
<ul>
<li>возраст (age) в годах</li>
<li>пол (sex)</li>
<li>индекс массы тела (bmi)</li>
<li>среднее артериальное давление (bp)</li>
<li>общий уровень холестерина в сыворотке крови (s1)</li>
<li>липопротеины низкой плотности (s2)</li>
<li>липопротеины высокой плотности (s3)</li>
<li>общий холестерин (s4)</li>
<li>уровень триглицеридов в сыворотке крови (s5)</li>
<li>уровень сахара в крови (s6)</li>
</ul>
</ul>
</div>

In [295]:
df = load_diabetes(as_frame=True, scaled=False).frame
df.head()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
0,59.0,2.0,32.1,101.0,157.0,93.2,38.0,4.0,4.8598,87.0,151.0
1,48.0,1.0,21.6,87.0,183.0,103.2,70.0,3.0,3.8918,69.0,75.0
2,72.0,2.0,30.5,93.0,156.0,93.6,41.0,4.0,4.6728,85.0,141.0
3,24.0,1.0,25.3,84.0,198.0,131.4,40.0,5.0,4.8903,89.0,206.0
4,50.0,1.0,23.0,101.0,192.0,125.4,52.0,4.0,4.2905,80.0,135.0


In [296]:
df.describe()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
count,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0
mean,48.5181,1.468326,26.375792,94.647014,189.140271,115.43914,49.788462,4.070249,4.641411,91.260181,152.133484
std,13.109028,0.499561,4.418122,13.831283,34.608052,30.413081,12.934202,1.29045,0.522391,11.496335,77.093005
min,19.0,1.0,18.0,62.0,97.0,41.6,22.0,2.0,3.2581,58.0,25.0
25%,38.25,1.0,23.2,84.0,164.25,96.05,40.25,3.0,4.2767,83.25,87.0
50%,50.0,1.0,25.7,93.0,186.0,113.0,48.0,4.0,4.62005,91.0,140.5
75%,59.0,2.0,29.275,105.0,209.75,134.5,57.75,5.0,4.9972,98.0,211.5
max,79.0,2.0,42.2,133.0,301.0,242.4,99.0,9.09,6.107,124.0,346.0


### 3. Подготовка данных к обучению моделей  

In [297]:
# отделяю целевой признак от датасета
features = df.drop(['target'], axis=1)
# выделяю целевой признак
target = df['target']

# вывожу размер полученных переменных
print(features.shape) 
print(target.shape)

(442, 10)
(442,)


In [298]:
# деление данных на обучающую и тестовую части в соотношении 70/30
features_train, features_val, target_train, target_val = train_test_split(features, target, test_size=0.3, random_state=45)

### 4. Обучение дерева и оценка адекватности модели 

In [299]:
# обучение дерева
model = tree.DecisionTreeRegressor()
model.fit(features_train, target_train)

In [300]:
from sklearn.metrics import root_mean_squared_error

# предсказание на валидационной выборке
predictions = model.predict(features_val)

# метрики для оценки модели
mae = mean_absolute_error(target_val, predictions)
mse = mean_squared_error(target_val, predictions)
rmse = root_mean_squared_error(target_val, predictions)  
r2 = r2_score(target_val, predictions)

# вывод результатов
print("Среднее абсолютное отклонение (MAE):", mae)
print("Средняя квадратичная ошибка (MSE):", mse)
print("Квадратный корень из MSE (RMSE):", rmse)
print("Коэффициент детерминации R²:", r2)

Среднее абсолютное отклонение (MAE): 59.62406015037594
Средняя квадратичная ошибка (MSE): 5764.2406015037595
Квадратный корень из MSE (RMSE): 75.92259611936198
Коэффициент детерминации R²: -0.08070126393639754


In [301]:
# простая модель, которая предсказывает среднее значение
target_pred_simple = [target_train.mean()] * len(target_val)  

# вычисляем метрики
mae_target_pred_simple = mean_absolute_error(target_val, target_pred_simple)
mse_target_pred_simple = mean_squared_error(target_val, target_pred_simple)
rmse_target_pred_simple = root_mean_squared_error(target_val, target_pred_simple)
r2_target_pred_simple = r2_score(target_val, target_pred_simple)

# вывод результатов
print("Среднее абсолютное отклонение (MAE) для простой модели:", mae_target_pred_simple)
print("Средняя квадратичная ошибка (MSE) для простой модели:", mse_target_pred_simple)
print("Квадратный корень из MSE (RMSE) для простой модели:", rmse_target_pred_simple)
print("Коэффициент детерминации R² для простой модели:", r2_target_pred_simple)

Среднее абсолютное отклонение (MAE) для простой модели: 62.258388690172026
Средняя квадратичная ошибка (MSE) для простой модели: 5350.345583615304
Квадратный корень из MSE (RMSE) для простой модели: 73.1460565144513
Коэффициент детерминации R² для простой модели: -0.003102686796445875


In [302]:
# сравниваю
print("Сравнение моделей:")
print("MAE дерева:", mae, 'VS', "MAE простой модели:", mae_target_pred_simple)
print("MSE дерева:", mse, 'VS',"MSE простой модели:", mse_target_pred_simple)
print("RMSE дерева:", rmse, 'VS',"RMSE простой модели:", rmse_target_pred_simple)
print("R² дерева", r2, 'VS',"R² простой модели:", r2_target_pred_simple)

Сравнение моделей:
MAE дерева: 59.62406015037594 VS MAE простой модели: 62.258388690172026
MSE дерева: 5764.2406015037595 VS MSE простой модели: 5350.345583615304
RMSE дерева: 75.92259611936198 VS RMSE простой модели: 73.1460565144513
R² дерева -0.08070126393639754 VS R² простой модели: -0.003102686796445875


## Вывод:
* MAE: Разница между моделями незначительна. Решающее дерево предсказывает немного точнее, чем простая модель, но разница мала для практического применения. Оба метода дают схожие результаты по среднему абсолютному отклонению.  
* MSE: у решающего дерева больше, чем у простой модели, что говорит о том, что дерево делает более серьезные ошибки при предсказаниях. 
* RMSE:</strong> также указывает, что ошибки решающего дерева больше, чем у простой модели, и их влияние на итоговое предсказание больше.
* Коэффициент детерминации</strong> для обоих случаев отрицательный, что указывает на то, что обе модели предсказывают плохо.
* Обе модели плохи, но дерево хуже, чем простая модель.

### 5. Обучение линейной регрессии и оценка адекватности модели

In [303]:
# обучение линейной регрессии
lin_model = LinearRegression()
lin_model.fit(features_train, target_train)

In [304]:
# предсказания на валидационной выборке
target_pred_lin = lin_model.predict(features_val)

# вычисляем метрики
mae_target_pred_lin = mean_absolute_error(target_val, target_pred_lin)
mse_target_pred_lin = mean_squared_error(target_val, target_pred_lin)
rmse_target_pred_lin = root_mean_squared_error(target_val, target_pred_lin)
r2_target_pred_lin = r2_score(target_val, target_pred_lin)

# вывод результатов
print("Среднее абсолютное отклонение (MAE) для линейной регрессии:", mae_target_pred_lin)
print("Средняя квадратичная ошибка (MSE) для линейной регрессии:", mse_target_pred_lin)
print("Квадратный корень из MSE (RMSE) для линейной регрессии:", rmse_target_pred_lin)
print("Коэффициент детерминации R² для линейной регрессии:", r2_target_pred_lin)

Среднее абсолютное отклонение (MAE) для линейной регрессии: 40.64760150172551
Средняя квадратичная ошибка (MSE) для линейной регрессии: 2492.6346427346493
Квадратный корень из MSE (RMSE) для линейной регрессии: 49.9262920987995
Коэффициент детерминации R² для линейной регрессии: 0.5326715876099557


### 6. Выбор лучшей модели

In [305]:
print("Сравнение моделей:")
print("MAE:", "дерева:", mae, 'VS', "простой модели:", mae_target_pred_simple, 'VS',"линейной регрессии:", mae_target_pred_lin)
print("MSE:", "дерева:", mse, 'VS',"простой модели:", mse_target_pred_simple, 'VS',"линейной регрессии:", mse_target_pred_lin)
print("RMSE:", "дерева:", rmse, 'VS',"простой модели:", rmse_target_pred_simple, 'VS',"линейной регрессии:", rmse_target_pred_lin)
print("R²:", "дерева:", r2, 'VS',"простой модели:", r2_target_pred_simple, 'VS',"линейной регрессии:", r2_target_pred_lin)

Сравнение моделей:
MAE: дерева: 59.62406015037594 VS простой модели: 62.258388690172026 VS линейной регрессии: 40.64760150172551
MSE: дерева: 5764.2406015037595 VS простой модели: 5350.345583615304 VS линейной регрессии: 2492.6346427346493
RMSE: дерева: 75.92259611936198 VS простой модели: 73.1460565144513 VS линейной регрессии: 49.9262920987995
R²: дерева: -0.08070126393639754 VS простой модели: -0.003102686796445875 VS линейной регрессии: 0.5326715876099557


### Вывод:
#### Лучшей моделью является модель линейной регрессии, поскольку её метрики MAE, MSE, RMSE значительно меньше аналогичных метрик деревянной и простой моделей. Это говорит о том, что данная модель совершает меньше ошибок. При этом её коэффициент детерминации значительно больше, а значит модель линейной регрессии лучше объясняет вариативность данных, чем другие, чей коэффициент детерминации вообще отрицателен.