In [1]:
from sklearn.datasets import load_diabetes
from sklearn import tree
from sklearn import linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

import pandas as pd

# Изучение датасета

Будем использовать стандартный набор данных, содержащий информацию о пациентах с диабетом, который предоставляется в библиотеке `Sklearn`.

In [2]:
print(load_diabetes().DESCR)

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

:Number of Instances: 442

:Number of Attributes: First 10 columns are numeric predictive values

:Target: Column 11 is a quantitative measure of disease progression one year after baseline

:Attribute Information:
    - age     age in years
    - sex
    - bmi     body mass index
    - bp      average blood pressure
    - s1      tc, total serum cholesterol
    - s2      ldl, low-density lipoproteins
    - s3      hdl, high-density lipoproteins
    - s4      tch, total cholesterol / HDL
    - s5      ltg, possibly log of serum triglycerides level
    - s6      glu, blood sugar level

Note: Each of these 10 feature variables have bee

Датасет состоит из `442` строк и `11` столбцов:
- `age` (возраст пациента);
- `sex` (пол пациента);
- `bmi` (индекс массы тела);
- `bp` (среднее артериальное давление);
- `s1` - `s6` (шесть измерений сыворотки крови);
- `target` (целевой признак, количественная мера прогрессирования заболевания через год после исходного уровня).

In [3]:
df = load_diabetes(as_frame=True).frame

df.sample(5)

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
216,0.012648,0.05068,0.035829,0.049415,0.053469,0.074155,-0.069172,0.145012,0.045604,0.048628,248.0
292,0.009016,-0.044642,-0.022373,-0.032077,-0.049727,-0.068641,0.078093,-0.070859,-0.062917,-0.038357,84.0
13,0.005383,0.05068,-0.001895,0.008101,-0.004321,-0.015719,-0.002903,-0.002592,0.038394,-0.013504,185.0
64,0.067136,0.05068,-0.025607,-0.040099,-0.063487,-0.059873,-0.002903,-0.039493,-0.019198,0.011349,71.0
31,-0.023677,-0.044642,-0.065486,-0.081413,-0.03872,-0.05361,0.059685,-0.076395,-0.037129,-0.042499,59.0


Столбцы содержат значения, которые могут показаться необычными. Например, в столбцах `age` и `sex` используются вещественные числа вместо ожидаемых целочисленных значений или категорий. Вероятно, такое преобразование и выбор необычных значений были сделаны с целью анонимизации данных и защиты конфиденциальности пациентов.

# Подготовка данных для обучения модели

Отделим целевой признак от датасета.

In [4]:
features = df.drop('target', axis=1)

target = df.target

print(features.shape)
print(target.shape)

(442, 10)
(442,)


Разделим датасет на тренировочную и валидационную части.

In [5]:
features_train, features_val, target_train, target_val = train_test_split(features, target, random_state=5)

In [9]:
print(f'Размер тренировочной выборки: {features_train.shape}')
print(f'Размер валидационной выборки: {features_val.shape}')

Размер тренировочной выборки: (331, 10)
Размер валидационной выборки: (111, 10)


# Обучение модели дерева решений и оценка ее качества

Будем решать задачу регрессии, так как целевая переменная `target` представляет собой числовую величину.

Попробуем применить дерево решений для решения задачи регрессии.

In [10]:
model = tree.DecisionTreeRegressor()

model.fit(features_train, target_train)

predictions_val = model.predict(features_val)

Для оценки адекватности выбранной модели будем использовать метрику `R2` (коэффициент детерминации), которая сравнивает модель с простой моделью, где все целевые значения в обучающей выборке являются средними.

In [11]:
print(f'Коэффициент детерминации: {r2_score(target_val, predictions_val)}')

Коэффициент детерминации: -0.11739148232227925


Коэффициент детерминации имеет отрицательное значение, что свидетельствует о крайне низком качестве модели. Фактически, такая модель показывает худшие результаты, чем простая модель.

# Обучение модели линейной регрессии и оценка ее качества

Попробуем линейную регрессию.

In [12]:
model = linear_model.LinearRegression()

model.fit(features_train, target_train)

predictions_val = model.predict(features_val)

Оценим адекватность модели.

In [13]:
print(f'Коэффициент детерминации: {r2_score(target_val, predictions_val)}')

Коэффициент детерминации: 0.5308133103536823


Линейная регрессия демонстрирует достойные результаты. Положительное значение метрики `R2` свидетельствует о том, что модель превосходит простую модель, которая была обучена на средних значениях.

# Вывод

В ходе работы была изучена документация `scikit-learn` и проведена подготовка данных для обучения двух моделей машинного обучения — дерева решений и линейной регрессии. После этого был проведен сравнительный анализ результатов обеих моделей. Результаты этого анализа показали, что линейная регрессия превзошла дерево решений и продемонстрировала лучшие результаты.