In [1]:
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay
from sklearn import tree
from matplotlib import pyplot as plt
import pandas as pd

In [2]:
load_diabetes().DESCR

'.. _diabetes_dataset:\n\nDiabetes dataset\n----------------\n\nTen baseline variables, age, sex, body mass index, average blood\npressure, and six blood serum measurements were obtained for each of n =\n442 diabetes patients, as well as the response of interest, a\nquantitative measure of disease progression one year after baseline.\n\n**Data Set Characteristics:**\n\n:Number of Instances: 442\n\n:Number of Attributes: First 10 columns are numeric predictive values\n\n:Target: Column 11 is a quantitative measure of disease progression one year after baseline\n\n:Attribute Information:\n    - age     age in years\n    - sex\n    - bmi     body mass index\n    - bp      average blood pressure\n    - s1      tc, total serum cholesterol\n    - s2      ldl, low-density lipoproteins\n    - s3      hdl, high-density lipoproteins\n    - s4      tch, total cholesterol / HDL\n    - s5      ltg, possibly log of serum triglycerides level\n    - s6      glu, blood sugar level\n\nNote: Each of thes

'.. _diabetes_dataset: набор данных о диабете
 для каждого из n =442 пациентов с сахарным диабетом были получены все базовые переменные, возраст, пол, индекс массы тела, среднее артериальное давление и шесть показателей сыворотки крови пациентов, а также интересующая реакция являются количественным показателем прогрессирования заболевания через год после исходного уровня.
 ** Характеристики набора данных:**
 Количество экземпляров: 442
 Количество атрибутов: Первые 10 столбцов - числовые прогностические значения\n\n: Цель: Столбец 11 - количественный показатель прогрессирования заболевания через год после исходного уровня 
 Информация об атрибуте:
     - возраст возраст в годах
    - пол 
    - имт индекс массы тела
    - ад среднее артериальное давление
    - s2 ЛПНП, липопротеины низкой плотности
    - s3 лпвп, липопротеины высокой плотности
    - s4 tc, общий холестерин / Уровень ЛПВП 
    - s5 ltg, возможно, логарифм уровня триглицеридов в сыворотке крови 
    - s6 glu, уровень сахара в крови 
    Примечание: Каждая из этих 10 характерных переменных была центрирована по среднему значению и масштабирована на стандартное отклонение, умноженное на квадратный корень из `n_samples` (т.е. сумма квадратов каждого столбца равна 1).URL-адрес источника:https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html Для получения дополнительной информации смотрите: Брэдли Эфрон, Тревор Хасти, Иэн Джонстон и Роберт Тибширани. (2004) "Регрессия под наименьшим углом", Annals of Statistics (с обсуждением), 407-499.\n (https://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf)\n'

In [3]:
df=load_diabetes(as_frame=True).frame


In [4]:
df.describe()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
count,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0
mean,-2.511817e-19,1.23079e-17,-2.245564e-16,-4.79757e-17,-1.3814990000000001e-17,3.9184340000000004e-17,-5.777179e-18,-9.04254e-18,9.293722000000001e-17,1.130318e-17,152.133484
std,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,77.093005
min,-0.1072256,-0.04464164,-0.0902753,-0.1123988,-0.1267807,-0.1156131,-0.1023071,-0.0763945,-0.1260971,-0.1377672,25.0
25%,-0.03729927,-0.04464164,-0.03422907,-0.03665608,-0.03424784,-0.0303584,-0.03511716,-0.03949338,-0.03324559,-0.03317903,87.0
50%,0.00538306,-0.04464164,-0.007283766,-0.005670422,-0.004320866,-0.003819065,-0.006584468,-0.002592262,-0.001947171,-0.001077698,140.5
75%,0.03807591,0.05068012,0.03124802,0.03564379,0.02835801,0.02984439,0.0293115,0.03430886,0.03243232,0.02791705,211.5
max,0.1107267,0.05068012,0.1705552,0.1320436,0.1539137,0.198788,0.1811791,0.1852344,0.1335973,0.1356118,346.0


In [5]:
df['target'].value_counts()

target
200.0    6
72.0     6
178.0    5
71.0     5
90.0     5
        ..
146.0    1
212.0    1
120.0    1
183.0    1
57.0     1
Name: count, Length: 214, dtype: int64

In [6]:
features=df.drop(['target'],axis=1)
target=df['target']
print(features.shape)
print(target.shape)

(442, 10)
(442,)


In [7]:
features_train, features_val, target_train, target_val=train_test_split(features, target, test_size=0.3, random_state=45)

In [8]:
target_train.value_counts(normalize=True).sort_index()

target
31.0     0.003236
37.0     0.003236
39.0     0.003236
40.0     0.003236
42.0     0.009709
           ...   
317.0    0.003236
321.0    0.003236
332.0    0.003236
336.0    0.003236
341.0    0.003236
Name: proportion, Length: 181, dtype: float64

In [9]:
target_val.value_counts(normalize=True).sort_index()

target
25.0     0.007519
39.0     0.007519
45.0     0.007519
53.0     0.007519
59.0     0.007519
           ...   
293.0    0.007519
302.0    0.007519
303.0    0.007519
306.0    0.007519
346.0    0.007519
Name: proportion, Length: 96, dtype: float64

In [10]:
model=tree.DecisionTreeClassifier()
model.fit(features_train, target_train)


In [11]:
predictions_val=model.predict(features_val)
def count_errors(true_answers, pred_answers):
    all_answers_together=zip(true_answers, pred_answers)
    errors_list=[1 if v[0]!=v[1] else 0 for v in all_answers_together]
    return sum(errors_list)
print('Ошибок:', count_errors(target_val, predictions_val))

Ошибок: 132


In [14]:
from sklearn.linear_model import LinearRegression


In [15]:
model2=LinearRegression()
model2.fit(features_train, target_train)

In [17]:
predictions_val2=model2.predict(features_val)
def count_errors(true_answers, pred_answers):
    all_answers_together=zip(true_answers, pred_answers)
    errors_list=[1 if v[0]!=v[1] else 0 for v in all_answers_together]
    return sum(errors_list)
print('Ошибок:', count_errors(target_val, predictions_val))

Ошибок: 132
