## Построение дерева решений для прогноза сердечно-сосудистых заболеваний
Считаем в `DataFrame` знакомый нам набор данных по сердечно-сосудистым заболеваниям. 

In [1]:
%load_ext autoreload
%autoreload 2
%matplotlib inline

In [31]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.ensemble import RandomForestClassifier
from source.utils import get_cardio_data

In [32]:
# загрузим данные с информацией о пациентах с сердечно-сосудистыми заболеваниями
X_train, X_test, y_train, y_test = get_cardio_data()

In [35]:
# создадим модель дерева решений
model_tree = DecisionTreeClassifier(max_depth=6,      # максимальная глубина
                                    min_samples_split=2, # минимальное число сэмплов в узле
                                    min_samples_leaf=1)  # минимальное число сэмплов в листе

In [36]:
# подготовим данные, удалив выбросы из нашей тренировочной выборки (X_train)

# Ваш код здесь
# ...

In [37]:
%%time

model_tree.fit(X_train, y_train)

CPU times: user 113 ms, sys: 5.5 ms, total: 119 ms
Wall time: 117 ms


DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=6,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [39]:
y_predict = model_tree.predict(X_test)

print('%7.5f - Точность в процентах' % accuracy_score(y_test, y_predict))

0.76748 - Точность в процентах


In [40]:
# посмотрим на значения других метрик
print('%7.5f - Чувствительность (recall)' % recall_score(y_test, y_predict))
print('%7.5f - Специфичность (precision)' % precision_score(y_test, y_predict))
print('%7.5f - F1' % f1_score(y_test, y_predict))

0.48171 - Чувствительность (recall)
0.67549 - Специфичность (precision)
0.56238 - F1


In [75]:
# перевзвесим классы
tree = DecisionTreeClassifier(max_depth=5, class_weight={0: 1, 1: 2})

In [76]:
tree.fit(X_train, y_train)

DecisionTreeClassifier(class_weight={0: 1, 1: 2}, criterion='gini',
            max_depth=5, max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [77]:
y_predict = tree.predict(X_test)
recall_score(y_test, y_predict), precision_score(y_test, y_predict), f1_score(y_test, y_predict)

(0.625599520383693, 0.5808516559977734, 0.6023957280992928)

In [29]:
y_predict = tree.predict(X_test)
recall_score(y_test, y_predict), precision_score(y_test, y_predict), f1_score(y_test, y_predict)

(0.7288512911843277, 0.7150032758244158, 0.7218608753169441)