In [15]:
import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

In [2]:
data = pd.read_csv('heart.csv')
data.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [3]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data.drop('target', axis=1), data['target'], test_size=0.25, random_state=13)
X_train.shape, X_test.shape

((227, 13), (76, 13))

In [4]:
tree = DecisionTreeClassifier(random_state=13, max_depth=None).fit(X_train, y_train)

In [5]:
predicted_test = tree.predict(X_test)
predicted_train = tree.predict(X_train)

In [6]:
def get_percent(data1, data2):
    c = 0
    for i in range(len(data1)):
        if data1[i] == data2[i]:
            c += 1
            
    return c / len(data1) * 100

Как видно из следующих цифр, можно наблюдать некий процент переобучения так как, на обучающей выборке процент правильных ответов составляет 100, на тестовой же около 65 процентов.  
Это говорит нам о том, что наше дерево идельно подстроилось под обучающую выборку, но плохо справляется с тестовой.

In [7]:
print(f"Процент правильных ответов на обучающей выборке = {get_percent(list(predicted_train), list(y_train))}%")

Процент правильных ответов на обучающей выборке = 100.0%


In [8]:
print(f"Процент правильных ответов на тестовой выборке = {get_percent(list(predicted_test), list(y_test))}%")

Процент правильных ответов на тестовой выборке = 67.10526315789474%


In [13]:
greeded_tree = DecisionTreeClassifier(random_state=13)

In [12]:
param_grid = {
    "max_depth": [3, 4, 5, 6, 7, 8, 9, 10, None],
    "max_features": ['auto', 'log2', None],
    "min_samples_leaf": range(1, 10),
    "min_samples_split": range(2, 10),
    "criterion": ['gini', 'entropy']
}

In [18]:
clf = GridSearchCV(greeded_tree, param_grid, cv=5, scoring='accuracy')

In [19]:
clf.fit(X_test, y_test)

GridSearchCV(cv=5, estimator=DecisionTreeClassifier(random_state=13),
             param_grid={'criterion': ['gini', 'entropy'],
                         'max_depth': [3, 4, 5, 6, 7, 8, 9, 10, None],
                         'max_features': ['auto', 'log2', None],
                         'min_samples_leaf': range(1, 10),
                         'min_samples_split': range(2, 10)},
             scoring='accuracy')

Теперь посмотрим оптимальные параметры которыем подоюрал Grid Search  
Как видно самым оптимальным значением глубины дерева оказалось значение 5

In [20]:
clf.best_params_

{'criterion': 'gini',
 'max_depth': 5,
 'max_features': None,
 'min_samples_leaf': 1,
 'min_samples_split': 4}