In [1]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import cross_val_score

In [3]:
X, y = load_breast_cancer(return_X_y=True)

In [5]:
score = cross_val_score(estimator=DecisionTreeClassifier(random_state=37), X=X, y=y, scoring='roc_auc', cv=3)

In [6]:
print('Desempenho médio de AUC-ROC: {}'.format(round(score.mean(),3)))

Desempenho médio de AUC-ROC: 0.916


 ## Grid Search

In [7]:
from sklearn.model_selection import GridSearchCV

In [8]:
grid_search_cv = GridSearchCV(estimator=DecisionTreeClassifier(random_state=37), param_grid={'max_depth':range(1,50)},
                             scoring='roc_auc', cv=3)

In [9]:
grid_search_cv.fit(X, y)

GridSearchCV(cv=3, estimator=DecisionTreeClassifier(random_state=37),
             param_grid={'max_depth': range(1, 50)}, scoring='roc_auc')

In [10]:
print('Melhor comprimento máximo: {}'.format(grid_search_cv.best_params_['max_depth']))
print('Desempenho AUC-ROC do melhor modelo: {}' .format(round(grid_search_cv.best_score_,3)))
print('Tempo para realizar a otimização:')
%timeit -n 1 -r 1 grid_search_cv.fit(X, y)

Melhor comprimento máximo: 3
Desempenho AUC-ROC do melhor modelo: 0.923
Tempo para realizar a otimização:
892 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)


## Random Search

In [11]:
from sklearn.model_selection import RandomizedSearchCV

In [14]:
random_search_cv = RandomizedSearchCV(estimator=DecisionTreeClassifier(random_state=37), 
                                      param_distributions={'max_depth':range(1,50), 'min_samples_leaf':range(1,20)},
                                      scoring='roc_auc',
                                      cv=3,
                                      n_iter=50)

In [15]:
random_search_cv.fit(X, y)

RandomizedSearchCV(cv=3, estimator=DecisionTreeClassifier(random_state=37),
                   n_iter=50,
                   param_distributions={'max_depth': range(1, 50),
                                        'min_samples_leaf': range(1, 20)},
                   scoring='roc_auc')

In [17]:
print('Melhor comprimento máximo: {}'.format(random_search_cv.best_params_['max_depth']))
print('Melhor minimo de amostras por folha: {}'.format(random_search_cv.best_params_['min_samples_leaf']))
print('Desempenho AUC-ROC do melhor modelo: {}'.format(round(random_search_cv.best_score_,3)))
print('Tempo para realizar a otimização:')
%timeit -n 1 -r 1 random_search_cv.fit(X, y)

Melhor comprimento máximo: 29
Melhor minimo de amostras por folha: 16
Desempenho AUC-ROC do melhor modelo: 0.97
Tempo para realizar a otimização:
761 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)


## Bayes Search

In [18]:
import warnings
warnings.filterwarnings('ignore')

In [25]:
from skopt import BayesSearchCV
from skopt.space import Integer

In [29]:
bayes_search_cv = BayesSearchCV(estimator=DecisionTreeClassifier(random_state=37),
                               search_spaces={'max_depth':Integer(1,100),
                                             'min_samples_leaf':Integer(1,100)},
                               scoring='roc_auc',
                               cv=3, n_iter=50, random_state=37)

In [30]:
bayes_search_cv.fit(X, y)

BayesSearchCV(cv=3, estimator=DecisionTreeClassifier(random_state=37),
              random_state=37, scoring='roc_auc',
              search_spaces={'max_depth': Integer(low=1, high=100, prior='uniform', transform='normalize'),
                             'min_samples_leaf': Integer(low=1, high=100, prior='uniform', transform='normalize')})

In [31]:
print('Melhor comprimento maximo: {}'.format(bayes_search_cv.best_params_['max_depth']))
print('Melhor minimo de amostras por folha: {}'.format(bayes_search_cv.best_params_['min_samples_leaf']))
print('Desempenho AUC-ROC do melhor modelo: {}'.format(round(bayes_search_cv.best_score_,3)))
print('Tempo para realizar a otimização:')
%timeit -n 1 -r 1 bayes_search_cv.fit(X, y) 

Melhor comprimento maximo: 100
Melhor minimo de amostras por folha: 28
Desempenho AUC-ROC do melhor modelo: 0.974
Tempo para realizar a otimização:
56.9 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)
