#MNist com Decision Tree
Neste experimento foram exploradas configurações de hiper-parâmetros do algoritmo Decision Tree, variando **criterion** que é a métrica de qualidade entre *gini* e *entropy*, e o **max_depth** que é a profundidade máxima da árvode em 10, 50 e 80.

Para garantir uma reproducibilidade entre este experimento e os demais, o conjunto de dados foi separado em 10 pastas com a técnica de Cross Validation utilizando o estado randômico 42.

A combinação dos hiper-parâmetros foi feita utilizando Grid Search, que cruza todas as opções dos dicionários e responde qual é a melhor configuração encontrada. Estas parametrizações são utilizadas para criar um modelo final, que é serializado em um objeto Pickle.

In [1]:
from sklearn.datasets import fetch_openml

import joblib
from sklearn.metrics import confusion_matrix,ConfusionMatrixDisplay
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedKFold

from sklearn import tree

import time

In [2]:
mnist = fetch_openml('mnist_784')

In [3]:
X = mnist["data"]
y = mnist["target"]

print(X.shape)
print(y.shape)

(70000, 784)
(70000,)


O objeto $param\_grid$  recebe a combinação de todos os hiper-parâmetros que pretendo comparar, como a criterion e max_depth.

Também estou definindo a segmentação dos dados em 10 pastas e um random_state de 42 para permitir reproducibilidade ao executar este experimento novamente.

In [4]:
param_grid = [{'criterion':['gini','entropy'],
               'max_depth':[10,50,80]}]

kfolds = StratifiedKFold(n_splits=10, random_state=42, shuffle=True)

In [6]:
dt = tree.DecisionTreeClassifier()

inicio = time.time()
grid_search_dt = GridSearchCV(dt, param_grid, cv=kfolds, verbose=3)
resultado_modelo = grid_search_dt.fit(X,y)
termino = time.time()
print("--- %s segundos para treinar o modelo ---" % (termino - inicio))

Fitting 10 folds for each of 6 candidates, totalling 60 fits
[CV 1/10] END .....criterion=gini, max_depth=10;, score=0.858 total time=  11.8s
[CV 2/10] END .....criterion=gini, max_depth=10;, score=0.868 total time=  11.6s
[CV 3/10] END .....criterion=gini, max_depth=10;, score=0.861 total time=  11.5s
[CV 4/10] END .....criterion=gini, max_depth=10;, score=0.855 total time=  11.0s
[CV 5/10] END .....criterion=gini, max_depth=10;, score=0.853 total time=  11.0s
[CV 6/10] END .....criterion=gini, max_depth=10;, score=0.857 total time=  11.8s
[CV 7/10] END .....criterion=gini, max_depth=10;, score=0.865 total time=  11.5s
[CV 8/10] END .....criterion=gini, max_depth=10;, score=0.858 total time=  11.5s
[CV 9/10] END .....criterion=gini, max_depth=10;, score=0.859 total time=  11.2s
[CV 10/10] END ....criterion=gini, max_depth=10;, score=0.856 total time=  11.9s
[CV 1/10] END .....criterion=gini, max_depth=50;, score=0.873 total time=  25.7s
[CV 2/10] END .....criterion=gini, max_depth=50;

In [8]:
print("Melhores Parâmetros")
print(grid_search_dt.best_params_)
print("**************")
print("Melhores Estimadores")
print(grid_search_dt.best_estimator_)
print("**************")
print("Melhores Pontuações")
print(grid_search_dt.best_score_)
print("**************")
print(grid_search_dt.best_index_)
print("**************")

Melhores Parâmetros
{'criterion': 'entropy', 'max_depth': 50}
**************
Melhores Estimadores
DecisionTreeClassifier(criterion='entropy', max_depth=50)
**************
Melhores Pontuações
0.8845571428571428
**************
4
**************


In [9]:
joblib.dump(grid_search_dt, "modelo_dt_mnist.pkl")

['modelo_dt_mnist.pkl']