### Importação

In [None]:
# Author: Gael Varoquaux <gael dot varoquaux at normalesup dot org>
# License: BSD 3 clause

# Standard scientific Python imports
import matplotlib.pyplot as plt

# Import datasets, classifiers and performance metrics
from sklearn import datasets, tree , metrics
from sklearn.model_selection import train_test_split
import random

In [None]:
random.seed(2021)

### Carregue o dataset

Iremos usar o conjunto de dados "Optical Recognition of Handwritten Digits", nele foram usados programas de pré-processamento disponibilizados pelo NIST para extrair bitmaps normalizados de dígitos manuscritos de um formulário pré-impresso. De um total de 43 pessoas, 30 contribuíram para o conjunto de treinamento e 13 diferentes para o conjunto de teste. Os bitmaps de 32x32 são divididos em blocos não sobrepostos de 4x4 e o número de pixels é contado em cada bloco. Isso gera uma matriz de entrada de 8x8, onde cada elemento é um número inteiro no intervalo de 0 a 16. Isso reduz a dimensionalidade e dá invariância a pequenas distorções.

In [None]:
digits = datasets.load_digits()

### Imprima a variável digits. O que tem no seu conteúdo?

### Para visualizar os dígitos execute a célula abaixo

In [None]:
_, axes = plt.subplots(nrows=1, ncols=4, figsize=(10, 3))
for ax, image, label in zip(axes, digits.images, digits.target):
    ax.set_axis_off()
    ax.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')
    ax.set_title('Training: %i' % label)

### Para usar a imagem, precisamos formatar cada matriz de pixels como um array de uma única  linha, a célula abaixo executa este processo

In [None]:
# flatten the images
n_samples = len(digits.images)
data = digits.images.reshape((n_samples, -1))

### Imprima o número de linhas e de colunas do conjunto de dados

### A célula abaixo cria um objeto do tipo DecisionTreeClassifier. Como padrão a métrica para escolha do atributo de particionamento é o gini index, o número mínimo de amostras em uma folha é 1, o número mínimo de amostras em um nó para que possa ser feito o split é 2 e não há valor máximo para a profundidade da árvore. Altere a célula abaixo para a árvore de decisão utilizar o critério entropia, o número mínimo de amostras na folha igual a 3, o número mínimo de amostra para split igual a 5 e a profundidade máxima igual 5. 

 

In [None]:
# Create a classifier
clf = tree.DecisionTreeClassifier()

### Para realizar o treinamento, vamos dividir o dataset em treino e teste. Modifique a célula abaixo para que os dados de treino representem 70% do total dos dados  e para que a amostragem seja estratificada de acordo com o valor do atributo de classe. Para isso, consulte a documentação da função no scikit-learn

In [None]:
# Split data into 50% train and 50% test subsets
X_train, X_test, y_train, y_test = train_test_split(
    data, digits.target, test_size=0.5, shuffle=False)

### O método fit recebe os dados de treino e treina o modelo. Altere a célula abaixo passando a matriz de atributos de treino e o vetor de classes, nesta ordem

In [None]:
# Learn the digits on the train subset
clf.fit( , )

In [None]:
tree.plot_tree(clf)
plt.show()

### O método predict recebe a matriz de atributos de teste e prevê a classe. Altere a célula abaixo passando como parâmetro a matriz de teste

In [None]:
# Predict the value of the digit on the test subset
predicted = clf.predict()

### O método classification_report calcula as métricas de avaliação para cada classe e as médias de cada métrica. Altere a célula passando como parâmetro o vetor de classe real e o vaetor de classe predito para o conjunto de teste.

In [None]:
print(f"Classification report for classifier {clf}:\n"
      f"{metrics.classification_report( , )}\n")

### Qual o dígito que o classificador conseguiu prever com maior acuárica? E o de menor acurácia?

### O método a seguir imprime a matriz de confusão. As linhas indicam o valor real e as colunas o valor predito. O valor em uma célula mij, indica a quantidade de valores da classe i preditos como se fossem da classe j. 

In [None]:
disp = metrics.plot_confusion_matrix(clf, X_test, y_test)
disp.figure_.suptitle("Confusion Matrix")
print(f"Confusion matrix:\n{disp.confusion_matrix}")

plt.show()

###  Observe a matriz de confusão. Qual a célula com o maior número de classificações incorretas? Existe alguma similaridade no desenho dos dígitos correspondentes a essa célula?