# Aprendizado de Máquina
__UFRJ-Macaé__

__Profa. Janaína Gomide__

## Reconhecendo Dígitos

Primeiro precisamos importar as bibliotecas que iremos utilizar:

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn import metrics
from sklearn.model_selection import KFold
from sklearn import cluster

### 1 - Coletar os dados

Informações sobre o conjunto de dados:
1. O conjunto de dados se chama **'DigitsCollection.csv'** e seus elementos são separados por **vírgula** e não há elementos vazios
2. O conjunto de dados contém imagens em nível de cinza de **dígitos** manuscritos **de 0 a 9**
2. Cada imagem tem altura e largura de 28 pixels cada, totalizando **784 pixels**
3. Cada pixel tem um valor associado que vai de **0 a 255** (inclusivo), indicando o quão claro ou escuro é o pixel
4. O Banco de dados tem **785 colunas**, a primeira identifica a **classe** da imagem (se é 0,1,2,...) e as outras 784 correspondem aos seus pixels
5. Cada coluna de pixel tem um nome pixelX, onde X é um número de 0 a 783 (inclusivo).
6. Para localizar o pixel na imagem, basta considerar X = $i\times28+j$, onde $i$ e $j$ são inteiros de 0 a 27 (inclusivo). Então pixelX está na linha $i$ e coluna $j$ de uma matriz 28 x 28.
$$\begin{array}{rrrrrr}
0 & 1 & 2 & \dots & 26 & 27\\
28 & 29 & 30 & \dots & 54 & 55\\
56 & 57 & 58 & \dots & 82 & 83\\
\vdots & \vdots & \vdots & \ddots & \vdots & \vdots\\
728 & 729 & 730 & \dots & 754 & 755\\
756 & 757 & 758 & \dots & 782 & 783
\end{array}$$

In [None]:
conjuntoDados = pd.read_csv('DigitsCollection.csv',sep=',')
conjuntoDados.head(5)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

### 2 - Explorar os dados

Vamos explorar algumas coisas no conjunto de dados:
1. Quantos exemplos o conjunto de dados possui?
2. Quantos exemplos cada classe possui?
3. Como são os dígitos que estamos tentando reconhecer?

In [None]:
#1. Quantos exemplos possui
conjuntoDados['label'].count()

In [None]:
#2. Quantos exemplos cada classe possui
conjuntoDados.groupby('label').count()['pixel0']

In [None]:
pd.isnull(conjuntoDados).count(True)

In [None]:
#3. Visualizando os dígitos

#pegando um exemplo de cada dígito
exemplos = {}

for digito in range(10):
    for indice,linha in conjuntoDados.iterrows():
        if digito == linha['label']:
            vetorImg = np.zeros((1,784))
            j = 0
            for pixel in linha.keys()[1:]:
                vetorImg[0,j] = linha[pixel]
                j+=1
            matrizImg = vetorImg.reshape((28,28))
            break
    exemplos[digito] = matrizImg

#gerando imagem de cada exemplo
for digito in range(10):
    plt.subplot(2,5, digito+1)
    plt.axis('off')
    plt.imshow(exemplos[digito], cmap=plt.cm.gray_r, interpolation='nearest')
    plt.title('Dígito = %d'%int(digito))
plt.show()

### 3 - Construir/Escolher Modelo

Vamos usar o classificador *Support Vector Classifier* (SVC) e fazer separação linear

In [None]:
classificador = svm.SVC(kernel='linear')

### 4 - Treinar o Modelo

Primeiro vamos separar o conjunto de dados em dois: **80%** dos dados serão utilizados para o **treino** e **20%** para o **teste**

In [None]:
#Olhar a quantidade de dados e separar 80% para treino e 20% para teste 
tamanho = conjuntoDados['label'].count()
tamanhoTreino = int(tamanho*0.8) #80% para treino
tamanhoTeste = tamanho-tamanhoTreino
print('Tamanho do treino:',tamanhoTreino)
print('Tamanho do teste:',tamanhoTeste)

#Separar conjunto de treino e conjunto de teste
treinoFeatures,treinoClasses = conjuntoDados[conjuntoDados.columns[1:]].iloc[:tamanhoTreino],conjuntoDados[0:tamanhoTreino]['label'] 
testeFeatures,testeClasses = conjuntoDados[conjuntoDados.columns[1:]
                                          ].iloc[tamanhoTreino:],conjuntoDados[tamanhoTreino:]['label']

Agora iremos treinar o classificador com os dados de treino

In [None]:
#Treina o classificador com os dados de treino
classificador.fit(treinoFeatures,treinoClasses)
testeFeatures.head()


### 5 - Testar e avaliar os resultados

In [None]:
#Usa o modelo criado para fazer a predição das classes para exemplos de teste
testePrevisao = classificador.predict(testeFeatures)

In [None]:
#Observa o resultado gerado pelo classificador
matrizConfusao = metrics.confusion_matrix(testeClasses,testePrevisao)
print(matrizConfusao)

In [None]:
#Relatório de métricas
metricas = metrics.classification_report(testeClasses,testePrevisao)
print(metricas)

### Experimento 2 - K-Means Clustering (Não Supervisionado)

In [None]:
estimador = cluster.KMeans(n_clusters=10)

treinoFeatures = conjuntoDados.iloc[:,1:]
clusters = estimador.fit_predict(treinoFeatures)
estimador.cluster_centers_.shape

In [None]:
fig = plt.figure(figsize=(12,5))
for i in range(10):
    ax = fig.add_subplot(2, 5, 1 + i, xticks=[], yticks=[])
    ax.imshow(estimador.cluster_centers_[i].reshape((28, 28)), cmap=plt.cm.binary)
fig