# Machine Learning - identificação de dígitos

As técnicas de machine learning divergem das técnicas de programação normal, porque fazem com que os programas em si "aprendam" (reconheçam padrões) sem serem explicitamente programados (sem ser o programador a escrever todos os outputs para cada entrada).

Para que esta aprendizagem efetivamente se desenvolva, é necessária uma grande quantidade de dados e capacidade de processamento para os algoritmos de machine learning. Note-se que estes algoritmos têm uma forte vertente estatística, o que permite, por um lado, saber como fazer o modelo evoluir e, por outro, atestar a sua evolução.

Neste workshop iremos falar e usar 3 modelos de machine learning para a identificação de dígitos escritos. :

1-RandomTreeflorestClassifier 

2-LogisticRegression

3-CNN

Vamos usar a base de dados disponível em https://www.kaggle.com/c/digit-recognizer/data

## Importação dos dados e vizualização

Para ler os dados e manipulá-los, vamos usar a biblioteca pandas (biblioteca que cria e manipula estrutras de dados com uma grande performance).Para vizualizar dados iremos usar o matplotlib e o skimage.io.

In [None]:
import pandas as pd
import numpy as np

import matplotlib.image as mpimg
import matplotlib.pyplot as plt
import matplotlib

from sklearn.utils import shuffle

from skimage.io import imread, imshow

df = pd.read_csv("train.csv")
df=shuffle(df)

y = df.loc[:,'label'].values
x = df.drop("label",axis=1).values

In [None]:
print("(Numero de colunas,pizeis por imagem e label){}".format(df.shape))

In [None]:
df.head()

In [None]:
fig1, ax1 = plt.subplots(5,15, figsize=(15,10))
for j in range(15):
    for i in range(5):
        ax1[i][j].imshow(x[i+15*j].reshape((28,28)),'gray')
        ax1[i][j].axis('off')
        ax1[i][j].set_title(y[i+15*j])
plt.show()

Vamos testar um modo de diminuir a dimensão dos dados, substituindo o gradiente de cor por uma variável binaria (0 se luminosidade inferior a 125 e 256 se superior).

In [None]:
y_red = y
x_red = x

#for line in range (x_train_red.shape[0]):
#    for col in range (x_train_red.shape[1]):
#        if(x_train_red[line][col] <128):
#            x_train_red[line][col]=0
#        else:
#            x_train_red[line][col]=256

x_red=np.vectorize(lambda a:0 if a<128 else 256)(x)

In [None]:
fig1, ax1 = plt.subplots(5,15, figsize=(15,10))
for j in range(15):
    for i in range(5):
        ax1[i][j].imshow(x_red[i+15*j].reshape((28,28)),'gray')
        ax1[i][j].axis('off')
        ax1[i][j].set_title(y[i+15*j])
plt.show()

# Modelização

Um algoritmo de machine learning de classificação (neste caso especifico queremos classificar as imagens com um dos 10 dígitos) é um algoritmo que recebe um train_dataset com as respetivas tags (dígitos que correspondem a imagens) e cria o modelo de decisão com o objetivo de prever corretamente o resultado do test_dataset. Para corretamente avaliar a sua performance será necessário dividi-lo em train e test sets.

In [None]:


x_train=x[0:35000,:]
y_train=y[0:35000]

x_train_red=x_red[0:35000,:]
y_train_red=y_red[0:35000]

x_test=x[35000:,:]
y_test=y[35000:]

x_test_red=x_red[35000:,:]
y_test_red=y_red[35000:]

## RandomTreeFlorestClassification

Tal como o nome indica, uma decision tree está estruturada em forma de árvore e organiza a sua decisão num esquema composto pelo topo da árvore (dataset), por nós(condições que subdividem o dataset) e por folhas (o final de cada ramo onde se encontra a previsão para cada dado que sair).Tomemos como exemplo o seguinte dataset simplificado:

Exemplo da estrutura:
 
<img src="tree_example.png">

In [None]:
col=["sexo","num Sbs","idade>9.5 ?","survived"]
dat=[
     ["M",3,1 ,0 ],
     ["M",2,1,0 ],
     ["M",1,1 ,0],
     ["M",1,0,0],
     ["M",2,0,1],
     ["F",2,0,1],
     ["F",1,1,1 ],
     ["F",1,1,1 ],
     ["F",0,1,1 ],
     ["F",0,1,0 ]
    
]
example_df=pd.DataFrame(data=dat,columns=col)
print("Dados para desenhar uma ClassificationTree:")
example_df



Este algoritmo que vamos ver utiliza a técnica greedy de partição do dataset, que utiliza como critério o corte que diminui mais a entropia do dataset. Para saber mais sobre entropia: http://www.saedsayad.com/decision_tree.htm .Para além disso para aumentar o grau de confiança no resultado este algoritmo não cria uma, mas várias decisiontrees para garantir uma decisão mais robusta.(menor desvio padrão).

In [None]:
def entropy(x,y):
    tot = x+y
    p1 = x/tot
    p2 = y/tot
    return -p1*np.log2(p1)-p2*np.log2(p2)

Cálculo da entropia :
\begin{equation}\label{Cálculo da entropia}
    E(S)=\sum_{i=1}^{c}-p_{i}\log_{2}{p_{i}}
\end{equation}


Funcao da entropia:
 
<img src="entropia.png">

In [None]:
print("Entropia com 1 var:")
col=["Survived","died"]
dat=[
    [5,5]]
    

example_df=pd.DataFrame(data=dat,columns=col)
print("Dados para desenhar uma ClassificationTree:")
display(example_df)

print("entropia: {}".format(entropy(5,5)))



Cálculo da entropia 2 atributos:
\begin{equation}\label{Cálculo da entropia 2 atributos}
    E(T,X)=\sum_{c}P(c)E(c)
\end{equation}


In [None]:
print("Entropia de 2 var:")
col=["Survived","died"]
idx =["Male","Female"]
dat=[
    [1,4],
    [4,1]
]
    
    

example_df=pd.DataFrame(index=idx,data=dat,columns=col)
print("Dados para desenhar uma ClassificationTree:")
display(example_df)

print("Entropia E(male)= E(1,4) = {}".format(entropy(1,4)))
print("Entropia E(female)= E(4,1) = {}".format(entropy(4,1)))


Ganho de informacao
\begin{equation}\label{Cálculo da entropia gznho de informacao}
    G(T,X) = E(T) - E(T,x)
\end{equation}



### Crianção do modelo RandomTree:

In [None]:
from sklearn.ensemble import RandomForestClassifier as RFC
from sklearn.metrics import accuracy_score as ac_score

In [None]:
tree_classifier = RFC(max_depth=17,criterion='entropy')
tree_classifier.fit(x_train,y_train)

In [None]:
#ver train score
tree_predictions=tree_classifier.predict(x_train)
ac_score(y_train,tree_predictions)

In [None]:
#ver test score
tree_predictions=tree_classifier.predict(x_test)
ac_score(y_test,tree_predictions)

In [None]:
fig1, ax1 = plt.subplots(5,15, figsize=(15,10))
for j in range(15):
    for i in range(5):
        ax1[i][j].imshow(x_test[i+15*j].reshape((28,28)))
        ax1[i][j].axis('off')
        ax1[i][j].set_title(tree_predictions[i+15*j])
plt.show()

In [None]:
errados_img = x_test[tree_predictions != y_test]
errados_lbl = y_test[tree_predictions != y_test]
errados_pred_lbl = tree_predictions[tree_predictions != y_test]

In [None]:
#predicoes falhadas
fig1, ax1 = plt.subplots(5,15, figsize=(15,10))

for j in range(15):
    for i in range(5):
        ax1[i][j].imshow(errados_img[i+15*j].reshape((28,28)))
        ax1[i][j].axis('off')
        ax1[i][j].set_title("(T {})(F {})".format(errados_lbl[i+15*j],errados_pred_lbl[i+15*j]))
plt.show()

In [None]:
#msm coisa para o reduzido
tree_classifier = RFC(max_depth=2000)
tree_classifier.fit(x_train_red,y_train_red)

In [None]:
#atestar train score
tree_predictions=tree_classifier.predict(x_train_red)
ac_score(y_train_red,tree_predictions)

In [None]:
#atestar test score
tree_predictions=tree_classifier.predict(x_test_red)
ac_score(y_test_red,tree_predictions)

In [None]:
fig1, ax1 = plt.subplots(5,15, figsize=(15,10))
for j in range(15):
    for i in range(5):
        ax1[i][j].imshow(x_test_red[i+15*j].reshape((28,28)))
        ax1[i][j].axis('off')
        ax1[i][j].set_title(tree_predictions[i+15*j])
plt.show()

## logistic_classifier:

Este modelo é o modelo mais usado em áreas de investigação aplicadas (investigações médicas, farmacêuticas, ciências sociais).A vantagem que tem em relação aos outros é ser um modelo amplamente aceite e com critérios de creditação do modelo já muito estudados e ajustáveis para uma grande diversidades de datasets.


A função sigmoid:
<img src="logistic.png">

O que o modelo faz, a duas dimensões, é encontrar a curva com a forma de cima que melhor se ajusta aos dados encontrados e depois, para cada observação, calcula o resultado da função nesse ponto, que é diretamente traduzido numa probabilidade (a função tem sempre valores entre 0 e 1)

Exemplo :
<img src="log_2.png">

Quando o problema tem mais do que uma variável resultado (neste caso há 10). O modelo usa inferência estatística, recorrendo ao teorema de Bayes como ponto inicial para a classificação (calcula qual a probabilidade de ser 0 face à de ser 1 e faz isso para todas as possibilidades, e procura o modelo que maximize a probabilidade total de sucesso).Para mais informações, um bom ponto de partida é https://en.wikipedia.org/wiki/Multinomial_logistic_regression

### Criação do modelo logit:

In [None]:
#dataset mt extenso para este método diminuir dados
# +- 1 min a correr
x_train_red_1=x_train_red[0:5000,:]
y_train_red_1=y_train_red[0:5000]

#idiota erro gravissimo
x_test_red_1=x_test_red[0:500]
y_test_1=y_test[0:500]


from sklearn.linear_model import LogisticRegression
logi_classifier=LogisticRegression(verbose =50)
logi_classifier.fit(x_train_red_1,y_train_red_1)
prediction=logi_classifier.predict(x_test_red_1)
ac_score(y_test_1,prediction)

In [None]:
fig1, ax1 = plt.subplots(5,15, figsize=(15,10))
for j in range(15):
    for i in range(5):
        ax1[i][j].imshow(x_test_red_1[i+15*j].reshape((28,28)))
        ax1[i][j].axis('off')
        ax1[i][j].set_title(prediction[i+15*j])
plt.show()

In [None]:
from sklearn.metrics import confusion_matrix as c_matrix

In [None]:
print(c_matrix(y_test_1,prediction))

In [None]:
#meter aqui quantos 0 foram classficados como 1...2..9 etc

matrix=np.zeros((10,10))

for line in range(10):
    unique, counts=np.unique(prediction[y_test_1 == line],return_counts=True)
    matrix[line][unique]=counts
    
viz=pd.DataFrame(index=[0,1,2,3,4,5,6,7,8,9],columns=[0,1,2,3,4,5,6,7,8,9],data=matrix)
viz

## Redes de Convolução Neuronais

As redes de convulsão neuronais, apesar de serem já conhecidas desde 1950, só começaram a ter a atenção do mundo de machine learning quando, em 2012, Ciresan et al melhoraram muito o melhor modelo na literatura para identificação de imagens. Já muitas tentativas foram feitas para utilizar este modelo noutro tipos de modelos (que não reconhecimento de imagem ou vídeo) sem muito sucesso. Este modelo é muito pesado computacionalmente.
 
Decidi abordar este modelo por ser intuitivo no modo como funciona e ter uma alta performance. Para ter um entendimento mais aprofundado sobre o tema, podem ler este paper da autoria de Jianxin Wu: https://pdfs.semanticscholar.org/450c/a19932fcef1ca6d0442cbf52fec38fb9d1e5.pdf. Para saber mais sobre polling, podem ler este paper da autoria de Dominic Shrerer http://ais.uni-bonn.de/papers/icann2010_maxpool.pdf.

<img src="CNN_image.jpg">

Operador Convolução (usado para detectar features nos dados):
\begin{equation}\label{Convulusãp}
   f(t)*g(t)=\int_{y=-\infty}^{+\infty} f(y)*g(t-y)dy
\end{equation}


<img src="convulucao/Diapositivo1.JPG">


Para observar os efeitos de diferentes feature detectores, iremos ver a documentação do programa Gimp (um programa de edição de imagem):
https://docs.gimp.org/en/plug-in-convmatrix.html

Pooling (usado para diminuir a complexidade dos dados e dar mais relacionamento estrutural):


<img src="convulucao/Diapositivo2.JPG">

Para ver tudo em ação: http://scs.ryerson.ca/~aharley/vis/conv/flat.html

A party fully connected não será abordada neste workshop. Para saberem mais, podem ver o research paper referido supramencionado ou numa próxima edição deste workshop mediante sugestões. (também estou aberto a questões sobre esta parte no fim do workshop).

### Contruindo aCNN

Como nos outros casos, começaremos com as importações das bibliotecas a usar:

In [None]:
from keras.models import Sequential
from keras.layers import Convolution2D
from keras.layers import MaxPooling2D
from keras.layers import Flatten
from keras.layers import Dense
from keras.utils.np_utils import to_categorical # convert to one-hot-encoding

Construir a rede em si:

In [None]:
# 1 - Convulução:
#foram escolhidos 32 features detectores
classifier = Sequential()
classifier.add(Convolution2D(32, (3, 3), input_shape = (28, 28,1), activation = 'relu'))

In [None]:
# Step 2 - Pooling
classifier.add(MaxPooling2D(pool_size = (2, 2)))

In [None]:
# Adding a second convolutional layer
classifier.add(Convolution2D(32, (3, 3), activation = 'relu'))
classifier.add(MaxPooling2D(pool_size = (2, 2)))
# Adding a second convolutional layer
classifier.add(Convolution2D(32, (3, 3), activation = 'relu'))
classifier.add(MaxPooling2D(pool_size = (2, 2)))

In [None]:
# Step 3 - Flattening
classifier.add(Flatten())

In [None]:
# Step 4 - Full connection
classifier.add(Dense(units = 28*2, activation = 'relu'))
# Step 4 - Full connection
classifier.add(Dense(units = 28*2, activation = 'relu'))
classifier.add(Dense(units = 10, activation = 'sigmoid'))

In [None]:
# Compiling the CNN
classifier.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy'])

Fazer fit dos dados à rede:

In [None]:
#fit(self, x=None, y=None, batch_size=None, epochs=1, verbose=1, callbacks=None, validation_split=0.0,
#validation_data=None, shuffle=True, class_weight=None, sample_weight=None, initial_epoch=0, 
#steps_per_epoch=None, validation_steps=None)

X_train=x_train.reshape(-1,28,28,1)
x_test_conv=x_test.reshape(-1,28,28,1)
Y_train = to_categorical(y_train, num_classes = 10)

classifier.fit(X_train, Y_train, batch_size = 90, epochs = 5,validation_split=0.1, verbose = 2 ,shuffle=1)

In [None]:
# Predict the values from the validation dataset
Y_pred_CNN = classifier.predict(x_test_conv)
# Convert predictions classes to one hot vectors 
Y_pred_classes = np.argmax(Y_pred_CNN,axis = 1) 


In [None]:
ac_score(y_test,Y_pred_classes)

In [None]:
viz=pd.DataFrame(index=[0,1,2,3,4,5,6,7,8,9],columns=[0,1,2,3,4,5,6,7,8,9],data=c_matrix(y_test,Y_pred_classes))
viz

Ver os erros cometidos

In [None]:
# Display some error results 

# Errors are difference between predicted labels and true labels
errors = (Y_pred_classes - y_test != 0)

fig1, ax1 = plt.subplots(10,5, figsize=(15,40))
for j in range(5):
    for i in range(10):
        ax1[i][j].imshow(x_test[errors][i+10*j].reshape((28,28)),'gray')
        ax1[i][j].axis('off')
        title="pr: "+(str)(Y_pred_classes[errors][i+10*j]) +" Re: "+(str)(y_test[errors][i+10*j])
        ax1[i][j].set_title(title)
plt.show()


## Redes Neuronais bases matemáticas

rede neuronal feed forward esquema:


<img src="NeuralNetwork_img.png">

relacao entre as variaveis:
\begin{equation}\label{feed_forward}
   z_j^{(l)} = \sum_{i}y_i^{(l-1)}w_{ij}^{(l-1)} 
\end{equation}

introducao da nao linearidade:
\begin{equation}\label{feed_f_y}
   y_j^{(l)} = N{(z_j^{(l)})} 
\end{equation}

Previsão:
\begin{equation}\label{prev}
  Lprev_i = y_i^L
\end{equation}



Mas como aprende? Como qualquer outro algoritmo de machine learning tem como objetivo minimizar uma função objetivo que representa o quão perto as suas previsões estão da realidade. Tomemos por exemplo como função a minimizar R2. Sendo  $Ltrue_i$ o valor real do dado i e sendo $Lprev_i$ o valor previstopela nossa rede prevê:
(escolheu-se na explicação teórica não nos focarmos no exemplo de classificação , uma vez que traria algumas complicações na matemática , é mais fácil escrever a derivaçãõ uma quadrática da função soft max na activação com função objetivo entropia)

função a minimizar para apenas um exemplo:
\begin{equation}\label{feed_f_y}
  error = \sum_{i}{(Lprev_i-Ltrue_i)^2}
\end{equation}


Usar técnica de gradient descend para minimizar este erro:  (Passos: calcular o gradiente:) Começar por calcular o gradiente da ultima camada

\begin{equation}\label{feed_f_y}
  \frac{\partial error}{\partial y_i^L} = {2(y_i^L-Ltrue_i)}
\end{equation}

Como se propaga para o $ Z^L $ ?
\begin{equation}\label{prop_zL}
 \delta_i^{(L)} = \frac{\partial error}{\partial z_i^L} =  \frac{\partial error}{\partial y_i^L}\frac{\partial y_i^L}{\partial z_i^L} = {2(y_i^L-Ltrue_i)}N'(z_i^L)
\end{equation}






\begin{equation}\label{fim_antes}
 \delta_i^{(l-1)} =  \frac{\partial error}{\partial z_{i}^{l-1}} = \sum_j \frac{\partial error}{\partial z_j^{l}}
 \frac{\partial z_j^{l}}{\partial z_i^{l-1}} 
 =  \sum_j \delta_j^{(l)} \frac{\partial z_j^{l}}{\partial y_i^{l-1}}\frac{\partial y_i^{l-1}}{\partial z_i^{l-1}}
 =  \sum_j \delta_j^{(l)} w_{ij}^{(l-1)} N'(z_i^{(l-1)})
\end{equation}

Por fim o que interessa é atualizar os pesos ? como se sabe a derivada do peso $w_{ij}^{(l)}$ ?

\begin{equation}\label{fim}
 \frac{\partial error}{\partial w_{ij}^l} = \frac{\partial error}{\partial z_j^{l+1}}
 \frac{\partial z_j^{l+1}}{\partial w_{ij}^l} =  \delta_j^{(l+1)}y_i^{l}
\end{equation}