In [None]:
import keras
keras.__version__

'2.3.1'

# Redes Neurais

04/2020

# Resumo

Redes Neurais são um modelo de aprendizado de máquina que imita a maneira biológica que os seres humanos aprendem. Uma rede neural consiste em um conjunto organizado de nêuronios que tomam pequenas decisões baseado nas entradas que recebe. A idéia é que, por mais que um neurônio sozinho seja insuficiente para resolver grandes problemas, vários neurônios unidos tomando pequenas decisões juntos são capazes de resolver corretamente grandes dificuldades do aprendizado de máquina.

# Sumário

 <ol>
<li>O neurônio</li>
<li>A arquitetura de uma Rede Neural</li>
<li>Como a Rede Neural aprende</li>
<li>O problema: Reconhecendo dígitos escritos a mão</li>
<li>Bibliografia</li>
</ol>


##1. O neurônio

Um neurônio é a unidade de aprendizado de uma rede neural. Existem diversos tipos de neurônios, que normalmente se referem aos modelos de aprendizado de máquina mais comuns, temos neurônios que aprendem como o perceptron, a regressão logística, a regressão linear e o softmax.

A unidade básica funciona entregando uma saída para um dado conjunto de entradas como a imagem a seguir:

![alt text](http://neuralnetworksanddeeplearning.com/images/tikz9.png)

A natureza das entradas e das saídas pode variar, por exemplo se o tipo de neurônio utilizado for um perceptron, ele funcionará dando um "peso" para cada entrada, calculando o produto interno $ <w^T,x>$, somando esse produto a um bias $b$ e entregando uma saída binária, $ 1 $ caso o resultado seja positivo, e $ 0 $ caso contrário.

O modelo que dita a maneira de aprendizado de determinado neurônio é chamado função de ativação. Por exemplo se o neurônio se comporta da maneira descrita anteriormente, dizemos que a função que ativa o neurônio é o perceptron. Diferentes funções de ativação tem implicações diferentes no aprendizado de determinada rede neural, podendo ser um fator que influencia na velocidade de aprendizado ou na eficiência do modelo como um todo.

###1.1 A função sigmóide

Uma das funções de ativação mais utilizada é a função sigmoide, ela segue o mesmo princípio da regressão logística, ou seja, para um conjunto de entradas, entrega uma saída que é um número real entre $0$ e $1$. Básicamente sua saída é $\sigma(<w^T,x> + \space b) $ sendo $\sigma (z) = \frac {1}{1 \space + \space e^{-z}}$. A função sigmóide é mais amplamente utilizada que o perceptron porque a transição entre o $0$ e o $1$ é bem menos abrupta, fazendo que uma mudança pequena na entrada não altere tanto a saída.

##2. A arquitetura de uma rede neural

Agora que sabemos como é a menor unidade de aprendizado do modelo, podemos enxergar uma rede neural simplesmente como a união de vários neurônios, interligados entre si como a figura a seguir:

![alt text](http://neuralnetworksanddeeplearning.com/images/tikz1.png)

Uma rede neural é dividida em diversas camadas, contendo uma quantidade de neurônios em cada uma, em que as entradas e saídas de cada neurônio são ligadas nos neurônios das próximas camadas.

Existem três tipos de camadas em uma rede neural:

**Camada de entrada** (ou input layer) é a camada de neurônios em que os dados são colocados para serem enviados às próximas camadas. Esses neurônios não possuem entradas, nem pesos, nem bias, somente entregam como saída os dados do problema.

**Camadas intermediárias** (ou hidden layers) são as camadas que estão entre as camadas de entrada e as de saída, se chamam "hidden layers" pois em alguns casos pode ser difícil entender o comportamento de seus pesos e bias ao longo do algoritmo. Uma rede neural pode ter nenhuma, uma ou mais camadas intermediárias.

**Camadas de saída** (ou output layers) é a camada que entrega a saída do sistema, a quantidade de neurônios que ela terá dependerá do problema que a rede neural está resolvendo.


##3. Como a Rede Neural aprende


Assim como em alguns outros modelos, o aprendizado de uma rede neural se da pela atualização dos pesos e biases de cada neurônio segundo o algoritmo do gradiente descendente. A cada iteração, se atualiza os pesos e os biases na direção que levaria a minimizar o $E_{in}$ da amostra.

As redes neurais se tornaram o principal modelo de aprendizado de máquina nos dias atuais. Isso se deve principalmente pela eficiência no cálculo do gradiente descendente do algoritmo mais utilizado em redes neurais, que é o  algoritmo de retropropagação (ou backpropagation), desde que ele surgiu, foi responsável por levar esse modelo a um novo grau de importância.

O algoritmo de backpropagation se consiste no cálculo do gradiente descendente de uma maneira simples. Se baseando na regra da cadeia ele tornou possível dizer qual a direção em que cada peso $w$ e bias $b$ deve ser atualizado, levando-se em conta apenas sabendo a saída de seus neurônios. Ele primeiro calcula as saídas de cada neurônio baseado nas suas entradas atuais (indo da esquerda para a direita), quando se chega na saída final do modelo, é calculado um vetor $ \delta^L $ em função da saída e da função de custo, e em seguida o algoritmo calcula da direita para a esquerda qual deve ser a atualização de cada $w$ e $b$.

Não será de interesse desse notebook explicitar toda a matemática por trás do algoritmo de backpropagation, pois utilizaremos uma biblioteca de python que já calcula o gradiente descendente automáticamente, contudo ter um bom entendimento de como funciona o algoritmo é importante para fazer ajustes com o objetivo de melhorar o aprendizado das redes neurais.



##4. O problema: Reconhecendo digitos escritos a mão

Para exemplificar o conteúdo deste notebook, resolveremos um problema que seria extremamente difícil de lidar com outros modelos, utilizando redes neurais. Este o problema se consiste em reconhecer dígitos escritos a mão utilizando aprendizado de máquina. 

Para isso utilizaremos o conjunto de dados MNIST que consiste em 60 mil imagens de treino e 10 mil imagens de teste para a verificação da qualidade do programa.
Os dados são imagens do seguinte tipo:

![alt text](http://neuralnetworksanddeeplearning.com/images/mnist_100_digits.png)

Esse conjunto de dados já esta presente no keras, que é a biblioteca que utilizaremos nesse notebook para a implementação das redes neurais.
O primeiro passo é importar o conjunto de dados e guardar em tensores.


In [None]:
from keras.datasets import mnist

(imagens_treino, saidas_treino), (imagens_teste, saidas_teste) = mnist.load_data()

``` imagens_treino ``` e ``` saidas_treino ``` são arrays do numpy que serão responsáveis pelo aprendizado da rede neural. Já ```imagens_teste```, e ```saidas_teste``` são responsáveis pelo teste da eficiencia da rede.

As imagens estão codificadas como arrays do numpy, e as saídas são um array simples de dígitos, indo de 0 a 9.




O próximo passo é montar nossa rede neural. Os hiper-parâmetros serão escolhidos segundo as heurísticas abordadas no "Neural networks and Deep Learning" do Michael Nielsen, aplicados ao problema.
A rede neural construida será do tipo:

![alt text](http://neuralnetworksanddeeplearning.com/images/tikz12.png)

Com apenas uma camada intermediária com 100 neurônios (diferente da imagem), 784 neurônios na camada de entrada (já que as imagens MNIST possuem 784 pixels cada) e 10 neurônios na saída, segundo o modelo softmax. Cada neurônio da saída se enviará a probabilidade do dígito da entrada ser o dígito referido a cada neurônio. Sendo que a soma das probabilidades devem ser sempre 100% (softmax).
A função de ativação dos neurônios da camada intermediária será a função sigmóide, e a função custo escolhida é a de entropia cruzada (cross-entropy). Além disso, para atenuar o overfitting, utilizaremos regularização do tipo L2 com $\lambda = 0,001$.




In [None]:
from keras import models
from keras import layers
from keras import regularizers


network = models.Sequential()
network.add(layers.Dense(100,
                          activation='sigmoid', input_shape=(784,)))
network.add(layers.Dense(10, activation='softmax'))

network.compile(optimizer='rmsprop',
                loss='categorical_crossentropy',
                metrics=['accuracy'])

Agora, antes de treinar a Rede Neural criada, precisamos redimensionar os nossos arrays de entrada para o formato que a nossa Rede Neural espera. Além disso faremos uma normalização. Os pixels das imagens estão em escala de cinza de 8 bits, ou seja, cada imagem é um numpy array de dimensão 28x28 de números que vão de 0 a 255 (8 bits).

Nossa intenção com as linhas a seguir é transformar cada imagem em um array de 784 valores de tipo float indo de 0 a 1.

In [None]:
imagens_treino = imagens_treino.reshape((60000, 28 * 28))
imagens_treino = imagens_treino.astype('float32') / 255

imagens_teste = imagens_teste.reshape((10000, 28 * 28))
imagens_teste = imagens_teste.astype('float32') / 255



from keras.utils import to_categorical

saidas_treino = to_categorical(saidas_treino)
saidas_teste = to_categorical(saidas_teste)



Agora treinaremos nossa Rede Neural com 30 épocas e um batch size de 10

In [None]:
network.fit(imagens_treino, saidas_treino, epochs=30, batch_size=10)

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


<keras.callbacks.callbacks.History at 0x7f5204f9d5c0>

Agora para testar o nosso algoritmo fora do conjunto de treino, testaremos no conjunto de 10 mil imagens testes

In [None]:
test_loss, test_acc = network.evaluate(imagens_teste, saidas_teste)



In [None]:
print("A acurácia do teste foi de: ", test_acc)

A acurácia do teste foi de:  0.9757000207901001


Vimos então que com uma Rede Neural simples, com apenas uma camada intermediária e utilizando regularização, fomos capazes de fazer um algoritmo capaz de identificar dígitos escritos a mão, com índice de erro menor do que 3%. Isso mostra a capacidade das Redes Neurais de lidar com problemas complexos e entregar bons resultados.

##5. Bibliografia 

[1] Learning From Data - Yaser S. Abu Mustafa

[2] https://work.caltech.edu/lectures.html

[3] http://cs231n.github.io/python-numpy-tutorial/

[4] https://github.com/fchollet/deep-learning-with-python-notebooks

[5] http://neuralnetworksanddeeplearning.com/index.html


