# Redes Neurais Convolucionais (CNN)
*Algumas partes foram traduzidas pelo Google Transalte (usando Redes Neurais Recorrentes RNN, famoso modelo Seq2Seq) 
## O que inspirou as redes convolucionais?

CNNs são modelos de inspiração biológica inspirados na pesquisa de D. H. Hubel e T. N. Wiesel. Eles propuseram uma explicação sobre a maneira pela qual os mamíferos percebem visualmente o mundo ao seu redor usando uma arquitetura em camadas de neurônios no cérebro, o que, por sua vez, inspirou engenheiros a tentar desenvolver mecanismos similares de reconhecimento de padrões em visão computacional.

![alt text](https://qph.ec.quoracdn.net/main-qimg-235acb60a481423eaf70c39b17bc914b.webp "Logo Title Text 1")

Em sua hipótese, dentro do córtex visual, as respostas funcionais complexas geradas por "células complexas" são construídas a partir de respostas mais simples de "células simples".

Para casos, células simples responderiam a bordas orientadas, etc., enquanto células complexas também responderiam a bordas orientadas, mas com um grau de invariância espacial.

Existem campos receptivos para células, onde uma célula responde a uma soma de entradas de outras células locais.

A arquitetura das CNNs foi inspirada pelas idéias mencionadas acima
- conexões locais
- camadas
- invariância espacial (a mudança do sinal de entrada resulta em um sinal de saída igualmente deslocado.) A maioria de nós é capaz de reconhecer faces específicas sob uma variedade de condições porque aprendemos abstração. Essas abstrações são invariantes ao tamanho, contraste, rotação, orientação
 
No entanto, continua a ser visto se esses mecanismos computacionais de redes neurais convolutivas são semelhantes aos mecanismos de computação que ocorrem no sistema visual primata



## NN vs CNN
De acordo com LeCun et al. (1998), as redes convolucionas diferem das redes neurais mais simples pois contém:
1. Campos receptivos locais: os neurônios de uma camada não estão ligados a todos os neurônios da camada anterior ou posterior, apenas nos neurônios dentro da sua "janela de visão" (Receptive Field) 
2. Pesos compartilhados (ou replicação de peso): neurônios em uma mesma camada utilizam o filtro(máscara/kernel) com os mesmo pesos.
3. Subamostragem espacial ou temporal: As camadas vão diminuíndo o tamanho da entrada, mas acrescentam maior significado a ela.

Além disto, CNNs possuem camadas de Convolução e Pooling.

# Como elas funcionam?
- Ver vídeo [https://www.youtube.com/watch?v=gB_-LabED68]


## Arquitetura
Podemos dividir uma CNN em duas partes:
- 1. Aprendizagem automática de features
- 2. Classificação
![alt text](https://www.mathworks.com/content/mathworks/www/en/discovery/convolutional-neural-network/jcr:content/mainParsys/image_copy.adapt.full.high.jpg/1497876372993.jpg "Logo Title Text 1")


## Etapa 1 - Preparando o conjunto de dados de imagens

![](http://xrds.acm.org/blog/wp-content/uploads/2016/06/Figure1.png)

- Cada imagem é uma matriz de valores de pixel.
- Mais comumente, temos pixels de 8 bits ou 1 tamanho de byte. Assim, a possível gama de valores que um único pixel pode representar é [0, 255].
- No entanto, com imagens coloridas, particularmente imagens RGB (Red, Green, Blue), a presença de canais de cores separados (3 no caso de imagens RGB) introduz um campo adicional de "profundidade" para os dados, tornando a entrada tridimensional.
- Portanto, para uma determinada imagem RGB de tamanho, digamos pixels 255 × 255 (Largura x Altura), teremos 3 matrizes associadas a cada imagem, uma para cada um dos canais de cores.
- Assim, a imagem na sua totalidade, constitui uma estrutura tridimensional chamada **Volume de Entrada** (255x255x3).

### Dataset MNIST
Neste turotial iremos usar o dataset MNIST de dígitos de 0-9 escritos a mão. Este conjunto contém imagens escala de cinza de 28x28 pixels com 60K imagens para treino e 10K para teste. Assim, como estamos trabalhando com uma imagem em escala de cinza e apenas um canal de intensidade, nosso **Volume de Entrada** será de **(28x28x1)**.
![](https://chrisjmccormick.files.wordpress.com/2015/01/layer_1.png)

### Importando as bibliotecas necessárias e baixando o dataset

In [8]:
import tensorflow as tf
import tensorflowvisu
import math
from tensorflow.examples.tutorials.mnist import input_data as mnist_data
print("Tensorflow version " + tf.__version__)
tf.set_random_seed(0)

# Download images and labels into mnist.test (10K images+labels) and mnist.train (60K images+labels)
mnist = mnist_data.read_data_sets("data", one_hot=True, reshape=False, validation_size=0)


Tensorflow version 1.1.0
Extracting data/train-images-idx3-ubyte.gz
Extracting data/train-labels-idx1-ubyte.gz
Extracting data/t10k-images-idx3-ubyte.gz
Extracting data/t10k-labels-idx1-ubyte.gz


### Kernel Convolution 
- Um kernel (também chamado de filtro, feature map ou matriz de pesos) é uma matriz de valores reais de tamanho menor em comparação com as dimensões de entrada da imagem. Tal Kernel ou Filtro pode ser definido para ressaltar bordas, causar desfoque Gaussiano, ou qualquer outra operação.

- A comcolução do kernel é um processo onde passa-se essa matriz de numeros sobre a imagem calculando uma multiplicação ponto a ponto e subtituindo o ponto central, na nova imagem, pela soma das multiplicações. Desta forma, a imagem original é transformada em uma nova imagem, de acordo com os valores do kernel. 

![alt text](https://s3-eu-west-1.amazonaws.com/com.cambridgespark.content/tutorials/convolutional-neural-networks-with-keras/figures/convolve.png)

![](https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/content/more_images/Convolution_schematic.gif "Logotipo Texto Texto 1")

## Etapa 2 - Camada de Convolução

- Uma convolução é um procedimento em que duas fontes de informação serão entrelaçadas. É combinar duas coisas para criar uma nova (pode-se pensar em convolução como sinônimo para combinação)

- É calculada a convolução dos **kernels** com o **volume de entrada** para obter os chamados **"mapas de ativação"** (também chamados de mapas de features).

- Os mapas de ativação indicam regiões "ativadas", ou seja, regiões onde os recursos específicos do kernel foram detectados na entrada.

![](http://xrds.acm.org/blog/wp-content/uploads/2016/06/Figure_2.png "Texto do título do logotipo 1")
![](http://i.imgur.com/g4hRI6Z.png "Texto do título do logotipo 1")
![Alt text](http://i.imgur.com/tpQvMps.jpg "Logotipo Título Texto 1")
![Alt text](http://i.imgur.com/oyXkhHi.jpg "Logotipo Título Texto 1")

- Os valores reais da matriz do kernel mudam a cada iteração de aprendizagem sobre o conjunto de treinamento, indicando que a rede está aprendendo a identificar quais regiões são importantes para extrair recursos dos dados.

- A "janela" do kernel é então deslizada pela imagem, de acordo com um "passo" **(stride)**, e o processo é repetido até que toda a imagem de entrada tenha sido processada. *O processo é realizado para todos os canais de cores.

- Em vez de conectar cada neurônio a todos os pixels possíveis, especificamos uma região bidimensional denominada "campo receptivo [14]" (digamos de tamanho 5 × 5 unidades) que se estende para toda a profundidade da entrada (5x5x3 para um canal de 3 cores Entrada), dentro dos quais os pixels abrangidos estão totalmente conectados à camada de entrada da rede neural. É sobre essas pequenas regiões que as seções transversais da camada de rede (cada uma constituídas por vários neurônios (chamadas "colunas de profundidade") operam e produzem o mapa de ativação. (Reduz a complexidade computacional)
![](https://codelabs.developers.google.com/codelabs/cloud-tensorflow-mnist/img/53c160301db12a6e.png)


![Alt text] (http://xrds.acm.org/blog/wp-content/uploads/2016/06/Figure_5.png)

Grande recurso sobre a descrição da convolução (discreto versus contínuo) e a transformada de Fourier
Http://timdettmers.com/2015/03/26/convolution-deep-learning/

## Etapa 3 - Camada de Pooling (Agrupamento)
![](http://cs231n.github.io/assets/cnn/maxpool.jpeg)
- A camada de pooling reduz as dimensões espaciais (largura x altura) do volume de entrada para a próxima camada convolucional. Não afeta a dimensão de profundidade do Volume (o número de canais, por exemplo).
- A transformação é realizada tomando o valor máximo dos valores observáveis na janela (chamada de 'Max Pooling'), ou tomando a média dos valores. O **Max Pooling** é mais usado em relação a outros devido às suas características de melhor desempenho.
- Esta etapa também é chamada de **Downsampling**

## Etapa 4 - Normalização (ReLU no nosso caso)

A função de normalização **ReLU** (Rectified Linear Unit) é a mais usada pois faz com que o modelo seja capaz de aprender funções não lineares mais eficientemente. Basicamente, ela transforma números negativos em 0, uma pilha de imagens torna-se uma pilha de imagens sem valores negativos.
![](http://xrds.acm.org/blog/wp-content/uploads/2016/06/CodeCogsEqn-3.png)
![](https://codelabs.developers.google.com/codelabs/cloud-tensorflow-mnist/img/60cac06459b3cc08.png)



## Etapa 5 - Dropout (abandono)

- Dropout força uma rede neural artificial para aprender múltiplas representações independentes dos mesmos dados alternadamente, desativando aleatoriamente os neurônios na fase de aprendizagem.
- O abandono é uma característica vital em quase todas as implementações de rede neural de última geração.
- Para executar o abandono de uma camada, você ajusta aleatoriamente alguns dos valores da camada para 0 durante a propagação direta.
See [this](http://iamtrask.github.io/2015/07/28/dropout/)

![alt text](https://i.stack.imgur.com/CewjH.png "Logo Title Text 1")


## Etapa 6 - Conversão de Probabilidades

No final da nossa rede, aplicaremos uma função softmax para converter as saídas em valores de probabilidade para cada classe.
![](./images/softmax.png)
![] (https://1.bp.blogspot.com/-FHDU505euic/Vs1iJjXHG0I/AAAAAAABVKg/x4g0FHuz7_A/s1600/softmax.JPG "Logo Title Text 1")


## Etapa 7 - Escolha a classe mais provável (valor máximo de probabilidade)

Argmax (softmax_outputs)

Essas 7 etapas são uma passagem pela rede.

### Por quê adicionas mais camadas?
Somando pequenas informações a cada camada você consegue ir compondo conceitor e acrescentando contexto
![alt text](./images/deep_abstraction.png)

## Então, como aprendemos as matrizes de pesos?

- Podemos aprender as matrizes de peso (kernels) por meio de backpropagation

![alt text](http://www.robots.ox.ac.uk/~vgg/practicals/cnn/images/cover.png "Logo Title Text 1")

![alt text](https://image.slidesharecdn.com/cnn-toupload-final-151117124948-lva1-app6892/95/convolutional-neural-networks-cnn-52-638.jpg?cb=1455889178 "Logo Title Text 1")

Os outros hiperparâmetros são definidos pelos seres humanos e são um campo de pesquisa ativo (achando os melhores)

Ex.: número de neurônios, número de camadas, número de features, tamanho dos features, tamanho do kernel de pooling, tamanho do kernel de convolução, passo em pixels do kernel **stride**


## Arquitetura escolhida no tutorial
 
- Costuma-se usar camadas de **pooling** para diminuir a dimensão da entrada. No entanto, neste tutorial os cientistas do Google indicam empiricamente que utilizar apenas camadas de convolução alterando o passo (**stride**), os resultados são melhores. Nada pré-definido ou geral, apenas decisão de projeto (hiperparâmetro).

![alt text](https://codelabs.developers.google.com/codelabs/cloud-tensorflow-mnist/img/3701df765a81a094.png)


In [7]:
# neural network structure for this sample:
#
# · · · · · · · · · ·      (input data, 1-deep)                 X [batch, 28, 28, 1]
# @ @ @ @ @ @ @ @ @ @   -- conv. layer 5x5x1=>4 stride 1        W1 [5, 5, 1, 4]        B1 [4]
# ∶∶∶∶∶∶∶∶∶∶∶∶∶∶∶∶∶∶∶                                           Y1 [batch, 28, 28, 4]
#   @ @ @ @ @ @ @ @     -- conv. layer 5x5x4=>8 stride 2        W2 [5, 5, 4, 8]        B2 [8]
#   ∶∶∶∶∶∶∶∶∶∶∶∶∶∶∶                                             Y2 [batch, 14, 14, 8]
#     @ @ @ @ @ @       -- conv. layer 4x4x8=>12 stride 2       W3 [4, 4, 8, 12]       B3 [12]
#     ∶∶∶∶∶∶∶∶∶∶∶                                               Y3 [batch, 7, 7, 12] => reshaped to YY [batch, 7*7*12]
#      \x/x\x\x/        -- fully connected layer (relu)         W4 [7*7*12, 200]       B4 [200]
#       · · · ·                                                 Y4 [batch, 200]
#       \x/x\x/         -- fully connected layer (softmax)      W5 [200, 10]           B5 [10]
#        · · ·                                                  Y [batch, 10]

## Inicialização

Variable: Graus de liberdade do sistema, o que queremos que o TensorFlow compute (aprenda) para nós durante o treino. Neste caso são os pesos **W** e bias (tendências) **B**. Os pesos são inicializados com valores randômicos.
![](https://codelabs.developers.google.com/codelabs/cloud-tensorflow-mnist/img/40fd4b6ad8dfb6d2.png)

Placeholder: Training data que será dada a rede durante o treino. Neste caso, as imagens de entreda X e os resultados das convoluções Y. 


In [6]:


# input X: 28x28 grayscale images, the first dimension (None) will index the images in the mini-batch
#                           <[BatchSIZE, Dimensoes das imagens de entrada]>
X = tf.placeholder(tf.float32, [None, 28, 28, 1])
# correct answers will go here
Y_ = tf.placeholder(tf.float32, [None, 10])
# variable learning rate
lr = tf.placeholder(tf.float32)

# three convolutional layers with their channel counts, and a
# fully connected layer (tha last layer has 10 softmax neurons)
K = 4  # first convolutional layer output depth
L = 8  # second convolutional layer output depth
M = 12  # third convolutional layer
N = 200  # fully connected layer

W1 = tf.Variable(tf.truncated_normal([5, 5, 1, K], stddev=0.1))  # 5x5 patch, 1 input channel, K output channels
B1 = tf.Variable(tf.ones([K])/10)
W2 = tf.Variable(tf.truncated_normal([5, 5, K, L], stddev=0.1))
B2 = tf.Variable(tf.ones([L])/10)
W3 = tf.Variable(tf.truncated_normal([4, 4, L, M], stddev=0.1))
B3 = tf.Variable(tf.ones([M])/10)

W4 = tf.Variable(tf.truncated_normal([7 * 7 * M, N], stddev=0.1))
B4 = tf.Variable(tf.ones([N])/10)
W5 = tf.Variable(tf.truncated_normal([N, 10], stddev=0.1))
B5 = tf.Variable(tf.ones([10])/10)

![] (https://codelabs.developers.google.com/codelabs/cloud-tensorflow-mnist/img/604a9797da2a48d7.png)

![] (https://codelabs.developers.google.com/codelabs/cloud-tensorflow-mnist/img/206327168bc85294.png)

## Modelo


In [9]:
# The model
stride = 1  # output is 28x28
Y1 = tf.nn.relu(tf.nn.conv2d(X, W1, strides=[1, stride, stride, 1], padding='SAME') + B1)
stride = 2  # output is 14x14
Y2 = tf.nn.relu(tf.nn.conv2d(Y1, W2, strides=[1, stride, stride, 1], padding='SAME') + B2)
stride = 2  # output is 7x7
Y3 = tf.nn.relu(tf.nn.conv2d(Y2, W3, strides=[1, stride, stride, 1], padding='SAME') + B3)

#A FUNCAO RESHAPE ACHATA A IMAGEM PARA 
# reshape the output from the third convolution for the fully connected layer5 k
YY = tf.reshape(Y3, shape=[-1, 7 * 7 * M])

Y4 = tf.nn.relu(tf.matmul(YY, W4) + B4)
Ylogits = tf.matmul(Y4, W5) + B5
Y = tf.nn.softmax(Ylogits)

## Calculando a Cross Entropy
- Cross entropy é a distancia entre a predição da rede e o que a entrada realmente é. O label da entrada é representado com um vetor de zeros com um 1 apenas na classe da imagem, essa representação é chamada de **"one-hot" encoding**
![](https://codelabs.developers.google.com/codelabs/cloud-tensorflow-mnist/img/1d8fc59e6a674f1c.png)

In [10]:
# cross-entropy loss function (= -sum(Y_i * log(Yi)) ), normalised for batches of 100  images
# TensorFlow provides the softmax_cross_entropy_with_logits function to avoid numerical stability
# problems with log(0) which is NaN
cross_entropy = tf.nn.softmax_cross_entropy_with_logits(logits=Ylogits, labels=Y_)
cross_entropy = tf.reduce_mean(cross_entropy)*100

# accuracy of the trained model, between 0 (worst) and 1 (best)
correct_prediction = tf.equal(tf.argmax(Y, 1), tf.argmax(Y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

# matplotlib visualisation
allweights = tf.concat([tf.reshape(W1, [-1]), tf.reshape(W2, [-1]), tf.reshape(W3, [-1]), tf.reshape(W4, [-1]), tf.reshape(W5, [-1])], 0)
allbiases  = tf.concat([tf.reshape(B1, [-1]), tf.reshape(B2, [-1]), tf.reshape(B3, [-1]), tf.reshape(B4, [-1]), tf.reshape(B5, [-1])], 0)
I = tensorflowvisu.tf_format_mnist_images(X, Y, Y_)
It = tensorflowvisu.tf_format_mnist_images(X, Y, Y_, 1000, lines=25)
datavis = tensorflowvisu.MnistDataVis()

## Função de otimização
- Nesse passo, definimos uma função de otimizaçao que o TensorFlow usará para diminuir o erro (**cross entropy**) durante o treino

In [11]:
# training step, the learning rate is a placeholder
train_step = tf.train.AdamOptimizer(lr).minimize(cross_entropy)

# init
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)

# You can call this function in a loop to train the model, 100 images at a time
def training_step(i, update_test_data, update_train_data):

    # training on batches of 100 images with 100 labels
    batch_X, batch_Y = mnist.train.next_batch(100)

    # learning rate decay
    max_learning_rate = 0.003
    min_learning_rate = 0.0001
    decay_speed = 2000.0
    learning_rate = min_learning_rate + (max_learning_rate - min_learning_rate) * math.exp(-i/decay_speed)

    # compute training values for visualisation
    if update_train_data:
        a, c, im, w, b = sess.run([accuracy, cross_entropy, I, allweights, allbiases], {X: batch_X, Y_: batch_Y})
        print(str(i) + ": accuracy:" + str(a) + " loss: " + str(c) + " (lr:" + str(learning_rate) + ")")
        datavis.append_training_curves_data(i, a, c)
        datavis.update_image1(im)
        datavis.append_data_histograms(i, w, b)

    # compute test values for visualisation
    if update_test_data:
        a, c, im = sess.run([accuracy, cross_entropy, It], {X: mnist.test.images, Y_: mnist.test.labels})
        print(str(i) + ": ********* epoch " + str(i*100//mnist.train.images.shape[0]+1) + " ********* test accuracy:" + str(a) + " test loss: " + str(c))
        datavis.append_test_curves_data(i, a, c)
        datavis.update_image2(im)

    # the backpropagation training step
    #AQUI É EXECUTADA UMA COMPUTAÇAO DO TENSOR FLOW, COM UM BATCH DE IMAGENS
    #PASSA-SE PRA ELE OS PLACEHOLDERS
    # O LEARNING RATE LIMITA O TAMANHO DO PASSO QUE VOCÊ DARÁ NO GRADIENTE, 
    # ISSO, PARA GARANTIR QUE VOCE NAO PULE DE VALES
    sess.run(train_step, {X: batch_X, Y_: batch_Y, lr: learning_rate})

#datavis.animate(training_step, 10001, train_data_update_freq=10, test_data_update_freq=100)

# to save the animation as a movie, add save_movie=True as an argument to datavis.animate
# to disable the visualisation use the following line instead of the datavis.animate line

for i in range(10000+1): training_step(i, i % 100 == 0, i % 20 == 0)

print("max test accuracy: " + str(datavis.get_max_test_accuracy()))

# layers 4 8 12 200, patches 5x5str1 5x5str2 4x4str2 best 0.989 after 10000 iterations
# layers 4 8 12 200, patches 5x5str1 4x4str2 4x4str2 best 0.9892 after 10000 iterations
# layers 6 12 24 200, patches 5x5str1 4x4str2 4x4str2 best 0.9908 after 10000 iterations but going downhill from 5000 on
# layers 6 12 24 200, patches 5x5str1 4x4str2 4x4str2 dropout=0.75 best 0.9922 after 10000 iterations (but above 0.99 after 1400 iterations only)
# layers 4 8 12 200, patches 5x5str1 4x4str2 4x4str2 dropout=0.75, best 0.9914 at 13700 iterations
# layers 9 16 25 200, patches 5x5str1 4x4str2 4x4str2 dropout=0.75, best 0.9918 at 10500 (but 0.99 at 1500 iterations already, 0.9915 at 5800)
# layers 9 16 25 300, patches 5x5str1 4x4str2 4x4str2 dropout=0.75, best 0.9916 at 5500 iterations (but 0.9903 at 1200 iterations already)
# attempts with 2 fully-connected layers: no better 300 and 100 neurons, dropout 0.75 and 0.5, 6x6 5x5 4x4 patches no better
#*layers 6 12 24 200, patches 6x6str1 5x5str2 4x4str2 dropout=0.75 best 0.9928 after 12800 iterations (but consistently above 0.99 after 1300 iterations only, 0.9916 at 2300 iterations, 0.9921 at 5600, 0.9925 at 20000)
# layers 6 12 24 200, patches 6x6str1 5x5str2 4x4str2 no dropout best 0.9906 after 3100 iterations (avove 0.99 from iteration 1400)

0: accuracy:0.06 loss: 240.954 (lr:0.003)
0: ********* epoch 1 ********* test accuracy:0.0955 test loss: 236.164
20: accuracy:0.7 loss: 85.4854 (lr:0.0029711445178725875)
40: accuracy:0.81 loss: 65.6362 (lr:0.0029425761525895904)
60: accuracy:0.93 loss: 24.0883 (lr:0.0029142920472906737)


KeyboardInterrupt: 