# APLICANDO REDES NEURAIS CONVOLUTIVAS

Nesta seção, vamos aplicar redes convolutivas para o problema de classificação de dígitos, usando a coleção MNIST. Com nosso modelo mais simples, conseguimos desempenho de cerca de 92%. Usando uma rede larga e profunda, alcançamos cerca de 98%. Este já é um resultado muito bom, mas abaixo do estado-da-arte, alcançado com redes convolutivas (<a href="http://cs.nyu.edu/~wanli/dropc/">este paper</a>, por exemplo, conseguiu 99.79%).

Nesta seção, vamos definir uma rede convolutiva para este problema, avaliá-la e discutir meios de refiná-la.

<a id="ref6"></a>
# Deep Learning aplicado em MNIST

### Iniciando uma sessão interativa em Tensorflow

In [1]:
import tensorflow as tf

#Start interactive session
sess = tf.InteractiveSession()

### Obtendo MNIST

In [2]:
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets('data/MNIST_data', one_hot=True)

Extracting data/MNIST_data/train-images-idx3-ubyte.gz
Extracting data/MNIST_data/train-labels-idx1-ubyte.gz
Extracting data/MNIST_data/t10k-images-idx3-ubyte.gz
Extracting data/MNIST_data/t10k-labels-idx1-ubyte.gz


### Parâmetros inicias

In [3]:
width = 28 # width of the image in pixels 
height = 28 # height of the image in pixels
flat = width * height # number of pixels in one image 
class_output = 10 # number of possible classifications for the problem

### Entrada e Saída

In [4]:
x  = tf.placeholder(tf.float32, shape=[None, flat])
y_ = tf.placeholder(tf.float32, shape=[None, class_output])

### Pesos

Vamos usar uma função para criar e inicializar pesso. Essa função irá iniciar os pesos aleatoriamente, centrada na média, e com pequeno desvio padrão. 

In [5]:
def weight_variable(shape):
    initial = tf.truncated_normal(shape, stddev=0.1)
    return tf.Variable(initial)

### Biases

Para os biases, nossa função irá usar valores iniciais positivos pequenos. Isso se deve ao fato da função de ativação ReLU (que será usada em nossa arquitetura) levar à "morte" de neurônios durante o treino: um valor alto de gradiente fluindo pela ReLU pode levar a uma atualização de pesos de forma que alguns neurônios não sejam mais ativados para qualquer outro ponto.

In [6]:
def bias_variable(shape):
    initial = tf.constant(0.1, shape=shape)
    return tf.Variable(initial)

### Camadas convolutivas

As camadas convolutivas da nossa rede vão usar striding 1 em todas as direções e padding para garantir que a imagem resultante da aplicação do kernel tenha o mesmo tamanho da imagem de entrada:

In [7]:
def conv2d(x, W):
    return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')

### Max Pooling

Em nossas camadas de sub-sampling vamos usar max pooling. Esta operação encontra o máximo valor de uma área, simplificando a entrada usando a correlação espacial entre elas.  

__tamanho do Kernel:__ 2x2 (uma imgaem 2x2 é convertida em um único pixel)  
__Strides:__ define o _deslizamento_ do kernel. Neste caso, ele vai mover 2 pixels por vez, portanto sem _overlapping_.


In [8]:
def max_pool_2x2(x):
    return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],
                        strides=[1, 2, 2, 1], padding='SAME')

### Camada 1: convolução + maxpooling

#### Pesos e Biases

Tamanho do filtro/kernel: 5x5; Canais de entrada: 1 (escala de cinza); 32 mapas para features

In [9]:
W_conv1 = weight_variable([5, 5, 1, 32])
b_conv1 = bias_variable([32]) # need 32 biases for 32 outputs

#### Convertendo imagens na coleção para tensores

28 x 28 pixels e 1 canal (cinza)

Neste caso a primeira dimensão é o ID da imagem (posição da entrada no batch) e pode assumir qualquer valor (o que é indicado pelo -1)

In [10]:
x_image = tf.reshape(x, [-1,28,28,1])  

#### Operação de convolução mais biases.

In [11]:
convolve1= conv2d(x_image, W_conv1) + b_conv1

#### Aplicação de ReLU

Esta é atualmente a função de ativação mais usada para problemas de classificação

In [12]:
h_conv1 = tf.nn.relu(convolve1)

#### Aplicando maxpooling

In [13]:
h_pool1 = max_pool_2x2(h_conv1)

#### Fim da camada1

In [14]:
layer1= h_pool1

### Camada 2: convolução + maxpooling

#### Pesos e Biases

Filter/kernel: 5x5 (25 pixels) ; Canais de entrada: 32 (oriundos da camada1, onde tinhamos 32 mapas); 64 mapas de saída

In [15]:
W_conv2 = weight_variable([5, 5, 32, 64])
b_conv2 = bias_variable([64]) #need 64 biases for 64 outputs

#### Convolução mais biases, ReLU, maxpooling

In [16]:
convolve2= conv2d(layer1, W_conv2) + b_conv2
h_conv2 = tf.nn.relu(convolve2)
h_pool2 = max_pool_2x2(h_conv2)
layer2= h_pool2

### Camada 3: completamente conectada

Tipo: Totalmente conectada, para que se possa usar Softmax e, com isso, termos uma distribuição de probabilidades.

#### Pesos e Biases

Composição dos mapas da última camada (7x7) multiplicados pelo número de mapas (64); 1024 saídas para a camada Softmax 

In [17]:
W_fc1 = weight_variable([7 * 7 * 64, 1024])
b_fc1 = bias_variable([1024])

#### Linearizando a segunda camada

In [18]:
layer2_matrix = tf.reshape(layer2, [-1, 7*7*64])

#### Aplicação de pesos e biases, seguida de ReLU

In [19]:
matmul_fc1=tf.matmul(layer2_matrix, W_fc1) + b_fc1
h_fc1 = tf.nn.relu(matmul_fc1)

#### Fim da camada3

In [20]:
layer3= h_fc1

### Dropout

Como esta é uma rede muito grande, é necessário garantir que não teremos overfitting. Note que nem todos concordam que dropout realmente ajude no treino. De qualquer modo, vamos aplicá-lo:

In [21]:
keep_prob = tf.placeholder(tf.float32) # keep_prob = droput rate -- rate of neurons to be forgotten
layer3_drop = tf.nn.dropout(layer3, keep_prob)

### Camada final -- a saída

Tipo: Softmax, totalmente conectada.

#### Pesos e Biases

Canais de entrada: 1024 (neurônios da camada 3); 10 saídas

In [22]:
W_fc2 = weight_variable([1024, 10]) #1024 neurons
b_fc2 = bias_variable([10]) # 10 possibilities for digits [0,1,2,3,4,5,6,7,8,9]

#### Aplicando pesos, biases e softmax

In [23]:
matmul_fc2=tf.matmul(layer3_drop, W_fc2) + b_fc2
y_conv= tf.nn.softmax(matmul_fc2)
layer4= y_conv

<a id="ref7"></a>
# Resumo da arquitetura

#### 0) Entrada - MNIST dataset
#### 1) Convolução e max-pooling
#### 2) Convolução e max-pooling
#### 3) Camada totalmente conectada
#### 4) Dropout
#### 5) Camada de saída, totalmente conectada
#### 6) Saídas - Dígitos

<a id="ref8"></a>
# Define funções e treine modelo

#### Função de perda

In [24]:
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(layer4), reduction_indices=[1]))

#### Otimizador

In [25]:
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)

#### Acurácia

In [26]:
correct_prediction = tf.equal(tf.argmax(layer4,1), tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

#### Treino

In [28]:
sess.run(tf.global_variables_initializer())

*Para um resultado rápido (**treinamento pode demorar um pouco**)*

In [29]:
for i in range(1100):
    batch = mnist.train.next_batch(50)
    if i%100 == 0:
        train_accuracy = accuracy.eval(feed_dict={x:batch[0], y_: batch[1], keep_prob: 1.0})
        print("step %d, training accuracy %g"%(i, float(train_accuracy)))
    train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5})

step 0, training accuracy 0.06
step 100, training accuracy 0.78
step 200, training accuracy 1
step 300, training accuracy 0.88
step 400, training accuracy 0.98
step 500, training accuracy 0.96
step 600, training accuracy 0.92
step 700, training accuracy 0.98
step 800, training accuracy 0.94
step 900, training accuracy 0.96
step 1000, training accuracy 0.92


<div class="alert alert-success alertsuccess" style="margin-top: 20px">
<font size = 3><strong>*Rode essa célula se você REALMENTE quer esperar (**mude a célula para Code**)*</strong></font>

for i in range(20000):
    batch = mnist.train.next_batch(50)
    if i%100 == 0:
        train_accuracy = accuracy.eval(feed_dict={
            x:batch[0], y_: batch[1], keep_prob: 1.0})
        print("step %d, training accuracy %g"%(i, train_accuracy))
    train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5})

_PS. Se houver problemas para rodar esse notebook, derrube todos os seus notebooks Jupyter, limpe as células com saídas e rode novamente cada célula só depois que a anterior houver terminado._

<a id="ref9"></a>
# Avaliando o modelo

Avaliação feita sobre os dados de teste:

In [29]:
print("test accuracy %g"%accuracy.eval(feed_dict={x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0}))

test accuracy 0.9924


In [30]:
sess.close() #finish the session

### References:

https://en.wikipedia.org/wiki/Deep_learning    
http://sebastianruder.com/optimizing-gradient-descent/index.html#batchgradientdescent  
http://yann.lecun.com/exdb/mnist/  
https://www.quora.com/Artificial-Neural-Networks-What-is-the-difference-between-activation-functions  
https://www.tensorflow.org/versions/r0.9/tutorials/mnist/pros/index.html  

Este curso é baseado em material da [Big Data University](https://bigdatauniversity.com/?utm_source=bducopyrightlink&utm_medium=dswb&utm_campaign=bdu). Assim, segue os termos da [licença do MIT](https://bigdatauniversity.com/mit-license/). Aula modificada por Marco Cristo apartir de versão de <a href = "https://linkedin.com/in/luisotsm">Luis Otavio Silveira Martins</a> e <a href = "https://linkedin.com/in/erich-natsubori-sato"> Erich Natsubori Sato </a></h4>. Material adicional de Petar Veličković, Cambridge Coding (http://online.cambridgecoding.com/notebooks/cca_admin/neural-networks-tuning-techniques)