# Explorando convolução no Keras usando o Theano

O objetivo deste notebook é de explorar a operação de convolução implementada pelo Theano através do Keras.

A convolução é uma das principais operações em processamento de imagens e constitui a componente principal para a construção de camadas convolucionais nas redes convolucionais. É uma operação demorada e a sua implementação na GPU pode ser bem mais eficiente quando comparada com implementações em CPU. A implementação do Theano reconhece automaticamente se a máquina possui GPU utilizando a implementação mais eficiente. Caso não exista GPU, a convolução utiliza a CPU.

A figura a seguir ilustra uma convolução da imagem verde de entrada, utilizando o núcleo da convolução (kernel) em amarelo, deslizando sobre a imagem verde. O resultado da convolução é a imagem rosa, de tamanho ligeiramente menor, devido ao processamento na borda da imagem.

O núcleo (kernel) utilizado é na forma
![](../figures/kernel_diagonal.png)

![](http://mourafiq.com/images/posts/convolution_schematic.gif)


In [8]:
import numpy as np
import keras
from keras.models import Sequential
from keras.layers.core import Activation
from keras.layers.convolutional import Convolution2D
from keras.layers.pooling import MaxPooling2D
np.set_printoptions(suppress=True, precision=3) # limita a precisão da impressão em 3 casas decimais 

W = np.array([[1,0,1],
              [0,1,0],
              [1,0,1]]).reshape(1,1,3,3)

X = np.array([[1,1,1,0,0],
              [0,1,1,1,0],
              [0,0,1,1,1],
              [0,0,1,1,0],
              [0,1,1,0,0]]).reshape(1,1,5,5)

model = Sequential()
model.add(Convolution2D(1, 3, 3, weights=[W], border_mode='valid', input_shape=(1, 5, 5),bias=False))
y = model.predict(X,batch_size=1)

print 'Entrada'
print X
print 'kernel'
print W
print 'Saída'
print y



Entrada
[[[[1 1 1 0 0]
   [0 1 1 1 0]
   [0 0 1 1 1]
   [0 0 1 1 0]
   [0 1 1 0 0]]]]
kernel
[[[[1 0 1]
   [0 1 0]
   [1 0 1]]]]
Saída
[[[[ 4.  3.  4.]
   [ 2.  4.  3.]
   [ 2.  3.  4.]]]]


## Exercícios

### Teórico

1. Supondo uma imagem de entrada 100 x 100 e um kernel 3 x 3. Utilizando-se o border_mode como válido, a imagem de saída será de 99 x 99. Se fosse utilizar uma rede densa, com entrada de 100 x 100 e saída 99 x 99, quantos parâmetros seriam necessários para ser treinados? E no caso da rede convolucional? Qual é o fator de redução?

### Práticos

1. Trocar o parâmetro ``border_mode`` para ``same`` e explique a diferença.
2. Rodar a convolução para uma imagem de cinza utilizando kernel de média móvel 3x3 e kernel Sobel:
```
           1,1,1                    1, 2, 1
    Média: 1,1,1             Sobel: 0, 0, 0
           1,1,1                   -1,-2,-1
```
3. Rodar a convolução para uma imagem colorida RGB
4. Rodar a convolução para gerar 3 bandas de saída como nas redes convolucionais mais conhecidas
5. Comparar o tempo de execução desta convolução com outras implementações: openCV por exemplo