In [1]:
from keras.models import *
from keras.layers import *

Using TensorFlow backend.


### Introdução

Redes Convolucionais (CNNs) possuem arquiteturas para diversos problemas de classificação, entretanto, existem aplicações em que torna-se necessário detectar e/ou segmentar objetos. Baseado nisso, tem-se como problema de detecção aquele em que é necessário identificar não apenas o que é um dado objeto na imagem (classificar), como também identificar a posição do mesmo na imagem. Além disso, tem-se como problema de segmentação aquele em que deseja-se classificar cada pixel da imagem individualmente. A Figura abaixo ilustra duas formas de segmentação, a semântica (i) e a por instância (ii), em que (i) não diferencia objetos conjuntos de uma mesma classe e (ii) detecta cada objeto individualmente para segmentar.

![alt text](imgs/segmentation.png "Title")

Com isso, para utilizar CNNs com segmentação, pode-se classificar cada pixel indivualmente, mas o custo seria consideravelmente elevado. Assim, uma solução é utilizar [Redes Completamente Convolucionais](https://arxiv.org/pdf/1411.4038.pdf"), ilustradas na Figura abaixo. Nesse tipo de rede, pode-se utilizar uma arquitetura base de classificação (e.g. VGG-16) e substituir as camadas completamente conectadas por camadas convolucionais, de forma que a camada de saída da rede possua dimensões iguais as de entrada em termos de H X W, mas com o número de canais igual a quantidade de classes da base.

![alt text](imgs/fcn.png "Title")

Dessa forma, esse notebook ilustra a implementação de uma Rede Completamente Convolucional (FCN) utilizando Keras para segmentação.

### Arquitetura VGG-16

Como base da rede, esse notebook utilizará uma arquitetura VGG-16, ilustrada na Figura abaixo, utilizando-se apenas as suas camadas convolucionais. Essa arquitetura possui cinco blocos principais contendo, em cada um, camadas convolucionais e de MaxPooling. 

Dessa forma, o primeiro bloco é formado por duas camadas convolucionais de 64, enquanto o segundo é formado por duas camadas convolucionais de 128 filtros, o terceiro por três camadas convolucionais de 256 filtros e os dois últimos por três camadas convolucionais de 512 filtros cada um. Todos os blocos possuem uma última camada de saída MaxPooling e as camadas convolucionais possuem filtros de dimensão 3x3.

![alt text](imgs/17.png "Title")




In [14]:
def vgg_16(img_input):
    ### primeiro bloco
    model = Conv2D(64, (3, 3), activation='relu', padding='same')(img_input)
    model = Conv2D(64, (3, 3), activation='relu', padding='same')(model)
    model = MaxPooling2D((2, 2), strides=(2, 2))(model)
    
    ### Segundo bloco
    model = Conv2D(128, (3, 3), activation='relu', padding='same')(model)
    model = Conv2D(128, (3, 3), activation='relu', padding='same')(model)
    model = MaxPooling2D((2, 2), strides=(2, 2))(model)
    
    ### Terceiro bloco
    model = Conv2D(256, (3, 3), activation='relu', padding='same')(model)
    model = Conv2D(256, (3, 3), activation='relu', padding='same')(model)
    model = Conv2D(256, (3, 3), activation='relu', padding='same')(model)
    model = MaxPooling2D((2, 2), strides=(2, 2), name='block3_pool')(model)
    
    ### Quarto bloco
    model = Conv2D(512, (3, 3), activation='relu', padding='same')(model)
    model = Conv2D(512, (3, 3), activation='relu', padding='same')(model)
    model = Conv2D(512, (3, 3), activation='relu', padding='same')(model)
    model = MaxPooling2D((2, 2), strides=(2, 2))(model)  
    
    ### Quinatto bloco
    model = Conv2D(512, (3, 3), activation='relu', padding='same')(model)
    model = Conv2D(512, (3, 3), activation='relu', padding='same')(model)
    model = Conv2D(512, (3, 3), activation='relu', padding='same')(model)
    model = MaxPooling2D((2, 2), strides=(2, 2))(model)
    
    return model

### FCN-32

Após implementar os cinco blocos convolucionais da VGG, torna-se necessário substituir as camadas completamente conectadas por camadas convolucionais de forma que a dimensão de saída da rede possua os mesmos H e W da imagem de entrada, mas com a quantidade de canais igual a quantidade de classes.

Assim, no método fcn32, a primeira camada após os blocos da vgg é constituido por uma rede convolucional com filtros 7x7 e 512 filtros. Após isso, a camada convolucional de 4096 neurônios é substituído por uma camada convolucional de 4096 filtros de dimensão 1x1. Feito isso, pode-se adicionar uma última camada para classificar, com a quantidade de filtros igual a quantidade de classes do problema.

In [15]:
def fcn32(input_img):
    # VGG-16
    model = vgg_16(input_img)

    ### Substituir camadas FC por Convolucionais
    model = Conv2D(512, (7, 7), activation='relu', padding='same')(model)
    model = Dropout(0.5)(model)
    model = Conv2D(4096, (1, 1), activation='relu', padding='same')(model)
    model = Dropout(0.5)(model)
    #camada final
    model = Conv2D(21, (1, 1), activation='linear', padding='valid', strides=(1, 1))(model)
    ### upsampling
    model = BilinearUpSampling2D(size=(32, 32))(model)
    model = Model(img_input, model)
    return model

### TO DO: FCN-16 e FCN-8 