# AULA 4 TEORIA - Redes Convolucionais

Aula 4 - Aula Assíncrona

---

## Redes Neurais Convolucionais (CNNs)

- Camadas totalmente conectadas/densas vs Convolucionais
- Convolução para imagens
- Padding, Stride
- Subamostragem (Pooling)
- Mapas de ativação (activation/feature maps)

---

## Convolução

- Operador que visa realizar uma combinação linear de valores locais da entrada
    - Centrado em uma posição (x,y), gera como saída um único valor de saída

* obs: na prática e nos exemplos será usada a **Correlação Cruzada** e não uma convolução na teoria, uma vez que a convolução pede um "flip" nos eixos do filtro, o que acaba sendo mais custoso e produz resultados semelhantes da correlação cruzada
    * Os frameworks e as técnicas atuais aplicam a correlação cruzada sob nome de convolução

- <img src="convolucao1.jpg" width="500"> 
- <img src="convolucao2.jpg" width="500"> 
- 7x7 -> 5x5

* E se quisermos que a entrada e saída tenha o **mesmo tamanho**?  
    * Adiconamos um zero-padding de borda na entrada, aumentando ela em duas dimensões (1 para cada dimensão) com uma fileira só de zeros. Assim mesmo que o conteúdo da rede mude, a mudança é pequena e garantimos entrada e saída de mesmo tamanho, caso seja necessário
    * <img src="padding_convoluca.jpg" width="500"> 

- **Convolução em profundidade:** entrada com vários canais
    - Filtro k * k * p, sendo p a quantidade de canais da entrada
    - Em uma imagem 3 canais com 3 matrizes diferentes são usados, cada qual representando um dos canais RGB. No fim, o resultado de cada canal é somado produzindo uma única saída
    - <img src="conv_canal.jpg" width="400"> 


---

## Camada Convolucional para redes neurais

- Filtro (kernel ou neurônio convolucional) w com tamanho k * k * p
    - Cada neuronio realiza a convoluçaõ da entrada e gera um volume (tensor) de saída

* Centrado em um pixel específico, temos: w x + b
    * O bias é inserido depois na convolução

### Mapa de ativação

* O resultado da convolução é chamad de **Mapa de ativação** e são obtidos após a convolução com a aplicação de uma função de ativação (ex ReLU)
    * Empilhados formam um tensor que será a entrada da prox camada
    * <img src="feature_,map.jpg" width="600"> 

### Como projetar uma CNN?

* Deve levar em conta:
    * **Tamanho da entrada** (largura, altura e profundidade)
    * **Tamanho do filtro**
        * Profundidade igual da entrada
        * Altura e largura afetam o campo receptivo local
    * **Stride** (passo nas duas direções)
        * 1: todos pixels filtrados pelo neuronio
        * \> 1: salta um numero de pixels e determinada direção (convolução)
            * Saída com tamanho reduzido

- Stride é o passo que vc vai dar entre os pixels que vc vai chamar de central
    - Exemplo: stride (2,2): varre de 2 em 2 horizontalmente até acabar, pula duas linhas verticais e continua varrendo horizontalmente


---

## Exemplo: conv.layers

* Nós podemos interpretar cada camada da rede neural como sendo um detector de padrões em um certo campo receptivo local
    * Exemplo dos digitos

- Na primeira camada cada neurônio é especialista em uma certa região, montando um mapa de ativação
    - A soma deles cobre toda a área da imagem e nesse caso, forma o dígito 7

* A segunda camada convolucional é especialista em padrões geométricos, do tipo padrões horizontais, verticais e diagonais
    * <img src="conv_layers.jpg" width="300"> 

---

## Número de parâmetros CNNs

* n_params = [(k * k * p) + 1 (bias)] * d
    * Peso dos filtros: k * k * p
    * Número de filtros/neuronios: d
        * Cada um gera um mapa de ativação
    * + 1 é o termo bias de cada filtro

- Exemplo: entrada 32 * 32 * 3 e 3 camadas
    - Conv.layer 1: k = 5 e d = 8
    - Conv.layer 2: k = 3 e d = 16
    - Conv.layer 3: k = 1 e d = 32

* \# params Conv.layer 1 = [(5 * 5 * 3) + 1] * 8 = 608
* \# params Conv.layer 2 = [(3 * 3 * 8) + 1] * 16 = 1168
* \# params Conv.layer 3 = [(1 * 1 * 16) + 1] * 32 = 544

- obs: Por que usar um filtro 1 por 1? Ele faz uma convolução só em profundidade, combinando cada cada pixel de cada imagem na mesma posição 

---

## Pooling Layer

* Opera sobre cada mapa de ativação, reduzindo a dimensão lateral
    * Max pooling: operação de máximo local
    * Average pooling: operação de média local

- Exemplo:
    - <img src="max_pooling.jpg" width="400"> 

* *obs: usar stride > 1 pode substituir o pooling*

-  Reduzir o tamanho da entrada permite que o filtro opere em **regiões maiores da imagem**
    - Empilhamento de camadas convolucionais aumenta o campo receptivo local não necessitando manter a resolução de entrada
    - No exemplo o uso de filtros fez com que o mesmo filtro em um primeiro momento que pegava a íris da pessoa, na ultima imagem passou a pegar quase metade do rosto dela
    - <img src="pooling.jpg" width="400"> 

### Global Pooling

* Obtém um valor por canal, como se o tamanho de pool fosse igual as dimensões laterais
    * Pooling normal: imagem 40x40, pooling de 2x2 -> imagem final de 20x20
    * Global pooling: imagem 40x40, pooling de 40x40 -> imagem final de 1x1

- A saída será a média (ou máximo) de uma matriz com só as dimensões de cada canal
    - Exemplo: numa entrada com 40 × 40 × 100, a saída será 100 dimensões

---

## Camadas densas e saída

* Aplicando o pooling já visto com as convoluções
    * <img src="CNN.jpg" width="600"> 

- No fim, aplicamos uma **camada densa fully connected (FC)**
    - Similiar a de uma MultiLayer Perceptron
    - Pode ser vista como uma projeção dos dados em uma dimensionalidade arbitrária
    - <img src="CNN_comFC.jpg" width="600">

* *obs: camada densa pode ser do tipo flatten -> transformar várias camadas em um só vetor*

- **Saída**: comumente densa (ex: classificação e regressão)
    - Pode ser vista como um vetor de distribuição de probabilidaaes (tipo softmax)
    - Não é densa em redes completamente convolucionas (Fully Convolutional Newtowrks, FCN) que serão vistas pra frente

---