## Teoria sobre as redes neurais convolucionais (CNN)
***

Esse tipo de rede neural é usado especificamente para a tarefa de visão computacional

Os principais exemplos de aplicação dessa rede são carros autônomos, detecção de pedestres e objetos, reconhecimento facial, etc...

Em geral funciona melhor que o algoritmo SVM (Support Vector Machines)

Para diferenciar uma imagem da outra temos que coletar características de cada imagem que as diferem entre si, por exemplo, entre o bart e o homer dos simpsons, o bart tem a característica de sempre usar camisa vermelha e tem um cabelo pontudo, já o homer utiliza camisa branca, tem barba, é mais gordinho e não tem cabelo.

Com isso é desenvolvido um extrator de características que irá percorrer as imagens pixel a pixel e fazer a contagem do percentual de RGB para detectar a caracteristica. Isso irá gerar uma matriz de resultados e será submetido como entrada para a rede neural. A desvantagem é saber qual característica vc deve utilizar para o treinamento.

![img](https://user-images.githubusercontent.com/14116020/56464113-c151b300-63b8-11e9-9f54-83bd49867405.png)

Outra forma é inserir valor 1 em pixels que tem informações que queremos detectar e 0 em pixels que não tem informação, isso é muito utilizado para detectar caligrafias de números ou letras. A desvantagem é que dependendo do tamanho da imagem a entrada para a rede neural vai ser enorme.

![img](https://user-images.githubusercontent.com/14116020/56464108-a8e19880-63b8-11e9-8db8-3752e6430bc3.png)

Por exemplo, para uma imagem em RGB de 32 x 32 pixels, teremos: $32x32 = 1024 x 3 (rgb) = 3072$ pixels de entrada na rede neural densa. Agora imagine para uma imagem RGB de 1500 x 800

Para solucionar esses problemas foi criado as **redes neurais convolucionais** que por debaixo dos panos ainda utiliza as redes neurais artificiais, porém com algumas camadas adicionais que irá tratar as entradas de dados na rede. Ou seja, ela não usa todas as entradas (pixels) da imagem.

Essa rede vai selecionar automaticamente quais são as melhores características para inserir nos parâmetros de entrada da rede neural densa. Porém quais características a rede irá descobrir?, por exemplo, para faces ela irá procurar a localização do nariz, distância entre os olhos, localização da boca e etc... Isso é pego a partir do treinamento da imagens positivas inseridas do objeto que queremos detectar.

As redes neurais convolucionais (CNN) apresenta 4 etapas principais:

* **Etapa 01**: Operador de convolução
* **Etapa 02**: Pooling
* **Etapa 03**: Flattening
* **Etapa 04**: Rede Neural Densa

***
### Etapa 01: Operador de Convolução
***

Convolução é o conjunto de cálculos matemáticos (soma e multiplicação de matrizes) entre a imagem (matriz) e os kernels (matriz de filtros) para realizar transformações nos pixels das imagens. A formula abaixo é a formula utilizada para criar um kernel

![img](https://user-images.githubusercontent.com/14116020/56464149-9156df80-63b9-11e9-8459-7ba7cade3853.png)

Existem vários tipos de kernels (filtros) que são bastante visto na área de processamento de imagens, alguns deles:

Site para criação de kernels em tempo real: http://setosa.io/ev/image-kernels/

* Edge Detection
* Sharpen
* Blur
* Gaussian Blur
* Bottom, Left, Right, Top Sobel
* Emboss
* Outline
* ...

No caso da operação de convolução não será utilizado kernels pré-prontos e sim kernels customizados, modificando os valores das matrizes de forma randomica até identificar possíveis caracteristicas, obviamente nessas matrizes randomicas é gerada kernels especificos como o edge detection. Quanto maior os valores das matrizes mais claro fica a imagem, quanto menor mais escuro, com isso é possível criar vários tipos de kernels.

Por exemplo, vamos aplicar um kernel a uma imagem qualquer, obviamente a imagem vai ser em RGB ou tons de cinza de 0 a 255, ou normalizado com valores entre 0 e 1 e não simplesmente 0 e 1, esse exemplo é apenas para ilustração:

![img](https://user-images.githubusercontent.com/14116020/56464271-01666500-63bc-11e9-8f3a-02267c89a7be.png)

$$0*1 + 0*0 + 0*0 + 0*1 + 1*0 + 0*1 + 0*0 + 0*1 + 0*1 = 0$$

![img](https://user-images.githubusercontent.com/14116020/56464313-9d906c00-63bc-11e9-8508-12e7946699a7.png)

$$0*1 + 0*0 + 0*0 + 1*1 + 0*0 + 0*1 + 0*0 + 0*1 + 0*1 = 1$$

Com isso percorremos toda a imagem extraindo suas características passo a passo 1 a direita ou 1 a baixo.

![img](https://user-images.githubusercontent.com/14116020/56464341-34f5bf00-63bd-11e9-8feb-b4e9a8cf6bc2.png)

$$1*1 + 0*0 + 0*0 + 1*1 + 0*0 + 1*1 + 0*0 + 1*1 + 1*1 = 5$$

Em resumo a cada matriz 3x3 da imagem multiplicada a um kernel é gerada um matriz de características, ou seja, é assim que a rede neural convolucional extrai as características automaticamente.

Com o mapa das características a imagem fica menor para facilitar o processamento, porém algumas informações sobre a imagem pode ser perdida, mas o proposito é detectar as partes principais. O mapa de características gerados preserva as características principais da imagem, por exemplo, olho, boca, nariz e etc...

Com o mapa de característica completo teremos mais uma etapa nela que é a aplicação da função de ativação **relu** em cada um dos pixels gerados no mapa, ou seja, se houver algum valor negativo no mapa, ele será transformado em 0 para melhor detectar os padrões.

Com isso geramos a **camada de convolução** que é a aplicação de um conjunto de mapas de características gerados. Ou seja, você não vai usar apenas um detector de características (kernel), a rede neural precisa de muitos detectores de características aplicados a imagem para extrair dela o maior número possível de características.

![img](https://user-images.githubusercontent.com/14116020/56464392-b39f2c00-63be-11e9-805a-f3b2eda4816a.png)

Sabendo que (l=largura, a=altura, d=dimensões) e uma imagem RGB tem 3 dimenções, ou seja, (red, green, blue), sendo que cada uma tem um valor de 0 a 255, e imagens em escala de cinza tem 1 única dimensão com valores de 0 a 255 também. O **+1** é relacionado ao neuronio adicional **bias**.

Neste caso para cada mapa de características temos:

```
Imagem = (l=7, a=7, d=1) = 7 x 7 x 1 = 49 pixels
Kernel = (kl=3, ka=3, kd=1) = 3 x 3 x 1 = 9 pixels
Mapa de caracteristicas = (l - kl + 1) x (a - ka + 1) x 1 = (7-3+1) x (7-3+1) = 5x5 = 25 pixels
```

Para as redes neurais artificiais o principal objetivo é achar o conjunto de pesos ideal, porém para as redes neurais convolucionais temos que também identificar os melhores conjuntos de kernels a ser aplicado a imagem na camada de convolução. Ou seja, além de ajustar os pesos a rede neural tem que decidir qual é o melhor mapa de características que irá utilizar.

***
### Etapa 02: Pooling
***

Essa etapa serve para realçar ainda mais as características que você precisa para fazer a classificação, ou seja, precisamos disso para que seja identificado o objeto em todos os tipos de cenários, por exemplo, cachorros em angulos e tamanhos diferentes, em casa, na rua, chovendo, nevando e etc...

O Pooling é feito a partir do mapa de características, a partir de matrizes 2x2 percorrendo o mapa de características irá extrair o maior valor (max_pooling) dentro da matriz, que é o valor que da enfase a características desejada.

![img](https://user-images.githubusercontent.com/14116020/56464449-3674b680-63c0-11e9-83de-0699f718182f.png)

Diferente da etapa de convolução, essa etapa a matriz não percorre pixel por pixel, ela vai de matriz em matriz, pegando os maiores valores.

![img](https://user-images.githubusercontent.com/14116020/56464466-7e93d900-63c0-11e9-90ce-1a70617b8e17.png)

![img](https://user-images.githubusercontent.com/14116020/56464474-94a19980-63c0-11e9-8aef-80d422d54f5d.png)

![img](https://user-images.githubusercontent.com/14116020/56464491-f104b900-63c0-11e9-8d11-b854dcddd5cf.png)

![img](https://user-images.githubusercontent.com/14116020/56464483-cc104600-63c0-11e9-8d0b-a90b108a9b23.png)

![img](https://user-images.githubusercontent.com/14116020/56464488-dc282580-63c0-11e9-90ca-45ee49e7ff75.png)

O pooling seleciona as características mais relevantes reduzindo o overfitting e ruídos desnecessários.

Além de pegar o maior valor (max_polling) podemos pegar o mínimo, a média, e etc... Porém o max polling foca nas características mais relevantes, que é o que queremos.

Com isso temos até agora:

![img](https://user-images.githubusercontent.com/14116020/56464509-a0419000-63c1-11e9-9279-be473fd14089.png)

A por meio de vários kernels é extraido da imagem vários mapas de características e para cada uma delas é aplicada a função relu para remover os valores negativos e um pooling para realçar suas principais características e reduzir a dimensionalidade.

Logo temos:

```
Matriz de caracteristicas (h, w, d) = (5, 5, 1) = 5x5x1 = 25 pixels
Matriz de pooling (ph, pw, pd) = (2, 2, 1) = 2x2x1 = 4 pixels
Matriz de características realçadas = (h/ph x w/pw x d/pd) = (5/2 x 5/2 x 1) = 3 x 3 = 9 = 9 pixels
```

Ao fazer a divisão é der um valor quebrado a matriz sempre vai ser o valor inteiro acima.

Ou seja, essa é a entrada da rede neural densa após passar na etapa de flattening se não houver nenhuma outra camada de convolução entre elas.

***
### Etapa 03: Flattening
***

![img](https://user-images.githubusercontent.com/14116020/56464595-9882eb00-63c3-11e9-96b3-e230dd103b8e.png)

Com o **pooled feature map**, ou seja, o mapa de características após a operação de pooling, o algoritmo irá transformar essa matriz em um vetor para ser inserido como entrada na rede neural densa. Isso é o que chamamos de **flattening**.

***
### Etapa 04: Rede Neural Densa
***

A partir daqui não há novidade, é uma rede neural densa.

![img](https://user-images.githubusercontent.com/14116020/56464587-6f625a80-63c3-11e9-9e69-22dde7955502.png)

Em uma rede neural densa, a partir do pesos é tomada uma decisão de qual saída será classificado a imagem de entrada. Por exemplo, em uma imagem do número 1, a rede neural acaba por indo nos valores de peso com valores maiores nos dois primeiros neuronios o que ocasiona na classificação de número 1. Isso nesse exemplo abaixo obviamente. Ou seja, em basicamente todas as imagens de treinamento em que era o número um é ativado esse dois primeiros neuronios, quando é inserido outra imagem que ativa esses neuronios, a classificação é enviada como número 1. Já se ativar os dois últimos com valores grandes, a classificação será 9 e se ativa o neuronio do meio com valor grande a classificação é 3.

![img](https://user-images.githubusercontent.com/14116020/56464626-06c7ad80-63c4-11e9-88f0-8f14bbcd16ea.png)

Porém caso ocorra de ter valores altos nos 3 primeiros neuronios ele fará a probabilidade de 65% de chance de ser o valor 1 e 30% de chance de ser o valor 3 e 5% o valor 9, obviamente são valores ficticios.

Neste processo também faremos o treinamento com a descida do gradiente e além do ajuste dos pesos, é feito também a mudança do detector de características (kernel). Ou seja, após ele pegar os erros no final da quarta etapa, que é a etapa da rede neural densa, ele volta para a primeira etapa, seleciona outro kernel e ativa os novos pesos. Esse loop é rodado N vezes.