## MBA em Ciência de Dados
# Redes Neurais e Arquiteturas Profundas

### <span style="color:darkred">Módulo II - Redes Neurais Convolucionais (CNNs)</span>


### <span style="color:darkred">Exercícios com soluções</span>

Moacir Antonelli Ponti

CeMEAI - ICMC/USP São Carlos

---

#### <span style="color:red">Recomenda-se fortemente que os exercícios sejam feitos sem consultar as respostas antecipadamente.</span>

---

### Exercício 1)

Como se comparam uma camada densa e uma camada convolucional?
 
 (a) Camadas densas são formadas por filtros que processam os dados localmente, enquanto as convolucionais permitem obter combinações lineares de todos os dados de entrada e por isso possuem menor quantidade de parâmetros<br>
 (b) As camadas convolucionais se diferenciam das densas por não assumir independência entre os dados de entrada<br>
 (c) As camadas densas realizam uma combinação linear de todos os elementos de entrada, enquanto as camadas convolucionais também processam todos os elementos da entrada, mas são consideradas não lineares<br>
 (d) Camadas convolucionais atuam sobre valores de campo receptivo local, processando localmente valores da entrada com os mesmos pesos, enquanto camadas densas possuem um peso para cada elemento da entrada.<br>

---

### Exercício 2)

A operação de convolução consiste em, centrada em um ponto de uma matriz ou tensor, fazer uma combinação linear de valores na região da posição central, gerando como saída um único valor, escalar. 

Considere que a convolução opera numa região de tamanho $5\times 5$ com stride = 1, isso significa que para cada conjunto local de $5 \times 5$ valores, produziremos um único de saída. Se a entrada é uma matriz com tamanho $10 \times 10$, e caso não seja utilizado nenhum pré-processamento nos dados, qual o tamanho da saída?

 (a) $10\times 10$<br>
 (b) $6\times 6$<br>
 (c) $8\times 8$<br>
 (d) $5\times 5$<br>


---
### Exercício 3)

Cada camada convolucional com $k$ neurônios (filtros de convolução) gera $k$ saídas distintas. Enquanto na camada densa as $k$ saídas são valores individuais (escalares), na convolucional as saídas são mapas de ativação (ou mapas de características). Porque eles recebem esse nome?

 (a) Pois podemos escolher os filtros de convolução de forma a processar imagens de entrada e obter características como borda, textura e regiões planas com cores.<br>
 (b) Pois podem ser interpretados como representações dos dados de entrada, aprendidas por meio da otimização da função de custo/perda da rede neural convolucional<br>
 (c) Pois os filtros convolucionais extraem de forma aleatória características da entrada de forma que essas características, ou ativações, melhorem a capacidade de classificar novos exemplos<br>
 (d) Pois foram baseadas em funções de ativação das redes neurais Multilayer Perceptron, as quais também realizam um tipo de processamento de características das entradas<br>

---
### Exercício 4)

Assuma uma entrada de tamanho $256 \times 256 \times 3$, e duas camadas convolucionais, sequenciais. A primeira possui 8 neurônios de tamanho $3\times 3 \times 3$ e *não* usa zero-padding. A segunda possui 16 neurônios de tamanho $3 \times 3 \times p$ e aplica zero-padding. 

Quantos mapas de ativação são gerados pela segunda camada convolucional, qual o tamanho final da saída da segunda camada e qual o valor de $p$?

 (a) 16 mapas, saída $254 \times 254 \times 16$, $p = 8$<br>
 (a) 24 mapas, saída $254 \times 254 \times 8$, $p = 8$<br>
 (c) 16 mapas, saída $252 \times 252 \times 8$, $p = 16$<br>
 (d) 24 mapas, saída $256 \times 256 \times 16$, $p = 8$<br>

---

### Exercício 5)

Camadas convolucionais costumam gerar saídas de alta dimensionalidade, o que pode tornar difícil a otimização do modelo. Desejamos manter o aprendizado de mapas de ativação, mas reduzir a dimensionalidade espacial dos dados ao longo da rede neural. Marque a alternativa com a estratégia que melhor se adequa ao efeito desejado.

(a) Utilizar filtros de convolucão de tamanho menor<br>
(b) Aumentar a quantidade de camadas de convolucão<br>
(c) Utilizar camadas de pooling ou convoluções com stride maior do que 1<br>
(d) Substituir todas as camadas convolucionais por camadas de pooling


---

### Exercício 6)

Utilizando a biblioteca Keras, formule duas arquiteturas de rede neural sequencial convolucional, cuja entrada seja preparada para receber um vetor unidimensional de $1024$ dimensões.

Arquitetura A
1. camada convolucional 1 com 16 filtros de tamanho $1\times 8$, com padding
2. camada max pooling de tamanho $4$
3. camada convolucional 2 com 32 filtros de tamanho $1\times 8$, com padding
4. camada max pooling de tamanho $4$
5. camada convolucional 3 com 8 filtros de tamanho $1\times 1$, com padding
5. camada densa de saída com 3 neurônios.

Arquitetura B
1. camada convolucional 1 com 16 filtros de tamanho  $1\times 8$ e stride 4, com padding
2. camada convolucional 2 com 32 filtros de tamanho  $1\times 8$ e stride 4, com padding
3. camada convolucional 3 com 8 filtros de tamanho $1\times 1$, com padding
4. camada densa de saída com 3 neurônios.

Qual o tamanho da saída das camadas convolucionais 2 e 3, e o total de parâmetros de cada rede?

(a) A: conv2=(256,32), conv3=(64,8), total=6075; B: conv2=(64,32), conv3=(64,8), total=4075 <br>
(b) A: conv2=(64,32), conv3=(64,8), total=6075; B: conv2=(64,32), conv3=(64,8), total=6075 <br>
(c) A: conv2=(64,32), conv3=(1,8), total=4128; B: conv2=(64,32), conv3=(1,8), total=1539 <br>
(d) A: conv2=(256,32), conv3=(64,8), total=6075; B: conv2=(64,32), conv3=(64,8), total=6075 <br>

In [2]:
import tensorflow as tf
from tensorflow import keras
import numpy as np
import matplotlib.pyplot as plt


---

### Exercício 7)

Utilizando a biblioteca Keras, formule uma arquiteturas de rede neural profunda, cuja entrada seja preparada para receber uma matriz com $1024 \times 1024$ dimensões e a seguinte arquitetura com 5 camadas:

1. camada convolucional 1 com 32 filtros de tamanho $3\times 3$, com padding e stride 2 (nas duas direções)
2. camada convolucional 2 com 64 filtros de tamanho $1\times 3$, com padding e stride $1,2$
3. camada convolucional 3 com 64 filtros de tamanho $3\times 1$, com padding e stride $2,1$
4. camada convolucional 4 com 128 filtros de tamanho $3\times 3$, sem padding e stride 3 (nas duas direções)
5. camada global average pooling

Qual o tamanho da saída das camadas conv2, conv3, conv4 e global_avg_pooling?

(a) conv2=(512,512,32), conv3=(256,256,64), conv4=(64,64,128) e global_avg_pooling=(128,128)<br>
(b) conv2=(512,256,64), conv3=(256,256,64), conv4=(85,85,128) e global_avg_pooling=(128)<br>
(c) conv2=(256,512,32), conv3=(256,256,64), conv4=(64,64,128) e global_avg_pooling=(128) <br>
(d) conv2=(512,256,32), conv3=(128,256,64), conv4=(85,85,128) e global_avg_pooling=(128,128)<br>


---

### Exercício 8)

Carregue a base de dados CIFAR-100 e exiba as 10 primeiras imagens dessa base de dados. Normalize os dados das imagens de forma a que os valores estejam entre 0 e 1, depois converta as classes para o tipo categórico utilizando o ` tf.keras.utils.to_categorical`.

A seguir, adapte a arquitetura da questão anterior para que a rede seja capaz de receber como entrada imagens dessa base. Crie uma camada densa no final que permita classificar as imagens nos rótulos disponíveis no conjunto de treinamento. Todas as camadas da rede, exceto a última, devem ter funções de ativação do tipo `relu`.

Qual o tamanho da saída das duas últimas camadas da rede (global average pooling e densa), e o total de parâmetros da mesma rede?

(a) global average pooling = 128, densa = 128, parâmetros = 106212<br>
(b) global average pooling = 128, densa = 100, parâmetros = 12900<br>
(c) global average pooling = 128, densa = 20, parâmetros = 12900<br>
(d) global average pooling = 128, densa = 100, parâmetros = 106212<br>

In [3]:
from tensorflow.keras.datasets import cifar100
(x_train, y_train), (x_test, y_test) = cifar100.load_data()


---

### Exercício 9)

Defina as sementes aleatórias do numpy para 1 e do tensorflow para 2. Depois, utilizando a arquitetura definida no exercício anterior, configure a rede para treinar com a configuração abaixo, salvando o histórico da perda e acurácia para as épocas.
* otimizador: SGD
* taxa de aprendizado: 0.05
* função de custo: `categorical_crossentropy`
* métrica: `accuracy`
* épocas: 8
* batchsize: 100

Após as 8 épocas, exiba e analise gráfico da função de custo no conjunto de treinamento ao longo das épocas e avalie a acurácia no conjunto de testes. Considerando: (1) a convergência da função de custo e (2) comparando a acurácia no conjunto de testes com o que seria a acurácia de um classificador aleatório para a base de dados CIFAR-100, escolha a alternativa correta.

(a) A função de custo indica um valor baixo de custo e assim, treinar por mais épocas não irá beneficiar o modelo, a acurácia obtida é mais do que 100 vezes superior do que um classificador aleatório<br>
(b) A função de custo indica um valor baixo de custo e assim, treinar por mais épocas não irá beneficiar o modelo, a acurácia obtida é apenas ligeiramente superior a um classificador aleatório<br>
(c) A função de custo indica estabilização, alcançando uma acurácia 20 vezes superior a de um classificador aleatório<br>
(d) A função de custo indica que ainda há espaço para o treinamento de mais épocas, e a acurácia obtida é mais do que 10 vezes superior do que um classificador aleatório<br>

In [4]:
from numpy.random import seed
seed(1)
from tensorflow.random import set_seed
set_seed(2)


---

### Exercício 10)


Crie uma nova rede neural com base na anterior mas adicionando, logo após a 3.a camada convolucional, e antes da 4.a camada convolucional, outras 2 camadas no formato:

* camada convolucional com 64 filtros de tamanho $1\times 3$, com padding e stride $1,2$
* camada convolucional com 64 filtros de tamanho $3\times 1$, com padding e stride $2,1$

Defina as sementes aleatórias do numpy para 1 e do tensorflow para 2, e a seguir execute o treinamento dessa rede utilizando os parâmetros conforme a questão anterior, mas aumente o número de épocas para 16.

Considerando:
1. a diferença no valor da função de custo obtida nas épocas 1 e 8, e
2. a acurácia no conjunto de testes após o treinamento completo

Escolha a alternativa correta:

(a) A diferença do custo da 1.a para a 8.a época é maior nessa nova arquitetura, indicando convergência mais rápida, e ao final a acurácia atinge valor superior a 25% com a arquitetura mais profunda<br>
(b) A diferença do valor da função de custo da 1.a para a 8.a época é menor nessa nova arquitetura, indicando convergência mais lenta, e ao final a acurácia atinge valor superior a 25% com essa arquitetura mais profunda<br>
(c) A diferença do valor da função de custo da 1.a para a 8.a época é maior nessa nova arquitetura, mostrando a superioridade da arquitetura mais profunda, que ao final atinge acurácia atinge valor acima de 50%<br>
(d) A diferença do valor da função de custo da 1.a para a 8.a época é menor nessa nova arquitetura, indicando que a arquitetura menos profunda é mais estável, e ao final a acurácia atinge valor próxmo a 10% com essa arquitetura mais profunda<br>

In [6]:
seed(1)
set_seed(2)
