## MBA em Ciência de Dados
# Redes Neurais e Arquiteturas Profundas

### <span style="color:darkred">Módulo I - Deep Learning e redes do tipo Perceptron</span>


### <span style="color:darkred">Avaliação (com soluções)</span>

Moacir Antonelli Ponti

CeMEAI - ICMC/USP São Carlos

---
### Questão 1)

Qual alternativa melhor define a interpretação de aprendizado profundo (*deep learning*) com relação ao aprendizado de máquina de métodos considerados rasos (*shallow*) num problema de classificação?

<font color='red'>(a) Aprendizado profundo utiliza funções que aprendem representações intermediárias dos dados de entrada antes de utilizar uma dessas representações para aprender a saída relacionada a classificação<br></font>
(b) Os métodos rasos realizam classificação com métodos estatísticos, enquanto os de aprendizado profundo são unicamente baseados em redes neurais que usam múltiplas funções lineares para aprender a classificação como tarefa alvo<br>
(c) Aprendizado profundo utiliza 2 ou mais camadas de classificação sequenciais, enquanto métodos rasos utilizam sempre apenas uma única função classificadora<br>
(d) Os métodos rasos trabalham apenas com classificação de dados estruturados, enquanto que os profundos funcionam apenas com classificação de dados não estruturados.<br>

**Justificativa**: (b) não é verdadeira porque métodos rasos não são exclusivamente estatíticos, e redes neurais não necessariamente tem funções apenas lineares; (c) aprendizado profundo não utiliza mais do que uma função classificadora, e sim apenas uma, com as funções anteriores tendo o papel de aprender representações e não classificar; (d) não é verdade que métodos rasos trabalhem apenas com dados estruturados, e também não é verdade que métodos profundo atuem apenas em classificação de dados não estruturados.

---
### Questão 2)

Seja $\mathbf{z}$ um vetor de entrada e $\mathbf{s}$ um vetor de saída de uma camada de rede neural baseada em Perceptron. Essa camada pode ser formulada como:

$f(\mathbf{z}) = a(W\mathbf{z}+\mathbf{b}) = \mathbf{s}$,
sendo que $a()$ é a função de ativação. 

Sabendo que a entrada tem $9$ dimensões e a saída tem $c$ dimensões. Qual o tamanho da matriz $W$ (em linhas e colunas) e do vetor $b$ e quantos parâmetros essa camada possui para serem aprendidos durante o treinamento?


(a) $W$ possui $9 \times c$, e $b$ possui $9$ dimensões, totalizando $9c + 9$ parâmetros<br>
(b) $W$ possui $c \times 9$, e $b$ possui 1 dimensão (escalar), totalizando $9c + 1$ parâmetros<br>
(c) $W$ possui $c \times c$, e $b$ possui 9 dimensões, totalizando $2c + 9$ parâmetros<br>
<font color='red'>(d) $W$ possui $c \times 9$, e $b$ possui $c$ dimensões, totalizando $10c$ parâmetros<br></font>

**Justificativa**: essa camada tem $c$ neurônios, cada um gerando um valor de saída. Cada neurônio tem pesos organizados ao longo das colunas de uma linha da matriz $W$, e cada neurônio tem um valor bias no vetor $b$.<br>
Portanto a camada terá a matriz com $c$ linhas cada uma com 9 pesos, i.e. $c \times 9$, que serão utilizados para gerar a saída que será somada com os $c$ valores bias, um para cada neurônio, totalizando $9c + c = 10c$ parâmetros.

---
### Questão 3)

O que é o chamado "classificador softmax"?

(a) Um classificador linear similar à regressão logística que é utilizado no lugar da última camada densa de uma rede neural profunda<br>
(b) Uma função que zera os valores negativos de uma determinada camada da rede neural e preserva todos os valores positivos, selecionando as características geradas por essa camada e portanto fazendo com que sua soma seja unitária<br>
(c) Uma função que permite computar a qualidade da classificação de uma rede neural profunda com base no vetor de probabilidade de saída da rede comparado ao vetor de probabilidade alvo (real)<br>
<font color='red'>(d) Uma função que transforma a saída de uma camada densa de uma rede neural em um vetor de valores que pode ser representado como uma distribuição de probabilidades das classes do problema<br></font>

**Justificativa**: softmax é sempre uma função que transforma um vetor arbitrário em um vetor de soma unitária que pode ser interpretado como  uma distribuição de probabilidades das classes do problema 

---
### Questão 4)

Porque escolhemos um certo número de exemplos para compor um subconjunto ou minibatch para cada iteração do algoritmo de otimização SGD?

(a) Pois ao escolher o maior tamanho de minibatch que caiba na memória, melhor o resultado final pois nos aproximamos do resultado do algoritmo Gradient Descent tradicional<br>
(b) Pois ao selecionar o menor tamanho de minibatch possível, melhor o resultado final do modelo para a tarefa desejada pois serão feitas mais iterações e portanto mais adaptações na rede neural<br>
<font color='red'>(c) Viabilizar um treinamento mais rápido, computando a perda média desse minibatch para cada iteração<br></font>
(d) Viabilizar um treinamento de um modelo com maior acurácia pois serão feitas múltiplas adaptações da rede neural para cada minibatch<br>

**Justifica**: o minibatch é usado para viabilizar um treinamento mais rápido por meio do SGD. O tamanho do minibatch pode influenciar no resultado final em termos de acurácia mas não é para isso que o SGD é utilizado, e sim por questões de tempo. Não é verdade que quanto maior (ou menor) seu tamanho melhor o resultado. 

---

### Questão 5)

Defina as sementes aleatórias do numpy para 1 e do tensorflow para 2, depois carregue a base de dados boston housing da biblioteca Keras, conforme código abaixo. 

O objetivo dessa base de dados é obter a regressão do preço das casas com base em 13 características de entrada. Assim, os valores alvo (target) são escalares, tipicamente entre 10 e 50 (representando os preços em milhares de dólares).

Utilizando a biblioteca Keras, formule um modelo de rede neural sequencial, do tipo MLP, com 4 camadas ocultas contendo, respectivamente, 32, 16, 8 e 4 neurônios, todas com função de ativação do tipo `relu`.

Quantos parâmetros essa rede possui na primeira camada, e no total?

(a) primeira 33, no total 1148<br>
<font color='red'>(b) primeira 448, no total 1153<br></font>
(c) primeira 448, no total 1148<br>
(d) primeira 33, no total 1153<br>

 **Justificativa**: ver código abaixo

In [3]:
from tensorflow import keras

from numpy.random import seed
seed(1)
from tensorflow.random import set_seed
set_seed(2)

from tensorflow.keras.datasets import boston_housing
(x_train, y_train), (x_target, y_target) = boston_housing.load_data()


In [6]:
model = keras.Sequential(
    [
        keras.layers.Dense(32, activation="relu", input_shape=(x_train.shape[1],)),
        keras.layers.Dense(16, activation="relu"),
        keras.layers.Dense(8, activation="relu"),
        keras.layers.Dense(4, activation="relu"),
        keras.layers.Dense(1, activation="relu"),
    ]
)
model.summary()

Model: "sequential_4"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_19 (Dense)             (None, 32)                448       
_________________________________________________________________
dense_20 (Dense)             (None, 16)                528       
_________________________________________________________________
dense_21 (Dense)             (None, 8)                 136       
_________________________________________________________________
dense_22 (Dense)             (None, 4)                 36        
_________________________________________________________________
dense_23 (Dense)             (None, 1)                 5         
Total params: 1,153
Trainable params: 1,153
Non-trainable params: 0
_________________________________________________________________
