## MBA em Ciência de Dados
# Redes Neurais e Arquiteturas Profundas

### <span style="color:darkred">Módulo I - Deep Learning e redes do tipo Perceptron</span>


### <span style="color:darkred">Avaliação (com soluções)</span>

Moacir Antonelli Ponti

CeMEAI - ICMC/USP São Carlos

---
### Questão 1)

O que diferencia métodos de aprendizado profundo (*deep learning*) de métodos de aprendizado de máquina considerados rasos (*shallow*)?

<font color='red'>(a) Os métodos rasos comumente aprendem um mapeamento direto entre dados de entrada (atributos) e saída (alvo), enquanto os profundos aprendem uma sequência de mapeamentos (ou funções) para múltiplos espaços antes de mapear para o espaço de saída alvo<br></font>
(b) Os métodos rasos podem ser considerados aprendizado de máquina e permitem tarefas distintas como classificação, regressão, agrupamento, entre outros, enquanto os chamados profundos permitem modelar tarefas de classificação<br>
(c) Os métodos rasos são baseados em métodos estatísticos e árvores de decisão, enquanto os de aprendizado profundo são unicamente baseados em redes neurais<br>
(d) Os métodos rasos trabalham apenas com dados estruturados, enquanto que os profundos funcionam com dados estruturados e não estruturados.<br>

---
### Questão 2)

Seja $\mathbf{z}$ um vetor de entrada e $\mathbf{s}$ um vetor de saída de uma camada de rede neural baseada em Perceptron. Essa camada pode ser formulada como:

$f(\mathbf{z}) = a(W\mathbf{z}+\mathbf{b}) = \mathbf{s}$,
sendo que $a()$ é a função de ativação. 

Sabendo que a entrada tem $40$ dimensões e a saída tem $k$ dimensões, Qual o tamanho da matriz $W$ e do vetor $b$ e quantos parâmetros essa camada possui para serem aprendidos durante o treinamento?


(a) $W$ possui $40 \times k$, e $b$ possui $40$ dimensões, totalizando $40k + 40$ parâmetros<br>
<font color='red'>(b) $W$ possui $k \times 40$, e $b$ possui $k$ dimensões, totalizando $41k$ parâmetros<br></font>
(c) $W$ possui $k \times 40$, e $b$ possui 1 dimensão (escalar), totalizando $40k + 1$ parâmetros<br>
(d) $W$ possui $k \times k$, e $b$ possui 40 dimensões, totalizando $2k + 40$ parâmetros

---
### Questão 3)

Qual o impacto do tamanho do batch (lote) no treinamento por meio do Stochastic Gradient Descent (SGD)?

(a) O tamanho do batch impacta na quantidade de épocas necessárias para completar o treinamento, se o tamanho do batch for grande, apenas uma época é necessária<br>
(b) Quanto menor o tamanho do batch, mais rápido o treinamento, pois assim o SGD se aproxima do Gradient Descent convencional já que utiliza cada exemplo individualmente para adaptar os pesos<br>
(c) Quanto menor o tamanho do batch melhor será a acurácia do modelo pois as estimativas do gradiente serão mais precisas considerando cada iteração<br>
<font color='red'>(d) Quanto menor o tamanho do batch, mais rápido cada iteração do treinamento, porém mais grosseira é a estimativa do gradiente por iteração<br></font>

---

### Questão 4)

Defina as sementes aleatórias do numpy para 1 e do tensorflow para 2, depois carregue a base de dados boston housing da biblioteca Keras, conforme código abaixo. 

O objetivo dessa base de dados é obter a regressão do preço das casas com base em 13 características de entrada. Assim, os valores alvo (target) são escalares, tipicamente entre 10 e 50 (representando os preços em milhares de dólares).

Utilizando a biblioteca Keras, formule um modelo de rede neural sequencial, do tipo MLP, com 3 camadas ocultas contendo, respectivamente, 32, 16 e 8 neurônios, todas com função de ativação do tipo `relu`.

Quantos parâmetros, no total, essa rede possui?

(a) 4096<br>
<font color='red'>(b) 1121<br></font>
(c) 53248<br>
(d) 3031<br>


In [1]:
from tensorflow import keras

from numpy.random import seed
seed(1)
from tensorflow.random import set_seed
set_seed(2)

from tensorflow.keras.datasets import boston_housing
(x_train, y_train), (x_target, y_target) = boston_housing.load_data()

model = keras.Sequential(
    [
        keras.layers.Dense(32, activation="relu", input_shape=(x_train.shape[1],)),
        keras.layers.Dense(16, activation="relu"),
        keras.layers.Dense(8, activation="relu"),
        keras.layers.Dense(1, activation="relu"),
    ]
)
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense (Dense)                (None, 32)                448       
_________________________________________________________________
dense_1 (Dense)              (None, 16)                528       
_________________________________________________________________
dense_2 (Dense)              (None, 8)                 136       
_________________________________________________________________
dense_3 (Dense)              (None, 1)                 9         
Total params: 1,121
Trainable params: 1,121
Non-trainable params: 0
_________________________________________________________________


---

### Questão 5)

Utilizando a base de dados e o modelo de rede neural criado na questão anterior, compile o modelo utilizando uma função de custo `mae` (mean absolute error), o otimizador SGD e a taxa de aprendizado 0.01. 

Adicione também a métrica `mse` (mean squared error) para permitir avaliá-la adicionalmente.

Normalize os dados (x) por meio da normalização z-score (calcule média e desvio no conjunto de treinamento apenas).

Utilize os dados normalizados para treinar a rede neural por 15 épocas, com batch-size 4. 

Avalie o modelo treinado nos dados de teste, e reporte as posições 0 e 1 do score resultante, respectivamente relativas ao MAE e MSE calculados. Escolha a opção para a qual o intervalo se enquadre nos valores computados.

(a) MAE = (50,53), MSE = (18,22) <br>
(b) MAE = (6,12), MSE = (35,50) <br>
(c) MAE = (4,8), MSE = (60,80) <br>
<font color='red'>(d) MAE = (1,5), MSE = (15,25)<br></font>


In [2]:
mean = x_train.mean(axis=0)
x_train -= mean
std = x_train.std(axis=0)
x_train /= std

x_target -= mean
x_target /= std

model.compile(optimizer=keras.optimizers.SGD(0.01), loss='mae', metrics=['mse'])

history = model.fit(
    x_train, y_train,
    batch_size=4,
    epochs=15,
    verbose=1,
    validation_data=(x_target, y_target),
)


Epoch 1/15
Epoch 2/15
Epoch 3/15
Epoch 4/15
Epoch 5/15
Epoch 6/15
Epoch 7/15
Epoch 8/15
Epoch 9/15
Epoch 10/15
Epoch 11/15
Epoch 12/15
Epoch 13/15
Epoch 14/15
Epoch 15/15


In [3]:
score = model.evaluate(x_target, y_target, verbose=0)
print("MAE: %.1f" % (score[0]))
print("MSE: %.1f" % (score[1]))

MAE: 2.7
MSE: 18.7
