# Exercício sobre regressão com DNNs

Explique o(s) motivo(s) do valor predito (i.e., da inferência feita) pela DNN do exemplo visto em sala de aula não ser exatamente o valor que esperávamos?

O que pode ser feito para melhorar a precisão das inferências feitas pela DNN?

Implemente todas as modificações que você achar necessarias e aprensente os resultados.

**Descreva cada uma das mudanças feitas e as justifique.**

**Dicas**

+ Você pode querer alterar o otimizador ou definir outros valores para os parâmetros do otimizador atual, para isso, consulte a documentação sobre [otimizadores](https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/experimental)
+ Você pode querer também aumentar o conjunto de treinamento, para isso, lembre-se que a função original, ou seja, aquela que gerou os dados que estamos usando para o treinamento do modelo, é dada por $y = -1 + 2x$.
+ Pense sobre o número de épocas que usamos no exemplo. Você acha que 500 épocas é um valor pequeno ou grande para o treinamento de um modelo que resolva um problema tão simples quanto esse apresentado no exemplo? Lembre-se que no exemplo, cada época de treinamento corresponde ao processo de (i) iniciar os pesos aleatóriamente (i.e., palpite inicial), (ii) calcular o erro, (iii) calcular o vetor gradiente do erro, (iv) atualiar os pesos dando um **passo** na direção apontada pelo gradiente. Reflita sobre o tamanho desse passo, ele pode interferir na precisão do modelo?

### Importando as bibliotecas

In [None]:
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt

### Definindo o dataset

In [None]:
x = np.array([-1.0,  0.0, 1.0, 2.0, 3.0, 4.0])
y = np.array([-3.0, -1.0, 1.0, 3.0, 5.0, 7.0])

### Definindo a rede neural densa

Define uma rede neural densa com um neurônio e entrada com uma dimensão.

Para mais informações sobre as classes e funções do TF, acesse: https://www.tensorflow.org/api_docs

In [None]:
model = tf.keras.Sequential([tf.keras.layers.Dense(units=1, input_shape=[1])])

### Imprimindo um resumo da arquitetura do modelo

+ O método `summary` imprime uma descrição da arquitetura do modelo, mostrando a disposição das camadas e o número total de parâmetros treináveis e não treináveis.
    + Parâmetros não treináveis são aqueles que não são atualizados durante o treinamento do modelo.

+ Ele exibe as seguintes informações:
    + O nome de cada camada (que é gerado automaticamente, a menos o definamos ao criar a camada), 
    + Seu formato de saída (`None` significa que o tamanho do mini-batch pode ser qualquer um) e 
    + Seu número de parâmetros.

In [None]:
model.summary()

### Inspecionando os pesos iniciais do modelo

A inicialização dos pesos é crucial para o bom treinamento de um modelo, pois ela

+ Acelera a convergência (i.e., o aprendizado do modelo),
+ Evita problemas de explosão e desaparecimento do gradiente.
    + Explosão: os gradientes se tornam tão grandes e, consequentemente, os pesos também, levando a divergência do modelo.
    + Desaparecimento: os gradientes se tornam extremamente pequenos e, consequentemente, as atualizações dos pesos também, resultando em treinamento (i.e., aprendizado) lento ou mesmo estagnação.

Por padrão, os pesos do modelo são inicializados pela classe `Dense` da seguinte forma:

+ O parâmetro `kernel_initializer` define como os pesos sinápticos ($w$) são inicializados => Por padrão, usa-se a inicialização `glorot_uniform` (também chamadade **Xavier**)

    + Incializa-se os pesos usando amostras retiradas de uma distribuição uniforme com limites: `[-limit, limit]`, onde 
    $$\text{limit} = \sqrt{\frac{6}{(\text{fan}_{\text{in}} + \text{fan}_{\text{out}})}}$$
    + $\text{fan}_{\text{in}}$ é igual ao número de neurônios da camada anterior e $\text{fan}_{\text{out}}$ é igual ao número de neurônios nessa camada sendo configurada.

+ O parâmetro `bias_initializer` define como os pesos de bias ($b$) são inicializados => Por padrão, todos os valores inciais dos pesos de bias são zerados (`zeros`).


Existem outras formas de se inicializar os pesos, para mais informações, acesse: [Initializers](https://keras.io/api/layers/initializers/)

In [None]:
# Retorna uma lista com todos os pesos.
model.get_weights()

#### Acessando o peso sináptico e o de bias do modelo

In [None]:
print("w = ", model.get_weights()[0][0][0])
print("b  = ", model.get_weights()[1][0])

### Compilando o modelo

Usamos como **otimizador** o gradiente descendente estocástico e como **função de erro** o erro quadrático médio.

In [None]:
model.compile(optimizer='sgd', loss='mean_squared_error')

### Fazendo uma predição com o modelo inicial.

In [None]:
print(model.predict([10.0]))

### Treinando o modelo

In [None]:
# Ajusta o modelo aos dados (também conhecido como treinar o modelo)
history = model.fit(x, y, epochs=500)

### Salvando o modelo treinado

In [None]:
model.save('my_first_trained_dnn.h5')

### Testando o modelo

Prevendo a saída de um novo dado (inédito) de entrada (também conhecido como **inferência**).

In [None]:
print(model.predict([10.0]))

### Inspecionando os pesos do modelo treinado

In [None]:
print("w = ", model.get_weights()[0][0][0])
print("b  = ", model.get_weights()[1][0])

#### Podemos inspecionar o modelo de forma visual usando a aplicação web chamada de [Netron](https://netron.app)

### Plotando o histórico de erros ao longo das épocas de treinamento

O objeto da classe `History` possui um atributo chamado de `history`, que é um dicionário com os valores do erro ao longo das épocas de treinamento.

Esse dicionário pode conter outras medidas feitas longo do treinamento e teste do modelo, para isso, basta especificar o que se quer medir através do parâmetro `metrics` do método `compile()`.

In [None]:
type(history.history)

In [None]:
history.history.keys()

In [None]:
plt.plot(history.history['loss'])
plt.title('model loss')
plt.ylabel('loss')
plt.xlabel('epoch')
plt.legend(['train'], loc='upper right')
plt.grid()
plt.show()