## Redes Neurais com Variação de Hiperparâmetros

Importamos as bibliotecas
- **torch.nn (neural networks):** para construir a arquitetura do modelo.
- **torch.optim (optimizer):** para definir o algoritmo de otimização.
- **torch e numpy:** para manipulação de tensores e dados numéricos.

In [17]:
import torch
import numpy as np
import torch.nn as nn
import torch.optim as optim

Preparamos os dados 

A função de perda (criterion) é definida uma única vez, pois será usada em todos os experimentos.

In [18]:
x = torch.linspace(0, 1, 100).unsqueeze(1)
criterion = nn.MSELoss()
y_nl = torch.sin(2 * np.pi * x) + 0.1 * torch.randn(x.size())

Criamos uma função que encapsula todo o ciclo de treinamento. Isso torna o código mais limpo e reutilizável para testar diferentes configurações.

- **Parâmetros da função:**
    - **hidden_size:** Controla o número de neurônios nas camadas ocultas.
    - **lr:** Controla a taxa de aprendizado do otimizador.
- **Arquitetura do Modelo:** A função constrói uma MLP com duas camadas ocultas. Desta vez, usamos a função de ativação ReLU (nn.ReLU), que é muito popular e eficiente.
- **Otimizador:** Usa o otimizador Adam com a taxa de aprendizado fornecida.
- **Loop de Treinamento:** O ciclo de treinamento de 500 épocas é executado.
- **Retorno:** A função retorna o valor da perda final como um número Python (.item()), para que possamos comparar os resultados.

In [19]:
# Função para testar diferentes taxas de aprendizado e número de camadas
def train_model(hidden_size=64, lr=0.01):
    model = nn.Sequential(
        nn.Linear(1, hidden_size),
        nn.ReLU(),
        nn.Linear(hidden_size, hidden_size),
        nn.ReLU(),
        nn.Linear(hidden_size, 1)
    )
    opt = optim.Adam(model.parameters(), lr=lr)
    for epoch in range(500):
        pred = model(x)
        loss = criterion(pred, y_nl)
        opt.zero_grad()
        loss.backward()
        opt.step()
    return loss.item()

Esta seção é o núcleo da otimização. Usamos loops aninhados para iterar sobre diferentes valores de hiperparâmetros.

- **hidden in [16, 64, 128]:** Itera sobre três tamanhos diferentes para as camadas ocultas.
    - **16:** Modelo menor, menos capacidade.
    - **64:** Tamanho padrão, boa capacidade.
    - **128:** Modelo maior, mais capacidade, mas pode ser mais lento.
- **lr in [0.001, 0.01, 0.1]:** Itera sobre três taxas de aprendizado diferentes.
    **- 0.001:** Passo pequeno, treinamento lento.
    **- 0.01:** Passo padrão.
    **- 0.1:** Passo grande, pode pular o mínimo e não convergir.
print(...): Para cada combinação, o código chama a função **train_model** e imprime a perda final.

In [20]:
for hidden in [16, 64, 128]:
    for lr in [0.001, 0.01, 0.1]:
        final_loss = train_model(hidden_size=hidden, lr=lr)
        print(f"Hid.={hidden}, LR={lr}: Loss final = {final_loss:.4f}")

Hid.=16, LR=0.001: Loss final = 0.0579
Hid.=16, LR=0.01: Loss final = 0.0079
Hid.=16, LR=0.1: Loss final = 0.0104
Hid.=64, LR=0.001: Loss final = 0.0147
Hid.=64, LR=0.01: Loss final = 0.0070
Hid.=64, LR=0.1: Loss final = 0.0075
Hid.=128, LR=0.001: Loss final = 0.0084
Hid.=128, LR=0.01: Loss final = 0.0079
Hid.=128, LR=0.1: Loss final = 0.0085
