## **Roteiro de Prática: Construindo sua RNA com PyTorch**

**Documentos importantes para consultas e aprendizado:**

[PyTorch documentation — PyTorch 2.7 documentation](https://docs.pytorch.org/docs/stable/index.html)

[Zero to Mastery Learn PyTorch for Deep Learning](https://www.learnpytorch.io/)

Vamos construir, treinar e avaliar uma rede neural artificial usando PyTorch para resolver um problema clássico: prever quem sobreviveu ao desastre do Titanic.

Vamos usar o trabalho dos Profs. Storopoli & Souza disponível no Google Colab:

```
Storopoli & Souza (2020). Ciência de Dados com Python: pandas, matplotlib, Scikit-Learn, TensorFlow e PyTorch. 

```

https://colab.research.google.com/github/storopoli/ciencia-de-dados/blob/main/notebooks/Aula_18_b_Redes_Neurais_com_PyTorch.ipynb#scrollTo=JjcTgN5kDvqS

# Exercícios



# 1 - Com base no material apresentado no notebook, o que é uma função de ativação (como a ReLU)? Por que normalmente usamos entre as camadas?



> De acordo com o material, uma função de ativação tem como objetivo processar a combinação linear entre os inputs e os pesos sinápticos de um neurônio, gerando assim um sinal de saída. Além disso, essas funções são usadas entre as camadas da rede neural para permitir que a rede consiga aprender padrões mais complexos, já que elas introduzem não linearidade no modelo.

> Durante o processo de propagação (feedforward), os dados passam pela rede e são transformados pelas funções de ativação. Em seguida, calcula-se a função custo (uma métrica de erro), e por meio da retropropagação (backpropagation), os pesos dos neurônios são ajustados para melhorar os resultados ao longo das épocas (epoch).



# 2 -  Explique o que cada uma das seguintes linhas de código faz e por que ela é necessária:



1. model.train()
> Prepara o modelo para o processo de treinamento, ativando comportamentos específicos como Dropout e BatchNorm com estatísticas do batch. Isso é essencial para que o modelo aprenda corretamente durante o treino.
2. optimizer.step()
> É responsável por atualizar os pesos do modelo, usando uma regra de otimização - neste caso, Adam - com base nos gradientes calculados durante a backpropagation. É necessária pois permite que o modelo melhore seu desempenho ao longo das épocas.
3. Qual a diferença fundamental entre os modos model.train() e model.eval()?
> model.train() ativa o modo de treino, onde Dropout e BatchNorm funcionam com comportamento de treinamento. Já model.eval() é usado na avaliação, desativando Dropout e usando estatísticas fixas no BatchNorm, garantindo resultados estáveis e reprodutíveis.

>Treino: processamento + cálculo de gradientes + atualização dos pesos.
Avaliação: processamento somente (sem atualização), com camadas adaptadas para estabilidade.



# 3 - Modifique a classe ClassBin para que a rede tenha a seguinte arquitetura:

1. Camada de Entrada: Mantém as 4 features de entrada.
2. Primeira Camada Oculta: nn.Linear com 4 neurônios de entrada e 16 neurônios de saída, seguida por uma ativação ReLU.
3. Segunda Camada Oculta: nn.Linear com 16 neurônios de entrada e 8 neurônios de saída, seguida por uma ativação ReLU.
4. Camada de Saída: nn.Linear com 8 neurônios de entrada e 1 neurônio de saída, seguida por uma ativação Sigmoid.
5. Remova todas as camadas de Dropout para uma nova arquitetura.
6. Treine o novo modelo com os mesmos hiperparâmetros (épocas, taxa de aprendizado, etc.) e compare a acurácia final (de treino e teste) com a do modelo original.


In [None]:
class ClassBin(nn.Module):
    # Construtor
    def __init__(self):
        super(ClassBin, self).__init__()
        self.linear1 = nn.Linear(4, 16)    # primeira hidden layer
        self.linear2 = nn.Linear(16, 8)    # segunda hidden layer
        self.linear3 = nn.Linear(8, 1)    # terceira hidden layer --> Camada de saída
        self.sigmoid = nn.Sigmoid()

    # Propagação (Feed Forward)
    def forward(self, x):
        x = F.relu(self.linear1(x))
        x = F.relu(self.linear2(x))
        x = F.relu(self.linear3(x))
        x = self.sigmoid(x)
        return x

model = ClassBin()
print(model)

## Com os mesmos hiperparâmetros:
---------------------------
Modelo Original:

Acurácia de Treino: 0.590654194355011

Acurácia de Teste: 0.6033519506454468

---------------------------
Modelo modificado:

Acurácia de Treino: 0.590654194355011

Acurácia de Teste: 0.6033519506454468

---------------------------


# 4 -  Usando o modelo original do notebook:

1. Mude o Otimizador: Substitua o otimizador **Adam** por SGD (Stochastic Gradient Descent). 
2. Treine o modelo com o SGD.
3. O que aconteceu com o custo (loss) durante o treinamento? A acurácia final foi melhor ou pior? O SGD com essa taxa de aprendizado pareceu uma boa escolha?


In [None]:
loss_fn = nn.BCELoss()
epochs = 100
batch_size = 32  # X_train 535 / 32 = 16.71 (então são 17 batches de 32)
learning_rate = 0.1

# Instânciar o Otimizador SGD
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

Durante o treinamento, o custo se tornou um pouco variável nas épocas (Com Adam era sempre 0.693). Veja as 10 primeiras épocas:

Época 1,  Custo Treino: 0.685

Época 2,  Custo Treino: 0.693

Época 3,  Custo Treino: 0.667

Época 4,  Custo Treino: 0.693

Época 5,  Custo Treino: 0.693

Época 6,  Custo Treino: 0.693

Época 7,  Custo Treino: 0.693

Época 8,  Custo Treino: 0.693

Época 9,  Custo Treino: 0.815

Época 10, Custo Treino: 0.693

-----
Adam:

Acurácia de Treino: 0.590654194355011

Acurácia de Teste: 0.6033519506454468

SGD:

Acurácia de Treino: 0.590654194355011

Acurácia de Teste: 0.6033519506454468

------

Com learning_rate = 0.1, não foi possível identificar diferenças signicativas entre os dois otimizadores.

Com learning_rate = 0.001:

Adam:

Acurácia de Treino: 0.590654194355011

Acurácia de Teste: 0.6033519506454468

SGD: 

Acurácia de Treino: 0.6523364782333374

Acurácia de Teste: 0.6424580812454224

Com o novo learnig_rate, o SGD se provou uma boa escolha.




# 5 - Usando o modelo original e o otimizador Adam:

1. No DataLoader, mude o batch_size de 32 para um valor muito maior, como 512.
2. Treine o modelo e observe a acurácia.
3. Agora, faça o oposto. Mude o batch_size para um valor bem pequeno, como 4, e treine novamente.
4. Como a mudança no batch_size afetou a estabilidade do custo (loss) a cada época e a acurácia final do modelo?

#### batch_size = 512

>O custo(loss) de cada época se estabilizou na época 12

>Rodou bem rápido --> X_train 535 / 512 = 1.05 (então são 2 batches de 512)

>Acurácia de Treino: 0.590654194355011

>Acurácia de Teste: 0.6033519506454468

#### batch_size = 4

>O custo(loss) de cada época foi sempre o mesmo(estabilizou rápido).

>Demorou mais para rodar --> X_train 535 / 4 = 133.75 (então são 134 batches de 4)

>Acurácia de Treino: 0.590654194355011

>Acurácia de Teste: 0.6033519506454468

#### Mudei a learning_rate para 0.001

#### batch_size = 512:
>Acurácia de Treino: 0.6504672765731812

>Acurácia de Teste: 0.6480447053909302

#### batch_size = 4
>Acurácia de Treino: 0.7831775546073914

>Acurácia de Teste: 0.7262569665908813

#### Conclusão

>Um batch_size menor pode favorecer a acurácia do modelo, mas exige mais tempo de treinamento, o que precisa ser considerado.
