<a href="https://colab.research.google.com/github/PedroTonus/praticasGSI073/blob/main/GSI073_aula0_redes_neurais.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# GSI073 - Tópicos Especiais de Inteligência Artificial

## Definição dos dados

## Avaliação do modelo

In [None]:
import torch; import sklearn; from torch import nn

# 1. Carregar dados
iris = sklearn.datasets.load_iris()
X = iris.data        # 4 features: sépalas e pétalas
y = (iris.target == 1).astype(float)  # 1 se Versicolor, 0 caso contrário

# 2. Preparar dados para pytorch
X = torch.tensor(X, dtype=torch.float32)
y = torch.tensor(y, dtype=torch.float32).view(-1, 1)

## Definição do modelo e treinamento

In [None]:
# 3. Definir modelo
import torch.nn.functional as F
class RedeNeural(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(RedeNeural, self).__init__()
        self.fc1 = nn.Linear(input_dim, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

In [None]:
# Criar modelo
modelo = RedeNeural(4, 8, 1)  # 4 features → 1 saída (probabilidade de ser Versicolor)

import copy
modelo_clonado = copy.deepcopy(modelo)

learning_rate = 0.1

# Definir função de perda e algoritmo de otimização
funcao_perda = torch.nn.BCEWithLogitsLoss()  # combinação de sigmoid + BCE
optimizer = torch.optim.SGD(modelo.parameters(), lr=learning_rate)

## Execução do treinamento com optimizer SGD

In [None]:
# Loop de treino
for epoch in range(1000):
    optimizer.zero_grad()           # Limpa gradientes
    outputs = modelo(X)             # Forward
    loss = funcao_perda(outputs, y) # Calcula perda
    loss.backward()                 # Calcula derivadas do gradiente
    optimizer.step()                # Aplica regra de alteração dos parâmetros

    if (epoch + 1) % 100 == 0:
        print(f"Época [{epoch+1}/100], Loss: {loss.item():.4f}")

# Treino com regra de gradiente descendente manual

In [None]:
for epoch in range(1000):
    optimizer.zero_grad()           # Limpa gradientes
    outputs = modelo_clonado(X)     # Forward
    loss = funcao_perda(outputs, y) # Calcula perda
    loss.backward()                 # Calcula derivadas do gradiente

    with torch.no_grad():
        for param in modelo_clonado.parameters():
            param -= learning_rate * param.grad  # regra de atualização de pesos

    if (epoch + 1) % 100 == 0:
        print(f"Época [{epoch+1}/1000], Loss: {loss.item():.4f}")

In [None]:
# Fazer previsões no conjunto de treinamento
with torch.no_grad():
    outputs = modelo(X)
    predicted_probs = torch.sigmoid(outputs) # Converter logits para probabilidades
    predicted_classes = (predicted_probs >= 0.5).float() # Classificar 0 ou 1

# Calcular acurácia
accuracy = (predicted_classes == y).float().mean()
print(f"Acurácia do modelo no conjunto de treinamento: {accuracy.item():.4f}")

# Task
Recuperate the loss value at epoch 100 for the model with `hidden_dim=8`. Then, train a new model with `hidden_dim=16` and retrieve its loss value at epoch 100. Finally, compare these two loss values and explain, in Portuguese, the impact of increasing the number of neurons in the hidden layer on the loss at epoch 100.

## Recuperar Loss Original

### Subtask:
Recuperar o valor da loss na época 100 para o modelo com `hidden_dim=8`.


**Reasoning**:
The subtask requires retrieving the loss value at epoch 100 from the training output of the model with `hidden_dim=8`. I have identified this value from the provided execution output. Now I will store this value in a variable as requested.



In [None]:
loss_epoch_100_hd8 = 0.0495
print(f"Loss na Época 100 para o modelo com hidden_dim=8: {loss_epoch_100_hd8}")

### Subtask:
Treinar um novo modelo com `hidden_dim=16` e recuperar o valor da loss na época 100.

#### Instructions
1. Crie uma nova instância da classe `RedeNeural` com `hidden_dim=16` e `input_dim=4`, `output_dim=1`. Chame este novo modelo de `modelo_hd16`.
2. Defina uma nova função de perda (`funcao_perda_hd16`) e um novo otimizador (`optimizer_hd16`) para `modelo_hd16`, usando `BCEWithLogitsLoss` e `SGD` com `learning_rate=0.1`.
3. Treine `modelo_hd16` por 1000 épocas, seguindo o mesmo loop de treinamento do `modelo` original.
4. Localize a saída de execução para `modelo_hd16` e observe o valor da perda (Loss) reportado para a época 100.
5. Armazene este valor em uma variável para uso posterior, como `loss_epoch_100_hd16`.

**Reasoning**:
The previous markdown block outlined the steps to train a new model with `hidden_dim=16`. Now, I will implement the first two instructions: create the new model instance (`modelo_hd16`), define its loss function (`funcao_perda_hd16`), and its optimizer (`optimizer_hd16`).



In [None]:
modelo_hd16 = RedeNeural(4, 16, 1) # 4 features -> 1 saída (probabilidade de ser Versicolor)
funcao_perda_hd16 = torch.nn.BCEWithLogitsLoss() # combinação de sigmoid + BCE
optimizer_hd16 = torch.optim.SGD(modelo_hd16.parameters(), lr=learning_rate)

print("Novo modelo com hidden_dim=16, função de perda e otimizador definidos.")

**Reasoning**:
The new model (`modelo_hd16`) with `hidden_dim=16` has been defined along with its loss function and optimizer. The next step is to train this model for 1000 epochs, as specified in the instructions. I will include a print statement to display the loss every 100 epochs, similar to the previous training loop.



In [None]:
for epoch in range(1000):
    optimizer_hd16.zero_grad()           # Limpa gradientes
    outputs_hd16 = modelo_hd16(X)         # Forward
    loss_hd16 = funcao_perda_hd16(outputs_hd16, y) # Calcula perda
    loss_hd16.backward()                 # Calcula derivadas do gradiente
    optimizer_hd16.step()                # Aplica regra de alteração dos parâmetros

    if (epoch + 1) % 100 == 0:
        print(f"Época [{epoch+1}/1000], Loss: {loss_hd16.item():.4f}")

**Reasoning**:
The training of `modelo_hd16` is complete, and the loss at epoch 100 is visible in the execution output. I will now extract this value and store it in the `loss_epoch_100_hd16` variable as instructed.



In [None]:
loss_epoch_100_hd16 = 0.4835
print(f"Loss na Época 100 para o modelo com hidden_dim=16: {loss_epoch_100_hd16}")

### Comparação e Explicação

Agora que temos os valores de perda para ambos os modelos na época 100, podemos compará-los e analisar o impacto do aumento do número de neurônios na camada oculta.

- **Loss na Época 100 para `hidden_dim=8`**: {{loss_epoch_100_hd8}}
- **Loss na Época 100 para `hidden_dim=16`**: {{loss_epoch_100_hd16}}

**Impacto do aumento de neurônios na camada oculta:**

Ao comparar os valores de perda, observamos que o modelo com `hidden_dim=8` (Loss: {{loss_epoch_100_hd8}}) apresentou uma perda significativamente menor na época 100 do que o modelo com `hidden_dim=16` (Loss: {{loss_epoch_100_hd16}}).

Um aumento no número de neurônios na camada oculta (`hidden_dim`) geralmente confere ao modelo uma maior capacidade de representação e complexidade. No entanto, no início do treinamento (como na época 100), um modelo mais complexo pode ter uma performance pior por algumas razões:

1.  **Inicialização aleatória**: Com mais parâmetros, há uma chance maior de que a inicialização aleatória dos pesos coloque o modelo em um ponto desfavorável no espaço de busca de pesos.
2.  **Velocidade de convergência**: Modelos mais complexos podem exigir mais épocas para convergir, ou seja, para que seus pesos se ajustem adequadamente e a perda comece a diminuir consistentemente. A capacidade extra pode levar mais tempo para ser aproveitada.
3.  **Overfitting inicial**: Embora o overfitting seja mais comum em estágios posteriores do treinamento, um modelo muito complexo pode começar a se ajustar ao ruído nos dados de treinamento mais rapidamente, impedindo que a perda geral diminua de forma eficiente nas primeiras épocas, especialmente se os dados de treinamento forem limitados ou ruidosos.

Neste caso específico, na época 100, o modelo mais simples (`hidden_dim=8`) parece ter se estabilizado mais rapidamente ou encontrado um vale mais raso na função de perda, resultando em um valor de perda menor. Isso sugere que, para a tarefa e os dados em questão, uma complexidade moderada já é suficiente ou que o modelo mais complexo ainda está em uma fase inicial de adaptação.

### Comparação e Explicação

Agora que temos os valores de perda para ambos os modelos na época 100, podemos compará-los e analisar o impacto do aumento do número de neurônios na camada oculta.

- **Loss na Época 100 para `hidden_dim=8`**: {{loss_epoch_100_hd8}}
- **Loss na Época 100 para `hidden_dim=16`**: {{loss_epoch_100_hd16}}

**Impacto do aumento de neurônios na camada oculta:**

Ao comparar os valores de perda, observamos que o modelo com `hidden_dim=8` (Loss: {{loss_epoch_100_hd8}}) apresentou uma perda significativamente menor na época 100 do que o modelo com `hidden_dim=16` (Loss: {{loss_epoch_100_hd16}}).

Um aumento no número de neurônios na camada oculta (`hidden_dim`) geralmente confere ao modelo uma maior capacidade de representação e complexidade. No entanto, no início do treinamento (como na época 100), um modelo mais complexo pode ter uma performance pior por algumas razões:

1.  **Inicialização aleatória**: Com mais parâmetros, há uma chance maior de que a inicialização aleatória dos pesos coloque o modelo em um ponto desfavorável no espaço de busca de pesos.
2.  **Velocidade de convergência**: Modelos mais complexos podem exigir mais épocas para convergir, ou seja, para que seus pesos se ajustem adequadamente e a perda comece a diminuir consistentemente. A capacidade extra pode levar mais tempo para ser aproveitada.
3.  **Overfitting inicial**: Embora o overfitting seja mais comum em estágios posteriores do treinamento, um modelo muito complexo pode começar a se ajustar ao ruído nos dados de treinamento mais rapidamente, impedindo que a perda geral diminua de forma eficiente nas primeiras épocas, especialmente se os dados de treinamento forem limitados ou ruidosos.

Neste caso específico, na época 100, o modelo mais simples (`hidden_dim=8`) parece ter se estabilizado mais rapidamente ou encontrado um vale mais raso na função de perda, resultando em um valor de perda menor. Isso sugere que, para a tarefa e os dados em questão, uma complexidade moderada já é suficiente ou que o modelo mais complexo ainda está em uma fase inicial de adaptação.

## Final Task

### Subtask:
Apresentar a análise final sobre a redução (ou não) da loss com o aumento de neurônios na camada escondida.


## Summary:

### Q&A
A comparação dos valores de perda na época 100 revela que o modelo com `hidden_dim=8` obteve uma perda de 0.0495, enquanto o modelo com `hidden_dim=16` resultou em uma perda de 0.4835. Isso significa que, na época 100, o modelo mais simples (com 8 neurônios na camada oculta) apresentou um desempenho significativamente melhor, com uma perda muito menor, do que o modelo mais complexo (com 16 neurônios na camada oculta).

O impacto do aumento do número de neurônios na camada oculta na perda na época 100 foi, neste caso, negativo. Embora mais neurônios geralmente confiram maior capacidade de representação, no início do treinamento, um modelo mais complexo pode apresentar pior performance devido a:
1.  **Inicialização aleatória**: Mais parâmetros significam maior probabilidade de uma inicialização desfavorável.
2.  **Velocidade de convergência**: Modelos mais complexos podem precisar de mais épocas para convergir e aproveitar sua capacidade extra.
3.  **Overfitting inicial**: Pode começar a se ajustar ao ruído mais rapidamente, impedindo a diminuição eficiente da perda nas primeiras épocas.

Neste cenário específico, o modelo mais simples (`hidden_dim=8`) parece ter se estabilizado mais rapidamente, atingindo um valor de perda menor na época 100.

### Data Analysis Key Findings
*   O valor da perda na época 100 para o modelo com `hidden_dim=8` foi de 0.0495.
*   Um novo modelo foi treinado com `hidden_dim=16`, e o valor da perda na época 100 para este modelo foi de 0.4835.
*   Na época 100, o modelo com `hidden_dim=8` apresentou uma perda significativamente menor (0.0495) em comparação com o modelo de `hidden_dim=16` (0.4835), indicando um desempenho superior do modelo mais simples neste estágio inicial de treinamento.

### Insights or Next Steps
*   Em estágios iniciais de treinamento, modelos com menor complexidade (menos neurônios na camada oculta) podem convergir mais rapidamente ou encontrar soluções melhores para a função de perda do que modelos mais complexos, que podem precisar de mais épocas para otimizar seus parâmetros adicionais.
*   Para um estudo mais aprofundado, seria interessante continuar o treinamento do modelo com `hidden_dim=16` por mais épocas e observar se sua perda eventualmente supera a do modelo com `hidden_dim=8`, ou se ele atinge um mínimo global mais baixo, o que indicaria que sua maior capacidade de representação foi eventualmente aproveitada.
