# Classifica√ß√£o tabular

### üåæ **Classifica√ß√£o de Sementes de Trigo - Explica√ß√£o Inicial**  

Este conjunto de dados cont√©m **medidas f√≠sicas de sementes de trigo** e tem como objetivo a **classifica√ß√£o da esp√©cie** com base nessas caracter√≠sticas. Cada linha representa uma semente e inclui as seguintes informa√ß√µes:  

üîπ **Caracter√≠sticas das sementes:**  
- **√Årea**: Tamanho da superf√≠cie da semente.  
- **Per√≠metro**: Medida do contorno da semente.  
- **Compacidade**: Grau de proximidade entre as partes da semente.  
- **Comprimento**: Tamanho longitudinal da semente.  
- **Largura**: Largura m√°xima da semente.  
- **Assimetria**: Diferen√ßa na forma da semente em rela√ß√£o a um eixo.  
- **Comprimento do sulco**: Medida do sulco central da semente.  

üîπ **Classe de sa√≠da:**  
- **Esp√©cie**: Representa o tipo de semente de trigo (0, 1 ou 2), indicando a qual variedade ela pertence.  

O objetivo do problema √© utilizar essas medidas para treinar um modelo de **classifica√ß√£o supervisionada**, permitindo identificar corretamente a esp√©cie de uma nova semente com base nas suas caracter√≠sticas. üöÄüåæ

In [None]:
import pandas as pd

In [None]:
dados = pd.read_csv('https://raw.githubusercontent.com/alura-cursos/Primeiros_passos_pytorch/main/sementes.csv')
dados.head()

In [None]:
dados['Esp√©cie'].unique()

In [None]:
X = dados.drop(['Esp√©cie'],axis=1).values
y = dados['Esp√©cie'].values

In [None]:
from sklearn.model_selection import train_test_split
X_treino,X_teste,y_treino,y_teste = train_test_split(X,y,test_size=0.2,stratify=y,random_state=42)

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

from sklearn.preprocessing import StandardScaler

## Normaliza√ß√£o dos dados

https://pytorch.org/docs/stable/tensors.html

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

## Criando DataLoaders

## Defini√ß√£o da Rede Neural

https://pytorch.org/docs/stable/generated/torch.nn.Module.html

### üìå **O que √© `nn.Linear`?**
`nn.Linear(in_features, out_features)` √© uma camada totalmente conectada (ou densa), que realiza uma transforma√ß√£o linear dos dados de entrada:


$$ Y = XW^T + b $$


onde:
- \( X \) √© o tensor de entrada
- \( W \) s√£o os pesos da camada
- \( b \) √© o bias (termo de deslocamento)
- \( Y \) √© a sa√≠da transformada

Essa camada aprende \( W \) e \( b \) durante o treinamento para mapear a entrada na sa√≠da desejada.

---

### üîπ **Explica√ß√£o da Arquitetura**
1. **Camada oculta (`self.fc1`)**  
   ```python
   self.fc1 = nn.Linear(input_size, hidden_size)
   ```
   - Converte a entrada (`input_size`) para um espa√ßo de representa√ß√£o de dimens√£o `hidden_size`.
   - Aprender√° pesos $ W_1 $ e bias $ b_1$ para essa transforma√ß√£o.

2. **Ativa√ß√£o ReLU (`self.relu`)**  
   ```python
   self.relu = nn.ReLU()
   ```
   - Aplica a fun√ß√£o de ativa√ß√£o ReLU:
     
     $$ f(x) = \max(0, x) $$
     
   - Introduz n√£o-linearidade, permitindo que a rede aprenda padr√µes mais complexos.

3. **Camada de sa√≠da (`self.fc2`)**  
   ```python
   self.fc2 = nn.Linear(hidden_size, output_size)
   ```
   - Transforma a sa√≠da da camada oculta (`hidden_size`) no n√∫mero final de classes (`output_size`).
   - A sa√≠da ainda n√£o est√° normalizada (logits), ent√£o usamos `CrossEntropyLoss` para lidar com isso.

---

### üî• **Fluxo de Dados (`forward`)**
```python
def forward(self, x):
    x = self.fc1(x)   # Transforma√ß√£o linear
    x = self.relu(x)  # Ativa√ß√£o ReLU
    x = self.fc2(x)   # Segunda transforma√ß√£o linear
    return x          # Sa√≠da (logits)
```
- A entrada passa pela primeira camada densa (`fc1`).
- Depois, aplicamos a ativa√ß√£o `ReLU`, introduzindo n√£o-linearidade.
- Finalmente, a sa√≠da passa pela camada `fc2`, que gera 3 valores (um para cada classe).

üí° **Observa√ß√£o:**  
A sa√≠da do modelo s√£o **logits** (valores n√£o normalizados). Para obter probabilidades, aplicar√≠amos `nn.Softmax(dim=1)`, mas `CrossEntropyLoss` j√° faz isso internamente.

---

### üöÄ **Resumo**
- `nn.Linear` realiza transforma√ß√µes lineares de entrada para sa√≠da.
- `ReLU` adiciona n√£o-linearidade para melhorar a capacidade de aprendizado.
- O modelo √© uma rede neural simples com **uma camada oculta** e **tr√™s neur√¥nios de sa√≠da** (um para cada classe).

## Defini√ß√£o de hiperpar√¢metros

### üìå **Regras pr√°ticas para definir o n√∫mero de neur√¥nios na camada oculta**
Como o n√∫mero de features de entrada √© **7**, podemos usar algumas heur√≠sticas comuns:

1Ô∏è‚É£ **Regra da m√©dia geom√©trica:**  
$$ \text{neur√¥nios na camada oculta} = \sqrt{\text{neur√¥nios de entrada} \times \text{neur√¥nios de sa√≠da}}
$$
Aplicando ao nosso caso:
$$
h = \sqrt{7 \times 3} = \sqrt{21} \approx 4 \text{ ou } 5
$$

2Ô∏è‚É£ **Regra do dobro do n√∫mero de entradas:**  
$$
h = 2 \times \text{n√∫mero de features} = 2 \times 7 = 14
$$
Se o problema for complexo, pode ser √∫til come√ßar com mais neur√¥nios.

3Ô∏è‚É£ **Regra do "funil" (entre entrada e sa√≠da):**  
- A camada oculta geralmente tem um n√∫mero intermedi√°rio de neur√¥nios entre a entrada e a sa√≠da.
- Um valor comum seria algo entre $  (7+3)/2 = 5;  2 \times 7 = 14  $.

---

### üöÄ **Escolha pr√°tica**
Se for um problema simples, **5 a 10 neur√¥nios** na camada oculta pode ser um bom come√ßo.  
Se for um problema mais complexo, com padr√µes dif√≠ceis de aprender, **10 a 14 neur√¥nios** pode ser melhor.  

#### **Aplicando no c√≥digo:**
```python
hidden_size = 5  # Ou 7, 10, 14, dependendo dos testes
model = Classifier(input_size=7, hidden_size=hidden_size, output_size=3)
```

---

### üî• **Melhor estrat√©gia: Experimenta√ß√£o!**
O melhor n√∫mero de neur√¥nios depende da complexidade do problema e dos dados. O ideal √© testar diferentes configura√ß√µes e observar a **performance no conjunto de valida√ß√£o**, usando t√©cnicas como **cross-validation** ou **grid search**.

## Inicializa√ß√£o do modelo

## Treinamento do modelo

### **1. Estrutura do loop de treinamento**
O treinamento do modelo √© dividido em **√©pocas** (`epochs`) e **lotes (batches)**. Cada √©poca representa uma itera√ß√£o completa sobre o conjunto de dados de treinamento, enquanto o processamento em lotes divide o conjunto de dados em partes menores para melhorar a efici√™ncia computacional e permitir o uso de gradientes estoc√°sticos.

---

### **2. Passo a passo do c√≥digo**

#### **(a) Loop de √©pocas**
```python
for epoch in range(epochs):
```
- Este loop externo controla o n√∫mero total de √©pocas de treinamento. Cada √©poca representa uma passagem completa pelo conjunto de dados de treinamento.
- `epochs` √© o n√∫mero total de vezes que o modelo ver√° o conjunto de dados.

#### **(b) Modo de treinamento**
```python
model.train()
```
- Coloca o modelo no **modo de treinamento**. Isso √© importante porque algumas camadas (como `Dropout` ou `BatchNorm`) se comportam de forma diferente durante o treinamento e a infer√™ncia.
- No modo de treinamento, essas camadas ajustam seus par√¢metros ou aplicam regulariza√ß√£o.

#### **(c) Inicializa√ß√£o do total da perda**
```python
total_loss = 0
```
- Aqui, √© inicializada uma vari√°vel para acumular a perda total ao longo de todos os lotes da √©poca. Isso ser√° usado para calcular a perda m√©dia no final da √©poca.

---

### **3. Loop de lotes (batches)**
```python
for X_batch, y_batch in train_loader:
```
- Este loop interno itera sobre os dados de treinamento divididos em lotes (batches), que s√£o fornecidos pelo `DataLoader` (`train_loader`).
- Cada `X_batch` cont√©m um subconjunto dos dados de entrada, e `y_batch` cont√©m os r√≥tulos correspondentes.

#### **(a) Envio dos dados para o dispositivo**
```python
X_batch, y_batch = X_batch.to(device), y_batch.to(device)
```
- Move os dados de entrada (`X_batch`) e os r√≥tulos (`y_batch`) para o dispositivo de computa√ß√£o configurado (CPU ou GPU). Isso √© necess√°rio para garantir que os dados e o modelo estejam no mesmo dispositivo durante o treinamento.

#### **(b) Zerar os gradientes acumulados**
```python
optimizer.zero_grad()
```
- Zera os gradientes acumulados nos par√¢metros do modelo. No PyTorch, os gradientes s√£o acumulados por padr√£o, ent√£o √© necess√°rio limp√°-los antes de calcular os novos gradientes para o lote atual.

#### **(c) Forward pass**
```python
outputs = model(X_batch)
```
- Passa os dados de entrada (`X_batch`) pelo modelo, gerando as sa√≠das (`outputs`), que geralmente s√£o os logits (valores antes da aplica√ß√£o de softmax).

#### **(d) C√°lculo da perda**
```python
loss = criterion(outputs, y_batch)
```
- Calcula a perda entre as sa√≠das previstas pelo modelo (`outputs`) e os r√≥tulos verdadeiros (`y_batch`) usando a fun√ß√£o de perda definida (`criterion`, que neste caso √© `CrossEntropyLoss`).

#### **(e) Backward pass**
```python
loss.backward()
```
- Calcula os gradientes da perda em rela√ß√£o aos pesos do modelo usando o algoritmo de backpropagation. Esses gradientes s√£o armazenados nos par√¢metros do modelo (acess√≠veis via `model.parameters()`).

#### **(f) Atualiza√ß√£o dos pesos**
```python
optimizer.step()
```
- Atualiza os pesos do modelo usando os gradientes calculados no passo anterior. O otimizador (`optimizer`, que neste caso √© `Adam`) aplica a regra de atualiza√ß√£o apropriada com base nos gradientes e na taxa de aprendizado (`learning_rate`).

#### **(g) Acumula√ß√£o da perda**
```python
total_loss += loss.item()
```
- Adiciona a perda do lote atual (`loss.item()`) ao total acumulado da √©poca (`total_loss`). O m√©todo `.item()` √© usado para obter o valor escalar da perda como um n√∫mero Python.

---

### **4. Exibi√ß√£o da perda m√©dia por √©poca**
```python
print(f'Epoch {epoch+1}/{epochs}, Loss: {total_loss/len(train_loader):.4f}')
```
- Ap√≥s o t√©rmino de todos os lotes em uma √©poca, calcula-se a perda m√©dia dividindo o total acumulado (`total_loss`) pelo n√∫mero de lotes (`len(train_loader)`).
- Exibe a perda m√©dia para a √©poca atual no formato especificado.

---

### **Resumo do Processo**
1. **Forward pass**: Os dados de entrada s√£o passados pelo modelo para gerar previs√µes.
2. **C√°lculo da perda**: A diferen√ßa entre as previs√µes e os r√≥tulos verdadeiros √© avaliada usando a fun√ß√£o de perda.
3. **Backward pass**: Os gradientes da perda em rela√ß√£o aos pesos do modelo s√£o calculados.
4. **Atualiza√ß√£o dos pesos**: Os pesos do modelo s√£o atualizados pelo otimizador com base nos gradientes.
5. **Monitoramento**: A perda m√©dia por √©poca √© calculada e exibida para acompanhar o progresso do treinamento.

---

### **Import√¢ncia do Loop de Treinamento**
O loop de treinamento √© o cora√ß√£o do aprendizado em redes neurais. Ele ajusta os pesos do modelo para minimizar a fun√ß√£o de perda e, consequentemente, melhorar o desempenho do modelo no conjunto de dados de treinamento. O objetivo final √© que o modelo generalize bem para novos dados (conjunto de teste ou valida√ß√£o).

## Avalia√ß√£o no conjunto de teste