# Classifica√ß√£o tabular

### üåæ **Classifica√ß√£o de Sementes de Trigo - Explica√ß√£o Inicial**  

Este conjunto de dados cont√©m **medidas f√≠sicas de sementes de trigo** e tem como objetivo a **classifica√ß√£o da esp√©cie** com base nessas caracter√≠sticas. Cada linha representa uma semente e inclui as seguintes informa√ß√µes:  

üîπ **Caracter√≠sticas das sementes:**  
- **√Årea**: Tamanho da superf√≠cie da semente.  
- **Per√≠metro**: Medida do contorno da semente.  
- **Compacidade**: Grau de proximidade entre as partes da semente.  
- **Comprimento**: Tamanho longitudinal da semente.  
- **Largura**: Largura m√°xima da semente.  
- **Assimetria**: Diferen√ßa na forma da semente em rela√ß√£o a um eixo.  
- **Comprimento do sulco**: Medida do sulco central da semente.  

üîπ **Classe de sa√≠da:**  
- **Esp√©cie**: Representa o tipo de semente de trigo (0, 1 ou 2), indicando a qual variedade ela pertence.  

O objetivo do problema √© utilizar essas medidas para treinar um modelo de **classifica√ß√£o supervisionada**, permitindo identificar corretamente a esp√©cie de uma nova semente com base nas suas caracter√≠sticas. üöÄüåæ

In [None]:
import pandas as pd

In [None]:
dados = pd.read_csv('https://raw.githubusercontent.com/alura-cursos/Primeiros_passos_pytorch/main/sementes.csv')
dados.head()

Unnamed: 0,√Årea,Per√≠metro,Compacidade,Comprimento,Largura,Assimetria,Comprimento do sulco,Esp√©cie
0,15.26,14.84,871.0,5.763,3.312,2.221,5.22,0
1,14.88,14.57,8.811,5.554,3.333,1.018,4.956,0
2,14.29,14.09,905.0,5.291,3.337,2.699,4.825,0
3,13.84,13.94,8.955,5.324,3.379,2.259,4.805,0
4,16.14,14.99,9.034,5.658,3.562,1.355,5.175,0


In [None]:
dados['Esp√©cie'].unique()

array([0, 1, 2])

In [None]:
X = dados.drop(['Esp√©cie'],axis=1).values
y = dados['Esp√©cie'].values

In [None]:
from sklearn.model_selection import train_test_split
X_treino,X_teste,y_treino,y_teste = train_test_split(X,y,test_size=0.2,stratify=y,random_state=42)

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

from sklearn.preprocessing import StandardScaler

## Normaliza√ß√£o dos dados

https://pytorch.org/docs/stable/tensors.html

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

In [None]:
scaler = StandardScaler()
X_treino = torch.tensor(scaler.fit_transform(X_treino), dtype=torch.float32)
X_teste = torch.tensor(scaler.transform(X_teste), dtype=torch.float32)

In [None]:
y_treino = torch.tensor(y_treino, dtype=torch.long)
y_teste = torch.tensor(y_teste, dtype=torch.long)

## Criando DataLoaders

In [None]:
train_dataset = TensorDataset(X_treino, y_treino)
test_dataset = TensorDataset(X_teste, y_teste)

train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

## Defini√ß√£o da Rede Neural

https://pytorch.org/docs/stable/generated/torch.nn.Module.html

In [None]:
# Defini√ß√£o da Rede Neural
class Classifier(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(Classifier, self).__init__()
        self.fc1 = nn.Linear(input_size, hidden_size)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(hidden_size, output_size)

    def forward(self, x):
        x = self.fc1(x)
        x = self.relu(x)
        x = self.fc2(x)
        return x

### üìå **O que √© `nn.Linear`?**
`nn.Linear(in_features, out_features)` √© uma camada totalmente conectada (ou densa), que realiza uma transforma√ß√£o linear dos dados de entrada:


$$ Y = XW^T + b $$


onde:
- \( X \) √© o tensor de entrada
- \( W \) s√£o os pesos da camada
- \( b \) √© o bias (termo de deslocamento)
- \( Y \) √© a sa√≠da transformada

Essa camada aprende \( W \) e \( b \) durante o treinamento para mapear a entrada na sa√≠da desejada.

---

### üîπ **Explica√ß√£o da Arquitetura**
1. **Camada oculta (`self.fc1`)**  
   ```python
   self.fc1 = nn.Linear(input_size, hidden_size)
   ```
   - Converte a entrada (`input_size`) para um espa√ßo de representa√ß√£o de dimens√£o `hidden_size`.
   - Aprender√° pesos $ W_1 $ e bias $ b_1$ para essa transforma√ß√£o.

2. **Ativa√ß√£o ReLU (`self.relu`)**  
   ```python
   self.relu = nn.ReLU()
   ```
   - Aplica a fun√ß√£o de ativa√ß√£o ReLU:
     
     $$ f(x) = \max(0, x) $$
     
   - Introduz n√£o-linearidade, permitindo que a rede aprenda padr√µes mais complexos.

3. **Camada de sa√≠da (`self.fc2`)**  
   ```python
   self.fc2 = nn.Linear(hidden_size, output_size)
   ```
   - Transforma a sa√≠da da camada oculta (`hidden_size`) no n√∫mero final de classes (`output_size`).
   - A sa√≠da ainda n√£o est√° normalizada (logits), ent√£o usamos `CrossEntropyLoss` para lidar com isso.

---

### üî• **Fluxo de Dados (`forward`)**
```python
def forward(self, x):
    x = self.fc1(x)   # Transforma√ß√£o linear
    x = self.relu(x)  # Ativa√ß√£o ReLU
    x = self.fc2(x)   # Segunda transforma√ß√£o linear
    return x          # Sa√≠da (logits)
```
- A entrada passa pela primeira camada densa (`fc1`).
- Depois, aplicamos a ativa√ß√£o `ReLU`, introduzindo n√£o-linearidade.
- Finalmente, a sa√≠da passa pela camada `fc2`, que gera 3 valores (um para cada classe).

üí° **Observa√ß√£o:**  
A sa√≠da do modelo s√£o **logits** (valores n√£o normalizados). Para obter probabilidades, aplicar√≠amos `nn.Softmax(dim=1)`, mas `CrossEntropyLoss` j√° faz isso internamente.

---

### üöÄ **Resumo**
- `nn.Linear` realiza transforma√ß√µes lineares de entrada para sa√≠da.
- `ReLU` adiciona n√£o-linearidade para melhorar a capacidade de aprendizado.
- O modelo √© uma rede neural simples com **uma camada oculta** e **tr√™s neur√¥nios de sa√≠da** (um para cada classe).

## Defini√ß√£o de hiperpar√¢metros

In [None]:
# Hiperpar√¢metros
input_size = X.shape[1]  # N√∫mero de features
hidden_size = 14
output_size = 3  # Tr√™s classes
learning_rate = 0.01
epochs = 20

### üìå **Regras pr√°ticas para definir o n√∫mero de neur√¥nios na camada oculta**
Como o n√∫mero de features de entrada √© **7**, podemos usar algumas heur√≠sticas comuns:

1Ô∏è‚É£ **Regra da m√©dia geom√©trica:**  
$$ \text{neur√¥nios na camada oculta} = \sqrt{\text{neur√¥nios de entrada} \times \text{neur√¥nios de sa√≠da}}
$$
Aplicando ao nosso caso:
$$
h = \sqrt{7 \times 3} = \sqrt{21} \approx 4 \text{ ou } 5
$$

2Ô∏è‚É£ **Regra do dobro do n√∫mero de entradas:**  
$$
h = 2 \times \text{n√∫mero de features} = 2 \times 7 = 14
$$
Se o problema for complexo, pode ser √∫til come√ßar com mais neur√¥nios.

3Ô∏è‚É£ **Regra do "funil" (entre entrada e sa√≠da):**  
- A camada oculta geralmente tem um n√∫mero intermedi√°rio de neur√¥nios entre a entrada e a sa√≠da.
- Um valor comum seria algo entre $  (7+3)/2 = 5;  2 \times 7 = 14  $.

---

### üöÄ **Escolha pr√°tica**
Se for um problema simples, **5 a 10 neur√¥nios** na camada oculta pode ser um bom come√ßo.  
Se for um problema mais complexo, com padr√µes dif√≠ceis de aprender, **10 a 14 neur√¥nios** pode ser melhor.  

#### **Aplicando no c√≥digo:**
```python
hidden_size = 5  # Ou 7, 10, 14, dependendo dos testes
model = Classifier(input_size=7, hidden_size=hidden_size, output_size=3)
```

---

### üî• **Melhor estrat√©gia: Experimenta√ß√£o!**
O melhor n√∫mero de neur√¥nios depende da complexidade do problema e dos dados. O ideal √© testar diferentes configura√ß√µes e observar a **performance no conjunto de valida√ß√£o**, usando t√©cnicas como **cross-validation** ou **grid search**.

## Inicializa√ß√£o do modelo

In [None]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Inicializando modelo, fun√ß√£o de perda e otimizador
model = Classifier(input_size, hidden_size, output_size).to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

## Treinamento do modelo

In [None]:
for epoch in range(epochs):
    model.train()
    total_loss = 0
    for X_batch, y_batch in train_loader:
        X_batch, y_batch = X_batch.to(device), y_batch.to(device)
        optimizer.zero_grad()
        outputs = model(X_batch)
        loss = criterion(outputs, y_batch)
        loss.backward()
        optimizer.step()
        total_loss += loss.item()
    print(f'Epoch {epoch+1}/{epochs}, Loss: {total_loss/len(train_loader):.4f}')


Epoch 1/20, Loss: 0.9714
Epoch 2/20, Loss: 0.8046
Epoch 3/20, Loss: 0.6542
Epoch 4/20, Loss: 0.5670
Epoch 5/20, Loss: 0.4592
Epoch 6/20, Loss: 0.3972
Epoch 7/20, Loss: 0.3085
Epoch 8/20, Loss: 0.2752
Epoch 9/20, Loss: 0.2524
Epoch 10/20, Loss: 0.2246
Epoch 11/20, Loss: 0.2011
Epoch 12/20, Loss: 0.1984
Epoch 13/20, Loss: 0.2290
Epoch 14/20, Loss: 0.1596
Epoch 15/20, Loss: 0.1736
Epoch 16/20, Loss: 0.1642
Epoch 17/20, Loss: 0.1516
Epoch 18/20, Loss: 0.1711
Epoch 19/20, Loss: 0.1408
Epoch 20/20, Loss: 0.1560


### **1. Estrutura do loop de treinamento**
O treinamento do modelo √© dividido em **√©pocas** (`epochs`) e **lotes (batches)**. Cada √©poca representa uma itera√ß√£o completa sobre o conjunto de dados de treinamento, enquanto o processamento em lotes divide o conjunto de dados em partes menores para melhorar a efici√™ncia computacional e permitir o uso de gradientes estoc√°sticos.

---

### **2. Passo a passo do c√≥digo**

#### **(a) Loop de √©pocas**
```python
for epoch in range(epochs):
```
- Este loop externo controla o n√∫mero total de √©pocas de treinamento. Cada √©poca representa uma passagem completa pelo conjunto de dados de treinamento.
- `epochs` √© o n√∫mero total de vezes que o modelo ver√° o conjunto de dados.

#### **(b) Modo de treinamento**
```python
model.train()
```
- Coloca o modelo no **modo de treinamento**. Isso √© importante porque algumas camadas (como `Dropout` ou `BatchNorm`) se comportam de forma diferente durante o treinamento e a infer√™ncia.
- No modo de treinamento, essas camadas ajustam seus par√¢metros ou aplicam regulariza√ß√£o.

#### **(c) Inicializa√ß√£o do total da perda**
```python
total_loss = 0
```
- Aqui, √© inicializada uma vari√°vel para acumular a perda total ao longo de todos os lotes da √©poca. Isso ser√° usado para calcular a perda m√©dia no final da √©poca.

---

### **3. Loop de lotes (batches)**
```python
for X_batch, y_batch in train_loader:
```
- Este loop interno itera sobre os dados de treinamento divididos em lotes (batches), que s√£o fornecidos pelo `DataLoader` (`train_loader`).
- Cada `X_batch` cont√©m um subconjunto dos dados de entrada, e `y_batch` cont√©m os r√≥tulos correspondentes.

#### **(a) Envio dos dados para o dispositivo**
```python
X_batch, y_batch = X_batch.to(device), y_batch.to(device)
```
- Move os dados de entrada (`X_batch`) e os r√≥tulos (`y_batch`) para o dispositivo de computa√ß√£o configurado (CPU ou GPU). Isso √© necess√°rio para garantir que os dados e o modelo estejam no mesmo dispositivo durante o treinamento.

#### **(b) Zerar os gradientes acumulados**
```python
optimizer.zero_grad()
```
- Zera os gradientes acumulados nos par√¢metros do modelo. No PyTorch, os gradientes s√£o acumulados por padr√£o, ent√£o √© necess√°rio limp√°-los antes de calcular os novos gradientes para o lote atual.

#### **(c) Forward pass**
```python
outputs = model(X_batch)
```
- Passa os dados de entrada (`X_batch`) pelo modelo, gerando as sa√≠das (`outputs`), que geralmente s√£o os logits (valores antes da aplica√ß√£o de softmax).

#### **(d) C√°lculo da perda**
```python
loss = criterion(outputs, y_batch)
```
- Calcula a perda entre as sa√≠das previstas pelo modelo (`outputs`) e os r√≥tulos verdadeiros (`y_batch`) usando a fun√ß√£o de perda definida (`criterion`, que neste caso √© `CrossEntropyLoss`).

#### **(e) Backward pass**
```python
loss.backward()
```
- Calcula os gradientes da perda em rela√ß√£o aos pesos do modelo usando o algoritmo de backpropagation. Esses gradientes s√£o armazenados nos par√¢metros do modelo (acess√≠veis via `model.parameters()`).

#### **(f) Atualiza√ß√£o dos pesos**
```python
optimizer.step()
```
- Atualiza os pesos do modelo usando os gradientes calculados no passo anterior. O otimizador (`optimizer`, que neste caso √© `Adam`) aplica a regra de atualiza√ß√£o apropriada com base nos gradientes e na taxa de aprendizado (`learning_rate`).

#### **(g) Acumula√ß√£o da perda**
```python
total_loss += loss.item()
```
- Adiciona a perda do lote atual (`loss.item()`) ao total acumulado da √©poca (`total_loss`). O m√©todo `.item()` √© usado para obter o valor escalar da perda como um n√∫mero Python.

---

### **4. Exibi√ß√£o da perda m√©dia por √©poca**
```python
print(f'Epoch {epoch+1}/{epochs}, Loss: {total_loss/len(train_loader):.4f}')
```
- Ap√≥s o t√©rmino de todos os lotes em uma √©poca, calcula-se a perda m√©dia dividindo o total acumulado (`total_loss`) pelo n√∫mero de lotes (`len(train_loader)`).
- Exibe a perda m√©dia para a √©poca atual no formato especificado.

---

### **Resumo do Processo**
1. **Forward pass**: Os dados de entrada s√£o passados pelo modelo para gerar previs√µes.
2. **C√°lculo da perda**: A diferen√ßa entre as previs√µes e os r√≥tulos verdadeiros √© avaliada usando a fun√ß√£o de perda.
3. **Backward pass**: Os gradientes da perda em rela√ß√£o aos pesos do modelo s√£o calculados.
4. **Atualiza√ß√£o dos pesos**: Os pesos do modelo s√£o atualizados pelo otimizador com base nos gradientes.
5. **Monitoramento**: A perda m√©dia por √©poca √© calculada e exibida para acompanhar o progresso do treinamento.

---

### **Import√¢ncia do Loop de Treinamento**
O loop de treinamento √© o cora√ß√£o do aprendizado em redes neurais. Ele ajusta os pesos do modelo para minimizar a fun√ß√£o de perda e, consequentemente, melhorar o desempenho do modelo no conjunto de dados de treinamento. O objetivo final √© que o modelo generalize bem para novos dados (conjunto de teste ou valida√ß√£o).

## Avalia√ß√£o no conjunto de teste

In [None]:
# Avalia√ß√£o no conjunto de teste
model.eval()
correct = 0
total = 0
with torch.no_grad():
    for X_batch, y_batch in test_loader:
        X_batch, y_batch = X_batch.to(device), y_batch.to(device)
        outputs = model(X_batch)
        _, predicted = torch.max(outputs, 1)
        total += y_batch.size(0)
        correct += (predicted == y_batch).sum().item()

print(f'Acur√°cia no teste: {100 * correct / total:.2f}%')

Acur√°cia no teste: 88.10%


In [None]:
# Nova amostra (linha de teste)
nova_amostra = [[15.26, 14.84, 871.000, 5.763, 3.312, 2.221, 5.220]]

# Aplicar o mesmo scaler usado no treinamento
nova_amostra_normalizada = torch.tensor(scaler.transform(nova_amostra), dtype=torch.float32).to(device)


In [None]:
model.eval()  # Garante que o modelo est√° em modo de avalia√ß√£o
with torch.no_grad():  # Desabilita o c√°lculo de gradientes
    output = model(nova_amostra_normalizada)  # Forward pass
    _, predicted_class = torch.max(output, 1)  # Obt√©m a classe prevista


In [None]:
rotulo_verdadeiro = 0  # O r√≥tulo verdadeiro fornecido
print(f'R√≥tulo verdadeiro: {rotulo_verdadeiro}, Classe prevista: {predicted_class.item()}')


R√≥tulo verdadeiro: 0, Classe prevista: 0


# GANs

Sim, ainda vale a pena aprender sobre **GANs (Generative Adversarial Networks)**, mas o espa√ßo que elas dominavam foi reduzido com a ascens√£o dos **modelos de difus√£o**. Vamos comparar os dois e entender quando GANs ainda s√£o √∫teis.  

---

## **üìâ Por que os modelos de difus√£o superaram as GANs em muitas √°reas?**
1. **Qualidade e diversidade** üé®  
   - GANs geram imagens realistas, mas tendem a sofrer com **mode collapse** (onde produzem poucas varia√ß√µes de amostras).  
   - Modelos de difus√£o, como **Stable Diffusion** e **DALL¬∑E 2**, produzem imagens mais diversas e com maior qualidade.  

2. **Treinamento est√°vel** ‚öñÔ∏è  
   - GANs usam um processo adversarial (gerador vs. discriminador), que pode ser **dif√≠cil de treinar** e exige muito ajuste.  
   - Modelos de difus√£o t√™m um treinamento mais **est√°vel** e geralmente convergem melhor.  

3. **Resolu√ß√£o e controle** üîç  
   - Modelos de difus√£o conseguem gerar imagens **de alt√≠ssima resolu√ß√£o** com mais detalhes.  
   - GANs, especialmente as mais antigas, t√™m dificuldades para manter detalhes em imagens grandes.  

---

## **üìå Ainda vale a pena aprender GANs?**
**Sim!** Elas ainda s√£o √∫teis em alguns cen√°rios:  

1. **Gera√ß√£o em tempo real** üéÆ  
   - GANs s√£o muito **mais r√°pidas** na infer√™ncia do que modelos de difus√£o. Por isso, ainda s√£o usadas em **games**, **realidade aumentada** e **super-resolu√ß√£o de v√≠deo**.  

2. **Aprendizado n√£o supervisionado** üîç  
   - GANs podem ser √∫teis para **aprendizado sem r√≥tulos** e **data augmentation** em √°reas como detec√ß√£o de anomalias.  

3. **Aplica√ß√µes espec√≠ficas** üè≠  
   - **StyleGAN** ainda √© um dos melhores modelos para gerar rostos realistas.  
   - **CycleGAN** √© muito usado para tarefas como transforma√ß√£o de imagens (ex.: transformar uma foto de dia para noite).  

---

## **üß† Ent√£o, o que estudar primeiro?**
- Se seu foco for **arte generativa, IA generativa moderna e PLN**, priorize **modelos de difus√£o**.  
- Se precisar de **gera√ß√£o r√°pida de imagens ou v√≠deo** ou quer entender melhor **adversarial training**, GANs ainda s√£o um t√≥pico relevante.  

Se puder, aprenda **os dois**! Eles representam diferentes abordagens para **modelos generativos**, e entender ambos te d√° mais flexibilidade para escolher a melhor solu√ß√£o. üöÄ

# Difus√£o