## 📅 Dia 4 – Regularização e Avaliação

### 🎯 Objetivo:
Evitar overfitting e entender como avaliar modelos corretamente.

### 📚 Teoria:
- Overfitting vs. Underfitting
- Técnicas: Dropout, EarlyStopping, validação
- Métricas: Precision, Recall, F1-score, ROC AUC

### 🛠 Prática:
- Adicionar Dropout ao modelo de texto e ao de imagem
- Usar EarlyStopping com val_loss
- Gerar e interpretar:
- Matriz de confusão
- Classificação com classification_report
- Curva ROC

---

# **Overfitting**
O modelo aprende demais os dados de treino, inclusive o ruído, perdendo a capacidade de generalizar para novos dados.
``Alerta:`` Excelente desempenho no treino, ruim na validação/teste.

Como previnir? Utilizar algumas técninas como Dropout, EarlyStopping e Validação.

``Dropout:`` desativa aleatoriamente uma certa porcetagem dos neurônios durante o treino. 

In [1]:
import torch.nn as nn

model = nn.Sequential(
    nn.Linear(128, 64),
    nn.ReLU(),
    nn.Dropout(0.5),  # 50% de dropout
    nn.Linear(64, 1)
)

``EarlyStopping:`` Interrompe o treino caso a métrica de validação parar de melhorar.

``Validação cruzada:`` pode ser K-fold ou hold-out, que consistem em dividir o conjunto de dados para garantir a avaliação em dados não vistos

---

# **Underfitting**
O modelo não aprende o suficiente nem os padrões do treino.
``Alerta:`` Desempenho ruim tanto no treino quanto na validação.

---

# **Métricas**

**Precisão:** quanto estava correto

``Precisão =  Verdadeiros Positivos (TP) / TP + Falsos Positivos (FP)``
​
- **Exemplo:** Se o modelo disse que 10 amostras eram positivas, mas só 6 estavam certas

    ``Precisão = 6 / 10 = 0.6 (ou 60%)``

**Recall:** quantos positivos reais o modelo conseguiu encontrar

``Recall = TP / TP + Falsos Negativos (FN)``

- **Exemplo:** Se havia 8 casos positivos, mas o modelo só identificou 6

    ``Recall = 6 / 8 = 0.75 (ou 75%)``

​**F1-Score:** um equilíbrio entre a precisao e o recall

``F1 = 2 [(Precision ⋅ Recall) / (Precision + Recall)]``

OBS: Um F1-score alto só acontece quando ambas precision e recall são altas. Bom para utilizar quando há um desequilíbrio entre classes.

**ROC AUC (Receiver Operating Characteristic – Area Under Curve):** 

ROC → mostra como o modelo se comporta ao mudar o limiar de decisão (threshold)

Eixos: 
- **Eixo Y = Recall (ou Sensibilidade)**
→ Proporção de positivos corretamente detectados.

- **Eixo X = Falsos Positivos (1 - Especificidade)**
→ Proporção de negativos que foram incorretamente classificados como positivos.
