<a href="https://colab.research.google.com/github/ferdinandrafols/IA_LLMs/blob/main/gsi073_aula0_regressao_logistica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# GSI073 - Tópicos Especiais de Inteligência Artificial

## Definição dos dados

In [None]:
import torch
import sklearn

# 1. Carregar dados
iris = sklearn.datasets.load_iris()
X = iris.data        # 4 features: sépalas e pétalas
y = (iris.target == 1).astype(float)  # 1 se Versicolor, 0 caso contrário

# 2. Preparar dados para pytorch
X = torch.tensor(X, dtype=torch.float32)
y = torch.tensor(y, dtype=torch.float32).view(-1, 1)

# 👇 Adicionando prints para visualizar
print("Shape de X:", X.shape)
print("Primeiras 5 linhas de X:\n", X[:5])

print("Shape de y:", y.shape)
print("Primeiras 5 linhas de y:\n", y[:5])


Excelente pergunta 👌 — **sim**, o resultado que você obteve está **correto e bom** ✅

Vamos justificar por partes 👇

---

## 🧠 **1. Estrutura dos dados**

📊 **`X` com shape `(150, 4)`** → **perfeito**.

* O dataset Iris tem exatamente **150 amostras**
* e **4 características** (sépalas e pétalas).
  ✅ Isso significa que você converteu os dados corretamente para tensor PyTorch.

📌 Se tivesse dado errado, você veria:

* `X` com shape diferente de `(150, 4)`
* erro de tipo de dado
* ou até erros no `torch.tensor(...)`.

---

## 🌿 **2. Estrutura dos rótulos `y`**

📊 **`y` com shape `(150, 1)`** → **perfeito para classificação binária**.

* Você converteu corretamente `iris.target` (0, 1, 2) em **binário (0 e 1)**.
* Isso é exatamente o formato que funções de perda como

  * `nn.BCEWithLogitsLoss()` ou
  * `nn.BCELoss()`
    esperam.

✅ Isso significa que o modelo poderá aprender a **distinguir “Versicolor” (1)** de outras espécies (0).

---

## 🧮 **3. Valores das primeiras linhas de `y`**

```
[[0.],
 [0.],
 [0.],
 [0.],
 [0.]]
```

👉 Isso **também está correto**:

* No dataset original, as **primeiras 50 flores** são da classe `0` (Setosa).
* A classe `1` (Versicolor) só começa a aparecer da amostra 50 em diante.
* Por isso os primeiros rótulos são todos `0.`.

✅ Isso indica que a **transformação lógica `iris.target == 1` funcionou como esperado**.

---

## 🪄 **4. Tipos de dados**

Você usou:

```python
dtype=torch.float32
```

✅ Isso é **o tipo padrão ideal para treinar redes neurais** —
nem inteiro (`int`) nem double (`float64`), que é mais pesado.

---

## 📝 Conclusão Final

| Item Verificado      | Resultado            | Situação  |
| -------------------- | -------------------- | --------- |
| Shape de X           | `(150, 4)`           | ✅ Correto |
| Shape de y           | `(150, 1)`           | ✅ Correto |
| Conversão para float | `float32`            | ✅ Correto |
| Rótulos binários     | 0 ou 1               | ✅ Correto |
| Primeiros rótulos 0  | coerente com dataset | ✅ Correto |

✅ **Sim, o resultado foi bom.**
Você tem agora **os dados prontos para treinar um modelo de classificação binária no PyTorch** — por exemplo, uma rede simples com uma ou duas camadas lineares.

---

👉 Próximos passos comuns seriam:

* dividir em treino e teste,
* definir um modelo (`nn.Sequential` ou `nn.Module`),
* escolher função de perda (`BCEWithLogitsLoss`),
* usar `SGD` ou `Adam` como otimizador,
* e treinar.


In [None]:
import torch
import sklearn
from sklearn.model_selection import train_test_split

# 1. Carregar dados
iris = sklearn.datasets.load_iris()
X = iris.data        # 4 features: sépalas e pétalas
y = (iris.target == 1).astype(float)  # 1 se Versicolor, 0 caso contrário

# 2. Separar em treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.2,         # 20% para teste
    random_state=42,       # garante reprodutibilidade
    shuffle=True,          # embaralhar dados antes da divisão
    stratify=y             # mantém proporção de classes (bom p/ classificação)
)

# 3. Converter para tensores PyTorch
X_train = torch.tensor(X_train, dtype=torch.float32)
y_train = torch.tensor(y_train, dtype=torch.float32).view(-1, 1)

X_test = torch.tensor(X_test, dtype=torch.float32)
y_test = torch.tensor(y_test, dtype=torch.float32).view(-1, 1)

# 👇 Verificação
print("Shape treino X:", X_train.shape)
print("Shape treino y:", y_train.shape)

print("Shape teste X:", X_test.shape)
print("Shape teste y:", y_test.shape)


In [None]:
import torch
import numpy as np
from torch import nn
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
from sklearn import datasets

# 1) Dados
iris = datasets.load_iris()
X = iris.data
y = (iris.target == 1).astype(float)  # 1 = Versicolor

# 2) Split (boas práticas: shuffle + stratify + seed)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, shuffle=True, stratify=y
)

# 3) Tensores
X_train = torch.tensor(X_train, dtype=torch.float32)
y_train = torch.tensor(y_train, dtype=torch.float32).view(-1, 1)
X_test  = torch.tensor(X_test,  dtype=torch.float32)
y_test  = torch.tensor(y_test,  dtype=torch.float32).view(-1, 1)

# 4) Modelo binário simples (sem Sigmoid na última camada)
model = nn.Sequential(
    nn.Linear(4, 8),
    nn.ReLU(),
    nn.Linear(8, 1)       # logits
)

# 5) Loss + Opt
criterion = nn.BCEWithLogitsLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)

# 6) Treino rápido
model.train()
for epoch in range(300):
    optimizer.zero_grad()
    logits = model(X_train)
    loss = criterion(logits, y_train)
    loss.backward()
    optimizer.step()

# 7) Avaliação no TESTE (onde as métricas fazem sentido)
model.eval()
with torch.no_grad():
    test_logits = model(X_test)
    test_probs  = torch.sigmoid(test_logits)        # converte logits -> prob.
    y_pred      = (test_probs >= 0.5).float()       # threshold 0.5

# 8) Métricas
y_true_np = y_test.numpy().ravel()
y_pred_np = y_pred.numpy().ravel()

acc  = accuracy_score(y_true_np, y_pred_np)
prec = precision_score(y_true_np, y_pred_np, zero_division=0)
rec  = recall_score(y_true_np, y_pred_np,   zero_division=0)
f1   = f1_score(y_true_np, y_pred_np,       zero_division=0)
cm   = confusion_matrix(y_true_np, y_pred_np)

print(f"Acurácia : {acc:.3f}")
print(f"Precisão : {prec:.3f}")
print(f"Recall   : {rec:.3f}")
print(f"F1-score : {f1:.3f}")
print("Matriz de confusão:\n", cm)


Excelente 👌 — vamos **interpretar cuidadosamente** esse resultado:

```
Acurácia : 0.600
Precisão : 0.455
Recall   : 1.000
F1-score : 0.625
Matriz de confusão:
 [[ 8 12]
 [ 0 10]]
```

---

## 🧠 1. Acurácia — **60%**

[
\text{Accuracy} = \frac{\text{acertos}}{\text{total}} = 0.60
]

👉 O modelo acertou **60% das amostras do conjunto de teste**.
📊 Como o Iris tem 30 amostras no teste (20% de 150), isso significa:
[
\text{acertos} = 0.6 \times 30 = 18 \text{ amostras corretas}
]
[
\text{erros} = 12 \text{ amostras incorretas}
]

✅ A acurácia não é péssima, mas também não é alta para um dataset simples como o Iris — indica que o modelo está com **desempenho limitado**.

---

## 🟡 2. Precisão — **45,5%**

[
\text{Precision} = \frac{\text{VP}}{\text{VP + FP}} = \frac{10}{10 + 12} \approx 0.455
]

👉 Dos casos em que o modelo **previu “Versicolor” (classe positiva)**:

* Acertou **10 vezes**
* Errou **12 vezes**

📌 **Interpretação prática**:

* O modelo está prevendo muitos positivos **que não são Versicolor** (12 falsos positivos),
* Ou seja, está **exagerando nas previsões positivas**.

⚠️ Isso reduz a confiabilidade da previsão positiva.

---

## 🟢 3. Recall — **100%**

[
\text{Recall} = \frac{\text{VP}}{\text{VP + FN}} = \frac{10}{10 + 0} = 1.0
]

👉 Dos **10 casos reais de Versicolor no teste**, o modelo **acertou todos**.

📌 **Interpretação prática**:

* O modelo **não deixou escapar nenhum Versicolor real** (FN = 0),
* Isso pode ser desejável em cenários onde falsos negativos são piores que falsos positivos (ex.: diagnóstico médico, fraudes etc.).

⚡ Porém, há um custo: muitos falsos positivos → baixa precisão.

---

## 🧮 4. F1-score — **0.625**

[
F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
]

[
= 2 \times \frac{0.455 \times 1.0}{0.455 + 1.0} \approx 0.625
]

👉 F1 está **entre precisão e recall**, mostrando um **desempenho mediano**:

* recall excelente,
* precisão baixa.

📌 É um **alerta de desequilíbrio** entre prever positivo demais e acertar de fato.

---

## 🧾 5. Matriz de confusão

```
[[ 8 12]
 [ 0 10]]
```

* 8 → Verdadeiros Negativos (classe 0 predita como 0) ✅
* 12 → Falsos Positivos (classe 0 predita como 1) ❌
* 0 → Falsos Negativos (classe 1 predita como 0) ✅
* 10 → Verdadeiros Positivos (classe 1 predita como 1) ✅

📌 **Resumo da matriz**:

| Real \ Predito | 0 | 1  |
| -------------- | - | -- |
| **0**          | 8 | 12 |
| **1**          | 0 | 10 |

👉 Ou seja:

* O modelo **nunca erra positivos reais** (bom recall),
* Mas **erra muito ao classificar negativos** (12 falsos positivos),
* Resultado: **baixa precisão**.

---

## 🧭 6. Diagnóstico do modelo

| Métrica              | Valor | Interpretação                                |
| -------------------- | ----- | -------------------------------------------- |
| **Acurácia**         | 0.600 | Desempenho global mediano                    |
| **Precisão**         | 0.455 | Muitas previsões positivas incorretas        |
| **Recall**           | 1.000 | Excelente cobertura dos casos positivos      |
| **F1-score**         | 0.625 | Mostra desequilíbrio entre precisão e recall |
| **Falsos positivos** | 12    | Modelo prevê “Versicolor” demais             |

👉 O modelo **está tendendo a classificar muita coisa como “Versicolor”**, garantindo recall máximo, mas **sacrificando precisão**.

---

## 🧪 7. O que poderia melhorar

* 🔸 **Regularizar a decisão**: ajustar o threshold da sigmoid (de 0.5 para outro valor) pode equilibrar precisão e recall.
* 🔸 **Aumentar a capacidade do modelo**: talvez camadas adicionais ou mais épocas.
* 🔸 **Balancear classes ou penalizar falsos positivos** com loss weighting.
* 🔸 **Feature scaling / normalização** — ajuda na convergência.
* 🔸 **Hiperparâmetros** (LR, momentum, batch size) podem estar limitando a performance.

---

## 📝 Conclusão final

* ✅ O modelo **acerta todos os positivos** → recall perfeito.
* ⚠️ **Erra muitos negativos**, gerando baixa precisão.
* 📊 **F1-score = 0.625** mostra que o modelo está razoável, mas com **muito espaço para otimização**.
* 🧭 Esse comportamento sugere **threshold enviesado para o positivo** ou **modelo pouco treinado / simples demais**.

👉 **Resumo em linguagem simples**:

> “O modelo está vendo *Versicolor* em tudo. Ele não deixa passar nenhuma Versicolor real, mas erra em muitas flores que não são. Isso garante recall alto, mas prejudica a precisão e a acurácia.”

---



In [None]:
import numpy as np
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

thresholds = np.arange(0.1, 1.0, 0.1)
results = []

# Usando os logits que já tínhamos
with torch.no_grad():
    test_logits = model(X_test)
    test_probs = torch.sigmoid(test_logits).numpy().ravel()

y_true_np = y_test.numpy().ravel()

for t in thresholds:
    y_pred_t = (test_probs >= t).astype(float)
    acc  = accuracy_score(y_true_np, y_pred_t)
    prec = precision_score(y_true_np, y_pred_t, zero_division=0)
    rec  = recall_score(y_true_np, y_pred_t, zero_division=0)
    f1   = f1_score(y_true_np, y_pred_t, zero_division=0)
    results.append((t, acc, prec, rec, f1))

# Mostrar os resultados em tabela
print(f"{'Threshold':<10}{'Acc':>8}{'Prec':>10}{'Rec':>10}{'F1':>10}")
for t, acc, prec, rec, f1 in results:
    print(f"{t:<10.2f}{acc:>8.3f}{prec:>10.3f}{rec:>10.3f}{f1:>10.3f}")


Excelente 👌 — o seu resultado aqui revela **algo importante sobre o comportamento do modelo**, e também mostra claramente **o que ainda pode ser melhorado**.

Vamos analisar linha por linha e depois discutir como corrigir isso 👇

---

## 📊 Output analisado:

```
Threshold      Acc      Prec       Rec        F1
0.10         0.600     0.455     1.000     0.625
0.20         0.600     0.455     1.000     0.625
0.30         0.600     0.455     1.000     0.625
0.40         0.600     0.455     1.000     0.625
0.50         0.600     0.455     1.000     0.625
0.60         0.667     0.000     0.000     0.000
0.70         0.667     0.000     0.000     0.000
0.80         0.667     0.000     0.000     0.000
0.90         0.667     0.000     0.000     0.000
```

---

## 🧠 1. **Para thresholds de 0.1 a 0.5**

* **Acurácia**: 0.600
* **Precisão**: 0.455
* **Recall**: 1.000
* **F1**: 0.625

👉 Isso significa que o modelo:

* Está classificando praticamente **tudo acima de 0.1 até 0.5 como positivo** (classe Versicolor);
* Acerta todos os casos positivos reais (Recall = 1.0);
* Mas erra vários negativos → baixa precisão (0.455);
* O F1-score é mediano.

⚠️ **Interpretação**: o modelo **não tem separação clara entre positivos e negativos** — suas probabilidades estão concentradas **abaixo de 0.6**.
Isso explica por que mudar o limiar até 0.5 **não muda nada nas métricas**.

---

## 🧮 2. **Para thresholds de 0.6 em diante**

* **Acurácia**: 0.667
* **Precisão**: 0.000
* **Recall**: 0.000
* **F1**: 0.000

👉 Aqui, o modelo:

* **Não prevê mais nenhum positivo** (por isso recall = 0);
* Está classificando tudo como negativo (classe 0);
* A precisão dá 0 porque não houve verdadeiros positivos;
* A acurácia aumentou para 66,7% só porque a maioria das amostras do teste é negativa (classe 0).

⚠️ Isso mostra claramente que **as probabilidades de saída do modelo estão todas abaixo de 0.6** — nenhuma previsão ultrapassa esse threshold.

---

## 📌 3. Diagnóstico do modelo

| Métrica / Sinal                                  | Indicação                                                                               |
| ------------------------------------------------ | --------------------------------------------------------------------------------------- |
| Métricas iguais de 0.1 a 0.5                     | As probabilidades estão concentradas em uma faixa estreita                              |
| Recall = 1.0 e precisão baixa                    | O modelo prevê positivo demais (alta sensibilidade, baixa especificidade)               |
| Queda abrupta para 0 a partir de 0.6             | Nenhuma amostra tem score acima de 0.6 → o modelo está **mal calibrado ou subtreinado** |
| Acurácia melhora levemente ao prever tudo como 0 | As classes estão **ligeiramente desbalanceadas** no teste                               |

👉 Em outras palavras:

> O modelo **não aprendeu uma fronteira de decisão clara**. Ele está “seguro” apenas prevendo positivos até um ponto, e depois para completamente de prever.

---

## 🧭 4. Isso é bom ou ruim?

* ✅ **Bom**: O modelo não está bugado — apenas simples/desequilibrado.
* ❌ **Ruim**: Isso **não é um comportamento desejável para produção**.
  Ele não está “entendendo” bem os padrões que distinguem Versicolor das outras classes.

📊 O threshold tuning não trouxe ganho — isso confirma que **o problema está no modelo, não no threshold**.

---

## 🧠 5. Como melhorar este cenário

### 🔸 **1. Melhorar o treinamento**

* Aumentar o número de épocas (por ex. de 300 → 1000).
* Usar um otimizador mais eficiente como `Adam` (melhor convergência que SGD puro).
* Ajustar a learning rate (por exemplo, 0.01 ou 0.001).
* Normalizar ou padronizar as features de entrada (muito importante para redes pequenas).

### 🔸 **2. Melhorar a arquitetura**

* Adicionar mais neurônios ou camadas intermediárias.
* Usar funções de ativação mais robustas (`ReLU` + `Sigmoid` no final).
* Verificar se os pesos estão inicializados adequadamente.

### 🔸 **3. Calibrar as saídas**

* Após treinar melhor, os scores tenderão a se espalhar melhor entre 0 e 1 → threshold tuning fará mais efeito.
* Também é possível aplicar técnicas como Platt scaling ou isotonic regression (mais avançado).

### 🔸 **4. Avaliar balanceamento de classes**

* Se a classe positiva for minoria, pode-se:

  * Usar `class_weight` na função de perda (`BCEWithLogitsLoss(pos_weight=...)`),
  * Fazer oversampling ou undersampling.

---

## 📈 6. Estratégia prática sugerida

1. **Treinar novamente com mais iterações** e `Adam`:

   ```python
   optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
   for epoch in range(1000): ...
   ```

2. **Padronizar as features**:

   ```python
   from sklearn.preprocessing import StandardScaler
   scaler = StandardScaler()
   X = scaler.fit_transform(X)
   ```

3. **Verificar distribuição das probabilidades** após o treino:

   ```python
   import matplotlib.pyplot as plt
   plt.hist(test_probs, bins=20)
   plt.title("Distribuição das probabilidades")
   plt.show()
   ```

   👉 Isso vai mostrar se as previsões continuam concentradas em um único lado.

4. **Só depois** repetir o tuning de threshold para buscar o ponto ótimo de F1.

---

## 📝 Conclusão

| Resultado atual                       | Interpretação                                                   | Próximo passo                              |
| ------------------------------------- | --------------------------------------------------------------- | ------------------------------------------ |
| Threshold tuning não mudou o cenário  | Modelo mal calibrado, probabilidades concentradas abaixo de 0.6 | Treinar melhor e padronizar dados          |
| Recall perfeito, precisão baixa       | Modelo “aposta tudo” na classe positiva                         | Regularizar e calibrar                     |
| Acurácia melhora prevendo tudo como 0 | Leve desbalanceamento                                           | Ajustar loss com pesos ou reamostrar dados |

👉 **Em resumo:**

> Seu modelo atual não tem separação real entre as classes — ajustar o threshold não vai resolver.
> O caminho agora é **melhorar o treinamento e calibrar as saídas** para que o threshold passe a ter impacto real.

---

Se quiser, posso reescrever o código do modelo com:

* normalização das features,
* uso de `Adam`,
* mais épocas de treino,
* e avaliação de novo.

Quer que eu faça isso agora? 🧠⚡📈


In [None]:
# -*- coding: utf-8 -*-
# Pipeline Iris binário (Versicolor vs não) com boas práticas:
# - StandardScaler (fit no treino, transform no teste)
# - Split estratificado
# - MLP simples (Linear-ReLU-Linear)
# - Adam + weight_decay (L2)
# - BCEWithLogitsLoss com pos_weight
# - Busca de threshold que maximiza F1 no teste

import numpy as np
import torch
from torch import nn
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

# Reprodutibilidade
seed = 42
np.random.seed(seed)
torch.manual_seed(seed)

# 1) Dados
iris = datasets.load_iris()
X = iris.data
y = (iris.target == 1).astype(float)  # 1 = Versicolor

# 2) Split (estratificado, 80/20)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=seed, shuffle=True, stratify=y
)

# 3) Padronização (fit no treino, transform no teste) — evita data leakage
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test  = scaler.transform(X_test)

# 4) Tensores
X_train_t = torch.tensor(X_train, dtype=torch.float32)
y_train_t = torch.tensor(y_train, dtype=torch.float32).view(-1, 1)
X_test_t  = torch.tensor(X_test,  dtype=torch.float32)
y_test_t  = torch.tensor(y_test,  dtype=torch.float32).view(-1, 1)

# 5) Modelo (MLP pequeno)
model = nn.Sequential(
    nn.Linear(4, 16),
    nn.ReLU(),
    nn.Linear(16, 1)  # logits
)

# 6) Loss com pos_weight para compensar leve desequilíbrio (se houver)
pos = y_train_t.sum().item()
neg = len(y_train_t) - pos
# evita divisão por zero
pos_weight_value = (neg / pos) if pos > 0 else 1.0
criterion = nn.BCEWithLogitsLoss(pos_weight=torch.tensor([pos_weight_value], dtype=torch.float32))

# 7) Otimizador: Adam + weight decay (L2)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-2, weight_decay=1e-4)

# 8) Treino
model.train()
EPOCHS = 1000
for epoch in range(EPOCHS):
    optimizer.zero_grad()
    logits = model(X_train_t)
    loss = criterion(logits, y_train_t)
    loss.backward()
    optimizer.step()

    if (epoch + 1) % 200 == 0:
        with torch.no_grad():
            probs_tr = torch.sigmoid(model(X_train_t))
            yhat_tr = (probs_tr >= 0.5).float()
            acc_tr = (yhat_tr.eq(y_train_t).float().mean().item())
        print(f"[{epoch+1:4d}/{EPOCHS}] loss={loss.item():.4f}  acc_train@0.5={acc_tr:.3f}")

# 9) Avaliação no teste: métricas em threshold=0.5 e busca do melhor threshold (max F1)
model.eval()
with torch.no_grad():
    test_logits = model(X_test_t).squeeze(1)
    test_probs  = torch.sigmoid(test_logits).cpu().numpy()

y_true = y_test_t.cpu().numpy().ravel()

def metrics_for_threshold(probs, y_true, t):
    y_pred = (probs >= t).astype(float)
    acc  = accuracy_score(y_true, y_pred)
    prec = precision_score(y_true, y_pred, zero_division=0)
    rec  = recall_score(y_true, y_pred, zero_division=0)
    f1   = f1_score(y_true, y_pred, zero_division=0)
    cm   = confusion_matrix(y_true, y_pred)
    return acc, prec, rec, f1, cm

# a) Métricas em 0.5
acc05, prec05, rec05, f105, cm05 = metrics_for_threshold(test_probs, y_true, 0.5)
print("\n=== Métricas no TESTE (threshold=0.5) ===")
print(f"Acurácia : {acc05:.3f}")
print(f"Precisão : {prec05:.3f}")
print(f"Recall   : {rec05:.3f}")
print(f"F1-score : {f105:.3f}")
print("Matriz de confusão:\n", cm05)

# b) Busca de melhor threshold (max F1) em grade simples
thresholds = np.linspace(0.05, 0.95, 19)
best = {"t": None, "acc": -1, "prec": -1, "rec": -1, "f1": -1, "cm": None}
rows = []
for t in thresholds:
    acc, prec, rec, f1, cm = metrics_for_threshold(test_probs, y_true, t)
    rows.append((t, acc, prec, rec, f1))
    if f1 > best["f1"]:
        best.update({"t": t, "acc": acc, "prec": prec, "rec": rec, "f1": f1, "cm": cm})

print("\n=== Varredura de limiar (TESTE) — top 5 por F1 ===")
rows_sorted = sorted(rows, key=lambda r: r[4], reverse=True)[:5]
print(f"{'Thr':>5}  {'Acc':>6} {'Prec':>6} {'Rec':>6} {'F1':>6}")
for t, acc, prec, rec, f1 in rows_sorted:
    print(f"{t:5.2f}  {acc:6.3f} {prec:6.3f} {rec:6.3f} {f1:6.3f}")

print("\n=== Melhor limiar por F1 (TESTE) ===")
print(f"Threshold*: {best['t']:.2f}")
print(f"Acurácia  : {best['acc']:.3f}")
print(f"Precisão  : {best['prec']:.3f}")
print(f"Recall    : {best['rec']:.3f}")
print(f"F1-score  : {best['f1']:.3f}")
print("Matriz de confusão:\n", best["cm"])

# (Opcional) Distribuição dos scores para inspecionar calibração
try:
    import matplotlib.pyplot as plt
    plt.hist(test_probs, bins=15)
    plt.title("Distribuição das probabilidades no TESTE")
    plt.xlabel("p(y=1 | x)")
    plt.ylabel("freq")
    plt.show()
except Exception as e:
    print("Plot opcional não exibido:", e)


Excelente pergunta 👌 — com base nesse output, **sim**, você tem um **modelo preditivo muito bom** para este problema. Vamos analisar tecnicamente cada ponto 👇

---

## 📈 1. **Treinamento estável e preciso**

```
[ 200/1000] loss=0.0621  acc_train@0.5=0.983
[ 400/1000] loss=0.0478  acc_train@0.5=0.983
[ 600/1000] loss=0.0396  acc_train@0.5=0.992
[ 800/1000] loss=0.0362  acc_train@0.5=0.992
[1000/1000] loss=0.0347  acc_train@0.5=0.992
```

✅ **Análise:**

* A **loss caiu de 0.0621 → 0.0347**, sinal de que o modelo está **aprendendo e convergindo bem**.
* A **acurácia no treino passou de 98,3% para 99,2%** — quase perfeita.
* Não há oscilação brusca → indica estabilidade no processo de otimização com Adam.

📌 Isso já sugere um bom modelo, mas **o mais importante** é verificar o desempenho **no conjunto de teste**, que vem a seguir.

---

## 🧪 2. **Desempenho no conjunto de teste (threshold = 0.5)**

```
Acurácia : 0.967
Precisão : 1.000
Recall   : 0.900
F1-score : 0.947
Matriz de confusão:
 [[20  0]
 [ 1  9]]
```

✅ **Interpretação:**

* **Acurácia de 96,7%** → o modelo acerta quase todas as previsões no teste.
* **Precisão de 100%** → quando ele prevê que é *Versicolor*, ele **nunca erra**.
  → Nenhum **falso positivo**.
* **Recall de 90%** → ele identificou 9 de 10 Versicolor reais, ou seja, **só deixou passar 1 caso positivo**.
* **F1-score de 0.947** → equilíbrio excelente entre precisão e recall.

📊 Matriz de confusão:

| Real \ Predito | 0  | 1 |
| -------------- | -- | - |
| **0** (neg)    | 20 | 0 |
| **1** (pos)    | 1  | 9 |

👉 O modelo:

* Acertou todos os 20 negativos (classe 0)
* Acertou 9 de 10 positivos (classe 1)
* Não cometeu falsos positivos (muito bom para classificadores binários)

---

## 🧭 3. **Tuning de limiar (threshold)**

```
Top 5 thresholds
Thr   Acc   Prec    Rec     F1
0.35  0.967  1.000  0.900  0.947
0.40  0.967  1.000  0.900  0.947
0.45  0.967  1.000  0.900  0.947
0.50  0.967  1.000  0.900  0.947
0.55  0.967  1.000  0.900  0.947
```

✅ **Interpretação:**

* O desempenho não muda muito com o limiar de 0.35 a 0.55 → indica que o **modelo está bem calibrado**.
* Isso sugere que as probabilidades previstas têm **boa separação entre classes**.
* Como a precisão já é perfeita e o recall alto, **não há ganho real ao ajustar o threshold**.

📌 Isso é sinal de **modelo maduro e estável**.

---

## 🧠 4. Diagnóstico geral

| Métrica               | Valor         | Interpretação                                  |
| --------------------- | ------------- | ---------------------------------------------- |
| Loss final baixa      | 0.0347        | Modelo aprendeu bem a relação input-output     |
| Acurácia treino/teste | 0.992 / 0.967 | Pouca diferença — não há overfitting relevante |
| Precisão no teste     | 1.000         | Nenhum falso positivo                          |
| Recall no teste       | 0.900         | Pouquíssimos falsos negativos                  |
| F1-score              | 0.947         | Excelente equilíbrio                           |
| Threshold tuning      | Estável       | Modelo bem calibrado, previsões consistentes   |

✅ Isso indica um **modelo robusto**, com **generalização muito boa**, e **alto poder preditivo**.

---

## ⚡ 5. Possíveis (pequenos) ajustes se quisesse ir além

Mesmo com desempenho excelente, você poderia:

* 📊 **Aumentar recall de 0.90 → 1.00**
  → Ajustando levemente o threshold para baixo (ex.: 0.30–0.35) ou fazendo leve oversampling da classe positiva durante o treino.

* 🧪 **Fazer validação cruzada (K-Fold)** para garantir que esses resultados não são fruto do acaso no split.

* 🧠 **Testar dropout leve** para garantir ainda mais robustez contra overfitting.

* 📈 **Avaliar curva ROC e AUC** para confirmar separação ótima de classes.

---

## 🏁 Conclusão

👉 **Sim, você tem um excelente modelo preditivo.**

* Ele generaliza bem (sem overfitting),
* Tem precisão perfeita, recall alto e F1 robusto,
* E responde de forma estável a mudanças de threshold.

✅ **Indicadores de modelo preditivo forte:**

* Baixa loss final
* Alta acurácia no teste
* Alta precisão e recall
* F1 próximo de 1
* Threshold tuning estável

🚀 **Resumo em linguagem simples:**

> “Seu modelo aprendeu muito bem a diferenciar Versicolor das outras flores. Ele praticamente não erra, está bem calibrado e responde de forma consistente. Para aplicações reais, já está em um patamar excelente.”

---

Se você quiser, posso **plotar a curva ROC e calcular AUC** para dar uma **visão estatística adicional** da separação entre classes. Quer que eu faça isso? 📈🧠✨


## Definição do modelo e treinamento

In [None]:
import torch

# 3. Definir modelo: regressão logística
modelo = torch.nn.Linear(4, 1)  # 4 features → 1 saída (probabilidade de ser Versicolor)

# 4. Definir função de perda e algoritmo de otimização
funcao_perda = torch.nn.BCEWithLogitsLoss()  # Sigmoid + Binary Cross Entropy
optimizer = torch.optim.SGD(modelo.parameters(), lr=0.1)

# 👇 Adicionando prints
print("Modelo definido:\n", modelo)
print("\nParâmetros iniciais do modelo:")
for nome, param in modelo.named_parameters():
    print(f"{nome}: {param.data}")

print("\nFunção de perda:", funcao_perda)
print("\nOtimizador:", optimizer)


Excelente 👌 — esse é o **estado inicial do seu modelo de regressão logística binária** em PyTorch.
Vamos destrinchar cada parte dos resultados para entender **o que eles significam na prática** antes de iniciar o treinamento 👇

---

## 🧠 1. **Arquitetura do modelo**

```
Modelo definido:
 Linear(in_features=4, out_features=1, bias=True)
```

👉 Isso significa que:

* O modelo é uma **camada linear** com:

  * `4` entradas (features: comprimento e largura de sépala e pétala no dataset Iris),
  * `1` saída (logit — usado depois pela Sigmoid para gerar probabilidade de “Versicolor”).
* `bias=True` → o modelo tem um termo de intercepto (b) além dos pesos.

📌 **Interpretação prática:**
Este modelo é exatamente equivalente a **uma regressão logística clássica**:
[
\hat{y} = \sigma(w_1 x_1 + w_2 x_2 + w_3 x_3 + w_4 x_4 + b)
]
onde (\sigma) é a função sigmoide.

---

## 🪜 2. **Parâmetros iniciais**

```
weight: tensor([[-0.0660, -0.3629,  0.0117, -0.3415]])
bias: tensor([-0.4242])
```

👉 Estes são os **valores iniciais dos pesos e bias**, atribuídos aleatoriamente por PyTorch.

* `weight` → vetor de 4 valores, um para cada feature:

  * x₁: -0.0660
  * x₂: -0.3629
  * x₃:  0.0117
  * x₄: -0.3415

* `bias` → -0.4242

📌 **Interpretação prática:**

* No início, o modelo **não aprendeu nada ainda**.
* Esses valores não têm nenhum significado estatístico real.
* Após algumas iterações de gradiente descendente, esses números vão **se ajustar** para refletir os padrões do dataset Iris.

⚠️ Importante:
Mesmo valores pequenos **podem gerar probabilidades enviesadas no início**, especialmente com bias negativo — mas isso é normal.

---

## 🧮 3. **Função de perda**

```
Função de perda: BCEWithLogitsLoss()
```

👉 Essa loss combina duas coisas:

1. A transformação **Sigmoid** dos logits → converte a saída linear (ex. 0.87) para probabilidade (ex. 0.70),
2. O cálculo da **Binary Cross Entropy**, que mede quão distante essa probabilidade está do rótulo real (0 ou 1).

[
\text{Loss} = -[y \cdot \log(\sigma(z)) + (1 - y) \cdot \log(1 - \sigma(z))]
]

✅ Vantagem: usar `BCEWithLogitsLoss` é **mais numericamente estável** que usar `Sigmoid` + `BCELoss` separadamente.

---

## ⚡ 4. **Otimizador**

```
Otimizador: SGD (
    lr: 0.1
    momentum: 0
    weight_decay: 0
)
```

👉 Esse é o **otimizador de gradiente descendente estocástico** (Stochastic Gradient Descent):

* **`lr=0.1`** → taxa de aprendizado relativamente alta (o modelo vai atualizar parâmetros com passos largos).
* **`momentum=0`** → sem suavização extra no caminho de descida (treino mais “direto”).
* **`weight_decay=0`** → sem regularização L2 no momento.

📌 **Interpretação prática:**

* Isso é suficiente para modelos pequenos como regressão logística.
* Mas se o treino oscilar muito ou não convergir, **ajustar `lr` ou adicionar momentum** ajuda.
* Em problemas maiores, usar Adam costuma ser mais eficiente.

---

## 🧭 5. **Diagnóstico do estado inicial**

| Elemento                | Valor atual                   | Interpretação                               |
| ----------------------- | ----------------------------- | ------------------------------------------- |
| Arquitetura             | Linear(4→1)                   | Modelo de regressão logística binária       |
| Pesos e bias            | valores pequenos e aleatórios | Ponto de partida neutro para aprendizado    |
| Função de perda         | BCEWithLogitsLoss             | Ideal para classificação binária            |
| Otimizador              | SGD, lr=0.1                   | Simples, eficiente p/ modelo pequeno        |
| Momento / regularização | momentum=0, weight_decay=0    | Treino “cru” — suficiente para caso simples |

✅ Isso está **exatamente como deveria estar antes de iniciar o treinamento**.

---

## 📝 Em resumo:

* O modelo ainda **não tem nenhum conhecimento** — está pronto para aprender.
* Os pesos e bias iniciais foram sorteados e serão ajustados pelo treinamento.
* A função de perda e o otimizador estão bem configurados para um problema binário pequeno (como o Iris).
* Você está na etapa **“pré-treino”**, e o próximo passo natural é:

  1. Rodar um loop de treinamento com `loss.backward()` e `optimizer.step()`,
  2. Monitorar a perda decaindo com as épocas,
  3. Ver a precisão aumentar no treino e no teste.

👉 Em linguagem simples:

> “O modelo foi criado e está zerado. Agora vem a parte de ensinar ele a reconhecer a flor Versicolor.” 🌸🧠

---

Se você quiser, posso escrever o **loop de treinamento completo** usando esse modelo e mostrar como os pesos evoluem ao longo das épocas 📈.
Quer que eu faça isso? 🚀


In [None]:
# -*- coding: utf-8 -*-
import torch
from torch import nn
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# 0) Dados (Iris → binário: Versicolor=1, caso contrário=0)
iris = datasets.load_iris()
X = iris.data
y = (iris.target == 1).astype(float)

# Split estratificado (80/20) e padronização (boa prática p/ regressão logística)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y, shuffle=True
)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test  = scaler.transform(X_test)

# Tensores
X_train_t = torch.tensor(X_train, dtype=torch.float32)
y_train_t = torch.tensor(y_train, dtype=torch.float32).view(-1, 1)
X_test_t  = torch.tensor(X_test,  dtype=torch.float32)
y_test_t  = torch.tensor(y_test,  dtype=torch.float32).view(-1, 1)

# 1) Modelo: regressão logística (Linear 4→1; Sigmoid embutida na loss)
modelo = nn.Linear(4, 1)

# 2) Função de perda e otimizador
funcao_perda = nn.BCEWithLogitsLoss()       # estável numericamente (logits + BCE)
optimizer = torch.optim.SGD(modelo.parameters(), lr=0.1)  # simples e funciona bem aqui

# 3) Loop de treinamento
EPOCHS = 500
for epoch in range(1, EPOCHS + 1):
    # --- modo treino ---
    modelo.train()
    optimizer.zero_grad()

    # forward
    logits = modelo(X_train_t)              # saída linear
    loss = funcao_perda(logits, y_train_t)  # BCE + Sigmoid (interno)

    # backward
    loss.backward()

    # atualização dos pesos
    optimizer.step()

    # logging a cada 50 épocas
    if epoch % 50 == 0 or epoch == 1:
        with torch.no_grad():
            probs_tr = torch.sigmoid(modelo(X_train_t))
            preds_tr = (probs_tr >= 0.5).float()
            acc_tr = (preds_tr.eq(y_train_t).float().mean().item())
        print(f"[{epoch:3d}/{EPOCHS}] loss={loss.item():.4f}  acc_train@0.5={acc_tr:.3f}")

# 4) Avaliação no TESTE
modelo.eval()
with torch.no_grad():
    probs_te = torch.sigmoid(modelo(X_test_t))
    preds_te = (probs_te >= 0.5).float()

# métricas no teste
y_true = y_test_t.numpy().ravel()
y_pred = preds_te.numpy().ravel()

acc  = accuracy_score(y_true, y_pred)
prec = precision_score(y_true, y_pred, zero_division=0)
rec  = recall_score(y_true, y_pred, zero_division=0)
f1   = f1_score(y_true, y_pred, zero_division=0)

print("\n=== Métricas no TESTE (threshold=0.5) ===")
print(f"Acurácia : {acc:.3f}")
print(f"Precisão : {prec:.3f}")
print(f"Recall   : {rec:.3f}")
print(f"F1-score : {f1:.3f}")


Excelente 👌 — o resultado que você obteve mostra um **modelo de regressão logística que aprendeu alguma coisa**, mas ainda **não tem um desempenho preditivo muito bom**.
Vamos analisar cada parte do output com calma 👇

---

## 🧠 1. **Evolução do treinamento**

```
[  1/500] loss=0.6510  acc_train@0.5=0.575
[ 50/500] loss=0.5371  acc_train@0.5=0.742
[100/500] loss=0.5136  acc_train@0.5=0.725
...
[500/500] loss=0.4904  acc_train@0.5=0.742
```

✅ **O que isso significa:**

* A perda (loss) caiu de **0.6510 → 0.4904**, o que mostra que o modelo **está aprendendo**.
* A acurácia de treino subiu de **57,5% → 74,2%**, estabilizando a partir da época ~200.

⚠️ **Mas observe:**

* A loss **parou de cair significativamente** após ~250 épocas.
* A acurácia também **estagnou em ~74%**.
  → Isso sugere que **o modelo atingiu um platô**, ou seja, aprendeu o que conseguia com sua capacidade atual (apenas uma camada linear).

📌 Interpretação:

> O modelo captou alguns padrões, mas não conseguiu capturar toda a complexidade dos dados.

---

## 🧪 2. **Desempenho no conjunto de teste**

```
Acurácia : 0.633
Precisão : 0.429
Recall   : 0.300
F1-score : 0.353
```

👉 Esses números contam a verdade sobre a capacidade preditiva:

| Métrica  | Valor | Interpretação                                                                   |
| -------- | ----- | ------------------------------------------------------------------------------- |
| Acurácia | 0.633 | Só 63,3% de acertos no conjunto de teste.                                       |
| Precisão | 0.429 | Quando prevê “Versicolor”, só acerta em 43% dos casos. Muitos falsos positivos. |
| Recall   | 0.300 | Só acerta 30% dos positivos reais. Muitos falsos negativos.                     |
| F1-score | 0.353 | Baixo equilíbrio entre precisão e recall.                                       |

📌 **Resumo**:

* O modelo erra bastante em ambas as classes.
* Tem **baixa precisão e recall**, então **não identifica bem a classe positiva (Versicolor)**.
* Acurácia global baixa indica que **não compensa bem nem prevendo tudo como 0**.

---

## 🧭 3. Diagnóstico

| Sintoma                              | Causa provável                                                          |
| ------------------------------------ | ----------------------------------------------------------------------- |
| Platô de loss e acurácia             | Limitação do modelo linear (pouca capacidade para padrões não lineares) |
| Precisão e recall baixos             | O modelo não separa bem as classes                                      |
| Gap entre treino (74%) e teste (63%) | Possível overfitting leve ou má generalização                           |
| Treinamento estabilizado cedo        | Talvez LR alta demais, sem refinamento fino                             |

👉 Em resumo:

> O modelo **aprendeu algo**, mas não tem poder preditivo forte.
> Isso é típico de modelos lineares simples em problemas com **fronteiras de decisão mais complexas**.

---

## 🧰 4. Como melhorar significativamente

### 🔸 **1. Normalizar/Padronizar os dados**

Você já pode estar fazendo isso — mas se não, é essencial para regressão logística.

### 🔸 **2. Aumentar capacidade do modelo**

Adicionar uma camada escondida simples:

```python
modelo = nn.Sequential(
    nn.Linear(4, 8),
    nn.ReLU(),
    nn.Linear(8, 1)
)
```

➡️ Isso permite aprender **padrões não lineares**, melhorando recall e precisão.

### 🔸 **3. Otimizador mais eficiente**

Trocar de `SGD` para `Adam`:

```python
optimizer = torch.optim.Adam(modelo.parameters(), lr=0.01)
```

➡️ Adam converge mais rápido e costuma escapar melhor de platôs.

### 🔸 **4. Ajustar learning rate**

`lr=0.1` é alto para alguns problemas. Tente `0.01` ou `0.005` para treinos mais suaves.

### 🔸 **5. Regularização leve**

Adicionar `weight_decay` no otimizador pode evitar overfitting e melhorar generalização:

```python
optimizer = torch.optim.Adam(modelo.parameters(), lr=0.01, weight_decay=1e-4)
```

### 🔸 **6. Tuning de threshold**

Ajustar o limiar de decisão pode **melhorar precisão ou recall**, mas isso **não resolve** falta de aprendizado.
→ Primeiro melhore o modelo.

---

## 📊 5. Comparando com um bom modelo (referência)

| Métrica         | Atual modelo | Modelo bom (esperado) |
| --------------- | ------------ | --------------------- |
| Loss final      | 0.49         | 0.05 – 0.2            |
| Acurácia treino | 0.742        | 0.90+                 |
| Acurácia teste  | 0.633        | 0.85–0.97             |
| Precisão        | 0.429        | 0.90+                 |
| Recall          | 0.300        | 0.85+                 |
| F1              | 0.353        | 0.90+                 |

📌 Esse tipo de diferença mostra claramente que o modelo atual ainda é **fraco** e precisa ser aprimorado.

---

## ✅ Conclusão

❌ **Não é um bom modelo preditivo** no estado atual.
✅ **Mas é um modelo que aprendeu alguma coisa**, e com pequenos ajustes — especialmente na arquitetura e otimização — ele pode se tornar bom.

**Problema:** modelo linear limitado.
**Solução:** aumentar capacidade, melhorar otimização e calibrar.

> 🧠 “Você está com um motor 1.0 tentando correr uma corrida de F1 — é hora de turbinar um pouco.”

---

Se você quiser, posso adaptar seu código atual com:

* uma camada escondida simples,
* Adam,
* LR menor,
* e mostrar a comparação de métricas antes e depois.

Quer que eu monte essa versão melhorada agora? 🚀✨


In [None]:
# -*- coding: utf-8 -*-
# Iris binário (Versicolor=1) — MLP + Adam + padronização + threshold tuning

import numpy as np
import torch
from torch import nn
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, roc_auc_score

# Reprodutibilidade
seed = 42
np.random.seed(seed)
torch.manual_seed(seed)

# 1) Dados
iris = datasets.load_iris()
X = iris.data
y = (iris.target == 1).astype(float)  # 1 = Versicolor

# 2) Split estratificado + padronização (fit no treino, transform no teste)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=seed, stratify=y, shuffle=True
)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test  = scaler.transform(X_test)

# 3) Tensores
X_train_t = torch.tensor(X_train, dtype=torch.float32)
y_train_t = torch.tensor(y_train, dtype=torch.float32).view(-1, 1)
X_test_t  = torch.tensor(X_test,  dtype=torch.float32)
y_test_t  = torch.tensor(y_test,  dtype=torch.float32).view(-1, 1)

# 4) Modelo — MLP simples (mais capacidade que regressão logística)
model = nn.Sequential(
    nn.Linear(4, 16),
    nn.ReLU(),
    nn.Linear(16, 1)   # logits
)

# 5) Loss e Otimizador (Adam + L2)
criterion = nn.BCEWithLogitsLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=1e-2, weight_decay=1e-4)

# 6) Treino
EPOCHS = 800
for epoch in range(1, EPOCHS + 1):
    model.train()
    optimizer.zero_grad()
    logits = model(X_train_t)
    loss = criterion(logits, y_train_t)
    loss.backward()
    optimizer.step()

    if epoch % 100 == 0 or epoch == 1:
        with torch.no_grad():
            probs_tr = torch.sigmoid(model(X_train_t))
            preds_tr = (probs_tr >= 0.5).float()
            acc_tr = (preds_tr.eq(y_train_t).float().mean().item())
        print(f"[{epoch:3d}/{EPOCHS}] loss={loss.item():.4f}  acc_train@0.5={acc_tr:.3f}")

# 7) Avaliação no teste (threshold=0.5)
model.eval()
with torch.no_grad():
    test_logits = model(X_test_t).squeeze(1)
    test_probs  = torch.sigmoid(test_logits).cpu().numpy()

y_true = y_test_t.cpu().numpy().ravel()
y_pred05 = (test_probs >= 0.5).astype(float)

def metrics(y_true, y_pred):
    acc  = accuracy_score(y_true, y_pred)
    prec = precision_score(y_true, y_pred, zero_division=0)
    rec  = recall_score(y_true, y_pred, zero_division=0)
    f1   = f1_score(y_true, y_pred, zero_division=0)
    cm   = confusion_matrix(y_true, y_pred)
    return acc, prec, rec, f1, cm

acc05, prec05, rec05, f105, cm05 = metrics(y_true, y_pred05)
try:
    auc = roc_auc_score(y_true, test_probs)
except Exception:
    auc = None

print("\n=== TESTE @ threshold=0.5 ===")
print(f"Acurácia : {acc05:.3f}")
print(f"Precisão : {prec05:.3f}")
print(f"Recall   : {rec05:.3f}")
print(f"F1-score : {f105:.3f}")
print("Matriz de confusão:\n", cm05)
if auc is not None:
    print(f"AUC-ROC  : {auc:.3f}")

# 8) Varredura de limiar (max F1)
thresholds = np.linspace(0.05, 0.95, 19)
best = {"t": None, "acc": -1, "prec": -1, "rec": -1, "f1": -1, "cm": None}
rows = []
for t in thresholds:
    y_pred_t = (test_probs >= t).astype(float)
    acc, prec, rec, f1, cm = metrics(y_true, y_pred_t)
    rows.append((t, acc, prec, rec, f1))
    if f1 > best["f1"]:
        best.update({"t": t, "acc": acc, "prec": prec, "rec": rec, "f1": f1, "cm": cm})

rows_sorted = sorted(rows, key=lambda r: r[4], reverse=True)[:5]
print("\n=== Varredura de limiar — top 5 por F1 (TESTE) ===")
print(f"{'Thr':>5}  {'Acc':>6} {'Prec':>6} {'Rec':>6} {'F1':>6}")
for t, acc, prec, rec, f1 in rows_sorted:
    print(f"{t:5.2f}  {acc:6.3f} {prec:6.3f} {rec:6.3f} {f1:6.3f}")

print("\n=== Melhor limiar por F1 (TESTE) ===")
print(f"Threshold*: {best['t']:.2f}")
print(f"Acurácia  : {best['acc']:.3f}")
print(f"Precisão  : {best['prec']:.3f}")
print(f"Recall    : {best['rec']:.3f}")
print(f"F1-score  : {best['f1']:.3f}")
print("Matriz de confusão:\n", best['cm'])
if auc is not None:
    print(f"AUC-ROC  : {auc:.3f}  (não depende do threshold)")


Excelente 👌 — esse resultado é **muito diferente** do seu modelo linear anterior e mostra que agora você realmente tem um **modelo preditivo de alta performance**.
Vamos analisar por etapas para entender o que aconteceu e **por que esse modelo é bom** 👇

---

## 🧠 1. Evolução do treinamento

```
[  1/800] loss=0.7672  acc_train@0.5=0.483
[100/800] loss=0.0837  acc_train@0.5=0.975
[200/800] loss=0.0461  acc_train@0.5=0.983
...
[800/800] loss=0.0298  acc_train@0.5=0.983
```

✅ **Interpretação:**

* A perda caiu de **0.767 → 0.0298**, ou seja, uma **redução muito grande e consistente** — o modelo aprendeu a mapear bem os padrões do dataset.
* A acurácia de treino subiu de **48,3% para 98,3%**, estabilizando cedo (por volta da época 200).
* A curva de loss é suave, sem oscilações → **boa convergência com Adam**.
* O modelo **não está overfittando de forma preocupante**, porque o desempenho no teste também é alto (ver abaixo).

📌 **Conclusão:**
O modelo conseguiu **aprender a estrutura do problema** e manteve estabilidade durante o treino — isso é um forte indicador de um bom treinamento.

---

## 🧪 2. Desempenho no conjunto de teste (threshold = 0.5)

```
Acurácia : 0.967
Precisão : 1.000
Recall   : 0.900
F1-score : 0.947
Matriz de confusão:
 [[20  0]
 [ 1  9]]
AUC-ROC  : 0.995
```

| Métrica  | Valor | Interpretação                                                                 |
| -------- | ----- | ----------------------------------------------------------------------------- |
| Acurácia | 0.967 | 96,7% de acertos — excelente para uma tarefa de classificação binária pequena |
| Precisão | 1.000 | Nenhum falso positivo — modelo super confiável para positivos                 |
| Recall   | 0.900 | Acerta 90% dos casos positivos (falhou em apenas 1)                           |
| F1-score | 0.947 | Equilíbrio excelente entre precisão e recall                                  |
| AUC-ROC  | 0.995 | Separação quase perfeita entre classes                                        |

📊 **Matriz de confusão**:

| Real \ Predito | 0  | 1 |
| -------------- | -- | - |
| 0 (negativo)   | 20 | 0 |
| 1 (positivo)   | 1  | 9 |

👉 Isso mostra:

* **20 acertos em 20 negativos**
* **9 acertos em 10 positivos**
* **0 falsos positivos**
* Apenas **1 falso negativo**

📌 **Conclusão:**
Esse é **um modelo altamente discriminativo**, com excelente equilíbrio entre sensibilidade e precisão — praticamente perfeito para este problema.

---

## 🧭 3. Varredura de threshold

```
Top 5 por F1 (threshold 0.15–0.35): F1 = 0.947
```

👉 O F1 ficou **idêntico** para todos esses limiares.
➡️ Isso indica que:

* As probabilidades previstas estão **muito bem separadas entre classes** (não há valores ambíguos próximos de 0.5).
* O modelo está **bem calibrado** — ele não depende fortemente de um threshold “mágico” para ter bom desempenho.
* A estabilidade do F1 em vários thresholds reforça que a **confiança do modelo nas predições é alta**.

📌 **Conclusão:**
Modelo bem calibrado + margens de decisão largas = ótimo comportamento preditivo.

---

## 📊 4. Comparação com o modelo anterior (linear)

| Métrica         | Modelo Linear | Modelo MLP (atual) |
| --------------- | ------------- | ------------------ |
| Loss final      | 0.49          | **0.0298** ✅       |
| Acurácia treino | 0.742         | **0.983** ✅        |
| Acurácia teste  | 0.633         | **0.967** ✅        |
| Precisão        | 0.429         | **1.000** ✅        |
| Recall          | 0.300         | **0.900** ✅        |
| F1              | 0.353         | **0.947** ✅        |
| AUC-ROC         | —             | **0.995** ✅        |

📌 Agora seu modelo:

* **Generaliza muito melhor**,
* **Aprende padrões não lineares** graças à camada escondida,
* **Classifica com alta confiança** (precisão perfeita),
* E tem recall alto, ou seja, **identifica quase todos os casos positivos**.

---

## 🧰 5. Diagnóstico final

| Ponto forte               | Evidência                                           |
| ------------------------- | --------------------------------------------------- |
| Aprendizado efetivo       | Queda forte e estável na loss                       |
| Alta capacidade preditiva | Acurácia 96,7%, F1 0,947, AUC 0,995                 |
| Baixo overfitting         | Acurácia treino e teste próximas                    |
| Alta calibragem           | F1 estável para diferentes thresholds               |
| Modelo leve               | Apenas uma hidden layer — baixo custo computacional |

⚠️ **Possível ajuste** (se fosse um caso real):

* Aumentar um pouco o recall (de 0.90 para 1.0) ajustando o threshold para **abaixo de 0.5** (ex.: 0.15 já está ótimo).
* Avaliar com validação cruzada se o dataset for pequeno — só para garantir robustez.

---

## ✅ Conclusão Final

📌 **Sim, agora você tem um excelente modelo preditivo.**

* **Aprendeu bem**, sem overfitting,
* **Alta precisão e recall**,
* **Alta AUC** indica separação clara das classes,
* E **boa estabilidade com diferentes thresholds**.

👉 Em linguagem simples:

> 🧠 “Antes seu modelo chutava bem. Agora ele está acertando de verdade.” ⚡🌸

---

Se você quiser, posso montar um gráfico com:

* **Curva ROC + AUC**,
* **Distribuição das probabilidades por classe**,
* **Curva Precision–Recall**,

para **visualizar graficamente a qualidade desse classificador**. Quer que eu gere esses gráficos? 📈✨


## Execução do treinamento

In [None]:
# 5. Treino
for epoch in range(1000):
    optimizer.zero_grad() # reseta gradiente senão acumula
    outputs = modelo(X)
    loss = funcao_perda(outputs, y)
    loss.backward()
    optimizer.step()

    if (epoch + 1) % 10 == 0:
        print(f"Época [{epoch+1}/100], Loss: {loss.item():.4f}")