<a href="https://colab.research.google.com/github/ferdinandrafols/IA_LLMs/blob/main/gsi073_aula0_regressao_logistica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# GSI073 - T√≥picos Especiais de Intelig√™ncia Artificial

## Defini√ß√£o dos dados

In [None]:
import torch
import sklearn

# 1. Carregar dados
iris = sklearn.datasets.load_iris()
X = iris.data        # 4 features: s√©palas e p√©talas
y = (iris.target == 1).astype(float)  # 1 se Versicolor, 0 caso contr√°rio

# 2. Preparar dados para pytorch
X = torch.tensor(X, dtype=torch.float32)
y = torch.tensor(y, dtype=torch.float32).view(-1, 1)

# üëá Adicionando prints para visualizar
print("Shape de X:", X.shape)
print("Primeiras 5 linhas de X:\n", X[:5])

print("Shape de y:", y.shape)
print("Primeiras 5 linhas de y:\n", y[:5])


Excelente pergunta üëå ‚Äî **sim**, o resultado que voc√™ obteve est√° **correto e bom** ‚úÖ

Vamos justificar por partes üëá

---

## üß† **1. Estrutura dos dados**

üìä **`X` com shape `(150, 4)`** ‚Üí **perfeito**.

* O dataset Iris tem exatamente **150 amostras**
* e **4 caracter√≠sticas** (s√©palas e p√©talas).
  ‚úÖ Isso significa que voc√™ converteu os dados corretamente para tensor PyTorch.

üìå Se tivesse dado errado, voc√™ veria:

* `X` com shape diferente de `(150, 4)`
* erro de tipo de dado
* ou at√© erros no `torch.tensor(...)`.

---

## üåø **2. Estrutura dos r√≥tulos `y`**

üìä **`y` com shape `(150, 1)`** ‚Üí **perfeito para classifica√ß√£o bin√°ria**.

* Voc√™ converteu corretamente `iris.target` (0, 1, 2) em **bin√°rio (0 e 1)**.
* Isso √© exatamente o formato que fun√ß√µes de perda como

  * `nn.BCEWithLogitsLoss()` ou
  * `nn.BCELoss()`
    esperam.

‚úÖ Isso significa que o modelo poder√° aprender a **distinguir ‚ÄúVersicolor‚Äù (1)** de outras esp√©cies (0).

---

## üßÆ **3. Valores das primeiras linhas de `y`**

```
[[0.],
 [0.],
 [0.],
 [0.],
 [0.]]
```

üëâ Isso **tamb√©m est√° correto**:

* No dataset original, as **primeiras 50 flores** s√£o da classe `0` (Setosa).
* A classe `1` (Versicolor) s√≥ come√ßa a aparecer da amostra 50 em diante.
* Por isso os primeiros r√≥tulos s√£o todos `0.`.

‚úÖ Isso indica que a **transforma√ß√£o l√≥gica `iris.target == 1` funcionou como esperado**.

---

## ü™Ñ **4. Tipos de dados**

Voc√™ usou:

```python
dtype=torch.float32
```

‚úÖ Isso √© **o tipo padr√£o ideal para treinar redes neurais** ‚Äî
nem inteiro (`int`) nem double (`float64`), que √© mais pesado.

---

## üìù Conclus√£o Final

| Item Verificado      | Resultado            | Situa√ß√£o  |
| -------------------- | -------------------- | --------- |
| Shape de X           | `(150, 4)`           | ‚úÖ Correto |
| Shape de y           | `(150, 1)`           | ‚úÖ Correto |
| Convers√£o para float | `float32`            | ‚úÖ Correto |
| R√≥tulos bin√°rios     | 0 ou 1               | ‚úÖ Correto |
| Primeiros r√≥tulos 0  | coerente com dataset | ‚úÖ Correto |

‚úÖ **Sim, o resultado foi bom.**
Voc√™ tem agora **os dados prontos para treinar um modelo de classifica√ß√£o bin√°ria no PyTorch** ‚Äî por exemplo, uma rede simples com uma ou duas camadas lineares.

---

üëâ Pr√≥ximos passos comuns seriam:

* dividir em treino e teste,
* definir um modelo (`nn.Sequential` ou `nn.Module`),
* escolher fun√ß√£o de perda (`BCEWithLogitsLoss`),
* usar `SGD` ou `Adam` como otimizador,
* e treinar.


In [None]:
import torch
import sklearn
from sklearn.model_selection import train_test_split

# 1. Carregar dados
iris = sklearn.datasets.load_iris()
X = iris.data        # 4 features: s√©palas e p√©talas
y = (iris.target == 1).astype(float)  # 1 se Versicolor, 0 caso contr√°rio

# 2. Separar em treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.2,         # 20% para teste
    random_state=42,       # garante reprodutibilidade
    shuffle=True,          # embaralhar dados antes da divis√£o
    stratify=y             # mant√©m propor√ß√£o de classes (bom p/ classifica√ß√£o)
)

# 3. Converter para tensores PyTorch
X_train = torch.tensor(X_train, dtype=torch.float32)
y_train = torch.tensor(y_train, dtype=torch.float32).view(-1, 1)

X_test = torch.tensor(X_test, dtype=torch.float32)
y_test = torch.tensor(y_test, dtype=torch.float32).view(-1, 1)

# üëá Verifica√ß√£o
print("Shape treino X:", X_train.shape)
print("Shape treino y:", y_train.shape)

print("Shape teste X:", X_test.shape)
print("Shape teste y:", y_test.shape)


In [None]:
import torch
import numpy as np
from torch import nn
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
from sklearn import datasets

# 1) Dados
iris = datasets.load_iris()
X = iris.data
y = (iris.target == 1).astype(float)  # 1 = Versicolor

# 2) Split (boas pr√°ticas: shuffle + stratify + seed)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, shuffle=True, stratify=y
)

# 3) Tensores
X_train = torch.tensor(X_train, dtype=torch.float32)
y_train = torch.tensor(y_train, dtype=torch.float32).view(-1, 1)
X_test  = torch.tensor(X_test,  dtype=torch.float32)
y_test  = torch.tensor(y_test,  dtype=torch.float32).view(-1, 1)

# 4) Modelo bin√°rio simples (sem Sigmoid na √∫ltima camada)
model = nn.Sequential(
    nn.Linear(4, 8),
    nn.ReLU(),
    nn.Linear(8, 1)       # logits
)

# 5) Loss + Opt
criterion = nn.BCEWithLogitsLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)

# 6) Treino r√°pido
model.train()
for epoch in range(300):
    optimizer.zero_grad()
    logits = model(X_train)
    loss = criterion(logits, y_train)
    loss.backward()
    optimizer.step()

# 7) Avalia√ß√£o no TESTE (onde as m√©tricas fazem sentido)
model.eval()
with torch.no_grad():
    test_logits = model(X_test)
    test_probs  = torch.sigmoid(test_logits)        # converte logits -> prob.
    y_pred      = (test_probs >= 0.5).float()       # threshold 0.5

# 8) M√©tricas
y_true_np = y_test.numpy().ravel()
y_pred_np = y_pred.numpy().ravel()

acc  = accuracy_score(y_true_np, y_pred_np)
prec = precision_score(y_true_np, y_pred_np, zero_division=0)
rec  = recall_score(y_true_np, y_pred_np,   zero_division=0)
f1   = f1_score(y_true_np, y_pred_np,       zero_division=0)
cm   = confusion_matrix(y_true_np, y_pred_np)

print(f"Acur√°cia : {acc:.3f}")
print(f"Precis√£o : {prec:.3f}")
print(f"Recall   : {rec:.3f}")
print(f"F1-score : {f1:.3f}")
print("Matriz de confus√£o:\n", cm)


Excelente üëå ‚Äî vamos **interpretar cuidadosamente** esse resultado:

```
Acur√°cia : 0.600
Precis√£o : 0.455
Recall   : 1.000
F1-score : 0.625
Matriz de confus√£o:
 [[ 8 12]
 [ 0 10]]
```

---

## üß† 1. Acur√°cia ‚Äî **60%**

[
\text{Accuracy} = \frac{\text{acertos}}{\text{total}} = 0.60
]

üëâ O modelo acertou **60% das amostras do conjunto de teste**.
üìä Como o Iris tem 30 amostras no teste (20% de 150), isso significa:
[
\text{acertos} = 0.6 \times 30 = 18 \text{ amostras corretas}
]
[
\text{erros} = 12 \text{ amostras incorretas}
]

‚úÖ A acur√°cia n√£o √© p√©ssima, mas tamb√©m n√£o √© alta para um dataset simples como o Iris ‚Äî indica que o modelo est√° com **desempenho limitado**.

---

## üü° 2. Precis√£o ‚Äî **45,5%**

[
\text{Precision} = \frac{\text{VP}}{\text{VP + FP}} = \frac{10}{10 + 12} \approx 0.455
]

üëâ Dos casos em que o modelo **previu ‚ÄúVersicolor‚Äù (classe positiva)**:

* Acertou **10 vezes**
* Errou **12 vezes**

üìå **Interpreta√ß√£o pr√°tica**:

* O modelo est√° prevendo muitos positivos **que n√£o s√£o Versicolor** (12 falsos positivos),
* Ou seja, est√° **exagerando nas previs√µes positivas**.

‚ö†Ô∏è Isso reduz a confiabilidade da previs√£o positiva.

---

## üü¢ 3. Recall ‚Äî **100%**

[
\text{Recall} = \frac{\text{VP}}{\text{VP + FN}} = \frac{10}{10 + 0} = 1.0
]

üëâ Dos **10 casos reais de Versicolor no teste**, o modelo **acertou todos**.

üìå **Interpreta√ß√£o pr√°tica**:

* O modelo **n√£o deixou escapar nenhum Versicolor real** (FN = 0),
* Isso pode ser desej√°vel em cen√°rios onde falsos negativos s√£o piores que falsos positivos (ex.: diagn√≥stico m√©dico, fraudes etc.).

‚ö° Por√©m, h√° um custo: muitos falsos positivos ‚Üí baixa precis√£o.

---

## üßÆ 4. F1-score ‚Äî **0.625**

[
F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
]

[
= 2 \times \frac{0.455 \times 1.0}{0.455 + 1.0} \approx 0.625
]

üëâ F1 est√° **entre precis√£o e recall**, mostrando um **desempenho mediano**:

* recall excelente,
* precis√£o baixa.

üìå √â um **alerta de desequil√≠brio** entre prever positivo demais e acertar de fato.

---

## üßæ 5. Matriz de confus√£o

```
[[ 8 12]
 [ 0 10]]
```

* 8 ‚Üí Verdadeiros Negativos (classe 0 predita como 0) ‚úÖ
* 12 ‚Üí Falsos Positivos (classe 0 predita como 1) ‚ùå
* 0 ‚Üí Falsos Negativos (classe 1 predita como 0) ‚úÖ
* 10 ‚Üí Verdadeiros Positivos (classe 1 predita como 1) ‚úÖ

üìå **Resumo da matriz**:

| Real \ Predito | 0 | 1  |
| -------------- | - | -- |
| **0**          | 8 | 12 |
| **1**          | 0 | 10 |

üëâ Ou seja:

* O modelo **nunca erra positivos reais** (bom recall),
* Mas **erra muito ao classificar negativos** (12 falsos positivos),
* Resultado: **baixa precis√£o**.

---

## üß≠ 6. Diagn√≥stico do modelo

| M√©trica              | Valor | Interpreta√ß√£o                                |
| -------------------- | ----- | -------------------------------------------- |
| **Acur√°cia**         | 0.600 | Desempenho global mediano                    |
| **Precis√£o**         | 0.455 | Muitas previs√µes positivas incorretas        |
| **Recall**           | 1.000 | Excelente cobertura dos casos positivos      |
| **F1-score**         | 0.625 | Mostra desequil√≠brio entre precis√£o e recall |
| **Falsos positivos** | 12    | Modelo prev√™ ‚ÄúVersicolor‚Äù demais             |

üëâ O modelo **est√° tendendo a classificar muita coisa como ‚ÄúVersicolor‚Äù**, garantindo recall m√°ximo, mas **sacrificando precis√£o**.

---

## üß™ 7. O que poderia melhorar

* üî∏ **Regularizar a decis√£o**: ajustar o threshold da sigmoid (de 0.5 para outro valor) pode equilibrar precis√£o e recall.
* üî∏ **Aumentar a capacidade do modelo**: talvez camadas adicionais ou mais √©pocas.
* üî∏ **Balancear classes ou penalizar falsos positivos** com loss weighting.
* üî∏ **Feature scaling / normaliza√ß√£o** ‚Äî ajuda na converg√™ncia.
* üî∏ **Hiperpar√¢metros** (LR, momentum, batch size) podem estar limitando a performance.

---

## üìù Conclus√£o final

* ‚úÖ O modelo **acerta todos os positivos** ‚Üí recall perfeito.
* ‚ö†Ô∏è **Erra muitos negativos**, gerando baixa precis√£o.
* üìä **F1-score = 0.625** mostra que o modelo est√° razo√°vel, mas com **muito espa√ßo para otimiza√ß√£o**.
* üß≠ Esse comportamento sugere **threshold enviesado para o positivo** ou **modelo pouco treinado / simples demais**.

üëâ **Resumo em linguagem simples**:

> ‚ÄúO modelo est√° vendo *Versicolor* em tudo. Ele n√£o deixa passar nenhuma Versicolor real, mas erra em muitas flores que n√£o s√£o. Isso garante recall alto, mas prejudica a precis√£o e a acur√°cia.‚Äù

---



In [None]:
import numpy as np
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

thresholds = np.arange(0.1, 1.0, 0.1)
results = []

# Usando os logits que j√° t√≠nhamos
with torch.no_grad():
    test_logits = model(X_test)
    test_probs = torch.sigmoid(test_logits).numpy().ravel()

y_true_np = y_test.numpy().ravel()

for t in thresholds:
    y_pred_t = (test_probs >= t).astype(float)
    acc  = accuracy_score(y_true_np, y_pred_t)
    prec = precision_score(y_true_np, y_pred_t, zero_division=0)
    rec  = recall_score(y_true_np, y_pred_t, zero_division=0)
    f1   = f1_score(y_true_np, y_pred_t, zero_division=0)
    results.append((t, acc, prec, rec, f1))

# Mostrar os resultados em tabela
print(f"{'Threshold':<10}{'Acc':>8}{'Prec':>10}{'Rec':>10}{'F1':>10}")
for t, acc, prec, rec, f1 in results:
    print(f"{t:<10.2f}{acc:>8.3f}{prec:>10.3f}{rec:>10.3f}{f1:>10.3f}")


Excelente üëå ‚Äî o seu resultado aqui revela **algo importante sobre o comportamento do modelo**, e tamb√©m mostra claramente **o que ainda pode ser melhorado**.

Vamos analisar linha por linha e depois discutir como corrigir isso üëá

---

## üìä Output analisado:

```
Threshold      Acc      Prec       Rec        F1
0.10         0.600     0.455     1.000     0.625
0.20         0.600     0.455     1.000     0.625
0.30         0.600     0.455     1.000     0.625
0.40         0.600     0.455     1.000     0.625
0.50         0.600     0.455     1.000     0.625
0.60         0.667     0.000     0.000     0.000
0.70         0.667     0.000     0.000     0.000
0.80         0.667     0.000     0.000     0.000
0.90         0.667     0.000     0.000     0.000
```

---

## üß† 1. **Para thresholds de 0.1 a 0.5**

* **Acur√°cia**: 0.600
* **Precis√£o**: 0.455
* **Recall**: 1.000
* **F1**: 0.625

üëâ Isso significa que o modelo:

* Est√° classificando praticamente **tudo acima de 0.1 at√© 0.5 como positivo** (classe Versicolor);
* Acerta todos os casos positivos reais (Recall = 1.0);
* Mas erra v√°rios negativos ‚Üí baixa precis√£o (0.455);
* O F1-score √© mediano.

‚ö†Ô∏è **Interpreta√ß√£o**: o modelo **n√£o tem separa√ß√£o clara entre positivos e negativos** ‚Äî suas probabilidades est√£o concentradas **abaixo de 0.6**.
Isso explica por que mudar o limiar at√© 0.5 **n√£o muda nada nas m√©tricas**.

---

## üßÆ 2. **Para thresholds de 0.6 em diante**

* **Acur√°cia**: 0.667
* **Precis√£o**: 0.000
* **Recall**: 0.000
* **F1**: 0.000

üëâ Aqui, o modelo:

* **N√£o prev√™ mais nenhum positivo** (por isso recall = 0);
* Est√° classificando tudo como negativo (classe 0);
* A precis√£o d√° 0 porque n√£o houve verdadeiros positivos;
* A acur√°cia aumentou para 66,7% s√≥ porque a maioria das amostras do teste √© negativa (classe 0).

‚ö†Ô∏è Isso mostra claramente que **as probabilidades de sa√≠da do modelo est√£o todas abaixo de 0.6** ‚Äî nenhuma previs√£o ultrapassa esse threshold.

---

## üìå 3. Diagn√≥stico do modelo

| M√©trica / Sinal                                  | Indica√ß√£o                                                                               |
| ------------------------------------------------ | --------------------------------------------------------------------------------------- |
| M√©tricas iguais de 0.1 a 0.5                     | As probabilidades est√£o concentradas em uma faixa estreita                              |
| Recall = 1.0 e precis√£o baixa                    | O modelo prev√™ positivo demais (alta sensibilidade, baixa especificidade)               |
| Queda abrupta para 0 a partir de 0.6             | Nenhuma amostra tem score acima de 0.6 ‚Üí o modelo est√° **mal calibrado ou subtreinado** |
| Acur√°cia melhora levemente ao prever tudo como 0 | As classes est√£o **ligeiramente desbalanceadas** no teste                               |

üëâ Em outras palavras:

> O modelo **n√£o aprendeu uma fronteira de decis√£o clara**. Ele est√° ‚Äúseguro‚Äù apenas prevendo positivos at√© um ponto, e depois para completamente de prever.

---

## üß≠ 4. Isso √© bom ou ruim?

* ‚úÖ **Bom**: O modelo n√£o est√° bugado ‚Äî apenas simples/desequilibrado.
* ‚ùå **Ruim**: Isso **n√£o √© um comportamento desej√°vel para produ√ß√£o**.
  Ele n√£o est√° ‚Äúentendendo‚Äù bem os padr√µes que distinguem Versicolor das outras classes.

üìä O threshold tuning n√£o trouxe ganho ‚Äî isso confirma que **o problema est√° no modelo, n√£o no threshold**.

---

## üß† 5. Como melhorar este cen√°rio

### üî∏ **1. Melhorar o treinamento**

* Aumentar o n√∫mero de √©pocas (por ex. de 300 ‚Üí 1000).
* Usar um otimizador mais eficiente como `Adam` (melhor converg√™ncia que SGD puro).
* Ajustar a learning rate (por exemplo, 0.01 ou 0.001).
* Normalizar ou padronizar as features de entrada (muito importante para redes pequenas).

### üî∏ **2. Melhorar a arquitetura**

* Adicionar mais neur√¥nios ou camadas intermedi√°rias.
* Usar fun√ß√µes de ativa√ß√£o mais robustas (`ReLU` + `Sigmoid` no final).
* Verificar se os pesos est√£o inicializados adequadamente.

### üî∏ **3. Calibrar as sa√≠das**

* Ap√≥s treinar melhor, os scores tender√£o a se espalhar melhor entre 0 e 1 ‚Üí threshold tuning far√° mais efeito.
* Tamb√©m √© poss√≠vel aplicar t√©cnicas como Platt scaling ou isotonic regression (mais avan√ßado).

### üî∏ **4. Avaliar balanceamento de classes**

* Se a classe positiva for minoria, pode-se:

  * Usar `class_weight` na fun√ß√£o de perda (`BCEWithLogitsLoss(pos_weight=...)`),
  * Fazer oversampling ou undersampling.

---

## üìà 6. Estrat√©gia pr√°tica sugerida

1. **Treinar novamente com mais itera√ß√µes** e `Adam`:

   ```python
   optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
   for epoch in range(1000): ...
   ```

2. **Padronizar as features**:

   ```python
   from sklearn.preprocessing import StandardScaler
   scaler = StandardScaler()
   X = scaler.fit_transform(X)
   ```

3. **Verificar distribui√ß√£o das probabilidades** ap√≥s o treino:

   ```python
   import matplotlib.pyplot as plt
   plt.hist(test_probs, bins=20)
   plt.title("Distribui√ß√£o das probabilidades")
   plt.show()
   ```

   üëâ Isso vai mostrar se as previs√µes continuam concentradas em um √∫nico lado.

4. **S√≥ depois** repetir o tuning de threshold para buscar o ponto √≥timo de F1.

---

## üìù Conclus√£o

| Resultado atual                       | Interpreta√ß√£o                                                   | Pr√≥ximo passo                              |
| ------------------------------------- | --------------------------------------------------------------- | ------------------------------------------ |
| Threshold tuning n√£o mudou o cen√°rio  | Modelo mal calibrado, probabilidades concentradas abaixo de 0.6 | Treinar melhor e padronizar dados          |
| Recall perfeito, precis√£o baixa       | Modelo ‚Äúaposta tudo‚Äù na classe positiva                         | Regularizar e calibrar                     |
| Acur√°cia melhora prevendo tudo como 0 | Leve desbalanceamento                                           | Ajustar loss com pesos ou reamostrar dados |

üëâ **Em resumo:**

> Seu modelo atual n√£o tem separa√ß√£o real entre as classes ‚Äî ajustar o threshold n√£o vai resolver.
> O caminho agora √© **melhorar o treinamento e calibrar as sa√≠das** para que o threshold passe a ter impacto real.

---

Se quiser, posso reescrever o c√≥digo do modelo com:

* normaliza√ß√£o das features,
* uso de `Adam`,
* mais √©pocas de treino,
* e avalia√ß√£o de novo.

Quer que eu fa√ßa isso agora? üß†‚ö°üìà


In [None]:
# -*- coding: utf-8 -*-
# Pipeline Iris bin√°rio (Versicolor vs n√£o) com boas pr√°ticas:
# - StandardScaler (fit no treino, transform no teste)
# - Split estratificado
# - MLP simples (Linear-ReLU-Linear)
# - Adam + weight_decay (L2)
# - BCEWithLogitsLoss com pos_weight
# - Busca de threshold que maximiza F1 no teste

import numpy as np
import torch
from torch import nn
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

# Reprodutibilidade
seed = 42
np.random.seed(seed)
torch.manual_seed(seed)

# 1) Dados
iris = datasets.load_iris()
X = iris.data
y = (iris.target == 1).astype(float)  # 1 = Versicolor

# 2) Split (estratificado, 80/20)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=seed, shuffle=True, stratify=y
)

# 3) Padroniza√ß√£o (fit no treino, transform no teste) ‚Äî evita data leakage
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test  = scaler.transform(X_test)

# 4) Tensores
X_train_t = torch.tensor(X_train, dtype=torch.float32)
y_train_t = torch.tensor(y_train, dtype=torch.float32).view(-1, 1)
X_test_t  = torch.tensor(X_test,  dtype=torch.float32)
y_test_t  = torch.tensor(y_test,  dtype=torch.float32).view(-1, 1)

# 5) Modelo (MLP pequeno)
model = nn.Sequential(
    nn.Linear(4, 16),
    nn.ReLU(),
    nn.Linear(16, 1)  # logits
)

# 6) Loss com pos_weight para compensar leve desequil√≠brio (se houver)
pos = y_train_t.sum().item()
neg = len(y_train_t) - pos
# evita divis√£o por zero
pos_weight_value = (neg / pos) if pos > 0 else 1.0
criterion = nn.BCEWithLogitsLoss(pos_weight=torch.tensor([pos_weight_value], dtype=torch.float32))

# 7) Otimizador: Adam + weight decay (L2)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-2, weight_decay=1e-4)

# 8) Treino
model.train()
EPOCHS = 1000
for epoch in range(EPOCHS):
    optimizer.zero_grad()
    logits = model(X_train_t)
    loss = criterion(logits, y_train_t)
    loss.backward()
    optimizer.step()

    if (epoch + 1) % 200 == 0:
        with torch.no_grad():
            probs_tr = torch.sigmoid(model(X_train_t))
            yhat_tr = (probs_tr >= 0.5).float()
            acc_tr = (yhat_tr.eq(y_train_t).float().mean().item())
        print(f"[{epoch+1:4d}/{EPOCHS}] loss={loss.item():.4f}  acc_train@0.5={acc_tr:.3f}")

# 9) Avalia√ß√£o no teste: m√©tricas em threshold=0.5 e busca do melhor threshold (max F1)
model.eval()
with torch.no_grad():
    test_logits = model(X_test_t).squeeze(1)
    test_probs  = torch.sigmoid(test_logits).cpu().numpy()

y_true = y_test_t.cpu().numpy().ravel()

def metrics_for_threshold(probs, y_true, t):
    y_pred = (probs >= t).astype(float)
    acc  = accuracy_score(y_true, y_pred)
    prec = precision_score(y_true, y_pred, zero_division=0)
    rec  = recall_score(y_true, y_pred, zero_division=0)
    f1   = f1_score(y_true, y_pred, zero_division=0)
    cm   = confusion_matrix(y_true, y_pred)
    return acc, prec, rec, f1, cm

# a) M√©tricas em 0.5
acc05, prec05, rec05, f105, cm05 = metrics_for_threshold(test_probs, y_true, 0.5)
print("\n=== M√©tricas no TESTE (threshold=0.5) ===")
print(f"Acur√°cia : {acc05:.3f}")
print(f"Precis√£o : {prec05:.3f}")
print(f"Recall   : {rec05:.3f}")
print(f"F1-score : {f105:.3f}")
print("Matriz de confus√£o:\n", cm05)

# b) Busca de melhor threshold (max F1) em grade simples
thresholds = np.linspace(0.05, 0.95, 19)
best = {"t": None, "acc": -1, "prec": -1, "rec": -1, "f1": -1, "cm": None}
rows = []
for t in thresholds:
    acc, prec, rec, f1, cm = metrics_for_threshold(test_probs, y_true, t)
    rows.append((t, acc, prec, rec, f1))
    if f1 > best["f1"]:
        best.update({"t": t, "acc": acc, "prec": prec, "rec": rec, "f1": f1, "cm": cm})

print("\n=== Varredura de limiar (TESTE) ‚Äî top 5 por F1 ===")
rows_sorted = sorted(rows, key=lambda r: r[4], reverse=True)[:5]
print(f"{'Thr':>5}  {'Acc':>6} {'Prec':>6} {'Rec':>6} {'F1':>6}")
for t, acc, prec, rec, f1 in rows_sorted:
    print(f"{t:5.2f}  {acc:6.3f} {prec:6.3f} {rec:6.3f} {f1:6.3f}")

print("\n=== Melhor limiar por F1 (TESTE) ===")
print(f"Threshold*: {best['t']:.2f}")
print(f"Acur√°cia  : {best['acc']:.3f}")
print(f"Precis√£o  : {best['prec']:.3f}")
print(f"Recall    : {best['rec']:.3f}")
print(f"F1-score  : {best['f1']:.3f}")
print("Matriz de confus√£o:\n", best["cm"])

# (Opcional) Distribui√ß√£o dos scores para inspecionar calibra√ß√£o
try:
    import matplotlib.pyplot as plt
    plt.hist(test_probs, bins=15)
    plt.title("Distribui√ß√£o das probabilidades no TESTE")
    plt.xlabel("p(y=1 | x)")
    plt.ylabel("freq")
    plt.show()
except Exception as e:
    print("Plot opcional n√£o exibido:", e)


Excelente pergunta üëå ‚Äî com base nesse output, **sim**, voc√™ tem um **modelo preditivo muito bom** para este problema. Vamos analisar tecnicamente cada ponto üëá

---

## üìà 1. **Treinamento est√°vel e preciso**

```
[ 200/1000] loss=0.0621  acc_train@0.5=0.983
[ 400/1000] loss=0.0478  acc_train@0.5=0.983
[ 600/1000] loss=0.0396  acc_train@0.5=0.992
[ 800/1000] loss=0.0362  acc_train@0.5=0.992
[1000/1000] loss=0.0347  acc_train@0.5=0.992
```

‚úÖ **An√°lise:**

* A **loss caiu de 0.0621 ‚Üí 0.0347**, sinal de que o modelo est√° **aprendendo e convergindo bem**.
* A **acur√°cia no treino passou de 98,3% para 99,2%** ‚Äî quase perfeita.
* N√£o h√° oscila√ß√£o brusca ‚Üí indica estabilidade no processo de otimiza√ß√£o com Adam.

üìå Isso j√° sugere um bom modelo, mas **o mais importante** √© verificar o desempenho **no conjunto de teste**, que vem a seguir.

---

## üß™ 2. **Desempenho no conjunto de teste (threshold = 0.5)**

```
Acur√°cia : 0.967
Precis√£o : 1.000
Recall   : 0.900
F1-score : 0.947
Matriz de confus√£o:
 [[20  0]
 [ 1  9]]
```

‚úÖ **Interpreta√ß√£o:**

* **Acur√°cia de 96,7%** ‚Üí o modelo acerta quase todas as previs√µes no teste.
* **Precis√£o de 100%** ‚Üí quando ele prev√™ que √© *Versicolor*, ele **nunca erra**.
  ‚Üí Nenhum **falso positivo**.
* **Recall de 90%** ‚Üí ele identificou 9 de 10 Versicolor reais, ou seja, **s√≥ deixou passar 1 caso positivo**.
* **F1-score de 0.947** ‚Üí equil√≠brio excelente entre precis√£o e recall.

üìä Matriz de confus√£o:

| Real \ Predito | 0  | 1 |
| -------------- | -- | - |
| **0** (neg)    | 20 | 0 |
| **1** (pos)    | 1  | 9 |

üëâ O modelo:

* Acertou todos os 20 negativos (classe 0)
* Acertou 9 de 10 positivos (classe 1)
* N√£o cometeu falsos positivos (muito bom para classificadores bin√°rios)

---

## üß≠ 3. **Tuning de limiar (threshold)**

```
Top 5 thresholds
Thr   Acc   Prec    Rec     F1
0.35  0.967  1.000  0.900  0.947
0.40  0.967  1.000  0.900  0.947
0.45  0.967  1.000  0.900  0.947
0.50  0.967  1.000  0.900  0.947
0.55  0.967  1.000  0.900  0.947
```

‚úÖ **Interpreta√ß√£o:**

* O desempenho n√£o muda muito com o limiar de 0.35 a 0.55 ‚Üí indica que o **modelo est√° bem calibrado**.
* Isso sugere que as probabilidades previstas t√™m **boa separa√ß√£o entre classes**.
* Como a precis√£o j√° √© perfeita e o recall alto, **n√£o h√° ganho real ao ajustar o threshold**.

üìå Isso √© sinal de **modelo maduro e est√°vel**.

---

## üß† 4. Diagn√≥stico geral

| M√©trica               | Valor         | Interpreta√ß√£o                                  |
| --------------------- | ------------- | ---------------------------------------------- |
| Loss final baixa      | 0.0347        | Modelo aprendeu bem a rela√ß√£o input-output     |
| Acur√°cia treino/teste | 0.992 / 0.967 | Pouca diferen√ßa ‚Äî n√£o h√° overfitting relevante |
| Precis√£o no teste     | 1.000         | Nenhum falso positivo                          |
| Recall no teste       | 0.900         | Pouqu√≠ssimos falsos negativos                  |
| F1-score              | 0.947         | Excelente equil√≠brio                           |
| Threshold tuning      | Est√°vel       | Modelo bem calibrado, previs√µes consistentes   |

‚úÖ Isso indica um **modelo robusto**, com **generaliza√ß√£o muito boa**, e **alto poder preditivo**.

---

## ‚ö° 5. Poss√≠veis (pequenos) ajustes se quisesse ir al√©m

Mesmo com desempenho excelente, voc√™ poderia:

* üìä **Aumentar recall de 0.90 ‚Üí 1.00**
  ‚Üí Ajustando levemente o threshold para baixo (ex.: 0.30‚Äì0.35) ou fazendo leve oversampling da classe positiva durante o treino.

* üß™ **Fazer valida√ß√£o cruzada (K-Fold)** para garantir que esses resultados n√£o s√£o fruto do acaso no split.

* üß† **Testar dropout leve** para garantir ainda mais robustez contra overfitting.

* üìà **Avaliar curva ROC e AUC** para confirmar separa√ß√£o √≥tima de classes.

---

## üèÅ Conclus√£o

üëâ **Sim, voc√™ tem um excelente modelo preditivo.**

* Ele generaliza bem (sem overfitting),
* Tem precis√£o perfeita, recall alto e F1 robusto,
* E responde de forma est√°vel a mudan√ßas de threshold.

‚úÖ **Indicadores de modelo preditivo forte:**

* Baixa loss final
* Alta acur√°cia no teste
* Alta precis√£o e recall
* F1 pr√≥ximo de 1
* Threshold tuning est√°vel

üöÄ **Resumo em linguagem simples:**

> ‚ÄúSeu modelo aprendeu muito bem a diferenciar Versicolor das outras flores. Ele praticamente n√£o erra, est√° bem calibrado e responde de forma consistente. Para aplica√ß√µes reais, j√° est√° em um patamar excelente.‚Äù

---

Se voc√™ quiser, posso **plotar a curva ROC e calcular AUC** para dar uma **vis√£o estat√≠stica adicional** da separa√ß√£o entre classes. Quer que eu fa√ßa isso? üìàüß†‚ú®


## Defini√ß√£o do modelo e treinamento

In [None]:
import torch

# 3. Definir modelo: regress√£o log√≠stica
modelo = torch.nn.Linear(4, 1)  # 4 features ‚Üí 1 sa√≠da (probabilidade de ser Versicolor)

# 4. Definir fun√ß√£o de perda e algoritmo de otimiza√ß√£o
funcao_perda = torch.nn.BCEWithLogitsLoss()  # Sigmoid + Binary Cross Entropy
optimizer = torch.optim.SGD(modelo.parameters(), lr=0.1)

# üëá Adicionando prints
print("Modelo definido:\n", modelo)
print("\nPar√¢metros iniciais do modelo:")
for nome, param in modelo.named_parameters():
    print(f"{nome}: {param.data}")

print("\nFun√ß√£o de perda:", funcao_perda)
print("\nOtimizador:", optimizer)


Excelente üëå ‚Äî esse √© o **estado inicial do seu modelo de regress√£o log√≠stica bin√°ria** em PyTorch.
Vamos destrinchar cada parte dos resultados para entender **o que eles significam na pr√°tica** antes de iniciar o treinamento üëá

---

## üß† 1. **Arquitetura do modelo**

```
Modelo definido:
 Linear(in_features=4, out_features=1, bias=True)
```

üëâ Isso significa que:

* O modelo √© uma **camada linear** com:

  * `4` entradas (features: comprimento e largura de s√©pala e p√©tala no dataset Iris),
  * `1` sa√≠da (logit ‚Äî usado depois pela Sigmoid para gerar probabilidade de ‚ÄúVersicolor‚Äù).
* `bias=True` ‚Üí o modelo tem um termo de intercepto (b) al√©m dos pesos.

üìå **Interpreta√ß√£o pr√°tica:**
Este modelo √© exatamente equivalente a **uma regress√£o log√≠stica cl√°ssica**:
[
\hat{y} = \sigma(w_1 x_1 + w_2 x_2 + w_3 x_3 + w_4 x_4 + b)
]
onde (\sigma) √© a fun√ß√£o sigmoide.

---

## ü™ú 2. **Par√¢metros iniciais**

```
weight: tensor([[-0.0660, -0.3629,  0.0117, -0.3415]])
bias: tensor([-0.4242])
```

üëâ Estes s√£o os **valores iniciais dos pesos e bias**, atribu√≠dos aleatoriamente por PyTorch.

* `weight` ‚Üí vetor de 4 valores, um para cada feature:

  * x‚ÇÅ: -0.0660
  * x‚ÇÇ: -0.3629
  * x‚ÇÉ:  0.0117
  * x‚ÇÑ: -0.3415

* `bias` ‚Üí -0.4242

üìå **Interpreta√ß√£o pr√°tica:**

* No in√≠cio, o modelo **n√£o aprendeu nada ainda**.
* Esses valores n√£o t√™m nenhum significado estat√≠stico real.
* Ap√≥s algumas itera√ß√µes de gradiente descendente, esses n√∫meros v√£o **se ajustar** para refletir os padr√µes do dataset Iris.

‚ö†Ô∏è Importante:
Mesmo valores pequenos **podem gerar probabilidades enviesadas no in√≠cio**, especialmente com bias negativo ‚Äî mas isso √© normal.

---

## üßÆ 3. **Fun√ß√£o de perda**

```
Fun√ß√£o de perda: BCEWithLogitsLoss()
```

üëâ Essa loss combina duas coisas:

1. A transforma√ß√£o **Sigmoid** dos logits ‚Üí converte a sa√≠da linear (ex. 0.87) para probabilidade (ex. 0.70),
2. O c√°lculo da **Binary Cross Entropy**, que mede qu√£o distante essa probabilidade est√° do r√≥tulo real (0 ou 1).

[
\text{Loss} = -[y \cdot \log(\sigma(z)) + (1 - y) \cdot \log(1 - \sigma(z))]
]

‚úÖ Vantagem: usar `BCEWithLogitsLoss` √© **mais numericamente est√°vel** que usar `Sigmoid` + `BCELoss` separadamente.

---

## ‚ö° 4. **Otimizador**

```
Otimizador: SGD (
    lr: 0.1
    momentum: 0
    weight_decay: 0
)
```

üëâ Esse √© o **otimizador de gradiente descendente estoc√°stico** (Stochastic Gradient Descent):

* **`lr=0.1`** ‚Üí taxa de aprendizado relativamente alta (o modelo vai atualizar par√¢metros com passos largos).
* **`momentum=0`** ‚Üí sem suaviza√ß√£o extra no caminho de descida (treino mais ‚Äúdireto‚Äù).
* **`weight_decay=0`** ‚Üí sem regulariza√ß√£o L2 no momento.

üìå **Interpreta√ß√£o pr√°tica:**

* Isso √© suficiente para modelos pequenos como regress√£o log√≠stica.
* Mas se o treino oscilar muito ou n√£o convergir, **ajustar `lr` ou adicionar momentum** ajuda.
* Em problemas maiores, usar Adam costuma ser mais eficiente.

---

## üß≠ 5. **Diagn√≥stico do estado inicial**

| Elemento                | Valor atual                   | Interpreta√ß√£o                               |
| ----------------------- | ----------------------------- | ------------------------------------------- |
| Arquitetura             | Linear(4‚Üí1)                   | Modelo de regress√£o log√≠stica bin√°ria       |
| Pesos e bias            | valores pequenos e aleat√≥rios | Ponto de partida neutro para aprendizado    |
| Fun√ß√£o de perda         | BCEWithLogitsLoss             | Ideal para classifica√ß√£o bin√°ria            |
| Otimizador              | SGD, lr=0.1                   | Simples, eficiente p/ modelo pequeno        |
| Momento / regulariza√ß√£o | momentum=0, weight_decay=0    | Treino ‚Äúcru‚Äù ‚Äî suficiente para caso simples |

‚úÖ Isso est√° **exatamente como deveria estar antes de iniciar o treinamento**.

---

## üìù Em resumo:

* O modelo ainda **n√£o tem nenhum conhecimento** ‚Äî est√° pronto para aprender.
* Os pesos e bias iniciais foram sorteados e ser√£o ajustados pelo treinamento.
* A fun√ß√£o de perda e o otimizador est√£o bem configurados para um problema bin√°rio pequeno (como o Iris).
* Voc√™ est√° na etapa **‚Äúpr√©-treino‚Äù**, e o pr√≥ximo passo natural √©:

  1. Rodar um loop de treinamento com `loss.backward()` e `optimizer.step()`,
  2. Monitorar a perda decaindo com as √©pocas,
  3. Ver a precis√£o aumentar no treino e no teste.

üëâ Em linguagem simples:

> ‚ÄúO modelo foi criado e est√° zerado. Agora vem a parte de ensinar ele a reconhecer a flor Versicolor.‚Äù üå∏üß†

---

Se voc√™ quiser, posso escrever o **loop de treinamento completo** usando esse modelo e mostrar como os pesos evoluem ao longo das √©pocas üìà.
Quer que eu fa√ßa isso? üöÄ


In [None]:
# -*- coding: utf-8 -*-
import torch
from torch import nn
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# 0) Dados (Iris ‚Üí bin√°rio: Versicolor=1, caso contr√°rio=0)
iris = datasets.load_iris()
X = iris.data
y = (iris.target == 1).astype(float)

# Split estratificado (80/20) e padroniza√ß√£o (boa pr√°tica p/ regress√£o log√≠stica)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y, shuffle=True
)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test  = scaler.transform(X_test)

# Tensores
X_train_t = torch.tensor(X_train, dtype=torch.float32)
y_train_t = torch.tensor(y_train, dtype=torch.float32).view(-1, 1)
X_test_t  = torch.tensor(X_test,  dtype=torch.float32)
y_test_t  = torch.tensor(y_test,  dtype=torch.float32).view(-1, 1)

# 1) Modelo: regress√£o log√≠stica (Linear 4‚Üí1; Sigmoid embutida na loss)
modelo = nn.Linear(4, 1)

# 2) Fun√ß√£o de perda e otimizador
funcao_perda = nn.BCEWithLogitsLoss()       # est√°vel numericamente (logits + BCE)
optimizer = torch.optim.SGD(modelo.parameters(), lr=0.1)  # simples e funciona bem aqui

# 3) Loop de treinamento
EPOCHS = 500
for epoch in range(1, EPOCHS + 1):
    # --- modo treino ---
    modelo.train()
    optimizer.zero_grad()

    # forward
    logits = modelo(X_train_t)              # sa√≠da linear
    loss = funcao_perda(logits, y_train_t)  # BCE + Sigmoid (interno)

    # backward
    loss.backward()

    # atualiza√ß√£o dos pesos
    optimizer.step()

    # logging a cada 50 √©pocas
    if epoch % 50 == 0 or epoch == 1:
        with torch.no_grad():
            probs_tr = torch.sigmoid(modelo(X_train_t))
            preds_tr = (probs_tr >= 0.5).float()
            acc_tr = (preds_tr.eq(y_train_t).float().mean().item())
        print(f"[{epoch:3d}/{EPOCHS}] loss={loss.item():.4f}  acc_train@0.5={acc_tr:.3f}")

# 4) Avalia√ß√£o no TESTE
modelo.eval()
with torch.no_grad():
    probs_te = torch.sigmoid(modelo(X_test_t))
    preds_te = (probs_te >= 0.5).float()

# m√©tricas no teste
y_true = y_test_t.numpy().ravel()
y_pred = preds_te.numpy().ravel()

acc  = accuracy_score(y_true, y_pred)
prec = precision_score(y_true, y_pred, zero_division=0)
rec  = recall_score(y_true, y_pred, zero_division=0)
f1   = f1_score(y_true, y_pred, zero_division=0)

print("\n=== M√©tricas no TESTE (threshold=0.5) ===")
print(f"Acur√°cia : {acc:.3f}")
print(f"Precis√£o : {prec:.3f}")
print(f"Recall   : {rec:.3f}")
print(f"F1-score : {f1:.3f}")


Excelente üëå ‚Äî o resultado que voc√™ obteve mostra um **modelo de regress√£o log√≠stica que aprendeu alguma coisa**, mas ainda **n√£o tem um desempenho preditivo muito bom**.
Vamos analisar cada parte do output com calma üëá

---

## üß† 1. **Evolu√ß√£o do treinamento**

```
[  1/500] loss=0.6510  acc_train@0.5=0.575
[ 50/500] loss=0.5371  acc_train@0.5=0.742
[100/500] loss=0.5136  acc_train@0.5=0.725
...
[500/500] loss=0.4904  acc_train@0.5=0.742
```

‚úÖ **O que isso significa:**

* A perda (loss) caiu de **0.6510 ‚Üí 0.4904**, o que mostra que o modelo **est√° aprendendo**.
* A acur√°cia de treino subiu de **57,5% ‚Üí 74,2%**, estabilizando a partir da √©poca ~200.

‚ö†Ô∏è **Mas observe:**

* A loss **parou de cair significativamente** ap√≥s ~250 √©pocas.
* A acur√°cia tamb√©m **estagnou em ~74%**.
  ‚Üí Isso sugere que **o modelo atingiu um plat√¥**, ou seja, aprendeu o que conseguia com sua capacidade atual (apenas uma camada linear).

üìå Interpreta√ß√£o:

> O modelo captou alguns padr√µes, mas n√£o conseguiu capturar toda a complexidade dos dados.

---

## üß™ 2. **Desempenho no conjunto de teste**

```
Acur√°cia : 0.633
Precis√£o : 0.429
Recall   : 0.300
F1-score : 0.353
```

üëâ Esses n√∫meros contam a verdade sobre a capacidade preditiva:

| M√©trica  | Valor | Interpreta√ß√£o                                                                   |
| -------- | ----- | ------------------------------------------------------------------------------- |
| Acur√°cia | 0.633 | S√≥ 63,3% de acertos no conjunto de teste.                                       |
| Precis√£o | 0.429 | Quando prev√™ ‚ÄúVersicolor‚Äù, s√≥ acerta em 43% dos casos. Muitos falsos positivos. |
| Recall   | 0.300 | S√≥ acerta 30% dos positivos reais. Muitos falsos negativos.                     |
| F1-score | 0.353 | Baixo equil√≠brio entre precis√£o e recall.                                       |

üìå **Resumo**:

* O modelo erra bastante em ambas as classes.
* Tem **baixa precis√£o e recall**, ent√£o **n√£o identifica bem a classe positiva (Versicolor)**.
* Acur√°cia global baixa indica que **n√£o compensa bem nem prevendo tudo como 0**.

---

## üß≠ 3. Diagn√≥stico

| Sintoma                              | Causa prov√°vel                                                          |
| ------------------------------------ | ----------------------------------------------------------------------- |
| Plat√¥ de loss e acur√°cia             | Limita√ß√£o do modelo linear (pouca capacidade para padr√µes n√£o lineares) |
| Precis√£o e recall baixos             | O modelo n√£o separa bem as classes                                      |
| Gap entre treino (74%) e teste (63%) | Poss√≠vel overfitting leve ou m√° generaliza√ß√£o                           |
| Treinamento estabilizado cedo        | Talvez LR alta demais, sem refinamento fino                             |

üëâ Em resumo:

> O modelo **aprendeu algo**, mas n√£o tem poder preditivo forte.
> Isso √© t√≠pico de modelos lineares simples em problemas com **fronteiras de decis√£o mais complexas**.

---

## üß∞ 4. Como melhorar significativamente

### üî∏ **1. Normalizar/Padronizar os dados**

Voc√™ j√° pode estar fazendo isso ‚Äî mas se n√£o, √© essencial para regress√£o log√≠stica.

### üî∏ **2. Aumentar capacidade do modelo**

Adicionar uma camada escondida simples:

```python
modelo = nn.Sequential(
    nn.Linear(4, 8),
    nn.ReLU(),
    nn.Linear(8, 1)
)
```

‚û°Ô∏è Isso permite aprender **padr√µes n√£o lineares**, melhorando recall e precis√£o.

### üî∏ **3. Otimizador mais eficiente**

Trocar de `SGD` para `Adam`:

```python
optimizer = torch.optim.Adam(modelo.parameters(), lr=0.01)
```

‚û°Ô∏è Adam converge mais r√°pido e costuma escapar melhor de plat√¥s.

### üî∏ **4. Ajustar learning rate**

`lr=0.1` √© alto para alguns problemas. Tente `0.01` ou `0.005` para treinos mais suaves.

### üî∏ **5. Regulariza√ß√£o leve**

Adicionar `weight_decay` no otimizador pode evitar overfitting e melhorar generaliza√ß√£o:

```python
optimizer = torch.optim.Adam(modelo.parameters(), lr=0.01, weight_decay=1e-4)
```

### üî∏ **6. Tuning de threshold**

Ajustar o limiar de decis√£o pode **melhorar precis√£o ou recall**, mas isso **n√£o resolve** falta de aprendizado.
‚Üí Primeiro melhore o modelo.

---

## üìä 5. Comparando com um bom modelo (refer√™ncia)

| M√©trica         | Atual modelo | Modelo bom (esperado) |
| --------------- | ------------ | --------------------- |
| Loss final      | 0.49         | 0.05 ‚Äì 0.2            |
| Acur√°cia treino | 0.742        | 0.90+                 |
| Acur√°cia teste  | 0.633        | 0.85‚Äì0.97             |
| Precis√£o        | 0.429        | 0.90+                 |
| Recall          | 0.300        | 0.85+                 |
| F1              | 0.353        | 0.90+                 |

üìå Esse tipo de diferen√ßa mostra claramente que o modelo atual ainda √© **fraco** e precisa ser aprimorado.

---

## ‚úÖ Conclus√£o

‚ùå **N√£o √© um bom modelo preditivo** no estado atual.
‚úÖ **Mas √© um modelo que aprendeu alguma coisa**, e com pequenos ajustes ‚Äî especialmente na arquitetura e otimiza√ß√£o ‚Äî ele pode se tornar bom.

**Problema:** modelo linear limitado.
**Solu√ß√£o:** aumentar capacidade, melhorar otimiza√ß√£o e calibrar.

> üß† ‚ÄúVoc√™ est√° com um motor 1.0 tentando correr uma corrida de F1 ‚Äî √© hora de turbinar um pouco.‚Äù

---

Se voc√™ quiser, posso adaptar seu c√≥digo atual com:

* uma camada escondida simples,
* Adam,
* LR menor,
* e mostrar a compara√ß√£o de m√©tricas antes e depois.

Quer que eu monte essa vers√£o melhorada agora? üöÄ‚ú®


In [None]:
# -*- coding: utf-8 -*-
# Iris bin√°rio (Versicolor=1) ‚Äî MLP + Adam + padroniza√ß√£o + threshold tuning

import numpy as np
import torch
from torch import nn
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, roc_auc_score

# Reprodutibilidade
seed = 42
np.random.seed(seed)
torch.manual_seed(seed)

# 1) Dados
iris = datasets.load_iris()
X = iris.data
y = (iris.target == 1).astype(float)  # 1 = Versicolor

# 2) Split estratificado + padroniza√ß√£o (fit no treino, transform no teste)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=seed, stratify=y, shuffle=True
)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test  = scaler.transform(X_test)

# 3) Tensores
X_train_t = torch.tensor(X_train, dtype=torch.float32)
y_train_t = torch.tensor(y_train, dtype=torch.float32).view(-1, 1)
X_test_t  = torch.tensor(X_test,  dtype=torch.float32)
y_test_t  = torch.tensor(y_test,  dtype=torch.float32).view(-1, 1)

# 4) Modelo ‚Äî MLP simples (mais capacidade que regress√£o log√≠stica)
model = nn.Sequential(
    nn.Linear(4, 16),
    nn.ReLU(),
    nn.Linear(16, 1)   # logits
)

# 5) Loss e Otimizador (Adam + L2)
criterion = nn.BCEWithLogitsLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=1e-2, weight_decay=1e-4)

# 6) Treino
EPOCHS = 800
for epoch in range(1, EPOCHS + 1):
    model.train()
    optimizer.zero_grad()
    logits = model(X_train_t)
    loss = criterion(logits, y_train_t)
    loss.backward()
    optimizer.step()

    if epoch % 100 == 0 or epoch == 1:
        with torch.no_grad():
            probs_tr = torch.sigmoid(model(X_train_t))
            preds_tr = (probs_tr >= 0.5).float()
            acc_tr = (preds_tr.eq(y_train_t).float().mean().item())
        print(f"[{epoch:3d}/{EPOCHS}] loss={loss.item():.4f}  acc_train@0.5={acc_tr:.3f}")

# 7) Avalia√ß√£o no teste (threshold=0.5)
model.eval()
with torch.no_grad():
    test_logits = model(X_test_t).squeeze(1)
    test_probs  = torch.sigmoid(test_logits).cpu().numpy()

y_true = y_test_t.cpu().numpy().ravel()
y_pred05 = (test_probs >= 0.5).astype(float)

def metrics(y_true, y_pred):
    acc  = accuracy_score(y_true, y_pred)
    prec = precision_score(y_true, y_pred, zero_division=0)
    rec  = recall_score(y_true, y_pred, zero_division=0)
    f1   = f1_score(y_true, y_pred, zero_division=0)
    cm   = confusion_matrix(y_true, y_pred)
    return acc, prec, rec, f1, cm

acc05, prec05, rec05, f105, cm05 = metrics(y_true, y_pred05)
try:
    auc = roc_auc_score(y_true, test_probs)
except Exception:
    auc = None

print("\n=== TESTE @ threshold=0.5 ===")
print(f"Acur√°cia : {acc05:.3f}")
print(f"Precis√£o : {prec05:.3f}")
print(f"Recall   : {rec05:.3f}")
print(f"F1-score : {f105:.3f}")
print("Matriz de confus√£o:\n", cm05)
if auc is not None:
    print(f"AUC-ROC  : {auc:.3f}")

# 8) Varredura de limiar (max F1)
thresholds = np.linspace(0.05, 0.95, 19)
best = {"t": None, "acc": -1, "prec": -1, "rec": -1, "f1": -1, "cm": None}
rows = []
for t in thresholds:
    y_pred_t = (test_probs >= t).astype(float)
    acc, prec, rec, f1, cm = metrics(y_true, y_pred_t)
    rows.append((t, acc, prec, rec, f1))
    if f1 > best["f1"]:
        best.update({"t": t, "acc": acc, "prec": prec, "rec": rec, "f1": f1, "cm": cm})

rows_sorted = sorted(rows, key=lambda r: r[4], reverse=True)[:5]
print("\n=== Varredura de limiar ‚Äî top 5 por F1 (TESTE) ===")
print(f"{'Thr':>5}  {'Acc':>6} {'Prec':>6} {'Rec':>6} {'F1':>6}")
for t, acc, prec, rec, f1 in rows_sorted:
    print(f"{t:5.2f}  {acc:6.3f} {prec:6.3f} {rec:6.3f} {f1:6.3f}")

print("\n=== Melhor limiar por F1 (TESTE) ===")
print(f"Threshold*: {best['t']:.2f}")
print(f"Acur√°cia  : {best['acc']:.3f}")
print(f"Precis√£o  : {best['prec']:.3f}")
print(f"Recall    : {best['rec']:.3f}")
print(f"F1-score  : {best['f1']:.3f}")
print("Matriz de confus√£o:\n", best['cm'])
if auc is not None:
    print(f"AUC-ROC  : {auc:.3f}  (n√£o depende do threshold)")


Excelente üëå ‚Äî esse resultado √© **muito diferente** do seu modelo linear anterior e mostra que agora voc√™ realmente tem um **modelo preditivo de alta performance**.
Vamos analisar por etapas para entender o que aconteceu e **por que esse modelo √© bom** üëá

---

## üß† 1. Evolu√ß√£o do treinamento

```
[  1/800] loss=0.7672  acc_train@0.5=0.483
[100/800] loss=0.0837  acc_train@0.5=0.975
[200/800] loss=0.0461  acc_train@0.5=0.983
...
[800/800] loss=0.0298  acc_train@0.5=0.983
```

‚úÖ **Interpreta√ß√£o:**

* A perda caiu de **0.767 ‚Üí 0.0298**, ou seja, uma **redu√ß√£o muito grande e consistente** ‚Äî o modelo aprendeu a mapear bem os padr√µes do dataset.
* A acur√°cia de treino subiu de **48,3% para 98,3%**, estabilizando cedo (por volta da √©poca 200).
* A curva de loss √© suave, sem oscila√ß√µes ‚Üí **boa converg√™ncia com Adam**.
* O modelo **n√£o est√° overfittando de forma preocupante**, porque o desempenho no teste tamb√©m √© alto (ver abaixo).

üìå **Conclus√£o:**
O modelo conseguiu **aprender a estrutura do problema** e manteve estabilidade durante o treino ‚Äî isso √© um forte indicador de um bom treinamento.

---

## üß™ 2. Desempenho no conjunto de teste (threshold = 0.5)

```
Acur√°cia : 0.967
Precis√£o : 1.000
Recall   : 0.900
F1-score : 0.947
Matriz de confus√£o:
 [[20  0]
 [ 1  9]]
AUC-ROC  : 0.995
```

| M√©trica  | Valor | Interpreta√ß√£o                                                                 |
| -------- | ----- | ----------------------------------------------------------------------------- |
| Acur√°cia | 0.967 | 96,7% de acertos ‚Äî excelente para uma tarefa de classifica√ß√£o bin√°ria pequena |
| Precis√£o | 1.000 | Nenhum falso positivo ‚Äî modelo super confi√°vel para positivos                 |
| Recall   | 0.900 | Acerta 90% dos casos positivos (falhou em apenas 1)                           |
| F1-score | 0.947 | Equil√≠brio excelente entre precis√£o e recall                                  |
| AUC-ROC  | 0.995 | Separa√ß√£o quase perfeita entre classes                                        |

üìä **Matriz de confus√£o**:

| Real \ Predito | 0  | 1 |
| -------------- | -- | - |
| 0 (negativo)   | 20 | 0 |
| 1 (positivo)   | 1  | 9 |

üëâ Isso mostra:

* **20 acertos em 20 negativos**
* **9 acertos em 10 positivos**
* **0 falsos positivos**
* Apenas **1 falso negativo**

üìå **Conclus√£o:**
Esse √© **um modelo altamente discriminativo**, com excelente equil√≠brio entre sensibilidade e precis√£o ‚Äî praticamente perfeito para este problema.

---

## üß≠ 3. Varredura de threshold

```
Top 5 por F1 (threshold 0.15‚Äì0.35): F1 = 0.947
```

üëâ O F1 ficou **id√™ntico** para todos esses limiares.
‚û°Ô∏è Isso indica que:

* As probabilidades previstas est√£o **muito bem separadas entre classes** (n√£o h√° valores amb√≠guos pr√≥ximos de 0.5).
* O modelo est√° **bem calibrado** ‚Äî ele n√£o depende fortemente de um threshold ‚Äúm√°gico‚Äù para ter bom desempenho.
* A estabilidade do F1 em v√°rios thresholds refor√ßa que a **confian√ßa do modelo nas predi√ß√µes √© alta**.

üìå **Conclus√£o:**
Modelo bem calibrado + margens de decis√£o largas = √≥timo comportamento preditivo.

---

## üìä 4. Compara√ß√£o com o modelo anterior (linear)

| M√©trica         | Modelo Linear | Modelo MLP (atual) |
| --------------- | ------------- | ------------------ |
| Loss final      | 0.49          | **0.0298** ‚úÖ       |
| Acur√°cia treino | 0.742         | **0.983** ‚úÖ        |
| Acur√°cia teste  | 0.633         | **0.967** ‚úÖ        |
| Precis√£o        | 0.429         | **1.000** ‚úÖ        |
| Recall          | 0.300         | **0.900** ‚úÖ        |
| F1              | 0.353         | **0.947** ‚úÖ        |
| AUC-ROC         | ‚Äî             | **0.995** ‚úÖ        |

üìå Agora seu modelo:

* **Generaliza muito melhor**,
* **Aprende padr√µes n√£o lineares** gra√ßas √† camada escondida,
* **Classifica com alta confian√ßa** (precis√£o perfeita),
* E tem recall alto, ou seja, **identifica quase todos os casos positivos**.

---

## üß∞ 5. Diagn√≥stico final

| Ponto forte               | Evid√™ncia                                           |
| ------------------------- | --------------------------------------------------- |
| Aprendizado efetivo       | Queda forte e est√°vel na loss                       |
| Alta capacidade preditiva | Acur√°cia 96,7%, F1 0,947, AUC 0,995                 |
| Baixo overfitting         | Acur√°cia treino e teste pr√≥ximas                    |
| Alta calibragem           | F1 est√°vel para diferentes thresholds               |
| Modelo leve               | Apenas uma hidden layer ‚Äî baixo custo computacional |

‚ö†Ô∏è **Poss√≠vel ajuste** (se fosse um caso real):

* Aumentar um pouco o recall (de 0.90 para 1.0) ajustando o threshold para **abaixo de 0.5** (ex.: 0.15 j√° est√° √≥timo).
* Avaliar com valida√ß√£o cruzada se o dataset for pequeno ‚Äî s√≥ para garantir robustez.

---

## ‚úÖ Conclus√£o Final

üìå **Sim, agora voc√™ tem um excelente modelo preditivo.**

* **Aprendeu bem**, sem overfitting,
* **Alta precis√£o e recall**,
* **Alta AUC** indica separa√ß√£o clara das classes,
* E **boa estabilidade com diferentes thresholds**.

üëâ Em linguagem simples:

> üß† ‚ÄúAntes seu modelo chutava bem. Agora ele est√° acertando de verdade.‚Äù ‚ö°üå∏

---

Se voc√™ quiser, posso montar um gr√°fico com:

* **Curva ROC + AUC**,
* **Distribui√ß√£o das probabilidades por classe**,
* **Curva Precision‚ÄìRecall**,

para **visualizar graficamente a qualidade desse classificador**. Quer que eu gere esses gr√°ficos? üìà‚ú®


## Execu√ß√£o do treinamento

In [None]:
# 5. Treino
for epoch in range(1000):
    optimizer.zero_grad() # reseta gradiente sen√£o acumula
    outputs = modelo(X)
    loss = funcao_perda(outputs, y)
    loss.backward()
    optimizer.step()

    if (epoch + 1) % 10 == 0:
        print(f"√âpoca [{epoch+1}/100], Loss: {loss.item():.4f}")