<a href="https://colab.research.google.com/github/ferdinandrafols/IA_LLMs/blob/main/gsi073_aula0_regressao_logistica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# GSI073 - Tópicos Especiais de Inteligência Artificial

## Definição dos dados

In [None]:
import torch
import sklearn

# 1. Carregar dados
iris = sklearn.datasets.load_iris()
X = iris.data        # 4 features: sépalas e pétalas
y = (iris.target == 1).astype(float)  # 1 se Versicolor, 0 caso contrário

# 2. Preparar dados para pytorch
X = torch.tensor(X, dtype=torch.float32)
y = torch.tensor(y, dtype=torch.float32).view(-1, 1)

# 👇 Adicionando prints para visualizar
print("Shape de X:", X.shape)
print("Primeiras 5 linhas de X:\n", X[:5])

print("Shape de y:", y.shape)
print("Primeiras 5 linhas de y:\n", y[:5])


Excelente pergunta 👌 — **sim**, o resultado que você obteve está **correto e bom** ✅

Vamos justificar por partes 👇

---

## 🧠 **1. Estrutura dos dados**

📊 **`X` com shape `(150, 4)`** → **perfeito**.

* O dataset Iris tem exatamente **150 amostras**
* e **4 características** (sépalas e pétalas).
  ✅ Isso significa que você converteu os dados corretamente para tensor PyTorch.

📌 Se tivesse dado errado, você veria:

* `X` com shape diferente de `(150, 4)`
* erro de tipo de dado
* ou até erros no `torch.tensor(...)`.

---

## 🌿 **2. Estrutura dos rótulos `y`**

📊 **`y` com shape `(150, 1)`** → **perfeito para classificação binária**.

* Você converteu corretamente `iris.target` (0, 1, 2) em **binário (0 e 1)**.
* Isso é exatamente o formato que funções de perda como

  * `nn.BCEWithLogitsLoss()` ou
  * `nn.BCELoss()`
    esperam.

✅ Isso significa que o modelo poderá aprender a **distinguir “Versicolor” (1)** de outras espécies (0).

---

## 🧮 **3. Valores das primeiras linhas de `y`**

```
[[0.],
 [0.],
 [0.],
 [0.],
 [0.]]
```

👉 Isso **também está correto**:

* No dataset original, as **primeiras 50 flores** são da classe `0` (Setosa).
* A classe `1` (Versicolor) só começa a aparecer da amostra 50 em diante.
* Por isso os primeiros rótulos são todos `0.`.

✅ Isso indica que a **transformação lógica `iris.target == 1` funcionou como esperado**.

---

## 🪄 **4. Tipos de dados**

Você usou:

```python
dtype=torch.float32
```

✅ Isso é **o tipo padrão ideal para treinar redes neurais** —
nem inteiro (`int`) nem double (`float64`), que é mais pesado.

---

## 📝 Conclusão Final

| Item Verificado      | Resultado            | Situação  |
| -------------------- | -------------------- | --------- |
| Shape de X           | `(150, 4)`           | ✅ Correto |
| Shape de y           | `(150, 1)`           | ✅ Correto |
| Conversão para float | `float32`            | ✅ Correto |
| Rótulos binários     | 0 ou 1               | ✅ Correto |
| Primeiros rótulos 0  | coerente com dataset | ✅ Correto |

✅ **Sim, o resultado foi bom.**
Você tem agora **os dados prontos para treinar um modelo de classificação binária no PyTorch** — por exemplo, uma rede simples com uma ou duas camadas lineares.

---

👉 Próximos passos comuns seriam:

* dividir em treino e teste,
* definir um modelo (`nn.Sequential` ou `nn.Module`),
* escolher função de perda (`BCEWithLogitsLoss`),
* usar `SGD` ou `Adam` como otimizador,
* e treinar.


In [None]:
import torch
import sklearn
from sklearn.model_selection import train_test_split

# 1. Carregar dados
iris = sklearn.datasets.load_iris()
X = iris.data        # 4 features: sépalas e pétalas
y = (iris.target == 1).astype(float)  # 1 se Versicolor, 0 caso contrário

# 2. Separar em treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.2,         # 20% para teste
    random_state=42,       # garante reprodutibilidade
    shuffle=True,          # embaralhar dados antes da divisão
    stratify=y             # mantém proporção de classes (bom p/ classificação)
)

# 3. Converter para tensores PyTorch
X_train = torch.tensor(X_train, dtype=torch.float32)
y_train = torch.tensor(y_train, dtype=torch.float32).view(-1, 1)

X_test = torch.tensor(X_test, dtype=torch.float32)
y_test = torch.tensor(y_test, dtype=torch.float32).view(-1, 1)

# 👇 Verificação
print("Shape treino X:", X_train.shape)
print("Shape treino y:", y_train.shape)

print("Shape teste X:", X_test.shape)
print("Shape teste y:", y_test.shape)


In [None]:
import torch
import numpy as np
from torch import nn
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
from sklearn import datasets

# 1) Dados
iris = datasets.load_iris()
X = iris.data
y = (iris.target == 1).astype(float)  # 1 = Versicolor

# 2) Split (boas práticas: shuffle + stratify + seed)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, shuffle=True, stratify=y
)

# 3) Tensores
X_train = torch.tensor(X_train, dtype=torch.float32)
y_train = torch.tensor(y_train, dtype=torch.float32).view(-1, 1)
X_test  = torch.tensor(X_test,  dtype=torch.float32)
y_test  = torch.tensor(y_test,  dtype=torch.float32).view(-1, 1)

# 4) Modelo binário simples (sem Sigmoid na última camada)
model = nn.Sequential(
    nn.Linear(4, 8),
    nn.ReLU(),
    nn.Linear(8, 1)       # logits
)

# 5) Loss + Opt
criterion = nn.BCEWithLogitsLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)

# 6) Treino rápido
model.train()
for epoch in range(300):
    optimizer.zero_grad()
    logits = model(X_train)
    loss = criterion(logits, y_train)
    loss.backward()
    optimizer.step()

# 7) Avaliação no TESTE (onde as métricas fazem sentido)
model.eval()
with torch.no_grad():
    test_logits = model(X_test)
    test_probs  = torch.sigmoid(test_logits)        # converte logits -> prob.
    y_pred      = (test_probs >= 0.5).float()       # threshold 0.5

# 8) Métricas
y_true_np = y_test.numpy().ravel()
y_pred_np = y_pred.numpy().ravel()

acc  = accuracy_score(y_true_np, y_pred_np)
prec = precision_score(y_true_np, y_pred_np, zero_division=0)
rec  = recall_score(y_true_np, y_pred_np,   zero_division=0)
f1   = f1_score(y_true_np, y_pred_np,       zero_division=0)
cm   = confusion_matrix(y_true_np, y_pred_np)

print(f"Acurácia : {acc:.3f}")
print(f"Precisão : {prec:.3f}")
print(f"Recall   : {rec:.3f}")
print(f"F1-score : {f1:.3f}")
print("Matriz de confusão:\n", cm)


Excelente 👌 — vamos **interpretar cuidadosamente** esse resultado:

```
Acurácia : 0.600
Precisão : 0.455
Recall   : 1.000
F1-score : 0.625
Matriz de confusão:
 [[ 8 12]
 [ 0 10]]
```

---

## 🧠 1. Acurácia — **60%**

[
\text{Accuracy} = \frac{\text{acertos}}{\text{total}} = 0.60
]

👉 O modelo acertou **60% das amostras do conjunto de teste**.
📊 Como o Iris tem 30 amostras no teste (20% de 150), isso significa:
[
\text{acertos} = 0.6 \times 30 = 18 \text{ amostras corretas}
]
[
\text{erros} = 12 \text{ amostras incorretas}
]

✅ A acurácia não é péssima, mas também não é alta para um dataset simples como o Iris — indica que o modelo está com **desempenho limitado**.

---

## 🟡 2. Precisão — **45,5%**

[
\text{Precision} = \frac{\text{VP}}{\text{VP + FP}} = \frac{10}{10 + 12} \approx 0.455
]

👉 Dos casos em que o modelo **previu “Versicolor” (classe positiva)**:

* Acertou **10 vezes**
* Errou **12 vezes**

📌 **Interpretação prática**:

* O modelo está prevendo muitos positivos **que não são Versicolor** (12 falsos positivos),
* Ou seja, está **exagerando nas previsões positivas**.

⚠️ Isso reduz a confiabilidade da previsão positiva.

---

## 🟢 3. Recall — **100%**

[
\text{Recall} = \frac{\text{VP}}{\text{VP + FN}} = \frac{10}{10 + 0} = 1.0
]

👉 Dos **10 casos reais de Versicolor no teste**, o modelo **acertou todos**.

📌 **Interpretação prática**:

* O modelo **não deixou escapar nenhum Versicolor real** (FN = 0),
* Isso pode ser desejável em cenários onde falsos negativos são piores que falsos positivos (ex.: diagnóstico médico, fraudes etc.).

⚡ Porém, há um custo: muitos falsos positivos → baixa precisão.

---

## 🧮 4. F1-score — **0.625**

[
F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
]

[
= 2 \times \frac{0.455 \times 1.0}{0.455 + 1.0} \approx 0.625
]

👉 F1 está **entre precisão e recall**, mostrando um **desempenho mediano**:

* recall excelente,
* precisão baixa.

📌 É um **alerta de desequilíbrio** entre prever positivo demais e acertar de fato.

---

## 🧾 5. Matriz de confusão

```
[[ 8 12]
 [ 0 10]]
```

* 8 → Verdadeiros Negativos (classe 0 predita como 0) ✅
* 12 → Falsos Positivos (classe 0 predita como 1) ❌
* 0 → Falsos Negativos (classe 1 predita como 0) ✅
* 10 → Verdadeiros Positivos (classe 1 predita como 1) ✅

📌 **Resumo da matriz**:

| Real \ Predito | 0 | 1  |
| -------------- | - | -- |
| **0**          | 8 | 12 |
| **1**          | 0 | 10 |

👉 Ou seja:

* O modelo **nunca erra positivos reais** (bom recall),
* Mas **erra muito ao classificar negativos** (12 falsos positivos),
* Resultado: **baixa precisão**.

---

## 🧭 6. Diagnóstico do modelo

| Métrica              | Valor | Interpretação                                |
| -------------------- | ----- | -------------------------------------------- |
| **Acurácia**         | 0.600 | Desempenho global mediano                    |
| **Precisão**         | 0.455 | Muitas previsões positivas incorretas        |
| **Recall**           | 1.000 | Excelente cobertura dos casos positivos      |
| **F1-score**         | 0.625 | Mostra desequilíbrio entre precisão e recall |
| **Falsos positivos** | 12    | Modelo prevê “Versicolor” demais             |

👉 O modelo **está tendendo a classificar muita coisa como “Versicolor”**, garantindo recall máximo, mas **sacrificando precisão**.

---

## 🧪 7. O que poderia melhorar

* 🔸 **Regularizar a decisão**: ajustar o threshold da sigmoid (de 0.5 para outro valor) pode equilibrar precisão e recall.
* 🔸 **Aumentar a capacidade do modelo**: talvez camadas adicionais ou mais épocas.
* 🔸 **Balancear classes ou penalizar falsos positivos** com loss weighting.
* 🔸 **Feature scaling / normalização** — ajuda na convergência.
* 🔸 **Hiperparâmetros** (LR, momentum, batch size) podem estar limitando a performance.

---

## 📝 Conclusão final

* ✅ O modelo **acerta todos os positivos** → recall perfeito.
* ⚠️ **Erra muitos negativos**, gerando baixa precisão.
* 📊 **F1-score = 0.625** mostra que o modelo está razoável, mas com **muito espaço para otimização**.
* 🧭 Esse comportamento sugere **threshold enviesado para o positivo** ou **modelo pouco treinado / simples demais**.

👉 **Resumo em linguagem simples**:

> “O modelo está vendo *Versicolor* em tudo. Ele não deixa passar nenhuma Versicolor real, mas erra em muitas flores que não são. Isso garante recall alto, mas prejudica a precisão e a acurácia.”

---



## Definição do modelo e treinamento

In [None]:
# 3. Definir modelo: regressão logística
modelo = torch.nn.Linear(4, 1)  # 4 features → 1 saída (probabilidade de ser Versicolor)

# 4. Definir função de perda e algoritmo de otimização
funcao_perda = torch.nn.BCEWithLogitsLoss()  # combinação de sigmoid + BCE
optimizer = torch.optim.SGD(modelo.parameters(), lr=0.1)

## Execução do treinamento

In [None]:
# 5. Treino
for epoch in range(1000):
    optimizer.zero_grad() # reseta gradiente senão acumula
    outputs = modelo(X)
    loss = funcao_perda(outputs, y)
    loss.backward()
    optimizer.step()

    if (epoch + 1) % 10 == 0:
        print(f"Época [{epoch+1}/100], Loss: {loss.item():.4f}")