<a href="https://colab.research.google.com/github/ferdinandrafols/IA_LLMs/blob/main/gsi073_aula0_support_vector_machine.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# GSI073 - T√≥picos Especiais de Intelig√™ncia Artificial

Neste notebook, um tipo de Support Vector Machine Linear.


## Prepara√ß√£o dos dados

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from sklearn import datasets

# Preparar o dataset
iris = datasets.load_iris()
X = iris.data; y = iris.target

X = X[y != 1] ; y = y[y != 1] # versicolor
y = torch.tensor(y, dtype=torch.float32)
y[y == 0] = -1  # SVM espera r√≥tulos em {-1, +1}

X = torch.tensor(X, dtype=torch.float32) # Tensor √© um tipo especial que suporta muitas dimens√µes

A nossa Support Vector Machine √© basicamente um hiperplano definido por *w* e *b* que melhor separa as classes.

Boa! üëè Voc√™ acabou de montar a parte mais chatinha da prepara√ß√£o de dados para fazer uma **SVM ‚Äúestilo SVM‚Äù** em PyTorch: binarizou o problema do Iris e colocou os r√≥tulos em **{-1, +1}**, que √© exatamente o que a formula√ß√£o cl√°ssica de SVM usa.

Vamos analisar o que o seu c√≥digo fez e j√° te mostro o pr√≥ximo passo (definir o modelo e a loss tipo hinge).

---

## üß† O que o seu c√≥digo fez

```python
iris = datasets.load_iris()
X = iris.data
y = iris.target
```

* Carregou o Iris (150 amostras, 3 classes: 0=setosa, 1=versicolor, 2=virginica)

```python
X = X[y != 1]
y = y[y != 1]
```

* Aqui voc√™ **removeu a classe 1 (versicolor)**.
* Ent√£o sobraram **duas classes**:

  * `0` ‚Üí setosa
  * `2` ‚Üí virginica
* Isso transformou o problema em **bin√°rio**, o que √© √≥timo para testar uma SVM ‚Äúna m√£o‚Äù.

```python
y = torch.tensor(y, dtype=torch.float32)
y[y == 0] = -1
```

* Convertendo os r√≥tulos para tensor‚Ä¶
* ‚Ä¶e trocando a classe `0` por `-1`.
* Resultado final:

  * setosa ‚Üí **-1**
  * virginica ‚Üí **2** ‚ùó

‚ö†Ô∏è Aqui tem um detalhe importante:
voc√™ **n√£o converteu a classe 2 para +1**. Ent√£o seus r√≥tulos ficaram assim:

* `-1` para a classe 0
* `2` para a classe 2

Mas para SVM o ideal √© **{-1, +1}**. Ent√£o precisamos fazer mais uma linha para mapear o 2 ‚Üí +1.

---

## ‚úÖ Vers√£o corrigida da prepara√ß√£o

```python
import torch
import torch.nn as nn
import torch.optim as optim
from sklearn import datasets

# 1. Carregar dataset
iris = datasets.load_iris()
X = iris.data
y = iris.target

# 2. Ficar s√≥ com 2 classes (excluir a classe 1 = versicolor)
mask = (y != 1)
X = X[mask]
y = y[mask]   # agora y tem s√≥ 0 e 2

# 3. Converter para {-1, +1}
#  - classe 0 (setosa)  -> -1
#  - classe 2 (virginica) -> +1
y = torch.tensor(y, dtype=torch.float32)
y[y == 0] = -1.0
y[y == 2] = 1.0

# 4. Converter X para tensor
X = torch.tensor(X, dtype=torch.float32)

print("Shape X:", X.shape)
print("Valores √∫nicos de y:", y.unique())
```

Se voc√™ rodar isso, deve ver algo assim:

```text
Shape X: torch.Size([100, 4])
Valores √∫nicos de y: tensor([-1.,  1.])
```

üëÜ Isso significa:

* Ficamos com 100 amostras (50 setosa, 50 virginica)
* Agora o problema est√° no formato perfeito para uma SVM.

---

## üß≠ Pr√≥ximo passo

Agora que os dados est√£o prontos, d√° pra fazer uma SVM ‚Äúna unha‚Äù em PyTorch de 2 jeitos:

1. **SVM primal simplificada**

   * modelo linear: `f(x) = w¬∑x + b`
   * loss = hinge + L2
   * otimiza com SGD/Adam

2. **‚ÄúFake SVM‚Äù com BCE**

   * manter estrutura de SVM mas usar loss de rede neural

Como voc√™ mencionou **‚Äútermo de regulariza√ß√£o‚Äù e ‚Äúperda de classifica√ß√£o‚Äù**, acho que voc√™ quer ver a **vers√£o com hinge loss mesmo**. Ela fica assim üëá

```python
class LinearSVM(nn.Module):
    def __init__(self, n_features):
        super().__init__()
        self.w = nn.Parameter(torch.zeros(n_features, 1))
        self.b = nn.Parameter(torch.zeros(1))

    def forward(self, x):
        # retorna o score (n√£o √© probabilidade)
        return x @ self.w + self.b  # shape: [N, 1]


def hinge_loss(outputs, y, C=1.0):
    # y: [N] com valores em {-1, +1}
    # outputs: [N, 1]
    # hinge: max(0, 1 - y * f(x))
    y = y.view(-1, 1)
    classification_loss = torch.clamp(1 - y * outputs, min=0).mean()
    # termo de regulariza√ß√£o (1/2 ||w||^2)
    return 0.5 * (model.w ** 2).sum() + C * classification_loss
```

Se quiser, j√° te monto o loop de treino completo para essa SVM em PyTorch com print de loss. Quer que eu fa√ßa na sequ√™ncia?


In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, confusion_matrix

# 1. Carregar e preparar dados (Iris, 2 classes)
iris = datasets.load_iris()
X = iris.data
y = iris.target

# manter s√≥ setosa (0) e virginica (2)
mask = (y != 1)
X = X[mask]
y = y[mask]         # agora s√≥ 0 e 2

# converter r√≥tulos para {-1, +1}
y = torch.tensor(y, dtype=torch.float32)
y[y == 0] = -1.0
y[y == 2] = 1.0

# 2. train/test split + normaliza√ß√£o (muito importante p/ SVM)
X_train, X_test, y_train, y_test = train_test_split(
    X, y.numpy(), test_size=0.2, random_state=42, shuffle=True, stratify=y.numpy()
)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test  = scaler.transform(X_test)

# converter para tensores
X_train_t = torch.tensor(X_train, dtype=torch.float32)
y_train_t = torch.tensor(y_train, dtype=torch.float32)
X_test_t  = torch.tensor(X_test,  dtype=torch.float32)
y_test_t  = torch.tensor(y_test,  dtype=torch.float32)

# 3. Definir modelo SVM linear
class LinearSVM(nn.Module):
    def __init__(self, n_features):
        super().__init__()
        # w: [n_features, 1], b: [1]
        self.w = nn.Parameter(torch.zeros(n_features, 1))
        self.b = nn.Parameter(torch.zeros(1))

    def forward(self, x):
        # x: [N, d]
        # return: [N, 1] ‚Äî score (n√£o √© probabilidade)
        return x @ self.w + self.b

model = LinearSVM(n_features=4)

# 4. Definir hinge loss + regulariza√ß√£o
def svm_loss(model, outputs, y, C=1.0):
    # outputs: [N, 1], y: [N]
    y = y.view(-1, 1)  # [N, 1]
    # hinge: max(0, 1 - y * f(x))
    hinge = torch.clamp(1 - y * outputs, min=0)  # [N, 1]
    classification_loss = hinge.mean()
    # regulariza√ß√£o L2: 1/2 ||w||^2
    reg = 0.5 * torch.sum(model.w ** 2)
    # total
    return reg + C * classification_loss, classification_loss, reg

# 5. Otimizador
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 6. Treino
EPOCHS = 1000
C = 1.0  # quanto maior, mais o modelo tenta acertar o treino (menos margem)
for epoch in range(1, EPOCHS + 1):
    optimizer.zero_grad()
    outputs = model(X_train_t)   # [N, 1]
    loss, cls_loss, reg_loss = svm_loss(model, outputs, y_train_t, C=C)
    loss.backward()
    optimizer.step()

    if epoch % 100 == 0 or epoch == 1:
        # acur√°cia de treino
        with torch.no_grad():
            preds_train = torch.sign(model(X_train_t)).view(-1)  # -1 ou +1
            acc_train = (preds_train == y_train_t).float().mean().item()
        print(f"[{epoch:4d}/{EPOCHS}] loss={loss.item():.4f}  cls={cls_loss.item():.4f}  reg={reg_loss.item():.4f}  acc_train={acc_train:.3f}")

# 7. Avalia√ß√£o no TESTE
with torch.no_grad():
    scores_test = model(X_test_t).view(-1)
    preds_test = torch.sign(scores_test)  # -1 ou +1
    acc_test = (preds_test == y_test_t).float().mean().item()

print("\n=== Avalia√ß√£o no TESTE ===")
print(f"Acur√°cia: {acc_test:.3f}")

# matriz de confus√£o (convertendo p/ {0,1} s√≥ pra visualizar melhor)
y_test_bin = (y_test_t == 1).int().numpy()
preds_test_bin = (preds_test == 1).int().numpy()
cm = confusion_matrix(y_test_bin, preds_test_bin)
print("Matriz de confus√£o:\n", cm)


Isso ficou lindo üòé

Vamos dissecar o que o seu output est√° dizendo, porque ele est√° mostrando uma **SVM linear funcionando exatamente como no papel**.

---

## 1. O treino

```text
[   1/1000] loss=1.0000  cls=1.0000  reg=0.0000  acc_train=1.000
[ 100/1000] loss=0.2398  cls=0.0585  reg=0.1813  acc_train=1.000
...
[1000/1000] loss=0.2384  cls=0.0508  reg=0.1876  acc_train=1.000
```

O que isso conta:

* **na √©poca 1**:

  * `cls=1.0000`: v√°rios pontos ainda estavam ‚Äúdentro‚Äù da margem (ou no limite) ‚Üí hinge loss alta.
  * `reg=0.0000`: os pesos come√ßaram em zero.
  * `acc_train=1.000`: mesmo com hinge alta, **todos j√° estavam do lado certo do hiperplano**. Isso acontece porque o Iris (s√≥ setosa vs virginica) √© **muito bem separ√°vel**.

* **a partir da √©poca 100**:

  * `cls` (perda de classifica√ß√£o) caiu para ~0.05 ‚Üí ou seja, quase todo mundo ficou **fora da margem**.
  * `reg` subiu para ~0.187 ‚Üí o modelo ‚Äúesticou‚Äù um pouco o vetor (w) para **aumentar a margem**, e a regulariza√ß√£o come√ßou a pesar.
  * `loss` total estabilizou em **0.2384** ‚Üí isso √© o equil√≠brio cl√°ssico da SVM:
    [
    \text{loss total} = \underbrace{0.5|w|^2}*{\text{regulariza√ß√£o}} + C \cdot \underbrace{\text{hinge}}*{\text{classifica√ß√£o}}
    ]

üìå O que isso mostra?
Que o modelo **chegou muito r√°pido a 100% de acerto** e depois ficou **apenas ajustando a margem** ‚Äî exatamente o comportamento esperado de uma SVM quando os dados s√£o **linearmente separ√°veis**.

---

## 2. Treino com acur√°cia 1.000 desde o come√ßo

Isso pode parecer estranho (‚Äúu√©, j√° acertou tudo na √©poca 1?‚Äù), mas faz sentido:

* voc√™ usou **s√≥ duas classes bem separadas do Iris** (setosa e virginica);
* voc√™ **normalizou** os dados;
* o modelo √© **linear**, e o problema √© **linearmente separ√°vel**.

Ent√£o, o que a SVM faz depois disso n√£o √© mais ‚Äúaprender a classificar‚Äù, e sim:

> ‚Äúok, j√° separei ‚Äî agora vou achar **a melhor separa√ß√£o poss√≠vel** (a de maior margem)‚Äù.

√â por isso que:

* `acc_train` ficou 1.000 o tempo todo ‚úÖ
* mas `cls` e `reg` ficaram se ajustando at√© estabilizar

Ou seja:
**classifica√ß√£o perfeita** + **busca da margem √≥tima**.

---

## 3. Avalia√ß√£o no teste

```text
=== Avalia√ß√£o no TESTE ===
Acur√°cia: 1.000
Matriz de confus√£o:
 [[10  0]
 [ 0 10]]
```

Isso aqui √© o cen√°rio ideal:

* 10 negativos (setosa) ‚Üí todos corretos
* 10 positivos (virginica) ‚Üí todos corretos
* nenhuma confus√£o, nenhum falso positivo, nenhum falso negativo

üëâ **Sua SVM generalizou perfeitamente.**

Isso confirma duas coisas importantes:

1. **O dataset nesse recorte (0 vs 2) √© mesmo linearmente separ√°vel.**
2. **A implementa√ß√£o da SVM em PyTorch est√° correta.**
   (se tivesse algum erro de sinal, shape, ou r√≥tulo {0,1} vs {-1,+1}, voc√™ veria 1 ou 2 erros aqui)

---

## 4. Papel dos dois termos (ficou vis√≠vel!)

Olha que legal:

* `cls ‚âà 0.05`
  ‚Üí quase ningu√©m mais est√° violando a margem
  ‚Üí **perda de classifica√ß√£o baixa**

* `reg ‚âà 0.187`
  ‚Üí o modelo est√° pagando um custo por ter um (w) com certo tamanho
  ‚Üí **isso √© o termo de regulariza√ß√£o empurrando a solu√ß√£o para uma margem m√°xima**

Ou seja: voc√™ viu **ao vivo** o trade-off que a gente comentou:

[
\text{Loss total} = \underbrace{0.5|w|^2}*{\text{regulariza√ß√£o}} + C \cdot \underbrace{\text{hinge}}*{\text{classifica√ß√£o}}
]

Se voc√™ agora **aumentar o C** (ex.: `C = 10` no `svm_loss`), o que vai acontecer?

* o modelo vai tentar zerar ainda mais o `cls`
* mas o `reg` vai subir ‚Üí margem fica menor
* em dados com ru√≠do, isso levaria a overfitting

Se voc√™ **diminuir o C** (ex.: `C = 0.1`):

* o modelo aceita um pouco mais de viola√ß√£o de margem (`cls` sobe)
* mas o peso d√° uma encolhida (`reg` desce)
* voc√™ ganha **margem maior** ‚Üí mais robusto

D√° pra testar isso direto no seu c√≥digo trocando s√≥ o `C` üëç

---

## 5. Ent√£o‚Ä¶ esse √© um bom modelo preditivo?

**Sim.** Para esse recorte do problema (Iris 0 vs 2), ele est√° **perfeito**.

Mas √© importante dizer:

* voc√™ escolheu **um problema f√°cil** (linearmente separ√°vel);
* em problemas reais, com ru√≠do, 3+ classes, ou dados n√£o lineares, a SVM **n√£o vai ficar 1.000 / 1.000 assim**;
* a√≠ entra: kernel, modelo neural ou features melhores.

---

## 6. O que isso te mostra na aula de LLMs

Isso que voc√™ acabou de fazer mostra **a ponte**:

* SVM ‚Üí separa vetores por produto interno + regulariza√ß√£o
* LLM ‚Üí tamb√©m compara vetores por produto interno (Q¬∑K·µÄ), mas **aprende o espa√ßo de vetores**
* GPU ‚Üí m√°quina de produto interno

Voc√™ acabou de ver o caso ‚Äúpuro‚Äù do aprendizado estat√≠stico acontecendo.
Agora d√° pra mostrar em aula: ‚Äúolha, a mesma ideia de separar no espa√ßo vetorial √© o que o Transformer faz, mas com aten√ß√£o e embeddings‚Äù.

---

Se quiser, o pr√≥ximo passo natural √©:

1. repetir o mesmo c√≥digo **sem normalizar** e ver que a loss n√£o fica t√£o bonitinha;
2. ou trocar pra **kernel RBF** no sklearn e comparar;
3. ou remontar o mesmo problema mas **com as 3 classes** e mostrar por que a SVM precisa do truque ‚Äúone-vs-rest‚Äù.

Quer ir pra qual desses? üëÄ



In [None]:
# Definir par√¢metros trein√°veis da Support Vector Machine: w e b
n_features = X.shape[1]
w = torch.randn(n_features, 1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

# === Hiperpar√¢metros ===
learning_rate = 0.01
epochs = 300
optimizer = optim.Adam([w, b], lr=learning_rate)

Perfeito üëè ‚Äî esse trecho que voc√™ acabou de colocar est√° montando a vers√£o ‚Äúmanual‚Äù dos par√¢metros da SVM, e √© uma √≥tima forma de entender como ela funciona **por dentro**.

Vamos destrinchar o que voc√™ fez e o que viria a seguir üëá

---

## üß† O que o c√≥digo faz

```python
n_features = X.shape[1]
w = torch.randn(n_features, 1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)
```

### üîπ `w`

* √â o **vetor de pesos** da SVM (a normal do hiperplano).
* Tem dimens√£o `(n_features, 1)` ‚Äî ou seja, um peso para cada feature do Iris.
* Inicializado aleatoriamente com distribui√ß√£o normal.

### üîπ `b`

* √â o **bias** (termo de deslocamento).
* Inicializado como zero.
* Tamb√©m tem gradiente habilitado ‚Üí vai ser ajustado durante o treinamento.

---

## ‚öôÔ∏è Hiperpar√¢metros

```python
learning_rate = 0.01
epochs = 300
optimizer = optim.Adam([w, b], lr=learning_rate)
```

### üîπ `learning_rate`

* Controla o passo de atualiza√ß√£o dos par√¢metros.
* O valor 0.01 √© razo√°vel para Adam.

### üîπ `epochs`

* N√∫mero de vezes que o modelo vai ver o conjunto de treino inteiro.

### üîπ `optimizer`

* Adam vai atualizar diretamente `w` e `b`.
* Isso √© legal porque **voc√™ n√£o est√° usando um `nn.Module`**, ent√£o precisa passar os par√¢metros manualmente.

---

## üß© Pr√≥ximo passo ‚Äî definir a **fun√ß√£o de perda da SVM**

Agora voc√™ precisa criar a **hinge loss com regulariza√ß√£o**, igual √† que usamos antes com a classe `LinearSVM`:

```python
def svm_loss(X, y, w, b, C=1.0):
    # Forward: f(x) = Xw + b
    outputs = X @ w + b

    # Hinge loss: max(0, 1 - y * f(x))
    hinge = torch.clamp(1 - y.view(-1, 1) * outputs, min=0)
    classification_loss = hinge.mean()

    # Regulariza√ß√£o L2: 1/2 ||w||^2
    reg = 0.5 * torch.sum(w ** 2)

    return reg + C * classification_loss, classification_loss, reg
```

---

## üîÅ Loop de treinamento

Voc√™ pode usar o mesmo padr√£o de loop:

```python
C = 1.0
for epoch in range(1, epochs + 1):
    optimizer.zero_grad()

    total_loss, cls_loss, reg_loss = svm_loss(X, y, w, b, C=C)
    total_loss.backward()
    optimizer.step()

    if epoch % 50 == 0 or epoch == 1:
        print(f"[{epoch:4d}/{epochs}] loss={total_loss.item():.4f}  cls={cls_loss.item():.4f}  reg={reg_loss.item():.4f}")
```

---

## üßÆ Avalia√ß√£o final

Ap√≥s o treino:

```python
with torch.no_grad():
    preds = torch.sign(X @ w + b)
    acc = (preds.view(-1) == y).float().mean()
    print(f"Acur√°cia final: {acc:.3f}")
```

---

## üß≠ Comparando com o modelo anterior

Esse c√≥digo √© equivalente ao que voc√™ fez antes com `nn.Module`, mas aqui:

* tudo √© expl√≠cito (voc√™ v√™ exatamente os tensores `w` e `b`);
* o otimizador atualiza diretamente esses tensores;
* voc√™ entende claramente onde est√° cada termo:
  regulariza√ß√£o (`0.5 * ||w||¬≤`) e hinge (`max(0, 1 - y f(x))`).

Se voc√™ rodar, deve ver a **mesma converg√™ncia r√°pida** (loss estabilizando ~0.23 e acur√°cia = 1.000).

---

Quer que eu adicione **a parte de divis√£o treino/teste e normaliza√ß√£o** dentro desse c√≥digo para deixar ele completinho e compar√°vel com o modelo anterior?


In [None]:
import torch
import torch.optim as optim
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import confusion_matrix, accuracy_score

# 1) Carregar dataset
iris = datasets.load_iris()
X = iris.data      # shape (150, 4)
y = iris.target    # 0=setosa, 1=versicolor, 2=virginica

# 2) Ficar s√≥ com 2 classes: 0 e 2 (tirar 1)
mask = (y != 1)
X = X[mask]
y = y[mask]   # agora tem s√≥ 0 e 2

# 3) Train/test split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, shuffle=True, stratify=y
)

# 4) Normalizar (fit no treino, transform no teste)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test  = scaler.transform(X_test)

# 5) Converter para tensores e trocar r√≥tulos para {-1, +1}
X_train_t = torch.tensor(X_train, dtype=torch.float32)
X_test_t  = torch.tensor(X_test,  dtype=torch.float32)

y_train_t = torch.tensor(y_train, dtype=torch.float32)
y_test_t  = torch.tensor(y_test,  dtype=torch.float32)

# SVM usa -1 e +1
y_train_t[y_train_t == 0] = -1.0
y_train_t[y_train_t == 2] =  1.0
y_test_t[y_test_t == 0]   = -1.0
y_test_t[y_test_t == 2]   =  1.0

# 6) Definir par√¢metros trein√°veis (w e b) "na m√£o"
n_features = X_train_t.shape[1]
w = torch.randn(n_features, 1, requires_grad=True)  # pesos
b = torch.zeros(1, requires_grad=True)              # bias

# 7) Hiperpar√¢metros
learning_rate = 0.01
epochs = 300
C = 1.0   # peso da perda de classifica√ß√£o (como o C da SVM)
optimizer = optim.Adam([w, b], lr=learning_rate)

# 8) Definir a loss da SVM (hinge + regulariza√ß√£o)
def svm_loss(X, y, w, b, C=1.0):
    # X: [N, d], y: [N], w: [d, 1], b: [1]
    scores = X @ w + b          # [N, 1]
    y = y.view(-1, 1)           # [N, 1]
    # hinge: max(0, 1 - y * score)
    hinge = torch.clamp(1 - y * scores, min=0)
    classification_loss = hinge.mean()
    reg_loss = 0.5 * torch.sum(w ** 2)
    total = reg_loss + C * classification_loss
    return total, classification_loss, reg_loss, scores

# 9) Treino
for epoch in range(1, epochs + 1):
    optimizer.zero_grad()
    total_loss, cls_loss, reg_loss, scores = svm_loss(X_train_t, y_train_t, w, b, C=C)
    total_loss.backward()
    optimizer.step()

    if epoch % 50 == 0 or epoch == 1:
        # acur√°cia de treino
        with torch.no_grad():
            preds_train = torch.sign(scores).view(-1)
            acc_train = (preds_train == y_train_t).float().mean().item()
        print(f"[{epoch:3d}/{epochs}] loss={total_loss.item():.4f}  cls={cls_loss.item():.4f}  reg={reg_loss.item():.4f}  acc_train={acc_train:.3f}")

# 10) Avalia√ß√£o no TESTE
with torch.no_grad():
    test_scores = X_test_t @ w + b
    preds_test = torch.sign(test_scores).view(-1)

acc_test = (preds_test == y_test_t).float().mean().item()
print("\n=== Avalia√ß√£o no TESTE ===")
print(f"Acur√°cia: {acc_test:.3f}")

# matriz de confus√£o (convertendo p/ {0,1} s√≥ pra ficar bonita)
y_test_bin = (y_test_t == 1).int().numpy()
preds_test_bin = (preds_test == 1).int().numpy()
cm = confusion_matrix(y_test_bin, preds_test_bin)
print("Matriz de confus√£o:\n", cm)


## Execu√ß√£o do treinamento

In [None]:
for epoch in range(epochs):
    optimizer.zero_grad()

    y_pred = X @ w + b  # Modelo SVM (um hiperplano que depende de w e b)

    # Hinge loss: max(0, 1 - y_i * (w^T x_i + b))
    perda_de_classificacao = torch.clamp(1 - y.view(-1, 1) * y_pred, min=0).mean()

    # Termo de regulariza√ß√£o
    perda_de_distancia_entre_classes = 0.5 * torch.sum(w ** 2) # 2/||w|| √© a dist√¢ncia que queremos que seja a maior poss√≠vel

    # Fun√ß√£o objetivo tradicional: minimizar reg + C * hinge
    loss = perda_de_distancia_entre_classes + perda_de_classificacao

    loss.backward()
    optimizer.step()

    if (epoch + 1) % 100 == 0:
        print(f"Epoch {epoch+1}/{epochs}, Loss={loss.item():.4f}")