# Homework sobre SVMs


# Questão 1: Análise Visual de SVMs

### a) Quantos erros cada SVM possui no conjunto de treino?

Observando as figuras apresentadas no problema:
* **LinearSVC (linear kernel)**: 2 erros.
* **SVC with linear kernel**: 2 erros.
* **SVC with RBF kernel**: 0 erros.
* **SVC with polynomial (degree 3) kernel**: 1 erro.

---
### b) Qual a que lhe parece ser a melhor SVM? Por que?

A **SVC with RBF kernel** aparenta ser a melhor SVM.

**Motivos**:
1.  **Menor Erro de Treino**: Classifica corretamente todos os exemplos de treino, resultando em 0 erros.
2.  **Fronteira de Decisão Adequada**: O kernel RBF cria uma fronteira de decisão não-linear que se ajusta bem à distribuição dos dados apresentados.

# Questão 2: Regularização e Número de Vetores de Suporte

Para aumentar o número de vetores de suporte, tornando o modelo mais "complexo" quando o número atual de vetores de suporte é relativamente pequeno, você deve **aumentar o parâmetro "C"** da classe SVC do scikit-learn.

**Explicação**:
* O hiperparâmetro `C` é usado para efetuar a regularização do modelo.
* Um **`C` baixo** prioriza uma margem maior, geralmente levando a menos vetores de suporte.
* Um **`C` alto** penaliza mais as classificações incorretas, resultando em um ajuste mais próximo aos dados de treino e frequentemente a um número maior de vetores de suporte, o que pode ser visto como um modelo mais "complexo".

# Questão 3: Redução de Custo Computacional SVM Linear para Perceptron

Dados: Um classificador usa vetores de entrada com $K=5$ features. Após treinar uma SVM linear, o número de vetores de suporte foi de 450. O cálculo do kernel linear (um produto interno entre dois vetores de dimensão K) requer K multiplicações e K-1 adições. Queremos estimar o fator de redução $F = C_{original}/C_{perceptron}$ no custo computacional durante a fase de teste.

---
**1. Custo de um Produto Interno (Kernel Linear) para $K=5$**:
* Multiplicações: $K = 5$.
* Adições: $K-1 = 5-1 = 4$.
* Total: $5 + 4 = 9$ operações.

**2. Custo da SVM Original ($C_{original}$)**:
Para classificar um novo exemplo, a SVM linear calcula o produto interno entre o exemplo de entrada e cada um dos 450 vetores de suporte.
* $C_{original} = (\text{Número de vetores de suporte}) \times (\text{Operações por produto interno})$
* $C_{original} = 450 \times 9 = 4050$ operações.

**3. Custo do Perceptron ($C_{perceptron}$)**:
Quando convertida para um perceptron, a função de decisão é $f(z) = \langle w, z \rangle + b$. O cálculo principal é um único produto interno entre o vetor de pesos $w$ (de dimensão $K=5$) e o vetor de entrada $z$.
* $C_{perceptron} = (\text{Operações por produto interno para } K=5)$
* $C_{perceptron} = 9$ operações.

**4. Fator de Redução ($F$)**:
* $F = C_{original} / C_{perceptron}$
* $F = 4050 / 9 = 450$.

O fator de redução $F$ é **450**.

# Questão 4: Interpretação do Resultado de Projeto de SVM Linear

Os seguintes resultados foram obtidos do treinamento de uma SVM linear usando a classe `SVC` do scikit-learn:
* `svm.n_support_ = [1 2]` (número de vetores de suporte por classe).
* `svm.support_vectors_ = [[1., 4.], [-2., 3.], [-2., -5.]]` (vetores de suporte $x_0, x_1, x_2$).
* `svm.dual_coef_ = [[-0.5, -0.3, 0.8]]` (valores de $\lambda_n$).
* `svc.intercept_ = [-2]` ("bias" $b$).
---
### a) A função de decisão para essa SVM de acordo com a fórmula geral: $f(z)=(\sum_{n=0}^{N-1}\lambda_{n}K(z,x_{n}))+b$

O kernel é linear, $K(z, x_n) = z \cdot x_n$.
* $x_0 = [1, 4]$, $\lambda_0 = -0.50$.
* $x_1 = [-2, 3]$, $\lambda_1 = -0.30$.
* $x_2 = [-2, -5]$, $\lambda_2 = 0.80$.
* $b = -2.00$.

Para $z = [z_1, z_2]$:
$f(z) = -0.50 (z \cdot [1, 4]) - 0.30 (z \cdot [-2, 3]) + 0.80 (z \cdot [-2, -5]) - 2.00$
$f(z) = -0.50 (1z_1 + 4z_2) - 0.30 (-2z_1 + 3z_2) + 0.80 (-2z_1 - 5z_2) - 2.00$
$f(z) = -0.50z_1 - 2.00z_2 + 0.60z_1 - 0.90z_2 - 1.60z_1 - 4.00z_2 - 2.00$
$f(z) = (-0.50 + 0.60 - 1.60)z_1 + (-2.00 - 0.90 - 4.00)z_2 - 2.00$
$f(z) = -1.50z_1 - 6.90z_2 - 2.00$.

---
### b) A função de decisão desta SVM quando escrita como um perceptron $f(z)=\langle z,w \rangle+b$

O vetor de pesos $w = \sum_{n=0}^{N-1} \lambda_n x_n$:
$w = -0.50 [1, 4] - 0.30 [-2, 3] + 0.80 [-2, -5]$
$w = [-0.50, -2.00] + [0.60, -0.90] + [-1.60, -4.00]$
$w = [-0.50 + 0.60 - 1.60, -2.00 - 0.90 - 4.00]$
$w = [-1.50, -6.90]$.

O bias $b = -2.00$.
A função de decisão é:
$f(z) = [-1.50, -6.90] \cdot [z_1, z_2] - 2.00$
$f(z) = -1.50z_1 - 6.90z_2 - 2.00$.

---
### c) A saída da função de decisão quando o vetor de entrada é $z=[0,0]$ e o respectivo rótulo predito $y$ assumindo-se que $y=I(f(z)>0)$

Para $z = [0, 0]$:
$f([0,0]) = -1.50(0) - 6.90(0) - 2.00 = -2.00$.

O rótulo predito $y = I(f(z) > 0)$, onde $I(\cdot)$ é a função "indicador", que é 1 se o argumento é verdadeiro, ou 0 caso contrário.
$y = I(-2.00 > 0)$
Como $-2.00 > 0$ é falso, $y = 0$.

**Saída da função de decisão para $z=[0,0]$**: $f([0,0]) = -2.00$.
**Rótulo predito $y$ para $z=[0,0]$**: $y = 0$.

# Questão 5: Interpretação do Resultado de Projeto de SVMs (ak_svm_proval.py)

O script `ak_svm_proval.py` e o conjunto de treino `dataset_train.txt` foram usados para gerar uma figura e um log. Quatro SVMs foram treinadas: duas com kernel linear (SVMs 1 e 2) e duas com kernels não-lineares (SVMs 3 e 4). Os resultados e parâmetros dessas SVMs estão detalhados no log fornecido.

---
### a) Quais as expressões para as SVMs 3 e 4 (não-lineares) e para a SVM 2 (linear) de acordo com a nomenclatura $f(z)=(\sum_{n=0}^{N-1}\lambda_{n}K(z,x_{n}))+b$?

Usando duas casas decimais para simplificação, com base nos valores do log.

**SVM 2 (SVC with linear kernel)**
* Vetores de Suporte ($x_n$): $x_0 = [0, -4]$, $x_1 = [-1, 2]$, $x_2 = [-2, -2]$.
* Coeficientes Duais ($\lambda_n = y_n \alpha_n$): $\lambda_0 \approx -0.46$, $\lambda_1 \approx -0.28$, $\lambda_2 \approx 0.74$.
* Bias ($b$): $b \approx -1.80$.
* Kernel: Linear, $K(z, x_n) = z \cdot x_n$.
* Função de decisão $f_2(z)$:
    $f_2(z) = -0.46 (z \cdot [0, -4]) - 0.28 (z \cdot [-1, 2]) + 0.74 (z \cdot [-2, -2]) - 1.80$
    $f_2(z) = (1.84z_2) + (0.28z_1 - 0.56z_2) + (-1.48z_1 - 1.48z_2) - 1.80$
    $f_2(z) = (0.28 - 1.48)z_1 + (1.84 - 0.56 - 1.48)z_2 - 1.80$
    $f_2(z) = -1.20z_1 - 0.20z_2 - 1.80$.

**SVM 3 (SVC with RBF kernel)**
* Vetores de Suporte ($x_n$): $x_0 = [0, -4]$, $x_1 = [-1, 2]$, $x_2 = [3, 3]$, $x_3 = [-5, -6]$, $x_4 = [-4, -5]$, $x_5 = [-2, -2]$.
* Coeficientes Duais ($\lambda_n$): $\lambda_0 \approx -0.92, \lambda_1 \approx -0.91, \lambda_2 \approx -0.91, \lambda_3 \approx 0.87, \lambda_4 \approx 0.87, \lambda_5 = 1.00$.
* Bias ($b$): $b \approx -0.09$.
* Kernel: RBF, $K(z, x_n) = \exp(-\gamma ||z - x_n||^2)$, com $\gamma = 0.7$.
* Função de decisão $f_3(z)$:
    $f_3(z) = -0.92 \exp(-0.7 ||z - [0,-4]||^2) - 0.91 \exp(-0.7 ||z - [-1,2]||^2) - 0.91 \exp(-0.7 ||z - [3,3]||^2) + 0.87 \exp(-0.7 ||z - [-5,-6]||^2) + 0.87 \exp(-0.7 ||z - [-4,-5]||^2) + 1.00 \exp(-0.7 ||z - [-2,-2]||^2) - 0.09$.

**SVM 4 (SVC with polynomial (degree 3) kernel)**
* Vetores de Suporte ($x_n$): $x_0 = [0, -4]$, $x_1 = [-1, 2]$, $x_2 = [-2, -2]$.
* Coeficientes Duais ($\lambda_n$): $\lambda_0 \approx -0.01, \lambda_1 \approx -0.03, \lambda_2 \approx 0.04$.
* Bias ($b$): $b \approx -1.04$.
* Kernel: Polinomial, $K(z, x_n) = (\gamma (z \cdot x_n) + \text{coef0})^{\text{degree}}$. Com `degree`=3, `coef0`=0, `gamma`='auto'. Para 2 features, scikit-learn usa $\gamma = 1/n_{\text{features}} = 1/2 = 0.5$ quando `gamma`='auto'.
    Assim, $K(z, x_n) = (0.5 (z \cdot x_n) + 0)^3 = 0.125 (z \cdot x_n)^3$.
* Função de decisão $f_4(z)$:
    $f_4(z) = (-0.01 \cdot 0.125 (z \cdot [0,-4])^3) - (0.03 \cdot 0.125 (z \cdot [-1,2])^3) + (0.04 \cdot 0.125 (z \cdot [-2,-2])^3) - 1.04$
    $f_4(z) = -0.00125 (-4z_2)^3 - 0.00375 (-z_1+2z_2)^3 + 0.005 (-2z_1-2z_2)^3 - 1.04$.

---
### b) Quais as expressões para as SVMs 1 e 2 (lineares) quando escritas como perceptrons?

O formato perceptron é $f(z) = w \cdot z + b$.

**SVM 1 (LinearSVC)**
* Pesos ($w$): $w \approx [-0.69, -0.11]$.
* Bias ($b$): $b \approx -1.00$.
* Função de decisão $f_1(z) = -0.69z_1 - 0.11z_2 - 1.00$.

**SVM 2 (SVC with linear kernel)**
* Pesos ($w$): $w \approx [-1.20, -0.20]$.
* Bias ($b$): $b \approx -1.80$.
* Função de decisão $f_2(z) = -1.20z_1 - 0.20z_2 - 1.80$.

---
### c) Suponha que para a SVM 2 (linear), apenas as informações abaixo fossem fornecidas. Explique agora com clareza quais os passos que você adotaria para converter essa SVM linear em um perceptron como descrito no item b) e indique em termos do número de multiplicações e adições, qual economia no custo computacional que a implementação como perceptron alcança.

Informações fornecidas para SVM 2:
* `svm.n_support_ = [2 1]` (Total 3 SVs).
* `svm.support_vectors_ = [[0., -4.], [-1., 2.], [-2., -2.]]` ($x_0, x_1, x_2$).
* `svm.dual_coef_ = [[-0.45994152, -0.27992202, 0.73986354]]` ($\lambda_0, \lambda_1, \lambda_2$).
* `svc.intercept_ = [-1.79954513]` ($b$).

**Passos para conversão**:
1.  **Calcular o vetor de pesos $w$**: O vetor de pesos $w$ é dado por $w = \sum \lambda_n x_n$.
    $w_1 = (-0.45994152 \cdot 0) + (-0.27992202 \cdot -1) + (0.73986354 \cdot -2) \approx 0 + 0.28 - 1.48 = -1.20$.
    $w_2 = (-0.45994152 \cdot -4) + (-0.27992202 \cdot 2) + (0.73986354 \cdot -2) \approx 1.84 - 0.56 - 1.48 = -0.20$.
    Assim, $w \approx [-1.20, -0.20]$.
2.  **Manter o bias $b$**: O bias do perceptron é o mesmo `svc.intercept_` da SVM, $b \approx -1.80$.
3.  **Função de decisão do perceptron**: $f(z) = w \cdot z + b \approx -1.20 z_1 - 0.20 z_2 - 1.80$.

**Economia no custo computacional (para $K=2$ features)**:
Um produto interno $K(z,x_n)$ custa $K$ multiplicações e $K-1$ adições (para $K=2$, são 2 mults, 1 add).
* **Custo SVM original (3 SVs)**:
    * Kernels: $3 \times (2 \text{ mults} + 1 \text{ add}) = 6 \text{ mults} + 3 \text{ adds}$.
    * Ponderações ($\lambda_n \times \text{valor do kernel}$): $3 \text{ mults}$.
    * Soma dos termos: $2 \text{ adds}$.
    * Adição do bias: $1 \text{ add}$.
    * Total SVM: $(6+3) = 9 \text{ mults}, (3+2+1) = 6 \text{ adds}$. (15 operações).
* **Custo Perceptron**:
    * Produto interno $w \cdot z$: $2 \text{ mults} + 1 \text{ add}$.
    * Adição do bias: $1 \text{ add}$.
    * Total Perceptron: $2 \text{ mults}, 2 \text{ adds}$. (4 operações).

**Economia**: A implementação como perceptron economiza $9-2=7$ multiplicações e $6-2=4$ adições por classificação. Em termos de operações totais, a forma perceptron é $15/4 \approx 3.75$ vezes mais rápida.

---
### d) Para as SVMs 3 e 4 (não-lineares), indique:

**SVM 3 (SVC with RBF kernel)**
* **d.1) Número total de vetores de suporte (SVs)**: `svm.n_support_ = [3 3]`, Total = $3+3 = \textbf{6}$.
* **d.2) Índices desses SVs no conjunto de treino e os respectivos valores dos "lambdas" (coeficientes duais)**:
    Índices dos SVs: `svm.support_ = [0 1 2 3 4 5]`.
    Valores dos Lambdas ($\lambda_n = y_n \alpha_n$): `svm.dual_coef_ = [[-0.91722233 -0.91351914 -0.91300432 0.87185969 0.8718861 1.]]`.
    Arredondando: $\lambda_0 \approx -0.92, \lambda_1 \approx -0.91, \lambda_2 \approx -0.91, \lambda_3 \approx 0.87, \lambda_4 \approx 0.87, \lambda_5 = 1.00$.
* **d.3) Qual o valor do termo independente b chamado de "bias" ou "intercept"**:
    `svc.intercept_ = [-0.08676121]`. $b \approx \textbf{-0.09}$.

**SVM 4 (SVC with polynomial (degree 3) kernel)**
* **d.1) Número total de vetores de suporte (SVs)**: `svm.n_support_ = [2 1]`, Total = $2+1 = \textbf{3}$.
* **d.2) Índices desses SVs no conjunto de treino e os respectivos valores dos "lambdas" (coeficientes duais)**:
    Índices dos SVs: `svm.support_ = [0 1 5]`.
    Valores dos Lambdas ($\lambda_n = y_n \alpha_n$): `svm.dual_coef_ = [[-0.00887134 -0.03133903 0.04021037]]`.
    Arredondando: $\lambda_0 \approx -0.01, \lambda_1 \approx -0.03, \lambda_2 \approx 0.04$.
* **d.3) Qual o valor do termo independente b chamado de "bias" ou "intercept"**:
    `svc.intercept_ = [-1.03731897]`. $b \approx \textbf{-1.04}$.

---
### e) Considerando as saídas da SVM abaixo para o conjunto de treino, em qual dos exemplos de treino esta SVM está menos "confiante" (assumindo que esses números são "confidence scores") em sua decisão e qual é a classe que esta SVM prediz para este exemplo?

Saídas da função de decisão (para SVM 3, conforme log):
`svm.decision_function(X)= [-1.00027976, -1.00027976, -0.99977173, 1.00010297, 1.00022828, 0.90993821]`.

A confiança da SVM na sua decisão é proporcional ao valor absoluto da saída da função de decisão. Quanto mais próximo de zero for o valor, menos confiante está a SVM.
Valores absolutos (aproximados): $1.00, 1.00, 1.00, 1.00, 1.00, 0.91$.
O menor valor absoluto é $\approx 0.91$.

* **Exemplo menos confiante**: O sexto exemplo, com $f(z) \approx 0.91$.
* **Classe predita para este exemplo**: Assumindo $y = I(f(z)>0)$ (onde $I(\cdot)$ é 1 se $f(z)>0$, 0 caso contrário). Como $0.91 > 0$, a classe predita é **1**.

## Questão 6: Treinamento de SVM Linear com Scikit-learn

Nesta questão, vamos treinar uma Support Vector Machine (SVM) com **kernel linear**. O objetivo é utilizar o hiperparâmetro de regularização $C=1$.

Os passos envolvidos são:

1.  **Normalização dos Dados:**
    * Os dados de treino (`dataset_train.txt`) e teste (`dataset_test.txt`) serão utilizados.
    * Os fatores de normalização (média e desvio padrão) serão projetados com base **exclusivamente** no conjunto de treino, para que este conjunto tenha média 0 e variância 1.
    * A mesma transformação de normalização será aplicada ao conjunto de teste.

2.  **Treinamento da SVM:**
    * A SVM será treinada utilizando o conjunto de treino normalizado.

3.  **Avaliação do Modelo:**
    * O desempenho do modelo SVM treinado será indicado utilizando o conjunto de teste normalizado. Calcularemos a acurácia e exibiremos um relatório de classificação mais detalhado.

4.  **Conversão para Perceptron e Análise de Custo Computacional:**
    * A SVM linear treinada será conceitualmente convertida para um perceptron (já que uma SVM linear é, em sua forma de predição, um classificador linear $f(z) = w \cdot z + b$).
    * Estimaremos o custo computacional (em termos de número de multiplicações e adições) durante a fase de teste, comparando a SVM em sua forma original (que depende dos vetores de suporte) com sua versão implementada como perceptron.
    * Indicaremos se há algum ganho computacional em termos de memória e número de operações ao se converter essa SVM para um perceptron.

A seguir, o código Python para realizar estes passos.

In [1]:
# Célula 8 (Code)
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import classification_report

# --- Carregamento dos Dados ---
# Assumindo que os arquivos 'dataset_train.txt' e 'dataset_test.txt'
# estão no mesmo diretório que este script/notebook,
# e que os valores são separados por vírgula, com o rótulo na última coluna.

print("--- Iniciando Questão 6 ---")

try:
    # Carregar conjunto de treino
    train_data = np.loadtxt('dataset_train.txt', delimiter=',')
    X_train = train_data[:, :-1]
    y_train = train_data[:, -1]
    print("\nDataset de treino carregado com sucesso!")
    print(f"  Dimensões de X_train: {X_train.shape}")
    print(f"  Dimensões de y_train: {y_train.shape}")

    # Carregar conjunto de teste
    test_data = np.loadtxt('dataset_test.txt', delimiter=',')
    X_test = test_data[:, :-1]
    y_test = test_data[:, -1]
    print("\nDataset de teste carregado com sucesso!")
    print(f"  Dimensões de X_test: {X_test.shape}")
    print(f"  Dimensões de y_test: {y_test.shape}")

    # --- 1. Normalização e Treinamento da SVM ---
    print("\n--- 1. Normalização e Treinamento da SVM ---")
    # Criar o objeto StandardScaler
    scaler = StandardScaler()

    # Ajustar o scaler APENAS com os dados de treino e transformar X_train
    X_train_normalized = scaler.fit_transform(X_train)

    # Aplicar a MESMA transformação (usando o scaler ajustado no treino) ao X_test
    X_test_normalized = scaler.transform(X_test)

    print("\nDados normalizados.")
    print(f"  Dimensões de X_train_normalized: {X_train_normalized.shape}")
    print(f"  Dimensões de X_test_normalized: {X_test_normalized.shape}")

    # Treinamento da SVM Linear com C=1
    svm_model = SVC(kernel='linear', C=1.0)
    svm_model.fit(X_train_normalized, y_train)

    print("\nSVM Linear treinada com C=1.")
    print(f"  Número de vetores de suporte por classe: {svm_model.n_support_}")
    print(f"  Total de vetores de suporte: {np.sum(svm_model.n_support_)}")

    # --- 2. Desempenho do Modelo no Conjunto de Teste ---
    print("\n--- 2. Desempenho do Modelo no Conjunto de Teste ---")
    accuracy_test = svm_model.score(X_test_normalized, y_test)
    print(f"\nAcurácia da SVM no conjunto de teste normalizado: {accuracy_test:.4f}")

    y_pred_test = svm_model.predict(X_test_normalized)
    print("\nRelatório de Classificação no Teste:")
    print(classification_report(y_test, y_pred_test, zero_division=0))

    # --- 3. Conversão para Perceptron e Análise de Custo Computacional ---
    print("\n--- 3. Conversão para Perceptron e Análise de Custo Computacional ---")

    # Parâmetros do perceptron equivalente
    w_perceptron = svm_model.coef_[0]
    b_perceptron = svm_model.intercept_[0]

    # K: número de features
    K = X_train_normalized.shape[1]
    # N_sv: número total de vetores de suporte
    N_sv = svm_model.support_vectors_.shape[0]

    print(f"\nAnálise para K={K} features e N_sv={N_sv} vetores de suporte:")

    # Custo da SVM Original (forma com vetores de suporte) na fase de teste
    mult_svm_kernels = N_sv * K
    add_svm_kernels = N_sv * (K - 1) if K > 0 else 0
    mult_svm_duals = N_sv
    add_svm_sum = (N_sv - 1) if N_sv > 0 else 0
    add_svm_bias = 1

    total_mult_svm = mult_svm_kernels + mult_svm_duals
    total_add_svm = add_svm_kernels + add_svm_sum + add_svm_bias

    print("\nCusto da SVM Original (por predição):")
    print(f"  Multiplicações: {total_mult_svm}")
    print(f"  Adições: {total_add_svm}")

    # Custo da versão Perceptron (w . z + b) na fase de teste
    mult_perceptron = K
    add_perceptron_dot = (K - 1) if K > 0 else 0
    add_perceptron_bias = 1
    total_add_perceptron = add_perceptron_dot + add_perceptron_bias

    print("\nCusto da Versão Perceptron (por predição):")
    print(f"  Multiplicações: {mult_perceptron}")
    print(f"  Adições: {total_add_perceptron}")

    print("\nGanho Computacional em Operações:")
    if N_sv > 0 and mult_perceptron > 0 and total_add_perceptron > 0:
        if total_mult_svm > mult_perceptron or total_add_svm > total_add_perceptron:
            print(f"  Redução de multiplicações: Fator de ~{total_mult_svm / mult_perceptron:.2f}")
            print(f"  Redução de adições: Fator de ~{total_add_svm / total_add_perceptron:.2f}")
            print("  => Há um ganho em número de operações.")
        else:
            print("  => O custo de operações é similar ou o perceptron não oferece redução (caso atípico para N_sv > 0).")
    elif N_sv == 0:
        print("  => Não há vetores de suporte; análise de ganho não aplicável.")
    else:
        print("  => Não foi possível calcular o fator de redução de operações (divisão por zero evitada ou K=0).")

    # Ganho em memória
    mem_svm = (N_sv * K) + N_sv + 1
    mem_perceptron = K + 1

    print("\nGanho Computacional em Memória (nº de floats):")
    print(f"  Memória SVM Original: {mem_svm}")
    print(f"  Memória Perceptron: {mem_perceptron}")

    if N_sv > 0 and mem_perceptron > 0:
        if mem_svm > mem_perceptron:
             print(f"  Redução de memória: Fator de ~{mem_svm / mem_perceptron:.2f}")
             print("  => Há um ganho em memória.")
        else:
             print("  => O uso de memória é similar ou o perceptron requer mais (caso atípico para N_sv > 0).")
    elif N_sv == 0:
        print("  => Sem vetores de suporte; análise de ganho não aplicável.")
    else:
        print("  => Não foi possível calcular o fator de redução de memória.")

except FileNotFoundError as fnf_error:
    print(f"\nERRO CRÍTICO: Arquivo não encontrado - {fnf_error}")
    print("Verifique se os arquivos 'dataset_train.txt' e 'dataset_test.txt' estão no mesmo diretório do script e se os nomes estão corretos.")
except Exception as e:
    print(f"\nOCORREU UM ERRO INESPERADO: {e}")

print("\n--- Fim da Questão 6 ---")

--- Iniciando Questão 6 ---

Dataset de treino carregado com sucesso!
  Dimensões de X_train: (6, 2)
  Dimensões de y_train: (6,)

Dataset de teste carregado com sucesso!
  Dimensões de X_test: (4, 2)
  Dimensões de y_test: (4,)

--- 1. Normalização e Treinamento da SVM ---

Dados normalizados.
  Dimensões de X_train_normalized: (6, 2)
  Dimensões de X_test_normalized: (4, 2)

SVM Linear treinada com C=1.
  Número de vetores de suporte por classe: [2 2]
  Total de vetores de suporte: 4

--- 2. Desempenho do Modelo no Conjunto de Teste ---

Acurácia da SVM no conjunto de teste normalizado: 1.0000

Relatório de Classificação no Teste:
              precision    recall  f1-score   support

         0.0       1.00      1.00      1.00         2
         1.0       1.00      1.00      1.00         2

    accuracy                           1.00         4
   macro avg       1.00      1.00      1.00         4
weighted avg       1.00      1.00      1.00         4


--- 3. Conversão para Perceptro

## Conclusões e Análise dos Resultados da Questão 6

O código para a Questão 6 foi executado com sucesso, abrangendo o carregamento e normalização dos dados, o treinamento da SVM linear, a avaliação de seu desempenho e a análise do custo computacional em comparação com uma forma de perceptron.

---
### 1. Carregamento, Normalização e Treinamento da SVM

* **Carregamento dos Dados:**
    * Dataset de treino: 6 amostras, 2 features.
    * Dataset de teste: 4 amostras, 2 features.
    Os dados foram carregados corretamente, assumindo o formato de valores separados por vírgula.
* **Normalização:** Os dados foram normalizados (média 0, variância 1) com base no conjunto de treino, e a mesma transformação foi aplicada ao conjunto de teste.
* **Modelo SVM Linear (C=1):**
    * A SVM foi treinada com sucesso.
    * Número de vetores de suporte por classe: `[2 2]`.
    * Total de vetores de suporte: **4**.

---
### 2. Desempenho do Modelo no Conjunto de Teste

* **Acurácia:** **1.0000** (100%).
    O modelo classificou perfeitamente todas as 4 amostras do conjunto de teste.
* **Relatório de Classificação:**
    * Precision, Recall e F1-score foram de 1.00 para ambas as classes (0.0 e 1.0).
    Isso confirma o desempenho ideal do modelo no conjunto de teste fornecido. Para um dataset tão pequeno, a performance perfeita é possível, mas em cenários mais complexos, seria importante ter um conjunto de teste maior e mais diversificado.

---
### 3. Análise de Custo Computacional e Conversão para Perceptron

A análise foi realizada para $K=2$ features e $N_{sv}=4$ vetores de suporte.

* **Custo da SVM Original (por predição, usando vetores de suporte):**
    * Multiplicações: 12
    * Adições: 8
* **Custo da Versão Perceptron ($w \cdot z + b$, por predição):**
    * Multiplicações: 2
    * Adições: 2

* **Ganho Computacional em Operações:**
    * A SVM original (forma com vetores de suporte) realiza aproximadamente **6.00 vezes mais multiplicações** que o perceptron.
    * A SVM original realiza aproximadamente **4.00 vezes mais adições** que o perceptron.
    * **Conclusão:** Há um ganho substancial no número de operações ao utilizar a forma de perceptron para a predição, uma vez que o vetor de pesos $w$ já "compilou" a informação dos vetores de suporte.

* **Ganho Computacional em Memória (número de floats a serem armazenados para predição):**
    * Memória SVM Original (armazenando SVs, coeficientes duais, bias): 13 floats.
    * Memória Perceptron (armazenando $w$, bias): 3 floats.
    * A SVM original requer aproximadamente **4.33 vezes mais memória** que o perceptron.
    * **Conclusão:** Há também um ganho significativo em memória, pois não é mais necessário armazenar todos os vetores de suporte individualmente.

---
**Considerações Finais da Questão 6:**
Os resultados demonstram que, para uma SVM linear, sua representação como um perceptron ($w \cdot z + b$) é muito mais eficiente para a fase de teste (predição) em termos de custo computacional (operações e memória) quando comparada à forma que explicitamente utiliza os vetores de suporte e coeficientes duais no cálculo da decisão. Essa eficiência é particularmente pronunciada quando o número de vetores de suporte ($N_{sv}$) é maior que 1.

## Questão 7: Projeto de SVMs com Kernel Gaussiano (RBF)

Esta questão foca no projeto de SVMs com kernel Gaussiano (também chamado de "RBF"). Utilizaremos o conjunto de validação para fazer o "tuning" (otimização) de dois hiperparâmetros: "C" (parâmetro de regularização) e "gamma" (parâmetro do kernel RBF).

Os valores a serem avaliados são:
* $C \in \{0.01, 1, 100\}$
* $\text{gamma} \in \{0.5, 1\}$

Isso resultará em $3 \times 2 = 6$ combinações de SVMs a serem treinadas e avaliadas.

**Objetivos:**

* **a) Treinamento e Validação:**
    1.  Normalizar os dados de treino, validação e teste. O `scaler` deve ser ajustado apenas com os dados de treino.
    2.  Treinar as 6 SVMs com o conjunto de treino normalizado, variando `C` e `gamma`.
    3.  Observar o resultado (acurácia) de cada SVM no conjunto de validação normalizado.
    4.  Indicar qual combinação de `C` e `gamma` apresenta a melhor performance no conjunto de validação. Esta será a "SVM escolhida".

* **b) Descrição da SVM Escolhida:**
    Para a SVM escolhida no item (a), descrever totalmente os parâmetros que compõem a sua fórmula final, indicando:
    1.  O valor de `gamma` escolhido (e o `C` usado no treino).
    2.  O número total de vetores de suporte (SVs) e o número por classe.
    3.  Os índices dos vetores de suporte no conjunto de treino original.
    4.  Os respectivos valores dos "lambdas" (coeficientes duais, `dual_coef_` no scikit-learn, que armazenam $y_i \alpha_i$).
    5.  O termo independente `b` (bias ou `intercept_`).

* **c) Comparação do Score da Função de Decisão:**
    Usando a SVM escolhida e os dois primeiros exemplos do conjunto de teste normalizado ($z_1$ e $z_2$):
    1.  Calcular o score da função de decisão $f(z)$ para $z_1$ e $z_2$ usando o método `decision_function()` da classe SVM do scikit-learn.
    2.  Calcular manualmente o score da função de decisão $f(z) = \sum_{i \in SVs} (y_i \alpha_i) K(z, x_i) + b$ para $z_1$ e $z_2$, utilizando os parâmetros obtidos no item (b). O kernel RBF é $K(u,v) = \exp(-\text{gamma} ||u-v||^2)$.
    3.  Comparar os resultados numéricos e buscar explicar eventuais discrepâncias (que geralmente se devem à precisão de ponto flutuante).

A seguir, o código Python para realizar esses passos.

In [2]:
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
# Para o item (c), se quiser usar a função de distância euclidiana ao quadrado mais diretamente
from sklearn.metrics.pairwise import euclidean_distances

# --- Carregando Datasets para Questão 7 ---
print("--- Carregando Datasets para Questão 7 ---")
try:
    # Carregar conjunto de treino
    train_data = np.loadtxt('dataset_train.txt', delimiter=',')
    X_train = train_data[:, :-1]
    y_train = train_data[:, -1]
    print("  Dataset de treino carregado.")

    # Carregar conjunto de validação
    validation_data = np.loadtxt('dataset_validation.txt', delimiter=',') # Certifique-se que o nome do arquivo está correto
    X_val = validation_data[:, :-1]
    y_val = validation_data[:, -1]
    print("  Dataset de validação carregado.")

    # Carregar conjunto de teste
    test_data = np.loadtxt('dataset_test.txt', delimiter=',')
    X_test = test_data[:, :-1]
    y_test = test_data[:, -1]
    print("  Dataset de teste carregado.")
    print("Datasets carregados com sucesso!")

except FileNotFoundError as fnf_error:
    print(f"ERRO CRÍTICO: Arquivo não encontrado - {fnf_error}")
    print("Verifique se os arquivos de dataset ('dataset_train.txt', 'dataset_validation.txt', 'dataset_test.txt') estão no diretório correto, com os nomes corretos e usando ',' como delimitador.")
    # Interrompe a execução se os arquivos não forem encontrados, pois o resto do código depende deles.
    # Em um notebook, você pode querer remover o exit() e apenas lidar com o erro na célula.
    # exit()
except Exception as e:
    print(f"Ocorreu um erro ao carregar os datasets: {e}")
    # exit()


print("\n--- Iniciando Questão 7 (após carregamento de dados) ---")

# Verifica se as variáveis X_train, X_val, X_test foram definidas antes de prosseguir
if 'X_train' in locals() and 'y_train' in locals() and \
   'X_val' in locals() and 'y_val' in locals() and \
   'X_test' in locals() and 'y_test' in locals():

    # --- a) Treinamento, Validação e Escolha da Melhor SVM ---
    print("\n--- a) Treinamento, Validação e Escolha da Melhor SVM ---")

    # Normalização dos dados (ajustar no treino, aplicar na validação e teste)
    scaler = StandardScaler()
    X_train_norm = scaler.fit_transform(X_train)
    X_val_norm = scaler.transform(X_val) # Agora X_val deve estar definido
    X_test_norm = scaler.transform(X_test)

    param_C_values = [0.01, 1, 100]
    param_gamma_values = [0.5, 1]

    best_accuracy_val = -1
    best_params = {}
    best_svm_model = None

    print("\nIniciando a otimização de hiperparâmetros (C e gamma) para SVM com kernel RBF...")

    for C_val in param_C_values:
        for gamma_val in param_gamma_values:
            current_svm = SVC(kernel='rbf', C=C_val, gamma=gamma_val, probability=False)
            current_svm.fit(X_train_norm, y_train)
            accuracy_val = current_svm.score(X_val_norm, y_val)
            print(f"  C={C_val}, gamma={gamma_val} -> Acurácia na Validação: {accuracy_val:.4f}")
            if accuracy_val > best_accuracy_val:
                best_accuracy_val = accuracy_val
                best_params = {'C': C_val, 'gamma': gamma_val}
                best_svm_model = current_svm

    print(f"\nMelhor SVM encontrada no conjunto de validação:")
    if best_svm_model:
        print(f"  Parâmetros: C={best_params.get('C')}, gamma={best_params.get('gamma')}")
        print(f"  Acurácia na Validação: {best_accuracy_val:.4f}")
    else:
        print("  Nenhum modelo foi treinado com sucesso ou avaliado.")

    # --- b) Descrição Completa da SVM Escolhida ---
    # (O restante do código para os itens b e c segue aqui, como no exemplo anterior)
    # Certifique-se que 'best_svm_model' foi definido antes de prosseguir para os itens b e c.

    if best_svm_model:
        print("\n--- b) Descrição Completa da SVM Escolhida ---")
        chosen_C = best_svm_model.C
        chosen_gamma = best_svm_model.gamma
        num_svs_per_class = best_svm_model.n_support_
        total_svs = np.sum(num_svs_per_class)
        indices_svs = best_svm_model.support_
        actual_support_vectors = best_svm_model.support_vectors_
        dual_coefficients = best_svm_model.dual_coef_
        bias_b = best_svm_model.intercept_

        print(f"b1) Parâmetros escolhidos do kernel (gamma): {chosen_gamma}")
        print(f"    (Hiperparâmetro de treino C: {chosen_C})")
        print(f"b2) Número de vetores de suporte por classe: {num_svs_per_class}")
        print(f"    Número total de vetores de suporte: {total_svs}")
        print(f"b3) Índices dos vetores de suporte no conjunto de treino original (primeiros 10, se houver): {indices_svs[:10]}")
        print(f"b4) Coeficientes duais (lambda_n = y_n * alpha_n) (forma: {dual_coefficients.shape}):")
        print(f"b5) Termo independente b (bias/intercept_): {bias_b}")

        # --- c) Comparação do Score da Função de Decisão ---
        print("\n--- c) Comparação do Score da Função de Decisão ---")
        if X_test_norm.shape[0] >= 2:
            z1_norm = X_test_norm[0:1]
            z2_norm = X_test_norm[1:2]

            score_sklearn_z1 = best_svm_model.decision_function(z1_norm)[0]
            score_sklearn_z2 = best_svm_model.decision_function(z2_norm)[0]
            
            print(f"\nScores calculados pelo scikit-learn (decision_function()):")
            print(f"  f(z1_norm): {score_sklearn_z1:.8f}")
            print(f"  f(z2_norm): {score_sklearn_z2:.8f}")

            def rbf_kernel_manual(vec1, vec2, gamma_val):
                squared_norm = euclidean_distances(vec1.reshape(1, -1), vec2.reshape(1, -1))[0,0]**2
                return np.exp(-gamma_val * squared_norm)

            def manual_decision_function(sample_z, support_vecs_array, dual_coeffs_flat_array, intercept_val, gamma_val):
                score = 0.0
                sample_z_flat = sample_z.flatten()
                for i in range(support_vecs_array.shape[0]):
                    kernel_val = rbf_kernel_manual(sample_z_flat, support_vecs_array[i].flatten(), gamma_val)
                    score += dual_coeffs_flat_array[i] * kernel_val
                score += intercept_val
                return score

            manual_score_z1 = manual_decision_function(z1_norm, actual_support_vectors, dual_coefficients[0], bias_b[0], chosen_gamma)
            manual_score_z2 = manual_decision_function(z2_norm, actual_support_vectors, dual_coefficients[0], bias_b[0], chosen_gamma)
            
            print(f"\nScores calculados manualmente:")
            print(f"  f_manual(z1_norm): {manual_score_z1:.8f}")
            print(f"  f_manual(z2_norm): {manual_score_z2:.8f}")
            
            discrepancy_z1 = np.abs(score_sklearn_z1 - manual_score_z1)
            discrepancy_z2 = np.abs(score_sklearn_z2 - manual_score_z2)
            print(f"\nComparação e Discrepâncias:")
            print(f"  Discrepância absoluta para z1: {discrepancy_z1:.2e}")
            print(f"  Discrepância absoluta para z2: {discrepancy_z2:.2e}")
            
            threshold = 1e-6 
            if discrepancy_z1 < threshold and discrepancy_z2 < threshold:
                print("  Os resultados são consistentes.")
            else:
                print("  Há discrepâncias notáveis.")
        else:
            print("  O conjunto de teste não possui pelo menos dois exemplos.")
    else:
        print("  Nenhuma SVM foi escolhida no item (a). Itens (b) e (c) não podem ser executados.")

else:
    print("\nERRO: Datasets não foram carregados corretamente. O restante da Questão 7 não pode ser executado.")

print("\n--- Fim da Questão 7 ---")

--- Carregando Datasets para Questão 7 ---
  Dataset de treino carregado.
  Dataset de validação carregado.
  Dataset de teste carregado.
Datasets carregados com sucesso!

--- Iniciando Questão 7 (após carregamento de dados) ---

--- a) Treinamento, Validação e Escolha da Melhor SVM ---

Iniciando a otimização de hiperparâmetros (C e gamma) para SVM com kernel RBF...
  C=0.01, gamma=0.5 -> Acurácia na Validação: 0.8750
  C=0.01, gamma=1 -> Acurácia na Validação: 0.6250
  C=1, gamma=0.5 -> Acurácia na Validação: 0.8750
  C=1, gamma=1 -> Acurácia na Validação: 0.6250
  C=100, gamma=0.5 -> Acurácia na Validação: 0.8750
  C=100, gamma=1 -> Acurácia na Validação: 0.8750

Melhor SVM encontrada no conjunto de validação:
  Parâmetros: C=0.01, gamma=0.5
  Acurácia na Validação: 0.8750

--- b) Descrição Completa da SVM Escolhida ---
b1) Parâmetros escolhidos do kernel (gamma): 0.5
    (Hiperparâmetro de treino C: 0.01)
b2) Número de vetores de suporte por classe: [3 3]
    Número total de vetore

## Conclusões e Análise dos Resultados da Questão 7

O código para a Questão 7 foi executado com sucesso, realizando o treinamento e a avaliação de múltiplas SVMs com kernel RBF, a seleção do melhor modelo com base no conjunto de validação, a descrição detalhada dos seus parâmetros e a verificação da função de decisão.

---
### a) Resultado do Treinamento e Validação

A otimização dos hiperparâmetros `C` e `gamma` no conjunto de validação forneceu os seguintes resultados principais:

* **Combinações Avaliadas:**
    * C=0.01, gamma=0.5 $\rightarrow$ Acurácia na Validação: 0.8750
    * C=0.01, gamma=1 $\rightarrow$ Acurácia na Validação: 0.6250
    * C=1, gamma=0.5 $\rightarrow$ Acurácia na Validação: 0.8750
    * C=1, gamma=1 $\rightarrow$ Acurácia na Validação: 0.6250
    * C=100, gamma=0.5 $\rightarrow$ Acurácia na Validação: 0.8750
    * C=100, gamma=1 $\rightarrow$ Acurácia na Validação: 0.8750

* **Melhor SVM Escolhida (com base na primeira ocorrência da maior acurácia):**
    * **Parâmetros**: C=0.01, gamma=0.5
    * **Acurácia na Validação**: 0.8750

Observou-se que múltiplas combinações de hiperparâmetros resultaram na mesma acurácia máxima de validação (0.8750). A seleção de C=0.01 e gamma=0.5 corresponde à primeira dessas combinações encontradas durante a busca. Modelos com menor `C` tendem a ter margens maiores e podem ser considerados menos complexos, o que pode ser um critério de desempate desejável.

---
### b) Descrição Detalhada da SVM Escolhida (C=0.01, gamma=0.5)

Os parâmetros da SVM que obteve a melhor performance no conjunto de validação são:

1.  **Parâmetros do Kernel e Treino:**
    * `gamma`: 0.5
    * `C` (usado no treino): 0.01
2.  **Vetores de Suporte (SVs):**
    * Número por classe: `[3 3]` (3 para a primeira classe, 3 para a segunda).
    * Número total: 6.
3.  **Índices dos SVs no Conjunto de Treino:** `[0 1 2 3 4 5]`. Isso indica que, para este dataset e configuração, todos os 6 exemplos do conjunto de treino se tornaram vetores de suporte.
4.  **Coeficientes Duais ($\lambda_n = y_n \alpha_i$):**
    * Possuem a forma (1, 6), correspondendo a um coeficiente para cada um dos 6 vetores de suporte.
5.  **Termo Independente (Bias $b$):**
    * `intercept_`: Aproximadamente `[-0.00363247]`.

Esses parâmetros definem completamente a função de decisão da SVM escolhida.

---
### c) Comparação do Score da Função de Decisão

A verificação da função de decisão para os dois primeiros exemplos do conjunto de teste (`z1_norm`, `z2_norm`) produziu os seguintes resultados:

* **Scores via `decision_function()` do scikit-learn:**
    * $f(z1_{norm}) \approx -0.01110064$
    * $f(z2_{norm}) \approx -0.00858536$

* **Scores calculados manualmente (usando os parâmetros de (b)):**
    * $f_{manual}(z1_{norm}) \approx -0.01110064$
    * $f_{manual}(z2_{norm}) \approx -0.00858536$

* **Discrepâncias Absolutas:**
    * Para $z1_{norm}$: $0.00 \times 10^0$ (essencialmente zero).
    * Para $z2_{norm}$: $3.47 \times 10^{-18}$ (um valor extremamente pequeno, atribuível à precisão de ponto flutuante).

**Conclusão da Comparação:**
Os resultados da função de decisão calculada manualmente e os obtidos pela função `decision_function()` do scikit-learn são virtualmente idênticos. As minúsculas discrepâncias observadas estão bem dentro da margem esperada para erros de precisão numérica em cálculos de ponto flutuante. Isso valida a correção da extração dos parâmetros do modelo e da implementação manual da função de decisão e do kernel RBF.

---
**Considerações Finais da Questão 7:**
O processo de tuning de hiperparâmetros permitiu identificar uma configuração de SVM (C=0.01, gamma=0.5) que obteve um bom desempenho no conjunto de validação. A análise detalhada dos parâmetros desta SVM e a verificação da sua função de decisão confirmam o entendimento do modelo treinado.