Questão 1
A figura apresentada mostra as regiões de decisão de quatro classificadores SVM diferentes aplicados a um problema binário, onde cada ponto representa um exemplo do conjunto de treino com duas classes distintas, representadas pelas cores vermelho e azul.

1.a) Quantidade de erros em cada SVM
Ao observar as regiões coloridas, que indicam a predição feita pelo classificador, é possível contar os pontos que estão incorretamente classificados, ou seja, pontos que pertencem a uma classe, mas estão localizados na região de decisão da classe oposta.

Na SVM LinearSVC (kernel linear), observe que há um único ponto azul dentro da região vermelha, indicando um erro de classificação. Portanto, essa SVM comete 1 erro no conjunto de treino.

Na SVM padrão com kernel linear, há um ponto vermelho dentro da região azul e um ponto azul dentro da região vermelha, totalizando 2 erros.

Para a SVM com kernel RBF, todos os pontos estão corretamente classificados, sem nenhum exemplo fora da sua região correspondente. Logo, essa SVM apresenta 0 erros.

Por fim, na SVM com kernel polinomial de grau 3, nota-se um ponto vermelho na região azul e um ponto azul na região vermelha, totalizando também 2 erros.

1.b) Qual a melhor SVM?
A melhor SVM, olhando exclusivamente para o desempenho no conjunto de treino, é a SVM com kernel RBF, pois é a única que não comete nenhum erro de classificação. Isso indica que sua região de decisão consegue capturar melhor a complexidade da distribuição dos dados, sendo capaz de lidar com separações não lineares entre as classes.

Entretanto, é importante salientar que um ajuste perfeito no conjunto de treino pode levar a um modelo que generaliza mal para dados novos (overfitting). Por isso, a escolha final do modelo deve considerar também o desempenho em conjuntos de validação e teste.


Questão 2 – Efeito do parâmetro de regularização C na SVM
O parâmetro C na SVM controla a regularização do modelo, ou seja, o equilíbrio entre maximizar a margem de separação e minimizar os erros de classificação no conjunto de treino.
Quando C é grande, o modelo penaliza fortemente os erros, buscando classificar todos os exemplos corretamente, o que tende a gerar uma margem mais estreita e menos vetores de suporte, resultando em um modelo mais simples e rígido.
Por outro lado, quando C é pequeno, o modelo permite mais erros no conjunto de treino, favorecendo margens maiores e uma maior quantidade de vetores de suporte. Isso torna o modelo mais flexível e complexo, pois ele tolera um certo grau de violação na margem para capturar melhor padrões complexos dos dados.
No caso apresentado, se desejamos aumentar o número de vetores de suporte para tornar o modelo mais complexo, devemos diminuir o valor do parâmetro 
C. Assim, a SVM permite mais pontos próximos ou mesmo dentro da margem, aumentando o conjunto de vetores de suporte.

Questão 3 – Comparação do custo computacional entre SVM linear e perceptron

Neste problema, temos um classificador SVM linear treinado com vetores de entrada de dimensão \( K=5 \) e um total de 450 vetores de suporte. Para classificar um novo exemplo, a SVM calcula o somatório dos produtos internos entre o vetor de entrada e cada vetor de suporte, multiplicado pelos coeficientes duais.

 Cálculo do custo computacional da SVM

Cada produto interno entre dois vetores de dimensão 5 requer:

- 5 multiplicações
- 4 adições

Logo, para um vetor de entrada, a SVM realiza 450 desses produtos internos, totalizando:

\[
C_{\text{original}} = 450 \times (5 + 4) = 450 \times 9 = 4050 \quad \text{operações}
\]

## Cálculo do custo computacional do perceptron

Ao converter a SVM para um perceptron, o classificador é representado por um único vetor de pesos, com o qual realiza um único produto interno:

\[
C_{\text{perceptron}} = 5 \text{ multiplicações} + 4 \text{ adições} = 9 \quad \text{operações}
\]

## Fator de redução do custo

O fator de redução \( F \) no custo computacional é dado por:

\[
F = \frac{C_{\text{original}}}{C_{\text{perceptron}}} = \frac{4050}{9} = 450
\]

Ou seja, ao converter a SVM para um perceptron, o custo computacional na fase de teste é reduzido em um fator de 450, o que representa uma economia significativa em termos de multiplicações e somas.


In [1]:
import numpy as np

# Dimensão dos vetores de entrada
K = 5

# Número de vetores de suporte na SVM
num_SVs = 450

# Simulação dos vetores de suporte (aleatórios)
support_vectors = np.random.randn(num_SVs, K)

# Coeficientes duals (aleatórios)
dual_coefs = np.random.randn(num_SVs)

# Vetor de entrada a ser classificado
z = np.random.randn(K)

# Função para calcular custo computacional (número de operações)
def cost_operations(num_multiplications, num_additions):
    return num_multiplications + num_additions

# Custo por produto interno entre dois vetores de dimensão K:
# multiplicações = K
# adições = K-1
cost_per_dot = cost_operations(K, K-1)

# Custo total SVM: número de SVs vezes custo de cada produto interno
cost_svm = num_SVs * cost_per_dot

# Custo perceptron: apenas um produto interno
cost_perceptron = cost_per_dot

print(f"Custo computacional SVM (multiplicações + adições): {cost_svm}")
print(f"Custo computacional Perceptron (multiplicações + adições): {cost_perceptron}")
print(f"Fator de redução do custo: {cost_svm / cost_perceptron:.1f}")

# Classificação com SVM: soma dos produtos internos ponderados + bias
# Simulando bias arbitrário
bias = 0.5

svm_decision = np.sum(dual_coefs * np.dot(support_vectors, z)) + bias

#SVM ---> perceptron: vetor peso w
w = np.sum(dual_coefs[:, np.newaxis] * support_vectors, axis=0)

perceptron_decision = np.dot(w, z) + bias

print("\nSaída da função de decisão:")
print(f"SVM: {svm_decision:.4f}")
print(f"Perceptron: {perceptron_decision:.4f}")

# Verificando se as saídas são iguais/proximas
print(f"Diferença absoluta entre SVM e Perceptron: {abs(svm_decision - perceptron_decision):.8f}")


Custo computacional SVM (multiplicações + adições): 4050
Custo computacional Perceptron (multiplicações + adições): 9
Fator de redução do custo: 450.0

Saída da função de decisão:
SVM: -42.3760
Perceptron: -42.3760
Diferença absoluta entre SVM e Perceptron: 0.00000000


## Questão 4 – Interpretação da função de decisão de uma SVM linear

Temos os seguintes dados do treinamento de uma SVM linear:

- Vetores de suporte:
  \[
  \mathbf{x}_1 = [1, 4], \quad \mathbf{x}_2 = [-2, 3], \quad \mathbf{x}_3 = [-2, -5]
  \]

- Coeficientes duais (\(\lambda\)):
  \[
  \lambda = [-0.5, -0.3, 0.8]
  \]

- Bias (intercepto):
  \[
  b = -2
  \]

### a) Função de decisão geral da SVM

A função de decisão é dada por:
\[
f(z) = \sum_{i=1}^3 \lambda_i \langle \mathbf{x}_i, z \rangle + b
\]
Substituindo os valores:
\[
f(z) = -0.5 \langle [1,4], z \rangle - 0.3 \langle [-2,3], z \rangle + 0.8 \langle [-2,-5], z \rangle - 2
\]

### b) Função de decisão como perceptron

Calculamos o vetor peso \(w\):
\[
w = \sum_{i=1}^3 \lambda_i \mathbf{x}_i = (-0.5)[1,4] + (-0.3)[-2,3] + 0.8[-2,-5] = [-1.5, -6.9]
\]

Assim,
\[
f(z) = \langle w, z \rangle + b = \langle [-1.5, -6.9], z \rangle - 2
\]

### c) Saída da função de decisão para \(z = [0,0]\)

Calculando:
\[
f([0,0]) = -2
\]
A predição é:
\[
y = \begin{cases}
1, & \text{se } f(z) > 0 \\
0, & \text{caso contrário}
\end{cases}
\]
Portanto,
\[
y = 0
\]

---

### Código Python para cálculo e predição

```python
import numpy as np

# Vetores de suporte
support_vectors = np.array([
    [1, 4],
    [-2, 3],
    [-2, -5]
])

# Coeficientes duais
dual_coefs = np.array([-0.5, -0.3, 0.8])

# Bias
bias = -2

# Calcula vetor peso w
w = np.sum(dual_coefs[:, np.newaxis] * support_vectors, axis=0)
print(f"Vetor peso w: {w}")

# Vetor de entrada para teste
z = np.array([0, 0])

# Calcula f(z)
f_z = np.dot(w, z) + bias
print(f"f(z) para z = {z}: {f_z}")

# Predição
y_pred = 1 if f_z > 0 else 0
print(f"Predição para z = {z}: {y_pred}")


In [3]:
import numpy as np

# Vetores de suporte (support vectors)
support_vectors = np.array([
    [1, 4],
    [-2, 3],
    [-2, -5]
])

# Coeficientes duais (dual coefficients)
dual_coefs = np.array([-0.5, -0.3, 0.8])

# Bias (intercept)
bias = -2

# Função para calcular o vetor peso w
def calculate_w(support_vectors, dual_coefs):
    # Combinação linear dos vetores de suporte ponderados pelos coeficientes duais
    w = np.sum(dual_coefs[:, np.newaxis] * support_vectors, axis=0)
    return w

# Função de decisão f(z) = <w, z> + b
def decision_function(z, w, b):
    return np.dot(w, z) + b

# Regra de predição: y = 1 se f(z) > 0, caso contrário 0
def predict(z, w, b):
    f_z = decision_function(z, w, b)
    y = 1 if f_z > 0 else 0
    return y, f_z

# Cálculo do vetor peso
w = calculate_w(support_vectors, dual_coefs)
print(f"Vetor peso w: {w}")

# Vetor de entrada para teste
z = np.array([0, 0])

# Calcula a saída da função de decisão e a predição
y_pred, f_z = predict(z, w, bias)
print(f"f(z) para z = {z}: {f_z}")
print(f"Predição para z = {z}: {y_pred}")


Vetor peso w: [-1.5 -6.9]
f(z) para z = [0 0]: -2.0
Predição para z = [0 0]: 0


## Questão 5 – Interpretação do resultado do projeto de SVMs

Foi realizado o treinamento de quatro SVMs usando diferentes kernels:

- **SVM 1:** LinearSVC (kernel linear)
- **SVM 2:** SVC com kernel linear
- **SVM 3:** SVC com kernel RBF (Gaussiano)
- **SVM 4:** SVC com kernel polinomial (grau 3)

### a) Expressões das funções de decisão

Para a SVM 2 (linear), a função de decisão é dada por:

\[
f(z) = \sum_{i=1}^3 \lambda_i \, \langle \mathbf{x}_i, z \rangle + b
\]

onde

- Vetores de suporte \(\mathbf{x}_i\):

\[
[0, -4], \quad [-1, 2], \quad [-2, -2]
\]

- Coeficientes duais \(\lambda_i\):

\[
[-0.4599, -0.2799, 0.7399]
\]

- Bias:

\[
b = -1.7995
\]

Para as SVMs 3 (RBF) e 4 (polinomial), a função de decisão é:

\[
f(z) = \sum_i \lambda_i \, K(z, \mathbf{x}_i) + b
\]

onde \(K(\cdot, \cdot)\) é o kernel (RBF ou polinomial) e os \(\lambda_i\), vetores de suporte e bias são dados no treinamento.

---

### b) Forma perceptron das SVMs 1 e 2 (lineares)

A função de decisão pode ser escrita como:

\[
f(z) = \langle w, z \rangle + b
\]

com vetor peso

\[
w = \sum_i \lambda_i \mathbf{x}_i
\]

---

### c) Passos para converter SVM 2 para perceptron e economia computacional

1. Calcular o vetor peso \(w\) como a soma ponderada dos vetores de suporte.
2. A função de decisão passa a usar apenas um produto interno entre \(w\) e o vetor de entrada \(z\), somado ao bias \(b\).
3. A economia computacional é grande porque se reduz o número de produtos internos de 3 (vetores de suporte) para 1.

---

### d) Informações das SVMs 3 e 4 (não-lineares)

- SVM 3 (RBF):
  - Número total de vetores de suporte: 6
  - Índices dos vetores de suporte e coeficientes duals conforme saída do modelo
  - Bias: aproximadamente \(-0.0867\)

- SVM 4 (polinomial):
  - Número total de vetores de suporte: 3
  - Índices e coeficientes conforme saída
  - Bias: aproximadamente \(-1.0373\)

---

### e) Exemplo menos “confiante” e predição

- A menor magnitude (valor próximo a zero) entre as saídas da função de decisão no conjunto treino indica a menor confiança.
- No exemplo dado, o valor é aproximadamente \(0.9099\), com predição para a classe positiva (1).

---





In [4]:
import numpy as np

# Vetores de suporte da SVM 2
support_vectors = np.array([
    [0, -4],
    [-1, 2],
    [-2, -2]
])

# Coeficientes duais
dual_coefs = np.array([-0.45994152, -0.27992202, 0.73986354])

# Bias
bias = -1.79954513

# Calcula vetor peso w
w = np.sum(dual_coefs[:, np.newaxis] * support_vectors, axis=0)
print(f"Vetor peso w: {w}")

# Vetor de entrada exemplo (pode alterar para testar)
z = np.array([1, 1])

# Função de decisão f(z)
f_z = np.dot(w, z) + bias
print(f"f(z) para z = {z}: {f_z}")

# Predição
y_pred = 1 if f_z > 0 else 0
print(f"Predição para z = {z}: {y_pred}")

Vetor peso w: [-1.19980506 -0.19980504]
f(z) para z = [1 1]: -3.19915523
Predição para z = [1 1]: 0


## Questão 6 – Treinamento e avaliação de uma SVM linear com C=1

Nesta questão, devemos:

1. Treinar uma SVM com kernel linear e hiperparâmetro \( C = 1 \) usando o conjunto de treino `dataset_train.txt`.
2. Avaliar o desempenho do modelo no conjunto de teste `dataset_test.txt`.
3. Converter a SVM treinada para um perceptron, estimando o custo computacional durante a fase de teste e avaliando a economia em termos de memória e número de operações.

---

### Passos gerais para a solução

- **Pré-processamento:** Normalizar os dados de treino para média zero e variância um, aplicando os mesmos fatores de normalização ao conjunto de teste.
- **Treinamento:** Usar `sklearn.svm.SVC` com kernel linear e `C=1`.
- **Avaliação:** Calcular a acurácia ou outro métrico no conjunto de teste.
- **Conversão para perceptron:** Extrair vetor peso \( w \) e bias \( b \) da SVM para implementar a decisão como:

\[
f(z) = \langle w, z \rangle + b
\]

- **Análise de custo:** Comparar o custo computacional do modelo original (baseado nos vetores de suporte) com o perceptron.

---

### Código de exemplo usando scikit-learn



In [6]:

import numpy as np
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler

# Carregar dados (substitua pelos seus arquivos reais)
# Assumindo que os arquivos tenham as features nas colunas e a última coluna o rótulo
train_data = np.loadtxt('dataset_train.txt')
test_data = np.loadtxt('dataset_test.txt')

X_train, y_train = train_data[:, :-1], train_data[:, -1]
X_test, y_test = test_data[:, :-1], test_data[:, -1]

# Normalização com base no conjunto de treino
scaler = StandardScaler()
X_train_norm = scaler.fit_transform(X_train)
X_test_norm = scaler.transform(X_test)

# Treinamento da SVM linear com C=1
svm = SVC(kernel='linear', C=1)
svm.fit(X_train_norm, y_train)

# Avaliação no conjunto de teste
accuracy = svm.score(X_test_norm, y_test)
print(f"Acurácia no conjunto de teste: {accuracy:.4f}")

# Conversão para perceptron: extrair vetor peso e bias
w = svm.coef_[0]
b = svm.intercept_[0]
print(f"Vetor peso w: {w}")
print(f"Bias b: {b}")

# Função de decisão como perceptron para os dois primeiros exemplos do teste
for i in range(2):
    z = X_test_norm[i]
    f_z = np.dot(w, z) + b
    y_pred = 1 if f_z > 0 else 0
    print(f"Exemplo {i+1}: f(z)={f_z:.4f}, predição={y_pred}, label verdadeiro={int(y_test[i])}")

# Estimativa do custo computacional
num_SVs = len(svm.support_)
K = X_train.shape[1]
cost_svm = num_SVs * (K + (K - 1))
cost_perceptron = K + (K - 1)
reduction_factor = cost_svm / cost_perceptron

print(f"Número de vetores de suporte: {num_SVs}")
print(f"Custo computacional SVM: {cost_svm} operações")
print(f"Custo computacional perceptron: {cost_perceptron} operações")
print(f"Fator de redução do custo: {reduction_factor:.1f}")

FileNotFoundError: dataset_train.txt not found.

## Questão 7 – Otimização de hiperparâmetros da SVM com kernel Gaussiano (RBF)

### a) Treinamento com diferentes combinações de \( C \) e \( \gamma \)

Os hiperparâmetros a serem avaliados são:

- \( C = \{0.01, 1, 100\} \)
- \( \gamma = \{0.5, 1\} \)

O objetivo é treinar 6 SVMs distintas, cada uma com uma combinação desses valores, utilizando o conjunto de treino, e avaliar seu desempenho no conjunto de validação para selecionar a melhor configuração.

---

### b) Parâmetros do classificador escolhido

Para o melhor modelo, deve-se indicar:

- \( \gamma \) escolhido (parâmetro do kernel RBF)
- Número de vetores de suporte (SVs)
- Índices dos SVs no conjunto de treino
- Valores dos coeficientes duais (\(\lambda_i\))
- Valor do bias/intercepto \( b \)

---

### c) Comparação numérica da função de decisão

Comparar o resultado da função de decisão \( f(z) = \sum_i \lambda_i K(z, x_i) + b \) calculada manualmente com a saída da função `decision_function()` do modelo scikit-learn para os dois primeiros exemplos do conjunto de teste.

---

## Exemplo de código para realizar essa tarefa





In [None]:
import numpy as np
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

# Carregar dados (substitua pelos seus arquivos reais)
train_data = np.loadtxt('dataset_train.txt')
val_data = np.loadtxt('dataset_validation.txt')
test_data = np.loadtxt('dataset_test.txt')

X_train, y_train = train_data[:, :-1], train_data[:, -1]
X_val, y_val = val_data[:, :-1], val_data[:, -1]
X_test, y_test = test_data[:, :-1], test_data[:, -1]

# Normalização
scaler = StandardScaler()
X_train_norm = scaler.fit_transform(X_train)
X_val_norm = scaler.transform(X_val)
X_test_norm = scaler.transform(X_test)

# Hiperparâmetros a testar
C_values = [0.01, 1, 100]
gamma_values = [0.5, 1]

best_accuracy = 0
best_params = {}
best_model = None

for C in C_values:
    for gamma in gamma_values:
        svm = SVC(kernel='rbf', C=C, gamma=gamma)
        svm.fit(X_train_norm, y_train)
        y_val_pred = svm.predict(X_val_norm)
        acc = accuracy_score(y_val, y_val_pred)
        print(f"C={C}, gamma={gamma}, Val Accuracy={acc:.4f}")
        if acc > best_accuracy:
            best_accuracy = acc
            best_params = {'C': C, 'gamma': gamma}
            best_model = svm

print("\nMelhor modelo:")
print(best_params)
print(f"Acurácia no conjunto de validação: {best_accuracy:.4f}")

# Informações do melhor modelo
print(f"Número de vetores de suporte: {len(best_model.support_)}")
print(f"Índices dos vetores de suporte: {best_model.support_}")
print(f"Coeficientes duais: {best_model.dual_coef_}")
print(f"Bias (intercepto): {best_model.intercept_}")

# Comparar função de decisão manual e scikit-learn para os dois primeiros exemplos do teste
for i in range(2):
    z = X_test_norm[i]
    # Cálculo manual da função de decisão
    sv = best_model.support_vectors_
    dual_coefs = best_model.dual_coef_[0]
    gamma = best_model._gamma  # valor de gamma utilizado
    # Kernel RBF
    kernel_vals = np.exp(-gamma * np.linalg.norm(sv - z, axis=1)**2)
    f_manual = np.sum(dual_coefs * kernel_vals) + best_model.intercept_[0]
    
    # Função de decisão do sklearn
    f_sklearn = best_model.decision_function(z.reshape(1, -1))[0]
    
    print(f"\nExemplo {i+1}:")
    print(f"f_manual = {f_manual:.6f}")
    print(f"f_sklearn = {f_sklearn:.6f}")
    print(f"Diferença = {abs(f_manual - f_sklearn):.8f}")