# Capítulo 5: Máquinas de Vetores de Suporte

## Exercícios

### 1. Qual é a ideia fundamental por trás das Máquinas de Vetores de Suporte (SVM)?

A ideia fundamental por trás das Máquinas de Vetores de Suporte (SVM, do inglês *Support Vector Machines*) é encontrar um hiperplano em um espaço de alta dimensão que separa os dados de diferentes classes com a maior margem possível. Em outras palavras, a SVM busca um limite de decisão que maximiza a distância (margem) entre os pontos de dados mais próximos de diferentes classes, chamados de vetores de suporte.

### 2. O que é um vetor de suporte?

Um vetor de suporte é um ponto de dado em uma Máquina de Vetores de Suporte (SVM) que está localizado na borda da margem ou bem próximo a ela, sendo fundamental para definir o hiperplano de separação entre as classes.

### 3. Por que é importante dimensionar as entradas ao utilizar SVM?

Dimensionar as entradas ao utilizar SVM é essencial para garantir que todas as variáveis tenham um impacto apropriado no modelo, melhorar a eficiência computacional e assegurar que o modelo seja robusto e generalize bem. Sem esse passo, a SVM pode produzir resultados subótimos e ser menos eficaz na tarefa de classificação.

### 4. Um classificador SVM pode produzir uma pontuação de confiança quando classifica uma instância? E quanto a uma probabilidade?

Sim, um classificador SVM pode produzir uma pontuação de confiança ao classificar uma instância. No entanto, a interpretação dessa pontuação e a obtenção de uma probabilidade requerem um processamento adicional.

**Pontuação de Confiança:**
   - A pontuação de confiança em uma SVM geralmente é dada pela distância da instância ao hiperplano de separação. Esta distância pode ser positiva ou negativa, dependendo de qual lado do hiperplano a instância está.
   - Quanto maior a distância da instância ao hiperplano, maior a "confiança" da SVM na classificação dessa instância. Um valor positivo sugere uma classificação para uma classe, enquanto um valor negativo sugere a outra.

**Probabilidade:**
   - Por padrão, a SVM não fornece diretamente uma probabilidade de classificação, porque o objetivo principal da SVM é encontrar um hiperplano de separação com uma margem máxima, e não estimar probabilidades.
   - No entanto, é possível calibrar a saída da SVM para obter probabilidades usando um método chamado **Platt Scaling**. Esse método ajusta uma função sigmoide sobre as pontuações de confiança da SVM para converter essas pontuações em probabilidades.

Implementação do Platt Scaling:
- No `scikit-learn`, por exemplo, ao treinar uma SVM com a classe `SVC` ou `LinearSVC`, você pode ativar o parâmetro `probability=True` para permitir que o modelo retorne probabilidades.
- Isso faz com que o `scikit-learn` ajuste automaticamente um modelo de Platt Scaling durante o treinamento e permita que você chame o método `.predict_proba()` para obter as probabilidades.


### 5. Você deve utilizar a forma primal ou dual do problema SVM no treinamento de um modelo em um conjunto de treinamento com milhões de instâncias e centenas de características?

Para um conjunto de dados com milhões de instâncias e centenas de características, você deve utilizar a forma primal do problema SVM, especialmente se estiver interessado em uma SVM linear. A forma primal é mais escalável e eficiente em termos computacionais para esse cenário, permitindo o treinamento do modelo de forma prática e rápida.

### 6. Digamos que você treinou um classificador SVM com o kernel RBF. Parece que ele se subajusta ao conjunto de treinamento: você deve aumentar ou diminuir γ (gamma)? E quanto ao C?


- **Aumente `γ`:** Isso tornará o modelo mais sensível às instâncias de treinamento próximas, potencialmente melhorando seu ajuste.
- **Aumente `C`:** Isso permitirá que o modelo minimize mais erros de classificação no conjunto de treinamento, tornando-o mais complexo.

Esses ajustes devem ajudar a reduzir o subajuste do modelo, mas é importante fazer isso com cuidado para evitar overfitting, que é o ajuste excessivo aos dados de treinamento. A validação cruzada pode ser uma boa prática para encontrar os valores ideais de `γ` e `C`.

### 7. Como você deve configurar os parâmetros QP (**H**, **f**, **A**, e **b**) utilizando um solucionador de QP *off-the-shelf* para resolver o problema do classificador SVM linear de margem suave?

Para resolver o problema do classificador SVM linear de margem suave utilizando um solucionador de Programação Quadrática (QP), você precisa configurar os parâmetros da seguinte forma:

### Problema de SVM Linear de Margem Suave

O problema de SVM de margem suave pode ser formulado como um problema de otimização quadrática da seguinte forma:

$
\min_{\mathbf{w}, b, \boldsymbol{\xi}} \frac{1}{2} \mathbf{w}^T \mathbf{w} + C \sum_{i=1}^{n} \xi_i
$

sujeito a:

$
y_i(\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i, \quad \xi_i \geq 0, \quad \text{para } i = 1, \dots, n
$

Aqui:
- $\mathbf{w}$ são os pesos do modelo,
- $b$ é o termo de bias,
- $\xi_i$ são as variáveis de relaxamento (slack variables) para margens suaves,
- $C$ é o parâmetro de regularização que controla o trade-off entre maximizar a margem e minimizar o erro de classificação.

### Reformulação como QP

Este problema pode ser reformulado como um problema de Programação Quadrática padrão:

$
\min_{\mathbf{z}} \frac{1}{2} \mathbf{z}^T H \mathbf{z} + \mathbf{f}^T \mathbf{z}
$

sujeito a:

$
A \mathbf{z} \geq \mathbf{b}
$

Onde $\mathbf{z} = [\mathbf{w}; b; \boldsymbol{\xi}]$ é o vetor que agrupa as variáveis de decisão ($\mathbf{w}$, $b$ e $\boldsymbol{\xi}$).

### Configuração dos Parâmetros QP

Para configurar os parâmetros QP ($H$, $\mathbf{f}$, $A$, $\mathbf{b}$):

1. **Matriz $H$**:
   - $H$ é a matriz que define a parte quadrática da função de custo. Para o problema de SVM, $H$ terá a forma:
     $
     H = \begin{bmatrix}
     I & \mathbf{0} & \mathbf{0} \\
     \mathbf{0} & 0 & \mathbf{0} \\
     \mathbf{0} & \mathbf{0} & \mathbf{0}
     \end{bmatrix}
     $
   - Aqui, $I$ é a matriz identidade de dimensão igual ao número de características, e as outras partes são zeros. Isso reflete que apenas os pesos $\mathbf{w}$ têm uma contribuição quadrática no custo.

2. **Vetor $\mathbf{f}$**:
   - $\mathbf{f}$ é o vetor que define a parte linear da função de custo. Para o problema de SVM:
     $
     \mathbf{f} = \begin{bmatrix}
     \mathbf{0} \\
     0 \\
     C\mathbf{1}
     \end{bmatrix}
     $
   - O vetor $\mathbf{f}$ tem componentes iguais a $C$ para as variáveis $\xi_i$, refletindo o termo de regularização.

3. **Matriz $A$**:
   - $A$ define as restrições lineares do problema. Para o SVM de margem suave, $A$ terá a forma:
     $
     A = \begin{bmatrix}
     \text{diag}(y_i) \mathbf{X} & \mathbf{y} & -I \\
     \mathbf{0} & \mathbf{0} & -I
     \end{bmatrix}
     $
   - Aqui, $\mathbf{X}$ é a matriz de características, $\mathbf{y}$ é o vetor de rótulos de classe, e $-I$ são as restrições de não negatividade para $\xi_i$.

4. **Vetor $\mathbf{b}$**:
   - $\mathbf{b}$ define os limites das restrições. Neste caso:
     $
     \mathbf{b} = \begin{bmatrix}
     \mathbf{1} \\
     \mathbf{0}
     \end{bmatrix}
     $
   - O primeiro bloco de $\mathbf{b}$ reflete a restrição $y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i$, e o segundo bloco impõe $\xi_i \geq 0$.

### Resumo

- **$H$**: Uma matriz que penaliza $\mathbf{w}$ quadraticamente, sendo $\mathbf{w}$ o vetor de pesos.
- **$\mathbf{f}$**: Um vetor que define a função de custo linear, com penalizações $C$ para $\xi_i$.
- **$A$**: Uma matriz que impõe as restrições de margem suave e não negatividade de $\xi_i$.
- $\mathbf{b}$: Um vetor que define as restrições dos valores mínimos que as margens devem alcançar.

Esses parâmetros configuram o problema de SVM linear de margem suave para ser resolvido por um solucionador de QP off-the-shelf.

### 8. Treine um LinearSVC em um conjunto de dados linearmente separável. Depois, treine o SVC e um SGDClassifier no mesmo conjunto de dados. Veja se você consegue fazer com que eles produzam aproximadamente o mesmo modelo.

In [12]:
# Importar as bibliotecas necessárias
import numpy as np
from sklearn.datasets import make_classification
from sklearn.svm import LinearSVC, SVC
from sklearn.linear_model import SGDClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.metrics import accuracy_score

# Gerar um conjunto de dados linearmente separável
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, 
                           n_redundant=5, n_classes=2, random_state=42)

# Criar e treinar o LinearSVC
linear_svc = LinearSVC(max_iter=10000, random_state=42)
linear_svc.fit(X, y)

# Criar e treinar o SVC com kernel linear
svc = SVC(kernel='linear', random_state=42)
svc.fit(X, y)

# Criar e treinar o SGDClassifier (que usa gradiente descendente estocástico)
sgd_clf = make_pipeline(StandardScaler(), SGDClassifier(loss='hinge', max_iter=1000, random_state=42, learning_rate='constant', eta0=0.001))
sgd_clf.fit(X, y)

# Fazer previsões com os três modelos
y_pred_linear_svc = linear_svc.predict(X)
y_pred_svc = svc.predict(X)
y_pred_sgd_clf = sgd_clf.predict(X)

# Calcular a acurácia dos três modelos
accuracy_linear_svc = accuracy_score(y, y_pred_linear_svc)
accuracy_svc = accuracy_score(y, y_pred_svc)
accuracy_sgd_clf = accuracy_score(y, y_pred_sgd_clf)

accuracy_linear_svc, accuracy_svc, accuracy_sgd_clf




(0.82, 0.818, 0.818)

### 9. Treine um classificador SVM no conjunto de dados MNIST. Uma vez que os classificadores SVM são classificadores binários, você precisará utilizar um contra todos para classificar todos os 10 dígitos. Ajuste os hiperparâmetros utilizando pequenos conjuntos de validação para acelerar o processo. Qual acurácia você pode alcançar?

Importar as bibliotecas necessárias

In [9]:
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import SVC, LinearSVC
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

Carregar o conjunto de dados MNIST e separar no conjunto de treinamento e de teste

In [6]:
mnist = datasets.fetch_openml('mnist_784', version=1, as_frame=False)

X = mnist["data"]
y = mnist["target"].astype(np.uint8)

X_train = X[:60000]
y_train = y[:60000]
X_test = X[60000:]
y_test = y[60000:]

Treinando um SVM linear para a classificação utilizando a estratégia de um contra todos (*One-vs-the-Rest*, OvR). 

In [10]:
lin_clf = LinearSVC(random_state=42)
lin_clf.fit(X_train, y_train)



LinearSVC(random_state=42)

Calculando a acurácia do modelo treinado

In [11]:
y_pred = lin_clf.predict(X_train)
accuracy_score(y_train, y_pred)

0.8348666666666666

A acurácia obtida foi de, aproximadamente, 83,5%, o que bem abaixo do desejado, indicando que um modelo linear não é o ideal a ser utilizado. Portanto, deve-se treinar um novo modelo, dessa vez não linear. 

In [14]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train.astype(np.float32))
X_test_scaled = scaler.transform(X_test.astype(np.float32))

svm_clf = SVC(gamma="scale")
svm_clf.fit(X_train_scaled[:10000], y_train[:10000])

y_pred = svm_clf.predict(X_train_scaled)
accuracy_score(y_train, y_pred)

0.9455333333333333

Agora vamos realizar um ajuste nos hiperparâmentros para aumentar ainda mais a acurácia.

In [15]:
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import reciprocal, uniform

param = {"gamma": reciprocal(0.001, 0.1), "C": uniform(1, 10)}
rnd_search_cv = RandomizedSearchCV(svm_clf, param, n_iter=10, verbose=2, cv=3)
rnd_search_cv.fit(X_train_scaled[:1000], y_train[:1000])

Fitting 3 folds for each of 10 candidates, totalling 30 fits
[CV] END ......C=7.572101248423705, gamma=0.0824598722365575; total time=   0.2s
[CV] END ......C=7.572101248423705, gamma=0.0824598722365575; total time=   0.2s
[CV] END ......C=7.572101248423705, gamma=0.0824598722365575; total time=   0.3s
[CV] END ..C=10.463904862635657, gamma=0.0031201559960186026; total time=   0.2s
[CV] END ..C=10.463904862635657, gamma=0.0031201559960186026; total time=   0.2s
[CV] END ..C=10.463904862635657, gamma=0.0031201559960186026; total time=   0.2s
[CV] END .....C=5.100438901747019, gamma=0.09159181277853191; total time=   0.3s
[CV] END .....C=5.100438901747019, gamma=0.09159181277853191; total time=   0.3s
[CV] END .....C=5.100438901747019, gamma=0.09159181277853191; total time=   0.3s
[CV] END ....C=6.324334784440685, gamma=0.019292074264351283; total time=   0.2s
[CV] END ....C=6.324334784440685, gamma=0.019292074264351283; total time=   0.2s
[CV] END ....C=6.324334784440685, gamma=0.019292

RandomizedSearchCV(cv=3, estimator=SVC(),
                   param_distributions={'C': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000002599F1BA550>,
                                        'gamma': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000002599F13D190>},
                   verbose=2)

In [16]:
rnd_search_cv.best_estimator_

SVC(C=9.279705343380623, gamma=0.0017721075647461914)

In [17]:
rnd_search_cv.best_score_

0.8599947252641863

Agora vamos treinar o modelo utilizando os valores de gamma e C que retornaram o melhor resultado e com todos os pontos do dataset.

In [19]:
rnd_search_cv.best_estimator_.fit(X_train_scaled, y_train)

SVC(C=9.279705343380623, gamma=0.0017721075647461914)

In [20]:
y_pred = rnd_search_cv.best_estimator_.predict(X_train_scaled)
accuracy_score(y_train, y_pred)

0.9997

In [21]:
y_pred = rnd_search_cv.best_estimator_.predict(X_test_scaled)
accuracy_score(y_test, y_pred)

0.9713

### 10. Treine um regressor SVM no conjunto de dados imobiliários da Califórnia.

In [22]:
# Importar bibliotecas necessárias
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error

# Carregar o conjunto de dados California Housing
california = fetch_california_housing()

# Dividir os dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(california["data"], california["target"], test_size=0.2, random_state=42)

# Normalizar os dados (importante para SVM)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Criar o regressor SVM
svm_regressor = SVR(kernel='rbf', C=100, gamma='scale')

# Treinar o modelo
svm_regressor.fit(X_train_scaled, y_train)

# Fazer previsões no conjunto de teste
y_pred = svm_regressor.predict(X_test_scaled)

# Avaliar o modelo utilizando o erro quadrático médio
mse = mean_squared_error(y_test, y_pred)
rmse = mse ** 0.5

# Mostrar o resultado
print(f"Erro quadrático médio (RMSE): {rmse:.2f}")


Erro quadrático médio (RMSE): 0.57


O erro quadrático obtido já está muito bom.