**Cap 5: Máquinas de Vetores de Suporte**

### **Resumo**

O Capítulo 5 do livro "Hands-On Machine Learning with Scikit-Learn & TensorFlow" explora as **Support Vector Machines (SVMs)**, modelos de Machine Learning versáteis e poderosos, capazes de realizar classificação linear e não linear, regressão e detecção de *outliers*. São particularmente adequados para conjuntos de dados complexos, mas de tamanho pequeno a médio.

Os conceitos mais importantes abordados são:

*   **Classificação Linear com SVM (Linear SVM Classification)**:
    *   A ideia fundamental é a **classificação de margem larga (large margin classification)**, onde o SVM busca traçar a "rua" mais larga possível entre as classes, separando-as.
    *   Os **vetores de suporte (support vectors)** são as instâncias de treinamento localizadas na borda dessa "rua". São esses vetores que determinam completamente o limite de decisão; adicionar outras instâncias "fora da rua" não afeta o modelo.
    *   Os SVMs são **sensíveis à escala das características**, o que significa que a normalização dos dados (e.g., usando `StandardScaler` do Scikit-Learn) é crucial para um bom desempenho.
    *   **Classificação de margem rígida (hard margin classification)**: Impõe estritamente que todas as instâncias estejam fora da "rua" e no lado correto. Seus problemas são que só funciona para dados linearmente separáveis e é muito sensível a *outliers*.
    *   **Classificação de margem suave (soft margin classification)**: É uma abordagem mais flexível que busca um equilíbrio entre manter a "rua" o mais larga possível e limitar as "violações de margem" (instâncias que terminam no meio da rua ou no lado errado). Este equilíbrio é controlado pelo **hiperparâmetro C**:
        *   Um valor **C pequeno** resulta em uma "rua" mais larga, mas com mais violações de margem, tendendo a generalizar melhor.
        *   Um valor **C alto** resulta em uma "rua" mais estreita e menos violações de margem.
    *   A classe `LinearSVC` do Scikit-Learn é usada para SVMs lineares, requerendo que o conjunto de treinamento seja centrado e que o hiperparâmetro `loss` seja definido como `"hinge"`. Para melhor desempenho, `dual` deve ser `False` (a menos que haja mais características do que instâncias de treinamento).

*   **Classificação Não Linear com SVM (Nonlinear SVM Classification)**:
    *   Quando os dados não são linearmente separáveis, uma abordagem é adicionar mais características, como **características polinomiais**, para tornar o conjunto de dados linearmente separável em um espaço de dimensão superior.
    *   O **truque do kernel (kernel trick)** é uma técnica matemática que permite mapear implicitamente as instâncias para um espaço de características de alta dimensão, possibilitando a classificação e regressão não lineares sem a transformação explícita dos dados. Um limite de decisão linear no espaço de características corresponde a um limite de decisão não linear complexo no espaço original.
    *   **Kernel Polinomial (Polynomial Kernel)**: Usado com a classe `SVC` (e.g., `kernel="poly"`). O hiperparâmetro `degree` controla o grau do polinômio (reduzir para *overfitting*, aumentar para *underfitting*), e `coef0` controla a influência de polinômios de alto versus baixo grau.
    *   **Características de Similaridade (Similarity Features)**: Envolve a adição de características que medem a similaridade de cada instância a *landmarks* (pontos de referência). Uma abordagem simples é usar cada instância do conjunto de dados como um *landmark*, o que pode levar a um grande número de características para grandes conjuntos de dados.
    *   **Kernel Gaussian RBF (Radial Basis Function)**: Usado com a classe `SVC` (e.g., `kernel="rbf"`). O hiperparâmetro **`gamma` (γ)** influencia a forma da curva de sino. Um `gamma` pequeno leva a uma curva mais larga, maior influência das instâncias e limites de decisão mais suaves (tendência a *underfitting*). Um `gamma` grande resulta em uma curva mais estreita, menor influência e limites de decisão mais irregulares (tendência a *overfitting*). `gamma` atua como um hiperparâmetro de regularização.
    *   Outros *kernels*, como os *string kernels* para documentos de texto ou sequências de DNA, também existem, mas são menos comuns.
    *   A sintonia fina dos hiperparâmetros `C` e `gamma` é frequentemente realizada usando busca em grade (*grid search*).

*   **Regressão com SVM (SVM Regression)**:
    *   Em vez de tentar ajustar a "rua" mais larga entre as classes (como na classificação), a regressão SVM busca ajustar o máximo de instâncias possível *dentro* da "rua" (margem), enquanto limita as violações de margem.
    *   É considerado **ϵ-insensível**: a adição de mais instâncias de treinamento dentro da margem não afeta as previsões do modelo.
    *   A classe `LinearSVR` do Scikit-Learn é usada para regressão SVM linear, e a classe `SVR` para regressão SVM não linear. O hiperparâmetro **`epsilon`** controla a largura da "rua".

*   **Por Dentro do Modelo (Under the Hood)**:
    *   **Notações**: Para SVMs, `b` é usado para o termo de *bias* e `w` para o vetor de pesos das características (em vez de `θ` e `x0=1` usados em outros modelos).
    *   **Função de Decisão**: A função de decisão linear é `wT · x + b`. O limite de decisão é o conjunto de pontos onde essa função é igual a 0.
    *   **Margem**: É a área em torno do limite de decisão onde a função de decisão é igual a `+1` ou `-1`.
    *   **Objetivo de Treinamento (Margem Rígida)**: Minimizar `1/2 * wT · w` (equivalente a `1/2 * ||w||^2`) sujeito à restrição `t(i)(wT · x(i) + b) ≥ 1` para todas as instâncias. Minimizar `||w||` maximiza a margem. O termo `1/2 * ||w||^2` é usado porque é diferenciável.
    *   **Objetivo de Treinamento (Margem Suave)**: Introduz uma **variável de *slack* `ζ(i)` (zeta)** para cada instância, que mede o quanto a instância pode violar a margem. O objetivo é equilibrar a minimização de `1/2 * wT · w` com a minimização das variáveis de *slack*, usando o hiperparâmetro `C`.
    *   **Problema de Programação Quadrática (Quadratic Programming - QP)**: O objetivo do SVM é um problema de QP.
    *   **Forma Dual (Dual Form)**: Uma formulação alternativa do problema de otimização do SVM. É mais rápida de resolver do que a forma primal quando o número de instâncias de treinamento (`m`) é menor do que o número de características (`n`). É essencialmente o que torna o **truque do kernel** possível.
    *   **Hinge Loss**: A função `max(0, 1 – t)` é a função de perda (*loss function*) usada em SVMs. É igual a 0 quando `t ≥ 1`. Sua derivada é -1 se `t < 1` e 0 se `t > 1`, não sendo diferenciável em `t = 1` (mas o Gradiente Descendente pode usar subderivadas).

*   **PCA com Kernel (Kernel PCA - kPCA)** (relevante para o truque do kernel, detalhado no Capítulo 8):
    *   É uma extensão do PCA que utiliza o truque do kernel para realizar a redução de dimensionalidade não linear. Ele implicitamente projeta os dados em um espaço de características de alta dimensão, onde então aplica o PCA linear.
    *   Os hiperparâmetros incluem `kernel` (e.g., "rbf", "poly"), `gamma` e `coef0`. A avaliação é feita por busca em grade com validação cruzada. Também pode ser avaliado pelo erro de reconstrução, embora seja mais complexo que no PCA linear.

### **Implementação**

In [3]:
import numpy as np
from sklearn import datasets
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.svm import LinearSVC
from sklearn.datasets import make_moons
from sklearn.preprocessing import PolynomialFeatures
from sklearn.svm import LinearSVR
from sklearn.svm import SVR
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [4]:
iris = datasets.load_iris()
X = iris["data"][:,(2,3)]
y = (iris["target"]==2).astype(np.float64)

In [7]:
svm_clf = Pipeline([
    ("scaler", StandardScaler()),
    ("linear_svc", LinearSVC(C=1, loss="hinge"))
])
svm_clf.fit(X,y)

In [8]:
svm_clf.predict([[5.5,1.7]])

array([1.])

Classificação SVM Não Linear

In [10]:
polynomial_svm_clf = Pipeline([
    ("poly_features", PolynomialFeatures(degree=3)),
    ("scaler", StandardScaler()),
    ("svm_clf", LinearSVC(C=10, loss="hinge"))
])
polynomial_svm_clf.fit(X,y)

kermel Polinomial

In [11]:
poly_kernel_svm_clf = Pipeline([
    ("scaler", StandardScaler()),
    ("svm_clf", SVC(kernel="poly", degree=3, coef0=1, C=5))
])
poly_kernel_svm_clf.fit(X,y)


kernel RBF Gaussiano

In [12]:
rbf_kernel_svm_clf = Pipeline([
    ("scaler", StandardScaler()),
    ("svm_clf", SVC(kernel="rbf", gamma=5, C=0.001))
])
rbf_kernel_svm_clf.fit(X,y)


Regressão SVM

In [15]:
svm_reg = LinearSVR(epsilon=1.5)
svm_reg.fit(X,y)

In [18]:
svm_poly_reg = SVR(kernel="poly", degree=2, C=100, epsilon=0.1)
svm_poly_reg.fit(X,y)

### **Exercícios**

1. Qual é a ideia fundamental por trás das Máquinas de Vetores de Suporte (SVM)?

A ideia fundamental por trás das Máquinas de Vetores de Suporte (SVM) é encontrar um hiperplano que separe as classes de dados com a maior margem possível. Ou seja, a SVM busca a fronteira de decisão que maximiza a distância entre os pontos de dados mais próximos de cada classe (os vetores de suporte) e o próprio hiperplano. Isso torna o modelo robusto e capaz de generalizar bem para novos dados. Além disso, as SVMs podem ser estendidas para problemas não lineares utilizando funções de kernel, permitindo separar dados que não são linearmente separáveis no espaço original.

2. O que é um vetor de suporte?

Um vetor de suporte é um ponto de dado do conjunto de treinamento que está mais próximo do hiperplano de separação encontrado pela SVM. Esses pontos são fundamentais porque determinam a posição e a orientação do hiperplano. Em outras palavras, se removêssemos esses pontos, a fronteira de decisão mudaria. Os vetores de suporte são, portanto, os exemplos mais importantes do conjunto de dados para a definição da margem máxima da SVM.

3. Por que é importante dimensionar as entradas ao utilizar SVM? 

É importante dimensionar (normalizar ou padronizar) as entradas ao utilizar SVM porque o algoritmo é sensível à escala das variáveis. Se as características tiverem escalas muito diferentes, a SVM pode dar mais importância às variáveis com valores maiores, distorcendo a definição do hiperplano de separação. O dimensionamento garante que todas as variáveis contribuam igualmente para a determinação da margem e da fronteira de decisão, melhorando o desempenho e a estabilidade do modelo.

4. Um classificador SVM pode produzir uma pontuação de confiança quando classifica uma instância? E quanto a uma probabilidade?

Sim, um classificador SVM pode produzir uma pontuação de confiança ao classificar uma instância, normalmente usando o método `decision_function`, que retorna a distância da instância ao hiperplano de decisão. Quanto maior o valor absoluto, maior a confiança na classificação. Para obter probabilidades, é possível usar o parâmetro `probability=True` ao criar o modelo SVM. Isso faz com que o modelo utilize uma técnica chamada Platt Scaling para calibrar as saídas e fornecer probabilidades por meio do método `predict_proba`. No entanto, essas probabilidades são aproximações e podem não ser tão confiáveis quanto as pontuações de confiança.

5. Você deve utilizar a forma primal ou dual do problema SVM no treinamento de um modelo em um conjunto de treinamento com milhões de instâncias e centenas de características?

Quando você tem um conjunto de treinamento com milhões de instâncias e centenas de características, é recomendado utilizar a forma primal do problema SVM. A forma primal é mais eficiente quando o número de instâncias (amostras) é muito maior do que o número de características (features). Já a forma dual é mais vantajosa quando o número de características é muito maior do que o número de instâncias. Portanto, para grandes conjuntos de dados com muitas amostras, a forma primal é a escolha adequada.

6. Digamos que você treinou um classificador SVM com o kernel RBF. Parece que ele se subajusta ao conjunto de treinamento: Você deve aumentar ou diminuir gamma? e quanto ao C?

Se o classificador SVM com kernel RBF está se subajustando (underfitting) ao conjunto de treinamento, você deve aumentar o valor de gamma e/ou o valor de C. Aumentar gamma faz com que o modelo crie fronteiras de decisão mais complexas, tornando-o mais sensível aos dados de treinamento. Aumentar C reduz a regularização, permitindo que o modelo se ajuste melhor aos dados. Ambos os ajustes podem ajudar a reduzir o subajuste, mas é importante testar diferentes valores para evitar o sobreajuste (overfitting).

7. Como você deve configurar os parâmetros QP (H, f, A e b) utilizando um solucionador de QP off-the-shelf para resolver o problema do classificador SVM linear de margem suave?

Para resolver o problema do classificador SVM linear de margem suave usando um solucionador de Programação Quadrática (QP), você deve configurar os parâmetros da seguinte forma:

- **H**: Matriz de coeficientes quadráticos, geralmente é uma matriz identidade para as variáveis dos pesos (w), e zeros para os termos de viés e variáveis de folga (slack). Ela define o termo quadrático (1/2)xᵀHx.
- **f**: Vetor de coeficientes lineares, normalmente contém zeros para os pesos e viés, e o valor C para as variáveis de folga, representando a penalização dos erros.
- **A**: Matriz das restrições de desigualdade, que codifica as restrições do tipo yᵢ(wᵀxᵢ + b) ≥ 1 - ξᵢ e ξᵢ ≥ 0 para todas as amostras.
- **b**: Vetor do lado direito das restrições, geralmente contém -1 para as restrições de margem e 0 para as restrições de não negatividade das variáveis de folga.

Esses parâmetros traduzem o problema de otimização da SVM para a forma padrão de QP, permitindo que um solucionador genérico encontre a solução ótima.

Se o valor de C for muito grande em uma SVM de margem suave, o modelo penaliza fortemente qualquer erro de classificação, tentando ajustar-se perfeitamente aos dados de treinamento. Isso pode levar ao sobreajuste (overfitting), tornando o modelo muito sensível a ruídos e outliers e prejudicando sua capacidade de generalização para novos dados.

8. Treine um LinearSVC em um conjunto de dados linearmente separável. Depois treine o SVC e um SGDClassifier no mesmo conjunto de dados. Veja se você consegue fazer com que eles produzam aproximadamente o mesmo modelo.

In [None]:
linear_svc = LinearSVC(C=1, loss="hinge", random_state=42)
linear_svc.fit(X, y)

svc = SVC(kernel="linear", C=1, random_state=42)
svc.fit(X, y)

sgd_clf = SGDClassifier(loss="hinge", max_iter=1000, random_state=42)
sgd_clf.fit(X, y)

print("LinearSVC Coefficients:", linear_svc.coef_)
print("LinearSVC Intercept:", linear_svc.intercept_)

print("SVC Coefficients:", svc.coef_)
print("SVC Intercept:", svc.intercept_)

print("SGDClassifier Coefficients:", sgd_clf.coef_)
print("SGDClassifier Intercept:", sgd_clf.intercept_)

LinearSVC Coefficients: [[0.05005941 2.68326915]]
LinearSVC Intercept: [-4.68691856]
SVC Coefficients: [[2.1829247  2.25365588]]
SVC Intercept: [-14.41486828]
SGDClassifier Coefficients: [[36.15328995 90.38322487]]
SGDClassifier Intercept: [-283.35736944]


9. Treine um classificador SVM no conjunto de dados MNIST. Uma vez que os classificadores SVM são classificadores binários, você precisará utilizar um contra todos para classificar todos os 10 dígitos. Ajuste os hiperparâmetros utilizando pequenos conjuntos de validação para acelerar o processo. Qual acurácia você pode alcançar?

In [6]:
mnist = fetch_openml('mnist_784', version=1, as_frame=False)
X, y = mnist["data"], mnist["target"].astype(int)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

X_large = X_train[:15000]
y_large = y_train[:15000]
X_test_large = X_test[:3000]
y_test_large = y_test[:3000]

scaler = StandardScaler()
X_large_scaled = scaler.fit_transform(X_large)
X_test_large_scaled = scaler.transform(X_test_large)

from sklearn.decomposition import PCA
pca = PCA(n_components=40)
X_large_pca = pca.fit_transform(X_large_scaled)
X_test_large_pca = pca.transform(X_test_large_scaled)

svm_clf = SVC(kernel="rbf", gamma=0.05, C=5)
svm_clf.fit(X_large_pca, y_large)

y_pred = svm_clf.predict(X_test_large_pca)
accuracy = accuracy_score(y_test_large, y_pred)
print("Acurácia no conjunto de teste:", accuracy)

Acurácia no conjunto de teste: 0.6786666666666666


10. Treine um regressor SVM no conjunto de dados imobiliários da Califórnia

In [7]:
housing = fetch_california_housing()
X, y = housing.data, housing.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

svm_reg = SVR(kernel="rbf", C=100, gamma=0.1)
svm_reg.fit(X_train_scaled, y_train)

y_pred = svm_reg.predict(X_test_scaled)
mse = mean_squared_error(y_test, y_pred)
print("MSE no teste:", mse)

MSE no teste: 0.3244946222574612
