# *Support Vector Machines (SVMs)*

Os *Support Vector Machines (SVMs)* são algoritmos de aprendizado de máquina supervisionado usados para classificação e regressão. Eles são particularmente eficazes em problemas de classificação linear e não linear, além de serem robustos em espaços de alta dimensionalidade. Resumo baseado no HOML, Aurélien Géron

---

## 1. *Linear SVM Classification*
- *Objetivo*: Encontrar um hiperplano que melhor separe as classes em um espaço de características.
- *Hiperplano*: Uma superfície linear (reta) que divide o espaço em duas regiões, uma para cada classe.
- *Margem*: A distância entre o hiperplano e os pontos mais próximos de cada classe (vetores de suporte).
- *Classificação Linear Perfeita*: Quando os dados são linearmente separáveis, o SVM encontra um hiperplano com a maior margem possível.
- Importante normalizar as features!!!
- *Equação do Hiperplano*:
  $
  f(\mathbf{x}) = \mathbf{w}^T \mathbf{x} + b
  $
  Onde:
  - $\mathbf{w}$: Vetor de pesos.
  - $b$: Termo de viés (bias).
- *Pacotes Python*:
  - sklearn.svm.LinearSVC: Implementação eficiente para classificação linear. É possível especificar uma qunatidade de hiperparametros. como o C
  - sklearn.svm.SVC com kernel='linear': Outra opção para classificação linear.
  -SGDClassifier(loss-"hinge", alpha=1/(m*c))

---

## 2. *Soft Margin Classification*
- *Problema*: Em dados não linearmente separáveis, um hiperplano rígido pode não existir.
- *Solução*: Introduzir uma margem "soft" que permite alguns pontos estarem dentro da margem ou do lado errado do hiperplano.
- *Parâmetro C*: Controla o trade-off entre maximizar a margem e minimizar os erros de classificação.
  $
  \text{Minimizar: } \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^n \xi_i
  $
  Onde:
  - $\xi_i$: Violações da margem.
  - $C$: Parâmetro de regularização.
- *Pacotes Python*:
  - sklearn.svm.LinearSVC: Permite ajustar o parâmetro C para controlar a margem soft.
  - sklearn.svm.SVC com kernel='linear': Também suporta margem soft.

---

## 3. *Nonlinear SVM Classification*
- *Problema*: Dados que não são linearmente separáveis no espaço original.
- *Solução*: Mapear os dados para um espaço de maior dimensionalidade onde se tornam linearmente separáveis.
- *Kernel Trick*: Usar funções de kernel para calcular similaridades no espaço transformado sem precisar calcular explicitamente as transformações.
- *Pacotes Python*:
  - sklearn.svm.SVC: Suporta kernels não lineares, como RBF, polinomial e sigmoide.

---

## 4. *Polynomial Kernel*
- *Função de Kernel*:
  $
  K(\mathbf{x}, \mathbf{y}) = (\mathbf{x}^T \mathbf{y} + c)^d
  $
  Onde:
  - $d$: Grau do polinômio.
  - $c$: Termo constante.
- *Aplicação*: Útil para capturar relações polinomiais entre as características.
- ALto grau polinomial pode deixar o modelo lento e kernel resolve isso
- Grindsearch pode ajudar a encontrar valores melhores para hiperparametros 
- *Pacotes Python*:
  - sklearn.svm.SVC com kernel='poly': Permite definir o grau do polinômio (degree) e o termo constante (coef0).

---

## 5. *Similarity Features*
- *Ideia*: Usar funções de similaridade para transformar os dados em um novo espaço onde a separação linear é possível.
- Computa o quanto cada instância se assemelha a um ponto de referência específico escolhido no mapa 
- *Exemplo*: Medir a distância de cada ponto a pontos de referência (landmarks) para criar novas características.
- *Pacotes Python*:
  - sklearn.metrics.pairwise: Contém funções para calcular similaridades, como cosine_similarity e rbf_kernel.

---

## 6. *Gaussian RBF Kernel*
- *Função de Kernel*:
  $
  K(\mathbf{x}, \mathbf{y}) = \exp\left(-\gamma \|\mathbf{x} - \mathbf{y}\|^2\right)
  $
  Onde:
  - $\gamma$: Controla a influência de cada ponto.
- *Aplicação*: Útil para criar fronteiras de decisão não lineares suaves. Parecido com kernel polinomial
- *Pacotes Python*:
  - sklearn.svm.SVC com kernel='rbf': Permite ajustar o parâmetro gamma.
  -Com tantos para escolher, via de regra deve-se testar primeiro linear, priordialmente se conjunto de dados for grande e muitas caracteristicas. Se não for muito grande, pode testar gaussiano. Se tiver tempo livre (kkk) teste os outros usando validação cruzada e grind search

---

## 7. *Computational Complexity*
- *Treinamento*: O tempo de treinamento do SVM depende do número de amostras e características.
- *Kernel Linear*: Mais eficiente, com complexidade próxima de $ O(n \cdot m) $.
- *Kernel Não Linear*: Mais custoso, com complexidade entre $ O(n^2 \cdot m) $ e $ O(n^3 \cdot m) $.
- *Pacotes Python*:
  - sklearn.svm.LinearSVC: Mais eficiente para problemas lineares.
  - sklearn.svm.SVC: Mais flexível, mas pode ser mais lento para grandes conjuntos de dados.

---

## 8. *SVM Regression*
- *Objetivo*: Encontrar uma função que se ajuste aos dados enquanto mantém os resíduos dentro de uma margem $\epsilon$.
- *Margem $\epsilon$*: Define uma "zona de tolerância" onde erros menores que \(\epsilon\) são ignorados.
- *Parâmetro C*: Controla o trade-off entre a complexidade do modelo e a tolerância a erros.
- *Pacotes Python*:
  - sklearn.svm.SVR: Implementação de SVM para regressão, suporta kernels como RBF e polinomial.

---

## 9. *Under the Hood*
- *Funcionamento Interno*: O SVM resolve um problema de otimização convexa para encontrar o hiperplano ótimo.
- *Vetores de Suporte*: Pontos mais próximos ao hiperplano que definem a margem e influenciam a decisão final.
- *Pacotes Python*:
  - sklearn.svm: Contém todas as implementações de SVM, incluindo LinearSVC, SVC e SVR.

---

## 10. *Decision Function and Predictions*
- *Função de Decisão*:
  $
  f(\mathbf{x}) = \mathbf{w}^T \mathbf{x} + b
  $
- *Previsões*: Se \( f(\mathbf{x}) > 0 \), a amostra é classificada como positiva; caso contrário, como negativa.
- *Pacotes Python*:
  - model.decision_function(X): Retorna a pontuação da função de decisão para cada amostra.
  - model.predict(X): Retorna as previsões finais.

---

## 11. *Training Objective*
- *Objetivo*: Minimizar:
  $
  \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^n \xi_i
  $
  Onde:
  - \(\xi_i\): Violações da margem.
- *Restrições*:
  $
  y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i \quad \text{e} \quad \xi_i \geq 0
  $
- *Pacotes Python*:
  - sklearn.svm: Implementa o problema de otimização internamente.

---

## 12. *Quadratic Programming*
- *Formato*: O problema de otimização do SVM é um problema de programação quadrática (QP).
- *Solução*: Resolvido usando métodos como o algoritmo SMO (Sequential Minimal Optimization).
- *Pacotes Python*:
  - sklearn.svm: Utiliza otimização interna para resolver o problema QP.

---

## 13. *The Dual Problem*
- *Formulação Dual*: Transforma o problema primal em uma forma que depende apenas dos produtos internos entre as amostras.
- *Vantagem*: Permite o uso do kernel trick para lidar com dados não lineares.
- *Pacotes Python*:
  - sklearn.svm: Implementa a formulação dual internamente.

---

## 14. *Kernelized SVMs*
- *Kernel Trick*: Substitui o produto interno $ \mathbf{x}^T \mathbf{y} $ por uma função de kernel $ K(\mathbf{x}, \mathbf{y}) $.
- *Vantagem*: Permite trabalhar em espaços de alta dimensionalidade sem calcular explicitamente as transformações.
- *Pacotes Python*:
  - sklearn.svm.SVC: Suporta kernels como RBF, polinomial e sigmoide.

---

## Principais Pacotes Python para SVMs
1. *Scikit-learn (sklearn)*:
   - sklearn.svm.LinearSVC: Para classificação linear eficiente.
   - sklearn.svm.SVC: Para classificação com suporte a kernels não lineares.
   - sklearn.svm.SVR: Para regressão com SVM.
   - sklearn.metrics.pairwise: Para calcular funções de kernel e similaridades.

2. *Exemplo de Uso*:
   ```python
   from sklearn.svm import LinearSVC, SVC, SVR
   from sklearn.datasets import make_classification
   from sklearn.model_selection import train_test_split
   from sklearn.metrics import accuracy_score

   # Dados de exemplo
   X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
   X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

   # Linear SVM
   model = LinearSVC(C=1.0)
   model.fit(X_train, y_train)
   y_pred = model.predict(X_test)
   print("Acurácia (LinearSVC):", accuracy_score(y_test, y_pred))

   # Kernel RBF SVM
   model = SVC(kernel='rbf', gamma=0.1, C=1.0)
   model.fit(X_train, y_train)
   y_pred = model.predict(X_test)
   print("Acurácia (SVC RBF):", accuracy_score(y_test, y_pred))

In [None]:
$