# Capítulo 09 - Support Vector Machines

Antes de iniciar, é primordial indicar que o conceito de Support Vector Machines muitas vezes é confundido com o **classificador de margem máxima (*maximal margin classifier*)** e o **support vector classifiers**. Esses três termos se relacionam, mas não possuem a mesma definição.

Para entender os três temas, eles são explicados na seguinte sequência:

1. Classificador de margem máxima
1. Support vector classifiers
1. Support vector machines

## Classificador de margem máxima

O classificador de margem máxima trata-se de um modelo que nos permite classificar um elemento entre duas classes desde que seja possível a criação de um hiperplano que separe **completamente** as duas regiões e esse hiperplano está localizado na distância máxima possível entre as duas classes, conforme ilustrado na figura 1.

<p class="aligncenter">
    <img src="../figures/9_maximal_margim_classifier.jpg" alt="Maximal margin classifier" width="350">
</p>
<p style="text-align:center"> Figura 1 - Esquema ilustrativo do classificador de máxima margem.</p>

### O que é um hiperplano?
É "o sub-espaço de dimensão menor que seu espaço ambiente; ou seja, num espaço de dimensão *p*, um hiperplano teria *p-1* dimensões.

O hiperplano, que divide duas classes localizadas em um ambiente de dimensão *p*, é dado pela equação:

$$ \beta_{0} + \beta_{1}X_{1} + ... + \beta_{p}X_{p} = 0 \tag{1} $$

Por fim, para definir se uma nova observação pertence a uma classe ou outra, determina-se de o resultado da **equação (1)** foi maior ou menor que 0.
Definindo que uma classe seja 1 e a outra -1, teríamos:
- Se classe = 1 ou yi = 1:
$$ \beta_{0} + \beta_{1}X_{1} + ... + \beta_{p}X_{p} > 0 \tag{2} $$

- Se classe = -1 ou yi = -1:
$$ \beta_{0} + \beta_{1}X_{1} + ... + \beta_{p}X_{p} < 0 \tag{3} $$

E o hiperplano teria a seguinte propriedade:

$$ y_{i}(\beta_{0} + \beta_{1}X_{1} + ... + \beta_{p}X_{p}) > 0 \tag{4} $$

Com isso, para a construção do classificador de margem máxima, devemos otimizar o seguinte problema:

\begin{cases}
\\
Max(M) \\
\\
\sum_{j=1}^{p} \beta_{j}^2=1 \\
\\
y_{i}(\beta_{0} + \beta_{1}x_{i1} + ... + \beta_{p}x_{ip}) \geq M, \\ i=1,...,n
\\ \tag{5}
\end{cases}

Sendo n, as *n* observações.

Porém, a maior parte dos casos reais não podem ser separados pelo classificador de margem máxima.

## Support vector classifiers

Como citado, existem casos (a maior parte deles) em que não é possível criar um hiperplano que divida perfeitamente as classes, ou seja, não existe solução com M > 0 para a otimização (5). Para esses casos, podemos usar a abordagem **support vector classifiers** que permite algumas classificações erradas próximas do hiperplano de separação, essa técnica também é  conhecida como **soft margin classifier**. Nessa técnica é incluído um hiperparâmetro *C* que introduz uma tolerância aos erros de classificação.

Com a introdução do *C*, o problema de otimização (5) passa a ter a seguinte forma:

\begin{cases}
\\
Max(M) \\
\\
\sum_{j=1}^{p} \beta_{j}^2=1 \\
\\
y_{i}(\beta_{0} + \beta_{1}x_{i1} + ... + \beta_{p}x_{ip}) \geq M(1-\epsilon_{i}), \\ i=1,...,n \\
\\
\epsilon_{i} \geq 0, \\ \sum_{i=1}^{n} \epsilon_{i} \leq C  \\
\\ \tag{6}
\end{cases}



## Support vector machines

Finalmente, o support vector machines é "uma extensão do *support vector classifiers*, sendo que o SVM é o resultado de um  aumento do espaço de atributos usando ***kernels***". Ou seja, cria(m)-se dimensão(ões) a partir da(s) dimensão(ões) originais. Com o aumento do espaço de atributos, é possível encontrar fronteiras não lineares (hiperplanos) capazes de se acomodar entra as classes.

Os ***kernels*** mais comuns são:

- linear:

- polynomial:

- função de base radial (rbf):

- sigmoidal:

## SVMs com mais de duas classes

O SVM, desde o classificador de margem máxima, tem o objetivo de separar duas classes. No entanto, é possível utilizar para problemas de classificação multiclasse. No livro, são apresentadas duas abordagens possíveis:

1. **Classificação "um versus um"**;

1. **Classificação "um versus todos"**.

## Support vector regressor

## Detecção de anomalias

Na documentação do scikit-learn, há o uso de um método baseado em SVM para detecção de anomalias: o [OneClassSVM](https://scikit-learn.org/stable/modules/outlier_detection.html#outlier-detection).