# Fundamentos em Data Science

## Support Vector Machine

Fábio Sato <fabiosato@gmail.com>

# Instalação de pacotes adicionais

Antes de iniciarmos execute os seguintes comandos:

```
pip install ipywidgets
jupyter nbextension enable --py widgetsnbextension
```

Reinicialize o Jupyter se ele já estiver rodando

# SVM - Support Vector Machine


Uma máquina de vetores de suporte (SVM) é um algoritmo de aprendizado de máquina bastante flexível capaz de resolver problemas lineares e não-lineares de classificação e de regressão.

É atualmente um dos algoritmos mais populares e são adequados para modelos complexos com conjuntos de dados pequenos e médios.

# SVM - Classificação Linear 

Considere as seguintes considerações sobre um exemplo onde dados de duas classes podem ser separados linearmente.

![SVM linear](figuras/svm1.png)

# SVM - Classificação Linear 

- A linha vermelha separa os dados mas pode não ter bom desempenho/acurácia para novos exemplos.

- Diversas linhas podem classificar os dados corretamente.

- A linha azul separa os dados e também mantém uma boa distância dos exemplos de treinamento de ambas as classes.


# SVM - Large Margin Classification

Um modelo SVM deve produzir uma fronteira linear (hiperplanos) que classifica dados de maneira ótima.

Pode-se imaginar o trabalho de um classificador SVM como o de ajustar a rua mais larga possível (linhas tracejadas) entre duas classes.

![center SVM 2](figuras/svm2.png)

# SVM - Support Vectors

A melhor fronteira de decisão possível é determinada ("suportada") por exemplos localizadas na borda da rua.

Estes exemplos são denominados vetores de suporte. A distância entre as bordas da rua é chamada de margem.

![150% center SVM Support Vectors](figuras/svm-support-vectors.png)

# SVM - Hard Margin

Hard Margin: exemplos devem se manter fora da "rua" e do lado correto da linha

Dois problemas com esta abordagem

1. Funciona somente para dados que são linearmente separáveis
2. O algoritmo se torna muito sensível a outliers

# SVM - Outliers

Considere agora este exemplo onde temos um outlier da classe azul

<img src="figuras/svm-outliers.png" style="height: 350px;text-align:center"/>

# SVM - Soft Margin

Se adotarmos um algoritmo de *hard margin* a fronteira de decisão ficará muito estreita.

É melhor utilizar um modelo mais flexível.

Soft Marging: determina um bom custo/benefício entre manter a rua o mais larga possível e limitar a violação da margem

# SVM - Classificação Não-Linear

Mundo real: embora o algoritmo SVM linear seja eficiente e flexível em muitos cenários nossos problemas não são lineares

<img src="figuras/classification-nonlinear.png" alt="Classification Non-Linear" style="height: 350px;text-align: center;"/>

# SVM - Kernel Trick

Kernel Trick: podemos resolver problemas não lineares projetando as características em um espaço de maiores dimensões onde o problema é linearmente separável

Kernel é uma forma de calcular o produto interno de dois vetores $\mathbf{x}$ e $\mathbf{y}$ em um espaço de características de altas dimensões.

# SVM - Funções de Kernel

Suponha que uma função de mapeamento $\varphi : \mathbb{R}^n \rightarrow \mathbb{R}^m$ que projetem vectores no espaço
$\mathbb{R}^n$ para o espaço de características $\mathbb{R}^m$.

O produto interno de $\mathbf{x}$ e $\mathbf{y}$ neste espaço é $\mathbf{\varphi(x)^T \varphi(y)}$.

Um kernel é uma função $k$ que corresponde a este produto interno: $k(\mathbf{x, y}) = \mathbf{\varphi(x)^T \varphi(y)}$

Kernels fornecem uma maneira de calcular produtos internos em algum espaço de características sem necessariamente sabermos qual o espaço e $\mathbf{\varphi}$

# SVM - Kernel Polinomial

A adição manual de características polinomiais é de simples implementação.

Entretanto, polinômios com grau baixo não irão conseguir lidar com problemas complexos.

Polinômios com alto grau irão gerar um número gigantesco de novas características.

Para resolver isto, podemos usar um kernel polinomial: 

$$ k(x,y) = (\mathbf{x}^T \mathbf{y} + 1)^{d}$$

Onde $d$ é o grau do polinômio

# SVM - Kernel de Base Radial (RBF)

O Gaussian RBF (Radial Basis Function) é um outro método de kernel popular utilizado em SVM.

Kernel gaussianos possuem o seguinte formato $$ k(\mathbf{x},\mathbf{y}) = e^{-\gamma\lvert x - y\rvert^2}, \gamma \gt 0 $$

<img src="figuras/svm-rbf.png" style="height: 350px;text-align: center;"/>



# SVM - Hiperparâmetros

Existem dois hiperparâmetros importantes num modelo SVM:

- C: define a largura da margem do classificador.
- $\gamma$: define o "raio" de influência de cada exemplo de treinamento.

# SVM - Parâmetro C

Valores grandes de C tornam o classificador rígido e portanto com uma menor margem.

Para valores grandes de C o modelo irá escolher hiperplanos com menores margens se o hiperplano conseguir classificar os exemplos de treinamento corretamente

Valores pequenos de C irão fazer o algoritmo procurar por hiperplanos que apresentem margens de separação mais largas, mesmo que o hiperplano classifique incorretamente mais pontos.

Valores muito pequenos de C irão produzir classificações erradas com mais frequencia, mesmo que problema seja linearmente separável

<img src="figuras/svm-c.png" style="height: 200px;text-align: center;"/>

# SVM - Parâmetro $\gamma$

Define e alcance da influência de cada exemplo de treinamento.

No Scikit-Learn este parâmetro é inválido para o kernel linear.


<img src="figuras/svm-gamma.png" style="height: 350px;text-align: center;"/>

# SVM - Exemplo

In [3]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm, datasets

iris = datasets.load_iris()
X = iris.data[:, :2]
y = iris.target

In [16]:
from ipywidgets import interact, widgets

@interact(C=[1,10,100,1000,10000, 100000])
def train_svm(C):
    svc = svm.SVC(kernel='linear', C=C,gamma=0.1)
    svc.fit(X, y)

    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    h = (x_max / x_min)/100
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
     np.arange(y_min, y_max, h))

    plt.subplot(1, 1, 1)
    Z = svc.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, cmap=plt.cm.Paired, alpha=0.8)

    plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Paired)
    plt.xlabel('Sepal length')
    plt.ylabel('Sepal width')
    plt.xlim(xx.min(), xx.max())
    plt.title('SVC with linear kernel')
    plt.show()

# SVM - Exercício: implemente SVMs com kernels polinomiais e RBF para o mesmo dataset