## SVM - Support Vector Machines
<hr>

<p align=center>
<img src="https://qph.fs.quoracdn.net/main-qimg-1accb9db25dfda6ca85d562f37b4e0a4.webp" width="60%"></p>

<hr>
<hr>


### Pacotes

In [14]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 

%matplotlib inline 
import warnings
warnings.filterwarnings('ignore')

from sklearn.metrics import log_loss
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score, classification_report, roc_auc_score
from sklearn.preprocessing import MinMaxScaler, LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.svm import SVC, SVR

In [15]:
data = pd.read_csv('data.csv')

In [16]:
#Drop 
data.drop('Unnamed: 32', axis=1, inplace=True)

X = data.drop('diagnosis', axis=1)
y= data['diagnosis']

# split 
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.30, random_state=14)


label = LabelEncoder()
y_train = label.fit_transform(y_train)
y_test = label.transform(y_test)


# Normalização 
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

### SVM - Classificação
<hr>
<br>


O SVM padrão toma como entrada um conjunto de dados e prediz, para cada entrada dada, qual de duas possíveis classes a entrada faz parte, o que faz do SVM um classificador linear binário não probabilístico. Dados um conjunto de exemplos de treinamento, cada um marcado como pertencente a uma de duas categorias, um algoritmo de treinamento do SVM constrói um modelo que atribui novos exemplos a uma categoria ou outra. Um modelo SVM é uma representação de exemplos como pontos no espaço, mapeados de maneira que os exemplos de cada categoria sejam divididos por um espaço claro que seja tão amplo quanto possível. Os novos exemplos são então mapeados no mesmo espaço e preditos como pertencentes a uma categoria baseados em qual o lado do espaço eles são colocados.


Em outras palavras, o que uma SVM faz é encontrar uma linha de separação, mais comumente chamada de hiperplano entre dados de duas classes. Essa linha busca maximizar a distância entre os pontos mais próximos em relação a cada uma das classes

<br>


Quem são os vetores de suporte? O vetor de suporte é uma amostra incorretamente classificada ou uma amostra próxima a um limite. Olhando para o enredo abaixo. As amostras com círculos vermelhos são exatamente o limite de decisão. No SVM, apenas os vetores de suporte têm um impacto efetivo no treinamento do modelo, ou seja, remover o vetor não de suporte não tem nenhum efeito sobre o modelo. Por quê? Vamos descobrir isso a partir de sua função de custo.


<p align=center>
<img src="https://miro.medium.com/max/1400/1*VXVgDMOdz0iigBIu9sMzGA.png" width="60%"></p>

<hr>

A função de perda do SVM é muito semelhante à da Regressão Logística. Observando-o por y = 1 e y = 0 separadamente na plotagem abaixo, a linha preta é a função de custo da regressão logística e a linha vermelha é para SVM. Observe que o eixo X aqui é a saída do modelo bruto, θᵀx. Lembre-se de colocar a saída do modelo bruto na Função Sigmoide nos fornece a hipótese da Regressão Logística. Qual é a hipótese para SVM? É simples e direto. Quando θᵀx ≥ 0, preveja 1, caso contrário, preveja 0.

<p align=center>
<img src="https://miro.medium.com/max/2000/1*qfZnRoVp-A0a4jMLwTBL6g.png" width="60%"></p>

<hr>

A hipóstese do SVM é esta: 


<p align=center>
<img src="https://miro.medium.com/max/2000/1*kHe3Mntx7cgFkFfurTIijA.png" width="70%"></p>

<hr>


Então, de volta ao gráfico da função de perda, também conhecido como <b> Hinge Loss </b>, quando o real é 1 (plot esquerdo como abaixo), se θᵀx ≥ 1, sem custo algum, se θᵀx <1, o custo aumenta à medida que o valor de θᵀx diminui. Esperar! Quando θᵀx ≥ 0, já previmos 1, que é a previsão correta. Por que o custo começa a aumentar de 1 em vez de 0? Sim, o SVM aplica punições tanto às previsões incorretas quanto àquelas próximas ao limite de decisão (0 <θᵀx <1), é assim que as chamamos de <b> vetores de suporte </b>.

<br>

Quando os pontos de dados estão exatamente na margem, θᵀx = 1, quando os pontos de dados estão entre o limite de decisão e a margem, 0 <θᵀx <1. Explicarei por que alguns pontos de dados aparecem dentro da margem posteriormente. Quanto ao motivo pelo qual a remoção de vetores não suportados não afeta o desempenho do modelo, podemos respondê-lo agora. Lembre-se de que o processo de ajuste do modelo é minimizar a função de custo.


<p align=center>
<img src="https://miro.medium.com/max/2000/1*PpGKA80nNW29SX3Y78Kkzg.png" width="70%"></p>

<hr>


Vamos escrever a fórmula para a função de custo do SVM:

<p align=center>
<img src="https://miro.medium.com/max/1400/1*AndL5FYso8ad7LSrie8zoA.png" width="70%"></p>

<hr>




Também podemos adicionar regularização ao SVM. Por exemplo, adicionando termo regularizado L2 ao SVM, a função de custo foi alterada para:



<p align=center>
<img src="https://miro.medium.com/max/2000/1*h5QqCdm48pt84bazOPvExA.png" width="70%"></p>



Diferente da Regressão Logística usando λ como parâmetro na frente do termo regularizado para controlar o peso da regularização, correspondentemente, o SVM usa C na frente do termo de ajuste. Intuitivamente, o termo ajuste enfatiza o ajuste muito bem ao modelo, encontrando coeficientes ótimos, e o termo regularizado controla a complexidade do modelo, restringindo o grande valor dos coeficientes.

<br>

Há uma troca entre ajustar bem o modelo no conjunto de dados de treinamento e a complexidade do modelo que pode levar ao sobreajuste, que pode ser ajustado ajustando o valor de λ ou C. Ambos λ e C priorizam quanto nos preocupamos em otimizar prazo adequado e prazo regularizado. Colocando em diferentes locais da função de custo, C realmente desempenha um papel semelhante a 1 / λ.

<b> C com valores grandes: Fornece uma hipótese de viés baixo e alta variância (OVERFITTING) </b>

<b> C com valores pequenos: Fornece uma hipótese de viés alto e baixa variância (UNDERFITTING) </b>



<p align=center>
<img src="https://miro.medium.com/max/2000/1*DSHIKH8TiiN1FeTKtfDzrQ.png" width="70%"></p>


<hr>

### Função de Kernel 

Em geral SVM tem um bom desempenho e oferece suporte para espaço lineares e não lineares, usando o que chamamos de <b> Kernel Trick </b> onde a idéia é que podemos criar uma fronteira de decisão em uma nova dimensão minimizando uma fórmula que seja mais fácil de calcular, em comparação a realmente mapear os pontos para uma nova dimensão.

O kernel default no Scikit-learn é o RBF que é o Radial Basis Function, que é capaz de mapear um espaço de entrada em espaço com mais dimensões.

A função <b> svm() </b> aceita os seguintes kernels: radial, linear, polynomial e sigmoide, Diferentes kernels ajustam diferentes modelos e, consequentemente, diferentes valores preditos.


* RBF 
* Linear 
* Polynomial 
* Sigmoid 


<p align=center>
<img src="https://d3i71xaburhd42.cloudfront.net/3a92a26a66efba1849fa95c900114b9d129467ac/3-TableI-1.png" width="70%"></p>



<hr>

<hr>

### Radial Basis Function - RBF 

O que há dentro da Função Kernel? Em outras palavras, como devemos descrever a proximidade de x aos pontos de referência? Existem tipos diferentes. O Kernel Gaussiano é um dos mais populares. É calculado com a Distância Euclidiana de dois vetores e o parâmetro σ que descreve a suavidade da função. O kernel gaussiano fornece uma boa intuição. Se x ≈ l⁽¹⁾, f1 ≈ 1, se x estiver longe de l⁽¹⁾, f1 ≈ 0. No pacote Scikit-learn SVM, o Gaussian Kernel é mapeado para <b>'rbf', Radial Basis Function Kernel </b> , a única diferença é 'rbf' usa γ para representar 1 / 2σ² de Gauss.

<p align=center>
<img src="https://ww2.mathworks.cn/matlabcentral/mlc-downloads/downloads/4356651d-2606-4b23-b053-60647095485d/dea2832c-c54a-4951-a9a2-0c67fe8457df/images/screenshot.jpg" width="50%"></p> 



In [17]:
# SVM kernel RBF  

mdl = SVC(C=1.0, gamma=0.7, kernel='rbf', random_state=42, probability=True)
mdl.fit(X_train, y_train)
y_pred = mdl.predict(X_test)


print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.96      1.00      0.98       108
           1       1.00      0.94      0.97        63

    accuracy                           0.98       171
   macro avg       0.98      0.97      0.97       171
weighted avg       0.98      0.98      0.98       171



Atenção para as diferenças encontradas em cada função de kernel, quando estamos usando RBF por exemplo, nós usamos um parâmetro chamado <b> Gamma </b> na função, este parâmetro não é aplicado na função de kernel Polynomial por exemplo, muita atenção quando for alterar e definir os Hiperparâmetros do modelo, pois as formulas se alteram de um Kernel para outro. 
<hr>

<b> Algumas características: </b>

* Em caso de outlier a SVM busca a melhor forma possível de classificação e, se necessário, desconsidera o outlier;

* Funciona muito bem em domínios complicados, em que existe uma clara margem de separação;

* Não funciona bem em conjuntos de dados muito grandes, pois exige inversão de matriz - aumentando a complexidade computacional com até o cubo do volume de dados;

* Não funciona bem em conjunto de dados com grande quantidade de ruídos;

* Se as classes estiverem muito sobrepostas deve-se utilizar apenas evidências independentes (devido ao fato de não ser muito bom com dados com muitos ruídos);

<hr>

### Conclusão

*  Os SVMs aprendem fronteiras de decisão lineares
(como os perceptrons)
* Busca o hiperplano que maximiza a margem
* O hiperplano ótimo vem a ser uma combinação linear dos
vetores de suporte
* Transforma problemas não lineares em um espaço
de mais alta dimensão usando funções de kernel
* Então há uma chance maior de que neste espaço
transformado, as classes serão linearmente
separáveis.

<hr>
<hr>

### Referências

http://www.ppgia.pucpr.br/~alekoe/AM/2014/8-SVM-AM-2014.pdf
<br>
https://pdfs.semanticscholar.org/8469/81890b81ae5d9ff5cedfcdbd99150a8bde13.pdf