<a href="https://colab.research.google.com/github/BrandaoEid/Machine-Learning-LARC-USP/blob/master/SVM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Support Vector Machine

Algoritmo supervisionado que tem como objetivo encontrar um hiperplano (Fronteira de decisão) em um espaço n-dimensional para separar diferentes classes.

<img src="https://miro.medium.com/max/1166/1*Yh26T_T_5pGsxvNAguyDKw.png" width="300" height = "200" align="center"/>

Esta imagem descreve o funcionamento do algoritmo de SVM. Temos:
- Support Vectors (Vetores de suporte) - pontos mais próximos a fronteira de decisão
- Margem - distância entre o primeiro ponto de cada classe e o hiperplano
- Hiperplano - linha de separação entre duas classes.

**Kernelling**

Para situações em que um hiperplano linear não consegue solucionar é possível utilizar o , que transforma o espaço dimensional atual em um espaço dimensional maior, isto é feito a partir da adição de um novo atributo derivado dos demais.


<img src="https://miro.medium.com/max/838/1*gXvhD4IomaC9Jb37tzDUVg.png" width="500" align="center"/>

**Sintonia**

Dentre os parâmetros de ajuste temos:
- C: Grau de tolerância dos erros (Regularização)
 - Valor pequeno de C - Permite mais erros na classificação dos dados de treinamento (Produz modelos mais simples) - Maior força de regularização
 - Valor grande de C - Permite menos erros de classificação dos dados de treinamento (Produz modelos mais complexos) - Menor força de regularização
 - C = 1 (default)


 <img src="https://miro.medium.com/max/4272/1*DSHIKH8TiiN1FeTKtfDzrQ.png" width="500" align="center"/>

- Gamma: parâmetro utilizado somente em Kernel RBF (default)
 - Valor alto de Gamma: faz o ajuste perfeito nos dados de treinamento levando ao overfitting (considera pontos únicos para definição da fronteira de decisão)
 - Valor baixo de Gamma: considera uma quantidade maior de pontos para a definição da fronteira de decisão - fronteiras mais suaves

 <img src="https://miro.medium.com/max/2090/1*r9CO-gp1uuRsYooCLL9UeQ.png" width="600" align="center"/>

 **Considerações**

- Apesar de trabalhar bem com poucos/muitos atributos, não perfoma bem com muitas instâncias (> 10.000)
- SVM é sensível a variação na escala dos atributos, logo é necessário realizar um pré processamento dos dados
- Dificuldade de inspeção
- Na maioria das vezes é necessário fazer ajuste dos parâmetros







## Exercício

Aplicação do algoritmo no dataset breast_cancer

Dados do dataset:
    
- 569 amostras de diagnósticos de câncer de mama
- Cada amostra possui 30 atributos
- Os labels da classe são 'benign' e 'malignant'
- Dataset presente no scikit-learn


In [0]:
import pandas as pd

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

Assinalar as preditoras e o target


In [0]:
X = cancer['data']
y = cancer['target']

Divisão entre treino e teste

In [0]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, y, random_state = 0)

Modelo

In [43]:
from sklearn.svm import SVC
clf = SVC(gamma = 'auto')
clf.fit(X_train, Y_train)

SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

Desempenhos

In [44]:
print(clf.score(X_train,Y_train))
print('{:.2f}'.format(clf.score(X_test,Y_test)))

1.0
0.63


A distância entre a acurácia do modelo demonstra overfitting. Até então nenhum scaler tinha sido aplicado ao conjunto de dados e o SVM é sensível a valores em escalas diferentes e a parâmetros também.

Aplicando transformação de dados

In [0]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.fit_transform(X_test)

Modelo

In [46]:
clf = SVC(gamma = 'auto')
clf.fit(X_train_scaled, Y_train)

SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

Desempenho

In [47]:
print('{:.3f}'.format(clf.score(X_train_scaled,Y_train)))
print('{:.3f}'.format(clf.score(X_test_scaled,Y_test)))

0.948
0.951


Com a alteração na magnitude dos dados podemos notar uma grande diferença na acurácia.

Podemos observar como a alteração dos parametros C e gamma tem influência no desempenho do modelo

In [81]:
clf1000 = SVC(C = 1000, gamma = 'auto')
clf1000.fit(X_train_scaled, Y_train)

SVC(C=1000, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

In [82]:
print('{:.3f}'.format(clf1000.score(X_train_scaled, Y_train)))
print('{:.3f}'.format(clf1000.score(X_test_scaled, Y_test)))

0.988
0.804


Com um valor alto de C, temos uma diminuição na força de regularização, levando o algoritmo a produzir fronteiras mais complexas e não sendo capaz de generalizar tão bem