# Máquinas de Vetores de Suporte - SVM

<p>O entendimento do algoritmo SVM está relacionado ao entendimento de hiperplanos. Formalmente, um hiperplano é um subespaço n-1 em um espaço n-dimensional, por exemplo, se quiséssemos dividir um espaço bidimensional, usamos um hiperplano unidimensional (ou seja, uma linha). Se for um espaço tridimensional, usamos um hiperplano bidimensional (ou seja, um folha de papel ou lençol). Um hiperplano é simplesmente uma generalização desse conceito em n dimensões.</p>

<p>Então, o objeto do algoritmo é classificar os dados encontrando o hiperplano que maximiza o margem entre as classes nos dados de treinamento. Por exemplo, classificação com duas classes (bidimensional), podemos pensar em um hiperplano como uma reta mais ampla (ou seja, linha com margens) que separa as duas classes.</p>

## Vantagens

<ul>
<li>Predição de probabilidade, podendo ser útil quando necessita de medidas de probabilidades, por exemplo ajustar os valores para classificar se um e-mail é <i>spam</i> ou não</li>
<li>Pouco risco de <i>overfitting</i></li>
<li>Flexibilidade de parâmetro de regularização (ajusta a borda de linearidade) para redução de erro no modelo</li>
<li>Eficiente para conjuntos de dados de grandes dimensões</li>
<li>Pode ser aplicação tanto para classificação quanto para regressão</li>
<li>Flexibilidade no <i>kernel</i>, podendo ser linear, não linear, polinomial, sigmóide e gausiano</li>
<li>Lida bem com dados faltantes, não requer normalização de dados e aplicação de escala (porém na prática pode ser interessante aplicar para melhorar a predição)</li>
</ul>

## Desvantagens

<ul>
<li>A flexibilidade de <i>kernel</i> requer configurações avançadas e não é trivial</li>
<li>Não indicado para grande conjuntos de dados, porém utilizando o algoritmo <a href="https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html#sklearn.svm.LinearSVC">LinearSvm</a> não terá esse problema. Contudo, melhor utilizar o algoritmo SVD (<a href="https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier">classificador</a> ou <a href="https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html">regressor</a>)</li>
<li>Alto custo computacional, está atrelado ao tamanho do conjunto de dados utilizado e também como ele é executado, especialmente para <i>kernel</i> não linear</li>
<li>Risco de <i>overfitting</i></li>

# Exemplo

Vejamos um exemplo para criar modelo preditivo utilizando o algoritmo Linear SVM e SVM para classificação de flores de íris.

Dataset: UCI Iris Dataset
Esse conjunto de dados de íris contém quatro variáveis (features) ​​que medem várias partes das flores da íris de três espécies relacionadas (target). A utilização desse conjunto de dados é muito comum pela comunidade de aprendizado de máquina, pois os dados exigem muito pouco pré-processamento, sendo ideal para o nosso exemplo onde o foco é na utilização do algoritmo.

Caso tenha interesse em conhecer mais sobre esse conjunto de dado, por favor vide [aqui](https://scikit-learn.org/stable/datasets/toy_dataset.html#iris-dataset).

### Importação dos pacotes

In [1]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.svm import LinearSVC
from sklearn.model_selection import RandomizedSearchCV
from sklearn.pipeline import Pipeline

### Carregamento do conjunto de dados

In [2]:
X, y = load_iris( return_X_y = True)

### Configuração dos parâmetros do algoritmo
<p>O algoritmo Linear SVM e SVM requer parâmetros de configuração. Vejamos a seguir uma breve descrição do parâmetro e também dos valores mais adequados de utilização.</p>

<ul>
<li><b>tol</b>: valor de tolerância para critérios de parada. Costuma-se aplicar valores pequenos com o intuito de evitar paradas rápidas, evitando do algoritmo não convergir</li>
<li><b>penalty</b>: usado para especificar a norma usada na penalização, sendo uma foma de impedir que os coeficientes se ajustem tão perfeitamente ao excesso de ajuste, podendo ser L1 (a soma dos pesos) ou L2 (soma do quadrado dos pesos)</li>
<li><b>C</b>: corresponde ao parâmetro de regularização inversa, onde uma variável de controle que retém a modificação de força da regularização ao ser posicionada inversamente ao regulador. Valores baixos fortalece a regularização, então o mais indicado é utilizar maiores valores</li>
<li><b>max_iter</b>: define o número máximo de iterações pelo solucionador durante o ajuste do modelo. Valores baixos podem não encontrar melhores resultados enquanto de valores altos podem aumentar o tempo de treinamento. É interessante utilizar valores altos para conjuntos de dados complexos</li>
<li><b>kernel</b>: corresponde o tipo de <i>kernel</i> a ser usado no algoritmo, podendo ser linear (retas ou planos), poli (função polinomial de n graus), rbf (<a href="https://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_de_base_radial">função base radial</a> pode-se utiliza-lo para construir limites de decisão muito complexos), sigmoid (função sigmóide)</li>
<li><b>gamma</b>: define até que ponto influencia o cálculo da linha de separação plausível (aplicado apenas para os <i>kernels</i> rbf, poly e sigmoid). Quando gama é maior, os pontos próximos terão grande influência (ideal utilização); gama baixa significa que pontos distantes também devem ser considerados para obter o limite de decisão</li>
<li><b>degree</b>: define o grau da função polinomial. Seu valor está diretamente relacionado com a disposição dos dados no hiperplano</li>
</ul>

### Exemplo Linear SVC

In [7]:
tols = np.arange(0.0001, 0.1, 0.0005)
c_range = 1.5 ** np.arange(-3, 13)

params = {
    'svc__tol': tols,    
    'svc__C': c_range }

pipeline = Pipeline([
    ('scaler', StandardScaler()), 
    ('svc',  LinearSVC(dual=False))])

### Inicia o treinamento da inteligência com espaço de busca

In [8]:
svcc_search = RandomizedSearchCV(pipeline, 
                                 param_distributions=params, 
                                 n_iter=200,
                                 cv=3,
                                 scoring = 'f1_macro',
                                 verbose=False,
                                 n_jobs=-1)

svcc_search.fit(X, y)

RandomizedSearchCV(cv=3,
                   estimator=Pipeline(steps=[('scaler', StandardScaler()),
                                             ('svc', LinearSVC(dual=False))]),
                   n_iter=200, n_jobs=-1,
                   param_distributions={'svc__C': array([  0.2962963 ,   0.44444444,   0.66666667,   1.        ,
         1.5       ,   2.25      ,   3.375     ,   5.0625    ,
         7.59375   ,  11.390625  ,  17.0859375 ,  25.62890625,
        38.44335938,  57.66503906,  86.49755859, 129.74633789]),
                                        'svc__tol': array([0.0001, 0.0006, 0...
       0.0761, 0.0766, 0.0771, 0.0776, 0.0781, 0.0786, 0.0791, 0.0796,
       0.0801, 0.0806, 0.0811, 0.0816, 0.0821, 0.0826, 0.0831, 0.0836,
       0.0841, 0.0846, 0.0851, 0.0856, 0.0861, 0.0866, 0.0871, 0.0876,
       0.0881, 0.0886, 0.0891, 0.0896, 0.0901, 0.0906, 0.0911, 0.0916,
       0.0921, 0.0926, 0.0931, 0.0936, 0.0941, 0.0946, 0.0951, 0.0956,
       0.0961, 0.0966, 0.0971, 0.0976, 0

### Resultados
<p>Os resultados apresentados aqui dão uma ideia da qualidade do modelo gerado. Vale ressaltar que o propósito deste exemplo é no entendimento e configuração do algoritmo.</p>

In [12]:
classifier_svc = svcc_search.best_estimator_ 
print(f'Best params:\n{svcc_search.best_params_}')
print(f'Best score: {svcc_search.best_score_}')
print(f'Classifier: {classifier_svc}')

Best params:
{'svc__tol': 0.0056, 'svc__C': 38.443359375}
Best score: 0.9600795156772386
Classifier: Pipeline(steps=[('scaler', StandardScaler()),
                ('svc', LinearSVC(C=38.443359375, dual=False, tol=0.0056))])


### Exemplo SVC

In [3]:
tols = np.arange(0.0001, 0.1, 0.0005)
c_range = 1.5 ** np.arange(-3, 13)
gamma_range = 2.5 ** np.arange(-9, 14)
degree = list(range(1, 6))

params = [
    {'svc__kernel': ['rbf'], 
     'svc__gamma': gamma_range,
     'svc__C': c_range},
    {'svc__kernel': ['poly'], 
     'svc__gamma': gamma_range,
     'svc__C': c_range,
     'svc__degree': degree},             
    {'svc__kernel': ['sigmoid'], 
     'svc__gamma': gamma_range,
     'svc__C': c_range},
    {'svc__kernel': ['linear'], 
     'svc__C': c_range}]

pipeline = Pipeline([
    ('scaler', StandardScaler()), 
    ('svc',  SVC())])

### Inicia o treinamento da inteligência com espaço de busca

In [6]:
svcc_search = RandomizedSearchCV(pipeline, 
                                 param_distributions=params, 
                                 n_iter=100,
                                 cv=3,
                                 scoring = 'f1_macro',
                                 verbose=False,
                                 n_jobs=-1)

svcc_search.fit(X, y)

RandomizedSearchCV(cv=3,
                   estimator=Pipeline(steps=[('scaler', StandardScaler()),
                                             ('svc', SVC())]),
                   n_iter=100, n_jobs=-1,
                   param_distributions=[{'svc__C': array([  0.2962963 ,   0.44444444,   0.66666667,   1.        ,
         1.5       ,   2.25      ,   3.375     ,   5.0625    ,
         7.59375   ,  11.390625  ,  17.0859375 ,  25.62890625,
        38.44335938,  57.66503906,  86.49755859, 129.74633789]),
                                         'svc__gamma': array([2.62144000e-04, 6.55360000e-0...
       6.10351562e+02, 1.52587891e+03, 3.81469727e+03, 9.53674316e+03,
       2.38418579e+04, 5.96046448e+04, 1.49011612e+05]),
                                         'svc__kernel': ['sigmoid']},
                                        {'svc__C': array([  0.2962963 ,   0.44444444,   0.66666667,   1.        ,
         1.5       ,   2.25      ,   3.375     ,   5.0625    ,
         7.59375   ,

### Resultados
<p>Os resultados apresentados aqui dão uma ideia da qualidade do modelo gerado. Vale ressaltar que o propósito deste exemplo é no entendimento e configuração do algoritmo.</p>

In [7]:
classifier_svc = svcc_search.best_estimator_ 
print(f'Best params:\n{svcc_search.best_params_}')
print(f'Best score: {svcc_search.best_score_}')
print(f'Classifier: {classifier_svc}')

Best params:
{'svc__kernel': 'rbf', 'svc__gamma': 0.0256, 'svc__C': 7.59375}
Best score: 0.9869281045751634
Classifier: Pipeline(steps=[('scaler', StandardScaler()),
                ('svc', SVC(C=7.59375, gamma=0.0256))])
