# SVM

SVM é a abreviação do termo em inglês _Support Vector Machines_, que é uma técnica de aprendizado de máquina supervisionado baseado em análise estatística, que é bastante utilizada para reconhecimento de padrões.

Um modelo SVM é uma representação de exemplos como pontos no espaço, mapeados de maneira que os exemplos de cada categoria sejam divididos por um espaço claro que seja tão amplo quanto possível. Os novos exemplos são então mapeados no mesmo espaço e preditos como pertencentes a uma categoria baseados em qual o lado do espaço eles são colocados.

O que uma SVM faz é encontrar uma linha de separação, mais comumente chamada de hiperplano entre dados de duas ou mais classes. Essa linha busca maximizar a distância entre os pontos mais próximos em relação a cada uma das classes.

**Referências:** Lorena, A, Carvalho, A.: Uma Introdução às Support Vector Machines. Universidade Federal do ABC e Universidade de
São Paulo (2007)

Tratando os dados e preparando o _dataset_

In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [6]:
columns = ['parents', 'has_nurs', 'form', 'children', 'housing', 'finance', 'social', 'health', 'classification']
df = pd.read_csv('../data/nursery.data.csv', header=None, names=columns)

In [7]:
X = pd.get_dummies(df.drop('classification', axis=1))

In [9]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
y = le.fit_transform(df['classification'])

In [10]:
y_df = pd.DataFrame(y, columns=['target'])

Separando os _subsets_ de treino e teste

In [11]:
from sklearn.model_selection import train_test_split

In [12]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Importando o modelo do SVM

In [15]:
from sklearn.svm import SVC

In [16]:
model = SVC()

In [17]:
model.fit(X_train, y_train)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [18]:
pred = model.predict(X_test)

In [19]:
model.score(X_test, y_test)

0.966820987654321

In [20]:
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

In [21]:
print(classification_report(y_test, pred))

             precision    recall  f1-score   support

          0       1.00      1.00      1.00      1320
          1       0.94      0.96      0.95      1272
          2       0.00      0.00      0.00         2
          3       0.96      0.99      0.98      1190
          4       0.94      0.31      0.46       104

avg / total       0.97      0.97      0.96      3888



  'precision', 'predicted', average, warn_for)


In [23]:
print(confusion_matrix(y_test, pred))

[[1320    0    0    0    0]
 [   0 1226    0   46    0]
 [   0    0    0    0    2]
 [   0    9    0 1181    0]
 [   0   72    0    0   32]]


## Melhorando o modelo SVC com o GridSearchCV

O GridSearchCV implementa um método de “ajuste” e “pontuação” que refina o seu modelo. Os parâmetros usados para aplicar esses métodos são otimizados pela pesquisa de grade com _cross validation_ sobre uma grade de parâmetros. A partir do `param_grid`, passamos o C e o Gamma como dicionários e utilizamos o Radial Basis Function (RBF).

In [24]:
param_grid = {'C': [0.1, 1, 100, 1000], 'gamma': [1, 0.1, 0.001, 0.0001], 'kernel': ['rbf']}

In [25]:
from sklearn.model_selection import GridSearchCV

In [26]:
grid = GridSearchCV(SVC(), param_grid, refit=True, verbose=3)

In [27]:
grid.fit(X_train, y_train)

Fitting 3 folds for each of 16 candidates, totalling 48 fits
[CV] C=0.1, gamma=1, kernel=rbf ......................................
[CV]  C=0.1, gamma=1, kernel=rbf, score=0.3305785123966942, total=   4.3s
[CV] C=0.1, gamma=1, kernel=rbf ......................................


[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    6.0s remaining:    0.0s


[CV]  C=0.1, gamma=1, kernel=rbf, score=0.3306878306878307, total=   4.2s
[CV] C=0.1, gamma=1, kernel=rbf ......................................


[Parallel(n_jobs=1)]: Done   2 out of   2 | elapsed:   12.0s remaining:    0.0s


[CV]  C=0.1, gamma=1, kernel=rbf, score=0.33079722130334105, total=   4.4s
[CV] C=0.1, gamma=0.1, kernel=rbf ....................................
[CV]  C=0.1, gamma=0.1, kernel=rbf, score=0.9299173553719008, total=   2.2s
[CV] C=0.1, gamma=0.1, kernel=rbf ....................................
[CV]  C=0.1, gamma=0.1, kernel=rbf, score=0.9368386243386243, total=   2.1s
[CV] C=0.1, gamma=0.1, kernel=rbf ....................................
[CV]  C=0.1, gamma=0.1, kernel=rbf, score=0.9252398279854449, total=   2.1s
[CV] C=0.1, gamma=0.001, kernel=rbf ..................................
[CV]  C=0.1, gamma=0.001, kernel=rbf, score=0.3305785123966942, total=   3.7s
[CV] C=0.1, gamma=0.001, kernel=rbf ..................................
[CV]  C=0.1, gamma=0.001, kernel=rbf, score=0.3306878306878307, total=   3.7s
[CV] C=0.1, gamma=0.001, kernel=rbf ..................................
[CV]  C=0.1, gamma=0.001, kernel=rbf, score=0.33079722130334105, total=   3.7s
[CV] C=0.1, gamma=0.0001, kernel=rbf

[Parallel(n_jobs=1)]: Done  48 out of  48 | elapsed:  3.2min finished


GridSearchCV(cv=None, error_score='raise',
       estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False),
       fit_params=None, iid=True, n_jobs=1,
       param_grid={'C': [0.1, 1, 100, 1000], 'gamma': [1, 0.1, 0.001, 0.0001], 'kernel': ['rbf']},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring=None, verbose=3)

In [28]:
svm_best = grid.best_estimator_
svm_best

SVC(C=100, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.1, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [29]:
pred_2 = grid.predict(X_test)

In [30]:
svm_best.score(X_test, y_test)

0.9994855967078189

In [31]:
grid.score(X_test, y_test)

0.9994855967078189

In [32]:
print(classification_report(y_test, pred_2))

             precision    recall  f1-score   support

          0       1.00      1.00      1.00      1320
          1       1.00      1.00      1.00      1272
          2       0.00      0.00      0.00         2
          3       1.00      1.00      1.00      1190
          4       0.98      1.00      0.99       104

avg / total       1.00      1.00      1.00      3888



  'precision', 'predicted', average, warn_for)


In [33]:
print(confusion_matrix(y_test, pred_2))

[[1320    0    0    0    0]
 [   0 1272    0    0    0]
 [   0    0    0    0    2]
 [   0    0    0 1190    0]
 [   0    0    0    0  104]]
