# SVM (Support Vector Machine)

## Introdução

O modelo de vetor de suporte é um algoritmo que realiza classificação de um conjunto de dados. O objetivo dele é pegar o conjunto de dados da entrada e estabelecer "fronteiras" que delimitem cada tipo de categoria.

Como a base de dados será a mesma de crédito, então vamos colocar a importação das bibliotecas, particionamento e codificação de categorias de maneira mais enxuta.

## Dados Iniciais

In [1]:
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, accuracy_score

credito = read_csv('Credit.csv')


previsores = credito.iloc[:,0:20].values
classe = credito.iloc[:,20].values


labelencoder = LabelEncoder()
previsores[:,0] = labelencoder.fit_transform(previsores[:,0])
previsores[:,2] = labelencoder.fit_transform(previsores[:,2])
previsores[:, 3] = labelencoder.fit_transform(previsores[:, 3])
previsores[:, 5] = labelencoder.fit_transform(previsores[:, 5])
previsores[:, 6] = labelencoder.fit_transform(previsores[:, 6])
previsores[:, 8] = labelencoder.fit_transform(previsores[:, 8])
previsores[:, 9] = labelencoder.fit_transform(previsores[:, 9])
previsores[:, 11] = labelencoder.fit_transform(previsores[:, 11])
previsores[:, 13] = labelencoder.fit_transform(previsores[:, 13])
previsores[:, 14] = labelencoder.fit_transform(previsores[:, 14])
previsores[:, 16] = labelencoder.fit_transform(previsores[:, 16])
previsores[:, 18] = labelencoder.fit_transform(previsores[:, 18])
previsores[:, 19] = labelencoder.fit_transform(previsores[:, 19])

X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(previsores,
                                                                  classe,
                                                                  test_size = 0.3,
                                                                  random_state = 1)

## ```SVC```

Para usar esse modelo, devemos digitar

In [2]:
from sklearn.svm import SVC

Assim, para criar uma instância dessa classe, fazemos

In [3]:
svm = SVC()

Aqui vamos destacar os seguintes métodos:

* ```fit```: realiza o treinamento dados X (instâncias) e y (classes);
* ```predict```: realiza a previsão dado um conjunto X, que nem nos outros modelos vistos anteriormente.

In [4]:
svm.fit(X_treinamento, y_treinamento)

previsoes = svm.predict(X_teste)
previsoes

array(['good', 'bad', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'bad', 'good', 'good',
       'bad', 'good', 'good', 'bad', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'bad', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'bad', 'good', 'good', 'good',
       'good

## Precisão

Para medirmos a precisão, tomamos o procedimento usual

In [6]:
taxa_acerto = accuracy_score(y_teste, previsoes)

taxa_acerto

0.7166666666666667

## Extra: Extraindo os dados mais relevantes

Podemos aumentar a precisão do algoritmo usando a classe ```ExtraTreesClassifier```. Em particular, usamos o atributo ```feature_importances_``` para fazer essa filtragem.

In [8]:
from sklearn.ensemble import ExtraTreesClassifier

forest = ExtraTreesClassifier()
forest.fit(X_treinamento, y_treinamento)
importancias = forest.feature_importances_
importancias

array([0.10066641, 0.07941789, 0.06865341, 0.05984583, 0.08161918,
       0.05235527, 0.05117501, 0.05451698, 0.04468995, 0.02901965,
       0.05316872, 0.04605822, 0.06897761, 0.04131652, 0.03534166,
       0.03360195, 0.03870272, 0.02269821, 0.03160225, 0.00657256])

Cada número desse array representa a importância de sua coluna. Por exemplo, a relevância da primeira coluna é 0,10066641 e assim por diante. Como podemos ver, apenas as quantro primeiras colunas são relevantes. Por esse motivo, definiremos um novo dataframe contendo apenas essas colunas e testar o modelo.

In [9]:
X_treinamento2 = X_treinamento[:,[0,1,2,3]]
X_teste2 = X_teste[:,[0,1,2,3]]

svm2 = SVC()
svm2.fit(X_treinamento2, y_treinamento)
previsoes2 = svm2.predict(X_teste2)
taxa_acerto = accuracy_score(y_teste, previsoes2)
taxa_acerto

0.7233333333333334