### Problema retirado desse site https://archive.ics.uci.edu/ml/datasets/Iris

Baseado em características de uma flor, vamos classificar qual tipo de flor ela é.

Vamos resolver esse problema de classificação usando o SVM (support vector machine), um algoritmo que plota os dados em um gráfico de n-dimensões e divide esse gráfico separando os conjuntos de respostas. Quando um novo dado aparece ele verifica em qual conjunto esse novo dado pertence e classifica ele com essa informação.

Informações e explicações retiradas desse site: https://www.analyticsvidhya.com/blog/2017/09/understaing-support-vector-machine-example-code/


In [33]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.model_selection  import  cross_val_score 
from sklearn import metrics as mt
from sklearn.preprocessing import StandardScaler

Colocando labels para visualizar melhor o dataset

In [3]:
colunas = ['s_length',
           's_width',
           'p_length',
           'p_width',
           'y']

In [4]:
data = pd.read_csv('iris.data', names=colunas)

In [5]:
data.head()

Unnamed: 0,s_length,s_width,p_length,p_width,y
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [23]:
data.isnull().sum()

s_length    0
s_width     0
p_length    0
p_width     0
dtype: int64

Como não temos dados faltantes e não precisamos alterar nada no dataset, podemos dividir os dados

In [6]:
y = data['y'].values
data = data.drop('y', axis=1) 
X = data.values

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

Criando o modelo e utilizando o kernel. Sendo Kernel uma função do svm para reorganizar os dados de uma forma que consiga construir um plano capaz de dividir os dados, tendo como parâmetros:

**'rbf'** = kernel de função de base radial que usa a seguinte fórmula $$ K(x,x') = exp-\frac{||x-x'||^2}{2\sigma^2}$$


**gama** : quanto maior o valor de gama, tentará ajustar-se exatamente ao conjunto de dados de treinamento.

**C**:  Parâmetro de penalidade C do termo de erro. Ele também controla o trade off entre o limite de decisão suave e a classificação correta dos pontos de treinamento.


In [8]:
svm = SVC(kernel='rbf', random_state=1, gamma=0.2, C=1)

In [9]:
svm.fit(X_train, y_train)

SVC(C=1, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.2, kernel='rbf',
  max_iter=-1, probability=False, random_state=1, shrinking=True,
  tol=0.001, verbose=False)

In [28]:
y_pred = svm.predict(X_test)

In [32]:
print("Acurácia: %0.2f" % mt.accuracy_score(y_test, y_pred))

Acurácia: 0.97


Fazendo standartização dos dados e verificando se os resultados melhoram

In [34]:
stdsc = StandardScaler()
X_train_std = stdsc.fit_transform(X_train)
X_test_std = stdsc.transform(X_test)

In [35]:
svm_std = SVC(kernel='rbf', random_state=1, gamma=0.2, C=1)

In [36]:
svm_std.fit(X_train_std, y_train)

SVC(C=1, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.2, kernel='rbf',
  max_iter=-1, probability=False, random_state=1, shrinking=True,
  tol=0.001, verbose=False)

In [41]:
y_predStd = svm_std.predict(X_test_std)

In [42]:
print("Acurácia: %0.2f" % mt.accuracy_score(y_test, y_predStd))

Acurácia: 0.97
