[<- Anterior](k_nearest_neighbor_classifier.ipynb) | [Próximo ->](gaussian_nayve_bayes.ipynb)

# Support Vector Classifier

O modelo de Support Vector Classifier é um modelo de classificação que utiliza hiperplanos para determinar os limites ótimos entre classes. Nesse caso, para prever novos dados o modelo verifica em qual limite determinado durante o treino os novos dados se encaixam.

**O que será abordado**
- Imports
- Dados de teste
- Criação do Modelo
- Padronização
- Treinamento do Modelo
- Realizando Previsões com o modelo

> AVISO: Temas relacionados à divisão dos dados não serão aprofundados nesse documento, porém, explicações sobre esse processo podem ser encontradas na pasta [Validacao](../Validacao/README.md)

# Imports

In [2]:
# Import da função train_test_split
from sklearn.model_selection import train_test_split

# Importação da Classe StandardScaler -> Utilizada para realizar a padronização dos valores
from sklearn.preprocessing import StandardScaler

# Import do dataset padrão para identificação de espécies de flores
from sklearn.datasets import load_iris

# Import da Classe SVC -> Utilizada para criar o modelo de Support Vector Classifier
from sklearn.svm import SVC

# Dados de teste

Nessa seção será apresentado o dataset utilizado para desenvolver o modelo de SVC que será criado nesse documento. Isso será feito através da criação de um dataframe Pandas que recebe um dataset padrão do scikit-learn.

In [3]:
# Obtém os dados do dataset na forma de um dataset
data = load_iris(as_frame=True).frame
data

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


Explicação dos dados:    

O dataset possui 4 colunas de Features que representam caracteristicas de um conjunto de plantas. Essas caracteristicas são:

- sepal length (cm): Comprimento da Sépala medido em centimentros
- sepal width (cm): Largura da Sépala medida em centimetros
- petal length (cm): Comprimento da Pétala medido em centimentros
- petal width (cm): Largura da Pétala medida em centimetros

A ultima coluna do Dataframe e composta por numeros naturais que vão de 0 a 2, de forma que, cada numero se refere a uma espécie de flor, e corresponde ao valor que deve ser previsto pelo modelo. As espécies representadas nessa coluna são:

- 0: Iris Setosa
- 1: Iris Versicolour
- 2: Iris Virginica

# Criação do Modelo

Para criar o modelo de support vector classifier na biblioteca scikit-learn podemos implementar a classe `SVC()`. Isso é feito com a seguinte sintaxe:
````py
nome_do_modelo = SVC()
````

Veja no exemplo abaixo:

In [4]:
# Criação do modelo
support_vector_classifier = SVC(C = 1.0, kernel= "rbf", gamma= "scale")

Com esse processo, foi criado um modelo de SVC com o nome de 'support_vector_classifier'.

O modelo apresenta ainda algums parametros de entrada, sendo esses:

- **C** -> Controla a penalização dos erros (Quando maior o valor de C menor é a tolerancia a erros de classificação).
- **kernel** -> Função de transformação dos dados de entrada.
- **gamma** -> Controla a influencia de cada ponto de treino.

# Padronização

Modelos de SVC são sensiveis à escala dos dados, portanto é necessário realizar a padronização dos dados de treino uma vez que valores em escalas muito distantes podem afetar a determinação da fronteira de decisão desse tipo de modelo.

Esse processo é melhor explicado no doumento [scaling_normalization.ipynb](../../PreProcessamento/scaling_normalization.ipynb) e faz parte da etapa de pré-processamento do modelo.

Abaixo esta exemplificado a normalização dos dados.

In [5]:
# Separação das features(x) e targets(y)
x = data.drop(columns='target')
y = data['target']

# Separação dos dados em treino e teste
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.8, random_state=42)

# Criação do Padronizador
scaler = StandardScaler()

# Escalonamento dos dados de treino
x_train_scaled = scaler.fit_transform(x_train)

# Treinamento do modelo

O treinamento do modelo é realizado com o método `.fit()` do modelo que se deseja treinar.

Esse método necessita de dois parâmetros, sendo eles:

- **x** = Features de treino.
- **y** = Targets de treino.

Ainda é importante ressaltar que, conforme foi abordado no documento [train_test.ipynb](../../Validacao/train_test_split.ipynb), pode ser necessário dividir o conjunto de dados utilizado em treino e teste, sendo que, **APENAS** os dados de treino são usados durante o processo de treinamento do modelo.

Veja no exemplo abaixo:

In [6]:
# Treinamento do modelo
support_vector_classifier.fit(x_train_scaled, y_train)

0,1,2
,C,1.0
,kernel,'rbf'
,degree,3
,gamma,'scale'
,coef0,0.0
,shrinking,True
,probability,False
,tol,0.001
,cache_size,200
,class_weight,


Após a aplicação do método `.fit()` com os conjuntos de treino o modelo esta treinado, podendo assim ser utilizado para realizar previsões com base em novos conjuntos de dados.

# Realizando Previsões com o modelo

Uma vez que um modelo de Support Vector Classifier tenha sido treinado, é possível usa-lo para realizar previsões à partir de novos dados. 

Esse processo é realizado com o método `.predict()` do modelo, esse método precisa de um único parâmetro:

x -> Conjunto de dados com os quais se deseja realizar previsões. Esses dados devem ser fornecidos na forma de um Array , que deve conter arrays com as features necessárias para realizar as previsões. Pode também ser fornecido da forma de um Dataframe com os dados necessários.

O retorno dessa função é um Array, que contém um conjunto de Arrays com os targets previstos. Ou, no caso de um Dataframe ser utilizado como parâmetro de entrada, a saída é um único array com os dados previstos.

Veja um exemplo abaixo:

In [7]:

# Exibição dos vaores de entrada
print('Dados de Entrada')
print(x_test)

print('-'*20) # Adiciona um separador entre as entradas e saídas -> Utilizada nessa parte para melhorar a representação visual

# Previsão dos dados de teste
pred = support_vector_classifier.predict(scaler.transform(x_test))

# Previsão dos dados de Teste
print('Dados Previstos')
print(pred)

Dados de Entrada
     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
73                 6.1               2.8                4.7               1.2
18                 5.7               3.8                1.7               0.3
118                7.7               2.6                6.9               2.3
78                 6.0               2.9                4.5               1.5
76                 6.8               2.8                4.8               1.4
31                 5.4               3.4                1.5               0.4
64                 5.6               2.9                3.6               1.3
141                6.9               3.1                5.1               2.3
68                 6.2               2.2                4.5               1.5
82                 5.8               2.7                3.9               1.2
110                6.5               3.2                5.1               2.0
12                 4.8               3.0       

Dessa forma, percebe-se que para realizar uma previsão é necessário que os dados estejam ordenados na forma de um Array com a seguinte estrutura.

features = [[x1], [x2], ..., [xn]] ou um dataframe cujas colunas sejam as necessárias para as previsões.


Da mesma forma, após aplicar o método `.predict()` o resultado é um Array de mesma estrutura, porém, contendo os valores previstos (isso é, o valor de y para a respectiva entrada x, no array fornecido). Sendo assim:

`*nome_do_modelo*.predict(features)`, retorna: [[y1], [y2], ..., [yn]]   

onde:   

y1 é a previsão feita com a entrada x1 - y2 é a previsão feita com a entrada x2 - etc...

#
[<- Anterior](k_nearest_neighbor_classifier.ipynb) | [Próximo ->](gaussian_nayve_bayes.ipynb)