# Support Vector Machines (SVM)

## Dados Linearmente Separáveis

O SVM pode realizar tanto a classificação linear quanto a não linear. Neste caderno, vemos como usar o SVM para prever um valor contínuo a partir de dados linearmente separáveis.

**EXEMPLO**

Vamos supor que temos um conjunto de dados que representa a informação sobre o desempenho de alunos como a tabela seguir.

| Horas de estudo | Horas de sono | Pontuação no teste |
|-----------------|---------------|--------------------|
| 2 | 9 | 76 |
| 6 | 8 | 88 |
| 7 | 6 | 92 |
| 5 | 6 | 85 |
| 8 | 8 | 90 |
| 9 | 7 | 93 |
| 3 | 7 | 78 |
| 2 | 6 | 75 |
| 5 | 8 | 84 |
| 7 | 7 | 88 |

## Considerações

A aplicação correta de um algoritmo de *Machine Learning* envolve várias considerações importantes relacionadas aos dados. Assim, aqui estão algumas ponderações que você deve considerar antes de aplicar esse algoritmo.

* *Linearidade dos dados*: O SVM com kernel linear funciona melhor quando os dados são linearmente separáveis, ou seja, quando existe uma linha (em 2D), um plano (em 3D) ou um hiperplano (em mais dimensões) que pode separar as classes. Você pode visualizar os dados (se eles tiverem 2 ou 3 dimensões) ou usar técnicas estatísticas para verificar se eles são linearmente separáveis.

* *Dimensão dos dados*: O SVM com kernel linear é mais eficiente do que o SVM com kernel não-linear em termos de tempo computacional, especialmente quando o número de atributos é grande. Isso ocorre porque o SVM com kernel linear requer menos cálculos. Se os dados são de alta dimensão, mas ainda assim são linearmente separáveis, um SVM com kernel linear pode ser a melhor opção.

* *Número de exemplos de treinamento*: O SVM com kernel linear tende a funcionar bem quando o número de exemplos de treinamento é grande. No entanto, se o número de exemplos de treinamento é pequeno e os dados não são linearmente separáveis, pode ser mais apropriado usar um kernel não-linear.

* *Interpretabilidade do modelo*: O SVM com kernel linear pode ser mais fácil de interpretar do que o SVM com kernel não-linear. O hiperplano de decisão em um SVM com kernel linear é definido por um subconjunto dos dados de treinamento (os vetores de suporte) e pode ser descrito por uma equação linear, o que pode ser útil para entender a relação entre os atributos e o rótulo da classe.

## O Algoritmo na Prática

## Como aplicar o algoritmo no `sklearn`?

**Bibliotecas**

In [1]:
from sklearn import svm
import numpy as np

**Ingestão**

In [None]:
# Dados de entrada (Tempo no Site, Número de Páginas Visitadas)
X = np.array([
    [5, 10],
    [10, 20],
    [15, 30],
    [20, 25],
    [25, 20],
    [30, 15],
    [35, 10],
    [40, 5],
    [45, 3],
    [50, 1]
])

# Rótulos (Compra)
y = np.array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])

**Treinamento**

In [None]:
# Ajustando o modelo Support Vector Regressor (SVR)
# `C` é um parâmetro de regularização, que determina o tradeoff entre obter o menor erro possível e manter a complexidade do modelo baixa
# `epsilon` especifica a largura da banda insensível ao erro na qual não ocorre penalidade no termo de treinamento do erro. 
model = svm.SVR(kernel='linear', C=1.0, epsilon=0.1)
model.fit(X, y)

**Utilização**

In [None]:
# Fazendo previsões
predictions = model.predict(X)
print(predictions)