# O SVM (Support Vector Machine)

Para iniciar a explicação, vamos retomar visualmente o dataset Iris. Lembre-se que as classes (targets) são representadas pelos valores 0, 1 e 2.  

<img src="https://miro.medium.com/v2/resize:fit:736/1*H2UmG5L1I5bzFCW006N5Ag.png" style='width: 600px;' />

- Utilizando o dataset iris, podemos utilizar apenas a coluna petal width (cm) e visualizar a seguinte classificação dos dados:
<img src="https://drive.google.com/uc?id=1uEDHjpB-etkcNadcNYbBZqZeOBrIhCLi" style='width: 600px;' />
<br>
- Se tivermos um novo ponto, como o mostrado em vermelho, automaticamente já vamos pensar que esse ponto possui a mesma classe dos pontos em roxo:
<img src="https://drive.google.com/uc?id=1iYYZoHp4B9Suh6sI2H7G6G2WI6M-RKFP" style='width: 600px;' />
<br>
- Da mesma forma, tendemos a pensar que esse novo ponto deve ser classificado como amarelo:
<img src="https://drive.google.com/uc?id=1dfMuwPa6-r7CW9btaWnkHn3hVEDykKw6" style='width: 600px;' />
<br>
- E é uma lógica muito parecida com essa que temos no SVM
<br>
- Podemos basicamente pegar os pontos que estão mais no extremo dos dados (**os pontos de duas classes diferentes que estão mais próximos entre si**) e usar esses pontos para determinar um <font color='red'>**hiperplano**</font> capaz de separar essas classes
<img src="https://drive.google.com/uc?id=1KoDBoT2Lcm31A-ebAuWLgilSEEeY4OlW" style='width: 600px;' />
- **Quanto maior a margem, melhor!**
<br><br>
- Um fato importante é que ele **pode ser utilizado tanto em dados linearmente separáveis** (como mostrado acima) **como em dados que não são linearmente separáveis** (que são a maioria dos nossos dados)
    - Ele faz isso elevando as dimensões dos dados
    - O SVM vai usar as funções de kernel e no próprio algoritmo ele vai buscar a melhor dimensão capaz de encontrar essa reta
    - Só que ele não faz efetivamente essas transformações, ele só vai calcular a relação entre os pontos considerando que eles estão nessas dimensões. Isso é chamado de **"Truque do Kernel"**
<br>
<img src="https://drive.google.com/uc?id=1DpLpHou1tc4UayxKFglqb4I48EhjoktX" style='width: 1000px;' />
<br>
- E por mais que a gente tenha visto em apenas 1D, ele funciona para qualquer dimensão dos dados
<img src="https://drive.google.com/uc?id=17U2EPYj1pmbkXFimoLLP1mDWN0uiW3kP" style='width: 400px;' />
<br>
- **É um algoritmo muito poderoso porém pode demorar muito tempo para treinar os dados**

## Vamos fazer um treinamento rápido e simples para visualizar os vetores de suporte

- Para fins didáticos, vamos utilizar apenas duas características: o comprimento da pétala e a largura da pétala.
- Vamos considerar, também, apenas duas classes (flores): 0 e 1

In [None]:
from sklearn.datasets import load_iris
X,y = load_iris(return_X_y = True, as_frame=True)

O SVC (Support Vector Classifier) é uma implementação do algoritmo SVM (Support Vector Machine) para problemas de classificação, disponível na biblioteca scikit-learn do Python: https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC

Por padrão, o SVM foi originalmente concebido para problemas de classificação binária. Como limitados o nosso y a duas classes (flores) apenas, é assim que o algoritmo funcionará.

- Para traçar a reta, podemos considerar que a equação da reta será dada por:
    - y = ax + b
- Para considerar os dois coeficientes, também podemos escrever como:
    - w1.X_train[0] + w2.X_train[1] + w0 = 0
    - w1.X_train['petal width (cm)'] + w2.X_train['petal length (cm)'] + w0 = 0
    - Sendo x = X_train['petal width (cm)'] e y = X_train['petal length (cm)']:
        - w1.x + w2.y + w0 = 0
        - w2.y = -w1.x - w0
        - y = (-w1.x - w0)/w2

In [None]:
fig, ax = plt.subplots()

ax.scatter(X_train['petal length (cm)'], X_train['petal width (cm)'],c=y_train,s=60)

x = np.linspace(1,5,100)
y = (-w1*x-w0)/w2
ax.plot(x,y,'r')

ax.set(ylim=(0,1.7))

plt.show()

Além disso, também podemos ver quais foram os vetores de suporte utilizados para traçar essa reta.

Pegando os valores de x

E os valores de y

Visualizando esses pontos

In [None]:
fig, ax = plt.subplots()

ax.scatter(X_train['petal length (cm)'], X_train['petal width (cm)'],c=y_train,s=60)

x = np.linspace(1,5,100)
y = (-w1*x-w0)/w2
ax.plot(x,y,'r')
y2 = (+1-w1*x-w0)/w2
ax.plot(x,y2,'--r')
y3 = (-1-w1*x-w0)/w2
ax.plot(x,y3,'--r')

ax.scatter(clf.support_vectors_[:,0],clf.support_vectors_[:,1],c='r')

ax.set(ylim=(0,1.7))

plt.show()

##Vamos agora fazer um pipeline completo, até a geração das métricas de avaliação

Quando aplicado a problemas com mais de duas classes (como no dataset Iris com 3 classes), o scikit-learn usa uma destas abordagens:

1. One-vs-Rest (OvR) - Padrão no SVC
  - Treina N classificadores (onde N = número de classes)
  - Cada classificador distingue uma classe vs todas as outras
2. One-vs-One (OvO) - geralmente mais preciso para dados balanceados


**Pré-processamento geralmente requerido pelo SVM:**

1. Dados Ausentes: Impute (preencha) ou remova.
2. Escalonamento: Padronize (StandardScaler) ou normalize (MinMaxScaler) as features.
3. Outliers: Remova, transforme ou deixe como estão (avaliar o impacto).
4. Categóricas: Converta para numéricas (One-Hot Encoding ou Label Encoding).
5. Balanceamento de Classes (Se necessário): Oversampling, undersampling ou ajuste de pesos no modelo.




Criando um classificador SVM com kernel RBF (Radial Basis Function)

- O **kernel RBF** é uma função que define como o SVM vai mapear os dados para um espaço de maior dimensão para encontrar um hiperplano que melhor separa as classes.

<img src="https://cdn.botpenguin.com/assets/website/Screenshot_2024_02_27_at_3_29_53_PM_1_617d837c55.webp" />






- C=1.0: **Parâmetro de regularização.** Controla o *trade-off* entre classificar corretamente os dados de treino e ter uma margem de decisão suave. Valores menores de C permitem mais erros de classificação no treino, mas podem generalizar melhor para dados não vistos. Valores maiores de C penalizam mais erros de classificação no treino, o que pode levar a overfitting.

# Extra

Algo comum em pipelines de ciência de dados é a experimentação. Isto porque várias dúvidas surgem e uma delas é qual é o melhor valor dos hiperparâmetros dos algoritmos.

Nesse sentido, O GridSearchCV (Grid Search Cross-Validation) é uma ferramenta  do scikit-learn que automatiza o processo de testar diferentes combinações de hiperparâmetros e, em seguida, seleciona a combinação que oferece o melhor desempenho de acordo com uma métrica de avaliação especificada.

Façamos isso para o algoritmo SVM que vimos nesta aula.

**Exercício 1:** Altere a quantidade de instâncias no conjunto de teste para 20%. O que acontece com as métricas? Por quê?

**Exercício 2:** Retome aulas anteriores sobre pré-processamento e aplique min-max ou StdScaler, conforme a natureza de cada feature. Utilize 33% dos dados no conjunto de teste.

**Exercício 3:** Existe uma versão do SVM para problemas de regressão, o SVR que funciona de forma semelhante e com os mesmos parâmetros, com diferença para o erro (e não acurácia). Escolha um dataset cuja variável alvo seja um número e aplique este algoritmo, utilizando o GridSearchCV.