<div style="background-color:#000047; padding: 30px; border-radius: 10px; color: white; text-align: center;">
    <img src='Figures/alinco.png' style="height: 100px; margin-bottom: 10px;"/>
    <h1>Máquinas de Vector Soporte (SVM)</h1>
</div>


Generalmente, `Support Vector Machines` se considera un algoritmo de aprendizaje supervizado para clasificación, pero puede emplearse en ambos tipos de problemas de clasificación y regresión. 

>Puede manejar fácilmente múltiples variables continuas y categóricas.

>SVM construye un hiperplano en un espacio multidimensional para separar diferentes clases.

>SVM genera un hiperplano óptimo de manera iterativa, que se utiliza para minimizar un error. La idea central de SVM es encontrar un hiperplano marginal máximo (MMH) que divida mejor el conjunto de datos en clases.

> **Vectores Soportes:** Los vectores de soporte son los puntos de datos más cercanos al hiperplano. Estos puntos definirán mejor la línea de separación calculando los márgenes. Estos puntos son más relevantes para la construcción del clasificador.

> **Hiperplano:** Un hiperplano es un plano de decisión que separa un conjunto de objetos que tienen diferentes membresías de clase.

>**Margen:** Un margen es un espacio que existe entre dos líneas obtenidas en función de los puntos de cada clase. Esto se calcula como la distancia perpendicular desde la línea hasta los vectores soporte o los puntos más cercanos. Si el margen es mayor entre las clases, entonces se considera un buen margen, un margen más pequeño es un mal margen.


### Algoritmo
El objetivo principal es segregar el conjunto de datos dado de la mejor manera posible. La distancia entre los puntos más cercanos se conoce como margen. El objetivo es seleccionar un hiperplano con el máximo margen posible entre los vectores de soporte en el conjunto de datos dado. SVM busca el hiperplano marginal máximo.


1. Basada en kernels que realiza clasificación lineal sobre vectores transformados a un espacio de dimensión superior, es decir, separa mediante un hiperplano en el espacio transformado.

2. Encuentra el hiperplano que maximiza el “margen” entre dos clases


Un hiperplano en un espacio n-dimensional se define como:

$$ \mathbf{w}^T \mathbf{x} + b = 0 $$

Donde:
- $\mathbf{w}$: vector de pesos
- $\mathbf{x}$: vector de características
- $b$: sesgo (bias)

SVM busca maximizar la distancia (margen) entre el hiperplano y los puntos más cercanos de cada clase.

La optimización se expresa como:

$$ \min_{\mathbf{w}, b} \frac{1}{2} ||\mathbf{w}||^2 $$

Sujeto a:

$$ y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 $$

Donde $y_i$ es la etiqueta de clase (+1 o -1).


**Visualmente**
<img src='https://scikit-learn.org/stable/_images/sphx_glr_plot_separating_hyperplane_001.png' width='600' style='border-radius:8px;'/>

En la imagen, el hiperplano separa dos clases y los vectores de soporte son los puntos más cercanos al margen.


In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.datasets import make_blobs

In [None]:
X, y = make_blobs(n_samples = 50, centers = 2, random_state=0, cluster_std=0.6)

In [None]:
xfit = np.linspace(-1,3.5)
plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap='jet')

plt.plot([0.6],[2.1], 'x',color='red',
        markeredgewidth=2,markersize=10)

for m, b in [(1,0.65),(0.5,1.6),(-0.2,2.9)]:
    plt.plot(xfit,m*xfit + b, '-k')

plt.xlim(-1,3.5)

La intuicion de SVM es que podemos dibujar una recta para clasificar las clases y dibijuar un margén de cierta distancia entre las rectas:

In [None]:
xfit = np.linspace(-1,3.5)
plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap='jet')


for m, b,d in [(1,0.65,0.33),(0.5,1.6,0.55),(-0.2,2.9,0.2)]:
    yfit = m*xfit + b
    plt.plot(xfit,yfit, '-k')
    plt.fill_between(xfit,yfit - d, yfit +d, 
                     edgecolor='none',
                    color = '#AAAAAA',alpha=0.4)
plt.xlim(-1,3.5)

La linea que maximiza ese margen es la que se escoge como el modelo óptimo. 

### Ejemplo 1: Datos Linealmente separables

In [None]:
X, y

### Definición de la clase SVM

In [None]:
#Agregar a su librería
class SVM:
    def __init__(self, lr=0.001, lambda_param=0.01, n_iters=1000):
        self.lr = lr  #Tasa de aprendizaje utilizada para actualizar los parámetros durante la optimización.
        self.lambda_param = lambda_param  #Parámetro de regularización que controla la penalización sobre los pesos para evitar sobreajuste.
        self.n_iters = n_iters  #Número de iteraciones (épocas) para el proceso de entrenamiento.
        self.w = None  #Vector de pesos del hiperplano que separa las clases.
        self.b = None  #Término de sesgo (bias) que ajusta la posición del hiperplano.

    def fit(self, X, y):
       

    def predict(self, X):
        
        return None


In [None]:
from HyAIA import HyAIA as hy

In [None]:
# train test split
X_train_df, X_test_df, y_train_df, y_test_df = hy.train_test_split(pd.DataFrame(X), 
                                                                   pd.DataFrame(y), test_size=0.2)


In [None]:
# Provar la clase SVM


In [None]:
#Predecir el modelo


In [None]:
# método para probar el accuracy del modelo


### Modelo con librería sklearn

In [None]:
from sklearn import svm
from sklearn.metrics import(accuracy_score, 
                            precision_score,
                            recall_score)


In [None]:
#Crear el modelo con SVM

#Entrenar al modelo

# Predecir (evaluar al modelo)


In [None]:
#Predicción para el testeo


In [None]:
# Dibujar el hiperplano de separación
beta = modelo_svm.coef_[0]
m = -beta[0]/beta[1]

xx = np.linspace(-1,4)
yy = m*xx - (modelo_svm.intercept_[0]/beta[1])

vs = modelo_svm.support_vectors_

#%% Margenes de separación
b = vs[0]
yy_down = m*xx + (b[1] - m*b[0])

b = vs[-1]
yy_up = m*xx + (b[1] - m*b[0])


In [None]:
plt.figure(figsize=(6,4))
plt.scatter(X[:,0], X[:,1], c=y)
plt.plot(xx,yy_up,'k--')
plt.plot(xx,yy_down,'k--')
plt.scatter(vs[:,0], vs[:,1], s=80, facecolor='k')
plt.plot(xx,yy)
plt.grid()

plt.show()


### Tratar con datos que no son linealmente separables

In [None]:
# importar los datos 
data = pd.read_csv('Data/ex2data2.txt', header=None)
data.head()


In [None]:
X_df = data.iloc[:,:-1]
y_df = data.iloc[:,-1]
X_train_df, X_test_df, y_train_df, y_test_df = hy.train_test_split(pd.DataFrame(X_df), 
                                                                   pd.DataFrame(y_df), test_size=0.2)



In [None]:
X_df.shape

In [None]:
X_train_df.shape, y_train_df.shape

In [None]:
X_test_df.shape,y_test_df.shape

In [None]:
plt.figure(figsize=(6,4))
plt.scatter(data.iloc[:,0], data.iloc[:,1], c = data.iloc[:,2])
plt.grid()
plt.show()

Algunos problemas no se pueden resolver utilizando un hiperplano lineal.

>En tal situación, **SVM** usa un truco del kernel para transformar el espacio de entrada en un espacio dimensional más grande. 

**SVM Kernels**

El algoritmo SVM se implementa en la práctica utilizando un kernel. 

>Un **kernel** transforma un espacio de datos de entrada en la forma requerida. Aquí, el kernel toma un espacio de entrada de menor dimensión y lo transforma en un espacio de mayor dimensión. En otras palabras, se puede decir que se convierte un problema no linealmente separable en problemas separables al agregarle una mayor dimensión. 


<img alt="Datos categóricos con Python" title="Datos categóricos con Python" src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTJKujfCumij1R0vDYuPFSbys3-Du7hrrIwTBHO4J06Ivi6MkFIJa7NQnE1rITiNoLaUro&usqp=CAU" high=200px width=300px>


**Kernel lineal** Se puede utilizar un kernel lineal como producto escalar normal cualesquiera dos observaciones dadas. El producto entre dos vectores es la suma de la multiplicación de cada par de valores de entrada.

$$K(x,x_i) = \sum(x*x_i) $$


**Kernel polinomial** Un kernel polinomial es una forma más generalizada del kernel lineal. El kernel polinomial puede distinguir el espacio de entrada curvo o no lineal.

$$K(x,x_i) = 1 \sum(x*x_i)^d $$

Donde $d$ es el grado del polinomio. $d = 1$ es similar a la transformación lineal. 

**Kernel de función de base radial (RBF)** RBF puede mapear un espacio de entrada en un espacio dimensional infinito.

$$K(x,x_i) = exp(-\gamma * \sum(x – x_i^2))$$

In [None]:
help(svm.SVC)

In [None]:
#%% Crear y entrenar el modelo SVM


In [None]:
#Modelo polinomial


In [None]:
#Modelo polinomial grado 8


### Practica:

Considere el dataset "apples_and_oranges.csv" que se encuentra en la carpeta de Data, realize una clasificación por SVM utilizando los diferentes kernels: linear, poly, rbf. Grafique los datos con su clasificación y los vectores soportes.

In [None]:
df = pd.read_csv('Data/apples_and_oranges.csv')
df.head()