# Maquinas de Soporte Vectorial (SVM)

* SVM es un algoritmo de machine learning que puede ser utilizado para tareas de clasificación y regresión.
* Para tareas de clasificación, en principio se utilizan hiperplanos para separar las diferentes clases, lo que convierte este algoritmo en un clasificador lineal, pero es posible realizar clasificaciones con fronteras más complejas utilizando el truco del "Kernel".
* **Hiperplano**: Frontera utilizada para separar dos clases. En el caso de SVM, este se elige maximizando el margen entre los vectores de soporte.
* **Vectores de soporte**: Datos del conjunto de datos que están más cerca del hiperplano separador. Para cada hiperplano, se definen diferentes vectores de soporte, pero se elegirá aquel que maximice el margen.
* **Margen**: Distancia entre los vectores de soporte. Esta se mide de forma perpendicular entre las líneas que contienen a los vectores de soporte y son paralelas al hiperplano.

![image.png](attachment:8d0a7513-b6cf-4292-9a61-47ebcb5b04d0.png)
b04d0.png)

El algoritmo SVM busca separar las clases por medio de un hiperplano, tal que el margen sea maximizado, y esto se consigue en dos pasos:

![image.png](attachment:5bcb963d-d12c-4735-b790-27ae2ac565da.png)
1. Buscar los diferentes hiperplanos que separan efectivamente las clases a clasificar.
2. Por medio de la maximización del margen, se elegirá el hiperplano más adecuado. Esto conlleva a la maximización de la distancia entre el hiperplano y los vectores de soporte.

La lógica detrás de la maximización del margen es que esto reduce el riesgo de sobreajuste, ya que entre más pequeño sea el margen, más "similares" serán los vectores de soporte, y por tanto más difícil será distinguir claramente entre una categoría y otra.

Ahora bien, sobre cómo se define el hiperplano de decisión, este se define de tal forma que:

$h(x) = w_0 + \vec{w}^T\vec{x} = 0$

Siendo $h(x)$ el conjunto de puntos del hiperplano mismo, $w$ un vector de peso, $x$ el vector de entrada y $b$ el sesgo.

Los puntos que estén por encima del hiperplano serán positivos y los que estén por debajo serán negativos:

(1) $w_0+\vec{w}^T\vec{x_{pos}} = 1 $

(2) $w_0 +  \vec{w}^T\vec{x_{neg}} = -1$

substrayendo las dos ecuaciones anteriores, obtenemos:

$\Rightarrow \vec{w}^T(\vec{x_{pos}} - \vec{x_{neg}}) = 2$

Normalizando esta ecuación con la norma de $\vec{w}$, obtenemos:

$\frac{\vec{w}^T(\vec{x_{pos}} - \vec{x_{neg}})}{\|\vec{w}\|} = \frac{2}{\|\vec{w}\|} : $ Margen

El objetivo de las SVM es maximizar este margen, maximizando el termino $\frac{2}{\|\vec{w}\|}$, bajo la condición de que los datos de entrenamiento estén clasificados correctamente, es decir, bajo la condición

$y^{(i)}(w_0 + \vec{w}^T\vec{x}^{(i)}) \geq 1 \qquad \forall _i$


## Trabajando con datos no separables linealmente, usando una variable flexible

Esta tecnica fue introducida por Vladimir Vapnik en 1995, lo que dio origen a la llamada clasificacion de margen suave. La idea de esta tecnica es que las condiciones lineales necesitan ser suavizadas para los datos no separables linealmente para permitir la convergencia de la optimizacion en prescencia de errores de clasificacion, bajo un apropiado costo de penalizacion.

La variable flexible simplemente se añade a las condiciones lineales: 


$y^{(i)}(w_0 + \vec{w}^T\vec{x}^{(i)}) \geq 1 -\xi^{(i)} \qquad \forall i=1...N$

N es el numero de datos de entrenamiento. De manera que el nuevo objetivo para ser minimizado es

$\frac{1}{2}\|\vec{w}\|^2 + C\Big(\sum_i \xi^{(i)} \Big)$

Mediante la variable $C$ podemos controlar la penalizacion por error de clasificacion. Si $C$ es grande, se producira una alta penalizacion de errores, llevando el valor $\xi$ a valores muy pequenos; adicionalmente podemos usar $C$ para controlar la anchura del margen y asi afinar la compensacion entre el sesgo y la varianza:

![image.png](attachment:b12730fc-b6ec-4a35-93a3-2f103d842261.png)

## El truco del Kernel: Clasificar conjuntos de datos más dispersos

Los conjuntos de datos pueden presentarse de manera dispersa, lo que implica que no se podrán separar de forma lineal, siendo inútil el método mostrado hasta ahora. Por ejemplo, consideremos el siguiente conjunto de datos:

<div>
<img src="attachment:0689697d-1676-4015-925c-238e4c56e47f.png" width="600"/>
</div>

El conjunto de datos original no puede ser separado por medio de un hiperplano lineal; el truco del kernel permite pasar de un espacio 2D a un espacio de mayor dimensionalidad (3D en el ejemplo), de manera que sea posible separar los puntos en el nuevo espacio.

En resumen, el truco del kernel nos permite pasar de un espacio de baja dimensionalidad en donde no es posible realizar una separación lineal por medio de un hiperplano, a otro de mayor dimensionalidad, en donde si es posible dicha separación.

En el contexto de SVM tenemos 4 kernel populares: Linear Kernel, Polynomial Kernel, Radial Basis Function (RBF), tambien llamado Gaussian Kernel y Sigmoid Kernel.

### Linear Kernel

* Se utiliza cuando los datos son linealmente separables.
* Se suele utilizar con dataset de gran cantidad de caracteristicas.
* Se suele utilizar para clasificacion de texto.
* Suele ser rapido pues solo es necesario optimizar el hiperparametro C.

Matematicamente, este kernel se puede representar como una transformacion del tipo:

$K(x_i, x_j) = x_iTx_j$

![image.png](attachment:9272af3c-827a-4a9d-9329-6736ad7ac96e.png)

### Kernel polinomial

El kernel polinomial representa la similitud de los vectores (datos de entranamiento) en un espacio polinomial de las variables originales; estos espacio no solo incluiye potencias de las variables, sino tambien combinaciones entre variables diferentes.

La representacion matematica de la transformacion de espacios dada por el kernel es:

$K(x_i , x_j ) = (\gamma x_iT x_j + r)d$, $\gamma > 0$

* Suele usarse bastante en procesamiento de lenguaje natural.
* La potencia polinomial mas usada es d = 2, pues potencias mas grandes tienden a sobreajustar los datos.

![image.png](attachment:be78478b-7682-4ce4-a01f-c6a261a48f1c.png)

### Kernel RBF

* Este kernel se suele utilizar cuando no tenemos conocimientos previos sobre los datos.

Su representacion matematica para dos variables $x$ y $y$ es la siguiente:

$K(x, y) = \exp\Big (-\frac{\| x-y \|^2}{2\sigma ^2}\Big ) = \exp\Big (-\gamma \| x-y \|^2\Big )$

$\gamma = 0.1$, $C=10$

![image.png](attachment:6e6c1548-b036-4f69-852e-cb4b80340156.png)

$\gamma = 0.2$, $C=1.0$

![image.png](attachment:1bf69436-fcac-42e2-84db-67807ecb2072.png)


$\gamma = 100$, $C=1.0$

![image.png](attachment:6eb0f061-beeb-46ef-93ea-c6de4f39538f.png)