# Support Vector Machine
El Support Vector Machine (SVM) es un algoritmo de aprendizaje supervisado utilizado principalmente para clasificación y regresión. Su objetivo es encontrar el hiperplano que mejor separa las clases en el espacio de características, maximizando el margen entre los puntos de datos más cercanos de cada clase (vectores de soporte). SVM puede trabajar con datos linealmente separables y, mediante el uso de funciones kernel, también puede manejar casos no lineales. Es conocido por su eficacia en espacios de alta dimensión y su robustez frente al sobreajuste.

* Algoritmo basado en aprendizaje `supervisado`, clasificacion o etiquetado
* Es un algoritmo capaz de realizar `regresión(continuo)` y `clasificación(discreto)` (lineal y no lineal)
* Funciona muy bien para `conjuntos de datos complejos de tamaño pequeño` o mediano
* Puedes aplicarse de diferentes formas en función del conjunto de datos:
    * Conjuntos de datos linealmente separables:
        * Hard Margin Classification
        * Soft Margin Classification
    * Conjuntos de datos linealmente no separables:
        * Kernels

## Conjunto de datos linealmente separable
Es un conjunto de datos que tiene caracteristicas de entrada y de salida, con un conjunto de datos linealmente separable que puede dividir cada caracteristica y generar una funcion hipotesis. Sin embargo en conjuntos de datos que son separables linealmente se pueden tomar varios ejemplos de hipotesis de modelos ajustados que separan los elementos de cada conjunto de datos de negativos y positivos. Claramente cada modelo de hipotesis puede ser malo bueno o actue de otra manera en el modelamiento. Por lo tanto se pueden hacer uso de regresiones o modelos matematicos que dividen perfectamente los modelos hipotesis.

EL modelo *SVM* es un algoritmo que no solo separa las dos clases, sino que intenta mantener el limite de decision lo mas alejado posible de los ejemplos de entrenamiento `large margin classification)`

<img src="Images/svm.png" alt="svm" width="300"/>

## Hard Margin Classification
La clasificación de margen duro (*Hard Margin Classification*) es una técnica utilizada en SVM cuando los datos son `perfectamente separables de manera lineal`, es decir, no existen errores de clasificación. El objetivo es encontrar el hiperplano que separa las clases con el mayor margen posible, asegurando que todos los puntos de datos queden correctamente clasificados y fuera del margen. Sin embargo, esta técnica no es adecuada para conjuntos de datos con ruido o solapamiento entre clases, ya que no permite errores y puede llevar a modelos poco robustos ante datos reales.

Añadir mas ejemplos de entrenamiento fuera de las lineas de puntos no alteran el modelo, esta determinado por los ejemplos mas cercanos del limite de decision, conocidos como `support vectors`.

* El método que se acaba de presentar obliga de manera estricta a que todos los ejemplos de entrenamiento de cada una de las clases se encuentren detrás de la línea de puntos
* Este método tiene dos problemas fundamentales:
    * Sólo funciona con conjuntos de datos linealmente separables
    * Es muy sensible a datos anómalos
    
<img src="Images/hmc.png" alt="alt text" width="300"/>


## Construccion del modelo lineal

### Limite de decision
#### Función de coste

La función de coste en SVM está relacionada con la regresión logística:

$$
J(h_{\theta},y) = -y\log(h_{\theta}(x)) - (1-y)\log(1-h_{\theta}(x))
$$

Actúa dependiendo del valor de $y$ (0 o 1).

<img src="Images/reglogistica.png" alt="Regresión logística" width="500"/>

Ahora, parametrizada por $J(\theta, y)$:

$$
J(\theta, y) = -y\log\left(\frac{1}{1+e^{-(\theta_0 + \theta_1 x)}}\right) - (1-y)\log\left(1-\frac{1}{1+e^{-(\theta_0 + \theta_1 x)}}\right)
$$

Donde: $\theta = \theta_0 + \theta_1 x$

La ecuación tiene dos lados, según la respuesta sea 0 o 1.

<p align="center">
    <img src="Images/fcoste.png" alt="Función de coste" width="700"/>
</p>

$$
J(\theta, y)=0 \rightarrow \theta_0 + \theta_1 x \geq 1 \hspace{1cm} J(\theta, y)=0 \rightarrow \theta_0 + \theta_1 x \leq -1
$$

<p align="center">
    <img src="Images/fcosteJ.png" alt="Coste SVM" width="500"/>
</p>

La función de coste para SVM se expresa como:
$$
J(\theta, y) =
\begin{cases}
    \max(0, 1 - (\theta_0 + \theta_i x_i)) & \text{si } y = 1 \\
    \max(0, 1 + (\theta_0 + \theta_i x_i)) & \text{si } y = 0
\end{cases}
$$
Al igual que la regresion logistica se pueden unir para tener una misma equacion:
$$
J(\theta,y) = ymax(0,1-\theta)+(1-y)max(0,1+\theta)
$$

Esta funcion se ve referenciada como `Hinge loss`.

#### Funcion Hipotesis

**Regresion Logistica**: $h_{\theta}(x) = g(\theta_0 + \theta_1 x)$, seguia siendo un valor continuo y por lo tanto se hacia el uso de un threshold o un limite que clasificara en otros limites.

**SVM**: 
$
h_{\theta}(x) = 
\begin{cases}
    1 & \text{si } \theta_0 + \theta_1 \leq 0\\
    0 & \text{en caso contrario}
\end{cases}
$
La funcion hipotesis es esta que predice un valor discreto que se esta buscando en los limites sin necesidad de un threshold.

#### Soft Margin Classification
* Para evitar los problemas citados anteriormente, debe utilizarse un modelo más flexible: Soft Margin Classification.
* El objetivo de este modelo es mantener un balance adecuado entre mantener el límite de decisión lo más alejado posible de los ejemplos de entrenamiento y disminuir la sensibilidad a los ejemplo anómalos.
* En las implementaciones de SVM normalmente esto se controla mediante un hiperparámetro que suele estar representado mediante la letra C para modificar la flexibilidad del modelo.
* Utilizando este metodo el algoritmo genera limites de decision menos estrictos que generalizan mejor para nuevos ejemplos.

Tambien se podria llegar a usar esta clasisifcion con hiperparametros con modelos no separeblas en su totalidad, tomandolas como anomalias y sustrayendo de igual forma la parte que importa.

### Regresion Polinomica | Kernel

**Clasificacion no lineal**
* Las clasificaciones SVM lineales son eficientes y funcionan muy bien, sin embargo, existen *conjuntos de datos que no son linealmente separables*
<p align="center">
    <img src="Images/nolineal.png" alt="alt text" width="500"/>
</p>

La regresión polinómica es una técnica que permite modelar relaciones no lineales entre las variables independientes y la variable dependiente, extendiendo la regresión lineal al incluir términos polinómicos de mayor grado. En el contexto de SVM, se utiliza el *kernel polinómico* para transformar los datos originales en un espacio de mayor dimensión donde puedan ser linealmente separables. Esto permite al algoritmo encontrar límites de decisión más complejos y adaptarse a patrones no lineales presentes en los datos.

El kernel polinómico tiene la siguiente forma:

$$
K(x, x') = (\gamma \langle x, x' \rangle + r)^d
$$

Donde:
- $\gamma$ es un coeficiente de escala,
- $r$ es un término independiente,
- $d$ es el grado del polinomio.

Esta técnica es útil cuando los datos presentan relaciones complejas que no pueden ser capturadas por un modelo lineal, permitiendo una mayor flexibilidad en la clasificación.

Se crean un conjunto de caracteristicas polinomicas que permiten la creacion de limites de decision no lineales.

Para lo que llevamos la funcion hipotesis esta establecida por $h_{\theta}(x) = \theta_0 + \theta_1 x$ es una recta o lineal y con lo siguiente queremos es una funcion no lineal y para ello solo se debe agregar un apartado polinomico $h_{\theta}(x) = \theta_0 + \theta_1 x + \theta_2 z^2...$

<img src="Images/polinomico.png" alt="alt text" width="500"/>

#### Creacion de caracteristicas polinomicas
* Utilizar características polinómicas para generar límites de decisión no lineales tiene un gran inconveniente:
    * Si se dispone de polinomios con un grado bajo, no pueden generarse limites de decisión complejos
    * Si se dispone de polinomios con un grado alto, se generan un gran número de características, lo que requiere una capacidad de computo elevada y el modelo es lento

#### Gaussian Kernel
El *Gaussian Kernel* (también conocido como *Radial Basis Function Kernel* o RBF Kernel) es una función utilizada en SVM para transformar datos no linealmente separables en un espacio de mayor dimensión donde puedan ser separados por un hiperplano. Este kernel mide la similitud entre dos puntos y permite que el modelo encuentre límites de decisión complejos y no lineales.

La forma matemática del kernel gaussiano es:

$$
K(x, x') = \exp\left(-\frac{\|x - x'\|^2}{2\sigma^2}\right)
$$

Donde:
- $x$ y $x'$ son dos vectores de características,
- $\|x - x'\|^2$ es la distancia euclidiana al cuadrado entre los vectores,
- $\sigma$ es el parámetro que controla el ancho del kernel (también conocido como *bandwidth*).

**Características principales:**
- Permite modelar relaciones altamente no lineales.
- El parámetro $\sigma$ determina la influencia de cada punto de datos: valores pequeños de $\sigma$ hacen que el kernel sea más sensible a los puntos cercanos, mientras que valores grandes lo hacen más general.
- Es ampliamente utilizado por su capacidad para manejar datos complejos y por su flexibilidad.

**Ventajas:**
- No requiere la creación explícita de características polinómicas de alto grado.
- Es robusto frente a la presencia de ruido y datos anómalos.
- Generaliza bien en problemas de clasificación con fronteras no lineales.

**Aplicación en SVM:**
El kernel gaussiano permite que el SVM encuentre límites de decisión curvos y complejos, adaptándose a la estructura real de los datos. Es especialmente útil cuando los datos no pueden ser separados por una línea recta o un plano en el espacio original.

* Soluciona el problema que presenta la creacion de caracteristicas polinomicas.
* Dada una caracteristica x, calcula nuevas caracteristicas en funcion de la proximidad a unos puntos de referencia que se establecen.

¿vi y con esos puntos de referencia como los escojo?

Existen diferentes estrategias para seleccionar los puntos de referencia, una de las formas mas comunes es seleccionar un punto de referencia por cada uno de los ejemplos de entrenamiento.