# Support Vector Machine

El objetivo del algoritmo de SVM es poder encontrar un hiperplano en un espacio de N dimensiones siendo N - el número de características) que clasifica claramente los puntos de datos.

![image.png](hiperplano.png)
![image.png](hiperplano2.png)

Para separar las dos clases de puntos de datos, hay muchos hiperplanos posibles que podrían elegirse. Nuestro objetivo es encontrar un plano que tenga el margen máximo, es decir, la distancia máxima entre puntos de datos de ambas clases. Maximizar la distancia de margen proporciona cierto refuerzo para que los puntos de datos futuros se puedan clasificar con más confianza.


![image.png](hiperplano3.png)

Los hiperplanos son límites de decisión que ayudan a clasificar los puntos de datos. Los puntos de datos que caen a ambos lados del hiperplano se pueden atribuir a diferentes clases. Además, la dimensión del hiperplano depende del número de características. Si el número de características de entrada es 2, entonces el hiperplano es solo una línea. Si el número de características de entrada es 3, el hiperplano se convierte en un plano bidimensional. Se hace difícil imaginar cuando el número de características excede 3.


![image.png](supportvectors.jpg)

Los vectores de soporte son puntos de datos que están más cerca del hiperplano e influyen en la posición y orientación del hiperplano. Usando estos vectores de soporte, maximizamos el margen del clasificador. Eliminar los vectores de soporte cambiará la posición del hiperplano. Estos son los puntos que nos ayudan a construir nuestro SVM.

## Función de costo y actualizaciones de gradiente
En el algoritmo SVM, buscamos maximizar el margen entre los puntos de datos y el hiperplano. La función de pérdida que ayuda a maximizar el margen es el hinge loss.


![image.png](lossfunction.png)
[Tomado de](https://www.youtube.com/watch?v=geI6lM5iOl0&feature=youtu.be)
Ahora que tenemos la función de pérdida, tomamos derivadas parciales con respecto a los pesos para encontrar los gradientes. Usando los gradientes, podemos actualizar nuestros parametros.


![image.png](gradients.png)
[Tomado de](https://www.youtube.com/watch?v=geI6lM5iOl0&feature=youtu.be)
## Ventajas y desventajas
### Ventajas:
- SVM funciona relativamente bien cuando hay un claro margen de separación entre clases.
- SVM es más efectivo en espacios de alta dimensión.
- SVM es efectivo en casos donde el número de dimensiones es mayor que el número de muestras.
- SVM es relativamente eficiente en memoria

### Desventajas

- El algoritmo SVM no es adecuado para grandes conjuntos de datos.
- SVM no funciona muy bien, cuando el conjunto de datos tiene más ruido, es decir, las clases objetivo se superponen.
- En los casos en que el número de características para cada punto de datos excede el número de muestra de datos de entrenamiento, el SVM tendrá un rendimiento inferior.
- Como el clasificador de vectores de soporte funciona colocando puntos de datos, encima y debajo del hiperplano de clasificación no hay una explicación probabilística para la clasificación.


## Propiedades

 - Flexibilidad para elegir una función de kernel
 - Mala eleccion de solución cuando se trata de grandes conjuntos de datos.
 - solo se utilizan vectores de soporte para especificar el hiperplano de separación
 - Capacidad para manejar grandes espacios de características
 - la complejidad no depende de la dimensionalidad del espacio de características
 - El sobreajuste se puede controlar mediante un enfoque de margen suave
 - Buena propiedad matemática: un simple problema de optimización convexa que es garantizado para converger en una única solución global
 
 ## Kernel Trick
 
 Hemos visto cómo las transformaciones de dimensiones superiores pueden permitirnos separar datos para hacer predicciones de clasificación. Esto hace parecer que para entrenar un clasificador de vectores de soporte y optimizar nuestra función objetivo, tendríamos que realizar operaciones con los vectores dimensionales más altos en el espacio de características transformado. En aplicaciones reales, puede haber muchas características en los datos y la aplicación de transformaciones que involucren muchas combinaciones polinómicas de estas características conducirá a costos computacionales extremadamente altos y poco prácticos.
 
 
 El Kernel Trick proporciona una solución a este problema. El "truco" es que los métodos del kernel representan los datos solo a través de un conjunto de comparaciones de similitud por pares entre las observaciones de datos originales x con las coordenadas originales en el espacio dimensional inferior, en lugar de aplicar explícitamente las transformaciones ϕ (x) y representar el datos por estas coordenadas transformadas en el espacio de características dimensionales superiores.
 
![image.png](kerneldef.png)

Puede ayudar un poco entender cómo la función del núcleo es igual al producto escalar de los vectores transformados al considerar que cada coordenada del vector transformado ϕ (x) es solo alguna función de las coordenadas en el correspondiente vector de dimensión inferior x.