# SVM: Support Vector Machines

## Introducción a SVM

SVM es un modelo de Machine Learning **muy potente**, en un principio cuando surgió parecía que iba a ser la panacea de los modelos de ML; si bien no es así, podemos afirmar que es muy potente y además sumamente versátil por lo cual lo veremos aplicado en diversas áreas y se constituye en uno de los modelos más utilziados.

Si bien se lo suele aplicar más que nada a los problemas de **Clasificación**, también se lo ha adaptado para utilizarlo en problemas de **Regresión**.  

En los casos de Clasificación es capaz de generar Fronteras de Decisión **lineales**, es decir que por ejemplo dicha frontera puede ser una línea recta (en un caso con 2 features) o un plano en el caso de 3 features, pero también puede generar Fronteras de Decisión **no lineales** es decir que su gráfico en el caso de 2 features sería una curva o una superficie curva en el caso de 3 features.   

Generalmente se lo suele utilizar con **datasets no demasiado grandes**, aunque veremos que Scikit-Learn incluye alguna implementación que mejora su performance: se puede usar Stochastic Gradient Descent, SGD, para minimizar su función de Costo. 

- A diferencia de Regresión Lineal, SVM **no proporciona las probabilidades de que una nueva observación pertenezca a una u otra clase**.


**Importante**:  

> SVM se ve particularmente afectado por las distintas escalas que pueden tomar las variables, así que se recomienda **estandarizarlas** o **normalizarlas** si es necesario, antes de aplicar SVM. 


## Fundamentos de SVM para Clasificación lineal (frontera de decisión lineal)

Para ejemplificar, supongamos que tenemos un problema de clasificación con dos variables o features, $x_1$ y $x_2$ y una variable  a pronosticar, $y$, binaria (que asume sólo dos categorías) que mostraremos con dos colores distintos en el gráfico.  

Supongamos también, por ahora, que ambas clases son linealmente separables, es decir que las podemos separar perfectamente con una línea recta como se muestra en la figura:

![SVM_01.png](https://i.ibb.co/KbJ2zbq/SVM-01.png)

Podemos imaginar *infinitas* rectas capaces de separar las observaciones que corresponden a ambas clases:

![SVM_02.png](https://i.ibb.co/vHSL4QS/SVM-02.png)

- r1 *daría la impresión de estar demasiado cerca* de los puntos rojos.  
- Una recta como r3 podría corresponder a la estrategia que siguen los Árboles de Decisión (separa con rectas paralelas a cada eje coordenado, como ya hemos mencionado varias veces).  
- r4 *daría la impresión de pasar demasido cerca* de algunos rojos y algunos verdes.

En SVM la estrategia es la siguiente:  

- Buscar los dos puntos de cada clase **más cercanos entre sí** en la siguiente figura los identificamos como A y B.

![SVM_03.png](https://i.ibb.co/G9DtD16/SVM-03.png)

- Y determinar la recta perpendicular al segmento que los une, pasando por el punto medio del mismo.  Como se muestra en la siguiente figura:



![SVM_04.png](https://i.ibb.co/m8VRj1k/SVM-04.png
)

De esta manera esta recta se encuentra a la máxima distancia posible de los dos puntos más cercanos. Si estuviera más a la izquierda estaría más cerca de los puntos rojos y si estuviera más a la derecha estaría más cerca de los cuadrados verdes. 


- SVM determina la **"avenida" más ancha posible entre las dos clases**, en la siguiente figura hemos marcado la "avenida" con las rectas punteadas.   


- Por eso se dice que SVM es un **Clasificador de Amplio Margen (Large Margin Classificator)**.

![SVM_05.png](https://i.ibb.co/LrDd1gw/SVM-05.png
)

Como **r queda totalmente determinada sólo por los puntos (o vectores) A y B** se dice que ellos son los **vectores de "apoyo" o soporte** (**support vectors**) del modelo, de allí el nombre SVM.

### Cómo clasifica nuevas observaciones SVM?

Al entrenar a SVM con las observaciones del Train Set, descubre los support vectors A y B y en función de ellos calcula la ecuación de la recta (para el caso lineal de 2 variables, sino en general sería un hiperplano. Más adelante veremos que la frontera puede ser también una curva o superficies curvas cuando la dimensión es superior) que brinda el margen de separación más amplio posible entre las dos clases.   

El entrenamiento puede llevar cierto tiempo, pero una vez determinada la ecuación de la recta, la aplicación de la misma es muy veloz, es decir que SVM se comporta bien en producción.  

Cuando llegue una nueva observación el modelo sólo deberá determinar de cuál de los dos lados de la recta se encuentra y asignará la clase que corresponde.

- El criterio para  clasificar una nueva observación en ejemplo anterio, sería que **si un nuevo punto se encuentra a la izquierda de r, se le asignaría la clase roja y si estuviera a la derecha sería considerado verde**.  

![SVM_05b.png](https://i.ibb.co/YbYsByv/SVM-05b.png
)

Así, por ejemplo, en la figura anterior las nuevas observaciones C y D se clasificarían como rojas y las E y F como verdes. 

### Hard Margin SVM

Se denomina Hard Margin SVM cuando se exige que la "avenida" dada por el margen de separación tiene que estar **vacía** y que además todas **las observaciones deben estar del lado correcto de la recta frontera de decisión**. Es decir un caso como el siguiente sería lo ideal:  


![SVM_05.png](https://i.ibb.co/LrDd1gw/SVM-05.png
)

Pero imponer condiciones tan estrictas, puede traer dos tipos de inconvenientes. Por ejemplo qué pasaría si tuviéramos algún outlier que estuviera "del lado que no le corresponde"?  

![SVM_07.png](https://i.ibb.co/0Z8wmKc/SVM-07.png
)

Lamentablemente el método fallaría ya que es imposible separar linealmente las clases.

El otro inconveniente que podríamos tener con algún outlier podría ser el sigiente:  

![SVM_08.png](https://i.ibb.co/bdb9hP0/SVM-08.png)

En este caso, si bien sería posible separar las clases con una recta, la presencia del outlier la está corriendo demasiado hacia la derecha y posiblemente el modelo no generalice muy bien.   

En la realidad estas situaciones existen y es por eso que es preferible tener cierto grado de tolerancia (atención ... hiperparámetro!) dando lugar al Soft Margin Classification...

### Soft Margin SVM

El objetivo es **mantener el márgen más amplio posible** para lo cual deberemos **tolerar un cierto grado de violaciones a las reglas** tan estrictas planteadas anteriormente, como se muestra en la siguiente figura donde hemos tolerado la presencia de algunas observaciones del "lado incorrecto":

![SVM_09.png](https://i.ibb.co/1Gmbrb8/SVM-09.png)

Un modelo como éste con un amplio margen, seguramente generalizará mejor que el anterior con un margen tan estrecho.  

#### Hiperparámetro C

El hiperparámetro **C regula el grado de rigidez de las reglas** y se suele considerar que es también una **Regularización**, C es positivo, **C>0** y:  

- Si **C es grande**: 
    - las reglas serán muy **estrictas**, 
    - el margen de **separación será menor** y 
    - habrá propensión al overfiting.  
    
    
- Si **C es pequeño**:  
    - las reglas serán más **laxas**, 
    - el margen de **separación será más amplio**
    - habrá propensión al underfiting.
    
    
Por supuesto esto nos indica que:

> **Si estamos en presencia de overfiting, disminuir C** y viceversa, si estamos en presencia de underfiting, aumentarlo.

## SVM en Scikit-Learn

Existen varias formas de aplicar SVM con sklearn, podemos usar las siguientes clases:

- [sklearn.svm.SVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html): 
 * El tiempo de ajuste **escala al menos cuadráticamente con el número de muestras** y puede no ser práctico más allá de decenas de miles de muestras
 * Clasificación por esquema de **uno contra uno**


- [sklearn.svm.LinearSVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html):
 * Tiene más flexibilidad en la elección de penalizaciones y funciones de pérdida y debería **escalar mejor a un gran número de muestras**
 * Admite **entradas densas y dispersas** 
 * Clasificación por esquema de **uno contra el resto (ovr)**
 


- [sklearn.linear_model.SGDClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html):
 * El modelo al que se ajusta se puede controlar con el parámetro de pérdida (loss); por defecto, se ajusta a un modelo de SVM.
 * Para obtener los mejores resultados con el learning_rate predeterminado, los datos deben tener una **media cero y una varianza unitaria**
 * Admite **entradas densas y dispersas** 

*nota: SVC significa "Support Vector Classification"*

### LinearSVC

Documentación oficial: https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html

~~~
sklearn.svm.LinearSVC(penalty='l2', loss='squared_hinge', *, dual=True, tol=0.0001, C=1.0, multi_class='ovr', fit_intercept=True, intercept_scaling=1, class_weight=None, verbose=0, random_state=None, max_iter=1000)
~~~

- Es **rápido**, posiblemente el más veloz de los 3.
- **penalty**: admite penalización l1 o l2, por defecto utiliza l2 y es el más usado, así que generalmente no se cambia.
- **loss**: Permite elegir la función de Costo. La estándard es "hinge", pero por defecto selecciona "squared hinge", se pude utilizar "hinge"
- **dual=True** **Si hay más variables que observaciones dejar en True**, en cambio si hay más observaciones que variables, setear en False.
- **C:1** ya hemos hablado de C.
- **multi_class='ovr'**. Si la variable y es binaria, este parámetro se ignora. Si la variable y es multiclase entonces utilizar ovr (One Vs Rest) que es el valor por defecto. Así que conviene dejarla como está.
- **fit_intercept=True**. Si es True, entonces calculará el término independiente sino, asumirá que es 0. Si uno previamente estandarizó, entonces conviene ponerlo en False.
- **class_weight=None**. Por defecto considera que el valor de C corresponde por igual a todas las variables. Es posible pasar un valor distinto para cada variable o utilizar ‘balanced’ que automáticamente los genera. Generalmente se lo deja por defecto. Ver la documentación para más info.   
- **random_state=None**. Si el problema es bivariado, no afecta, pero cuando el problema es multiclass el parámetro dual=True, ciertos valores se seleccionan al azar, en ese caso podemos pasar un valor de semilla para ganar repetibilidad.


~~~
from sklearn.svm import LinearSVC

modelo= LinearSVC(C=1, loss="hinge")
modelo.fit(X_train, y_train)
modelo.predict(X_test)

modelo.score(X_test, y_test)           # devuelve la Accuracy media.
~~~