<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_sv/chap_5_svm.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
</table>

# Chapter 5. Support Vector Machines

Una máquina de soporte vectorial (SVM) es un modelo de aprendizaje automático potente y versátil, capaz de realizar clasificación lineal o no lineal, regresión e incluso detección de valores atípicos.

Es uno de los modelos más populares en Machine Learning, y cualquier persona interesada en Machine Learning debería tenerlo en su caja de herramientas.

Las SVM son particularmente adecuadas para la clasificación de conjuntos de datos complejos de tamaño pequeño o mediano.

Este capítulo explicará los conceptos básicos de las SVM, cómo usarlas y cómo funcionan.

## Linear SVM Classification

La idea fundamental detrás de las SVM se explica mejor con algunas imágenes.

La Figura 5-1 muestra parte del conjunto de datos del iris que se presentó al final del Capítulo 4.

Las dos clases se pueden separar fácilmente con una línea recta (son linealmente separables). 

El gráfico de la izquierda muestra los límites de decisión de tres posibles clasificadores lineales.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_1.jpg?raw=true'>

El modelo cuyo límite de decisión está representado por la línea discontinua es tan malo que ni siquiera separa las clases correctamente.

Los otros dos modelos funcionan perfectamente en este conjunto de entrenamiento, pero sus límites de decisión se acercan tanto a las instancias que estos modelos probablemente no funcionarán tan bien en nuevas instancias.

Por el contrario, la línea continua en el gráfico de la derecha representa el límite de decisión de un clasificador SVM; esta línea no solo separa las dos clases, sino que también se mantiene lo más alejada posible de las instancias de entrenamiento más cercanas.

Puede pensar en un clasificador SVM como si se ajustara a la calle más ancha posible (representada por las líneas discontinuas paralelas) entre las clases.

Esto se llama **clasificación de gran margen**.

Tenga en cuenta que agregar más instancias de capacitación "fuera de la calle" no afectará en absoluto el límite de decisión: está completamente determinado (o "respaldado") por las instancias ubicadas en el borde de la calle.

Estos casos se denominan vectores de soporte (están encerrados en un círculo en la figura 5-1).

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_sv/figure_5_2.jpg?raw=true'>

## ADVERTENCIA

Las SVM son sensibles a las escalas de características, como puede ver en la Figura 5-2: en el gráfico de la izquierda, la escala vertical es mucho más grande que la escala horizontal, por lo que la calle más ancha posible está cerca de la horizontal. 

Después de escalar características (p. ej., usando StandardScaler de Scikit-Learn), el límite de decisión en el gráfico de la derecha se ve mucho mejor.

## Soft Margin Classification
Clasificación de margen blando

Si imponemos estrictamente que todas las instancias deben estar fuera de la calle y del lado derecho, esto se denomina *clasificación de margen duro*. 

Hay dos problemas principales con la clasificación de margen duro.

Primero, solo funciona si los datos son linealmente separables. 

En segundo lugar, es sensible a los valores atípicos.

La Figura 5-3 muestra el conjunto de datos del iris con solo un valor atípico adicional: a la izquierda, es imposible encontrar un margen duro; a la derecha, el límite de decisión termina siendo muy diferente del que vimos en la Figura 5-1 sin el valor atípico, y probablemente tampoco se generalice.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_sv/figure_5_3.jpg?raw=true'>

Para evitar estos problemas, utilice un modelo más flexible. 

El objetivo es encontrar un buen equilibrio entre mantener la calle lo más grande posible y limitar las violaciones de los márgenes (es decir, instancias que terminan en el medio de la calle o incluso en el lado equivocado).

Esto se llama *clasificación de margen suave*.

Al crear un modelo SVM con Scikit-Learn, podemos especificar una serie de hiperparámetros. 

C es uno de esos hiperparámetros.

Si lo establecemos en un valor bajo, terminamos con el modelo a la izquierda de la Figura 5-4.

Con un valor alto, obtenemos el modelo de la derecha.

Las violaciones de los márgenes son malas.

Por lo general, es mejor tener algunos de ellos.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_sv/figure_5_4.jpg?raw=true'>

Sin embargo, en este caso, el modelo de la izquierda tiene muchas violaciones de márgenes, pero probablemente generalice mejor.

### Sugerencia

Si su modelo SVM está sobreajustado, puede intentar regularizarlo reduciendo C.

El siguiente código de Scikit-Learn carga el conjunto de datos de iris, escala las características y luego entrena un modelo SVM lineal (usando la clase LinearSVC con C=1 y la función de pérdida de bisagra, descrita en breve) para detectar flores de Iris virginica:


In [1]:
import numpy as np
from sklearn import datasets
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC
iris = datasets.load_iris()
X = iris["data"][:, (2, 3)] # petal length, petal width
y = (iris["target"] == 2).astype(np.float64) # Iris virginica
svm_clf = Pipeline([
("scaler", StandardScaler()),
("linear_svc", LinearSVC(C=1, loss="hinge")),
])
svm_clf.fit(X, y)


Pipeline(steps=[('scaler', StandardScaler()),
                ('linear_svc', LinearSVC(C=1, loss='hinge'))])

El modelo resultante se representa a la izquierda en la Figura 5-4.

Luego, como de costumbre, puede usar el modelo para hacer predicciones:

In [2]:
svm_clf.predict([[5.5, 1.7]])

array([1.])

## NOTE

A diferencia de los clasificadores de regresión logística, los clasificadores SVM no generan probabilidades para cada clase.

En lugar de usar la clase `LinearSVC`, podríamos usar la clase SVC con un núcleo lineal.

Al crear el modelo SVC, escribiríamos `SVC(kernel="linear", C=1)`.

O podríamos usar la clase SGDClassifier, con `SGDClassifier(loss="hinge", alpha=1/(m*C))`.

In [None]:
conda install -c conda-forge/label/broken tensorflow 

Esto aplica el Descenso de Gradiente Estocástico regular (vea el Capítulo 4) para entrenar un clasificador SVM lineal. 

No converge tan rápido como la clase LinearSVC, pero puede ser útil para manejar tareas de clasificación en línea o grandes conjuntos de datos que no caben en la memoria (entrenamiento fuera del núcleo).

### Sugerencia

La clase LinearSVC regulariza el término de sesgo, por lo que primero debe centrar el conjunto de entrenamiento restando su media.

Esto es automático si escala los datos usando StandardScaler.

También asegúrese de establecer el hiperparámetro de pérdida en "bisagra", ya que no es el valor predeterminado.

Finalmente, para un mejor rendimiento, debe establecer el hiperparámetro dual en Falso, a menos que haya más funciones que instancias de entrenamiento (hablaremos de la dualidad más adelante en este capítulo).

## Nonlinear SVM Classification

Aunque los clasificadores SVM lineales son eficientes y funcionan sorprendentemente bien en muchos casos, muchos conjuntos de datos ni siquiera están cerca de ser separables linealmente.

Un enfoque para manejar conjuntos de datos no lineales es agregar más atributos, como atributos polinomiales (como hizo en el Capítulo 4); en algunos casos, esto puede dar como resultado un conjunto de datos linealmente separable.

Considere el diagrama de la izquierda en la Figura 5-5: representa un conjunto de datos simple con solo una característica, $x_{1}$.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_5.jpg?raw=true'>

Este conjunto de datos no es linealmente separable, como puede ver.

Pero si agrega una segunda característica $x_{2} = (x_{1})^{2}$ , el conjunto de datos 2D resultante es perfectamente separable linealmente.

Para implementar esta idea usando Scikit-Learn, cree un Pipeline que contenga un transformador `PolynomialFeatures` (discutido en "Regresión polinomial"), seguido de un `StandardScaler` y un `LinearSVC`. 

Probemos esto en el conjunto de datos de las lunas: este es un conjunto de datos de juguete para la clasificación binaria en el que los puntos de datos tienen la forma de dos semicírculos intercalados (consulte la Figura 5-6).

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_6.jpg?raw=true'>

Puedes generar este conjunto de datos usando la función `make_moons()`:

In [None]:
from sklearn.datasets import make_moons
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
X, y = make_moons(n_samples=100, noise=0.15)
polynomial_svm_clf = Pipeline([
                              ("poly_features", PolynomialFeatures(degree=3)),
                              ("scaler", StandardScaler()),
                              ("svm_clf", LinearSVC(C=10, loss="hinge"))
                              ])
polynomial_svm_clf.fit(X, y)


## Polynomial Kernel

Agregar funciones polinómicas es simple de implementar y puede funcionar muy bien con todo tipo de algoritmos de aprendizaje automático (no solo SVM).

Dicho esto, en un grado polinomial bajo, este método no puede manejar conjuntos de datos muy complejos, y con un grado polinomial alto crea una gran cantidad de características, lo que hace que el modelo sea demasiado lento.

Afortunadamente, al usar SVM, puede aplicar una técnica matemática casi milagrosa llamada truco del kernel (explicado en un momento).

El truco del núcleo hace posible obtener el mismo resultado que si hubiera agregado muchas características polinómicas, incluso con polinomios de muy alto grado, sin tener que agregarlas.

Por lo tanto, no hay una explosión combinatoria de la cantidad de funciones porque en realidad no agrega ninguna característica.

Este truco lo implementa la clase SVC.

Vamos a probarlo en el conjunto de datos de las lunas:

In [3]:
from sklearn.svm import SVC
poly_kernel_svm_clf = Pipeline([
("scaler", StandardScaler()),
("svm_clf", SVC(kernel="poly", degree=3, coef0=1, C=5))
])
poly_kernel_svm_clf.fit(X, y)


Pipeline(steps=[('scaler', StandardScaler()),
                ('svm_clf', SVC(C=5, coef0=1, kernel='poly'))])

This code trains an SVM classifier using a third-degree polynomial kernel. 

It is represented on the left in Figure 5-7. On the right is another SVM classifier using a 10th-degree polynomial kernel. 

Obviously, if your model is overfitting, you might want to reduce the polynomial degree. 

Conversely, if it is underfitting, you can try increasing it. 

El hiperparámetro coef0 controla cuánto influyen en el modelo los polinomios de alto grado frente a los polinomios de bajo grado.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_7.jpg?raw=true'>

## TIP

A common approach to finding the right hyperparameter values is to use grid search (see Chapter 2). 

It is often faster to first do a very coarse grid search, then a finer grid search around the best values found.

Having a good sense of what each hyperparameter actually does can also help you search in the right part of the hyperparameter space.

## Similarity Features

Another technique to tackle nonlinear problems is to add features computed using a similarity function, which measures how much each instance resembles a particular landmark. 

For example, let’s take the 1D dataset discussed earlier and add two landmarks to it at $x = –2$ and $x = 1$ (see the left plot in Figure 5-8). 

Next, let’s define the similarity function to be the Gaussian Radial Basis Function (RBF) with $\gamma  = 0.3$  (see Equation 5-1).

Equation 5-1. Gaussian RBF

$$ \phi_{\gamma}(x,\mathcal{l}) =  $$


This is a bell-shaped function varying from 0 (very far away from the landmark) to 1 (at the landmark). 

Now we are ready to compute the new features. 

For example, let’s look at the instance $x = –1$: it is located at a distance of 1 from the first landmark and 2 from the second landmark. 

Therefore its new features are x = exp(–0.3 × 1 ) ≈ 0.74 and x = exp(– 0.3 × 2 ) ≈ 0.30. 

The plot on the right in Figure 5-8 shows the transformed dataset (dropping the original features). 

As you can see, it is now linearly separable.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_sv/figure_5_8.jpg?raw=true'>

You may wonder how to select the landmarks. 

The simplest approach is to create a landmark at the location of each and every instance in the dataset. 

Doing that creates many dimensions and thus increases the chances that the transformed training set will be linearly separable. 

The downside is that a training set with m instances and n features gets transformed into a training set with m instances and m features (assuming you drop the original features). 

If your training set is very large, you end up with an equally large number of features.

## Gaussian RBF Kernel

Just like the polynomial features method, the similarity features method can be useful with any Machine Learning algorithm, but it may be computationally expensive to compute all the additional features, especially on large training sets. 

Once again the kernel trick does its SVM magic, making it possible to obtain a similar result as if you had added many similarity features. 

Let’s try the SVC class with the Gaussian RBF kernel:

In [4]:
rbf_kernel_svm_clf = Pipeline([
("scaler", StandardScaler()),
("svm_clf", SVC(kernel="rbf", gamma=5, C=0.001))
])
rbf_kernel_svm_clf.fit(X, y)

Pipeline(steps=[('scaler', StandardScaler()),
                ('svm_clf', SVC(C=0.001, gamma=5))])

This model is represented at the bottom left in Figure 5-9. 

The other plots show models trained with different values of hyperparameters gamma (γ) and C. 

Increasing gamma makes the bell-shaped curve narrower (see the righthand plots in Figure 5-8). 

As a result, each instance’s range of influence is smaller: the decision boundary ends up being more
irregular, wiggling around individual instances. 

Conversely, a small gamma value makes the bell-shaped curve wider: instances have a larger range of influence, and the decision boundary ends up smoother. 

So γ acts like a regularization hyperparameter: if your model is overfitting, you should reduce it; if it is underfitting, you should increase it (similar to the C hyperparameter).

Other kernels exist but are used much more rarely. 

Some kernels are specialized for specific data structures. 

String kernels are sometimes used when classifying text documents or DNA sequences (e.g., using the string subsequence kernel or kernels based on the Levenshtein distance).

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figura_5_9.jpg?raw=true'>

## TIP

Con tantos núcleos para elegir, ¿cómo puede decidir cuál usar?

Como regla general, siempre debe probar primero el kernel lineal (recuerde que LinearSVC es mucho más rápido que SVC(kernel="linear")), especialmente si el conjunto de entrenamiento es muy grande o si tiene muchas funciones.

Si el conjunto de entrenamiento no es demasiado grande, también debería probar el kernel Gaussian RBF; funciona bien en la mayoría de los casos. 

Luego, si tiene tiempo libre y poder de cómputo, puede experimentar con algunos otros núcleos, utilizando la validación cruzada y la búsqueda en cuadrícula.

Le gustaría experimentar así, especialmente si hay núcleos especializados para la estructura de datos de su conjunto de entrenamiento.

## Complejidad computacional

La clase LinearSVC se basa en la biblioteca liblinear, que implementa un algoritmo optimizado para SVM lineales. 

No es compatible con el truco del kernel, pero escala casi linealmente con la cantidad de instancias de capacitación y la cantidad de funciones.

Its training time complexity is roughly $O(m \times n)$.

The algorithm takes longer if you require very high precision. 

This is controlled by the tolerance hyperparameter ϵ (called tol in Scikit-Learn). 

In most classification tasks, the default tolerance is fine.

The SVC class is based on the libsvm library, which implements an algorithm that supports
the kernel trick. 

The training time complexity is usually between $O(m × n)$ and $O(m × n)$. 

Unfortunately, this means that it gets dreadfully slow when the number of training instances gets large (e.g., hundreds of thousands of instances). 

This algorithm is perfect for complex small or medium-sized training sets. 

It scales well with the number of features, especially with sparse features (i.e., when each instance has few nonzero features). 

In this case, the algorithm scales roughly with the average number of nonzero features per
instance. 

Table 5-1 compares Scikit-Learn’s SVM classification classes.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/table_5_1.jpg?raw=true'>

## SVM Regression

As mentioned earlier, the SVM algorithm is versatile: not only does it support linear and nonlinear classification, but it also supports linear and nonlinear regression. 

To use SVMs for regression instead of classification, the trick is to reverse the objective: instead of trying to fit the largest possible street between two classes while limiting margin violations, SVM
Regression tries to fit as many instances as possible on the street while limiting margin
violations (i.e., instances off the street). 

The width of the street is controlled by a hyperparameter, $ϵ$. 

Figure 5-10 shows two linear SVM Regression models trained on some random linear data, one with a large margin ($ϵ = 1.5$) and the other with a small margin ($ϵ = 0.5$).

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_10.jpg?raw=true'>

Adding more training instances within the margin does not affect the model’s predictions; thus, the model is said to be ϵ-insensitive.

You can use Scikit-Learn’s LinearSVR class to perform linear SVM Regression. 

The following code produces the model represented on the left in Figure 5-10 (the training data
should be scaled and centered first):