<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_sv/chap_5_svm.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
</table>

# Chapter 5. Support Vector Machines

# Guido Van Rossum Creador de Python
<img src = 'https://upload.wikimedia.org/wikipedia/commons/thumb/6/66/Guido_van_Rossum_OSCON_2006.jpg/300px-Guido_van_Rossum_OSCON_2006.jpg'>

Una máquina de soporte vectorial (SVM) es un modelo de aprendizaje automático potente y versátil, capaz de realizar 
* clasificación lineal o no lineal, 
* regresión e 
* incluso detección de valores atípicos.

* Es uno de los modelos más populares en Machine Learning, y 
* cualquier persona interesada en Machine Learning debería tenerlo en su caja de herramientas.

Las SVM son particularmente adecuadas para la clasificación de conjuntos de datos complejos de tamaño pequeño o mediano.

Este capítulo explicará 
* los conceptos básicos de las SVM, 
* cómo usarlas y 
* cómo funcionan.

## Linear SVM Classification

La idea fundamental detrás de las SVM se explica mejor con algunas imágenes.

La Figura 5-1 muestra parte del conjunto de datos del iris que se presentó al final del Capítulo 4.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_1.jpg?raw=true'>

Las dos clases se pueden separar fácilmente con una línea recta (son linealmente separables). 

El gráfico de la izquierda muestra los límites de decisión de tres posibles clasificadores lineales.

In [None]:
import numpy as np 
import matplotlib.pyplot as plt 

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler 
from sklearn.svm import SVC

# Creación de función para obtener atributos y etiquetas

In [None]:
def get_flowers_feature():
    '''
    iris.data contiene un total de 150 datos, incluidos tres tipos de iris
    Aquí usamos un total de 100 datos, setosa y versicolor
    Cada conjunto de datos de iris contiene cuatro características
    Para facilitar el dibujo, seleccione solo dos de las características 
    (la longitud de los pétalos y la longitud de los sépalos)
    '''
    from sklearn.datasets import load_iris
    X,y = load_iris(return_X_y = True)
    setosa_o_versicolor = (y==0) | (y==1)
    X = X[setosa_o_versicolor]
    X = X[:,(2,3)]
    y = y[setosa_o_versicolor]
    return X,y 

In [None]:

X,y = get_flowers_feature()

In [None]:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, \
                                            random_state = 42, stratify = y)
escalador = StandardScaler()
X_train_escalado = escalador.fit_transform(X_train)
svm_clf = SVC(kernel = 'linear') 
svm_clf.fit(X_train_escalado, y_train)

# Descripción formal del clasificador de Máquina de soporte vectorial

$$ h_{w}(x_{i}) = w^{T}x_{i} + b = 0 $$

$$ w_{0}x + w_{1}y + b = 0  $$

$$ y = - \frac{ w_{0} }{ w_{1} }x - \frac{b}{ w_{1} }  $$

### Advertencia: 

El clasificador se entrenó con el **conjunto de entrenamiento escalado**, por lo tanto, la visualización debe ser para las **instancias de entrenamiento escaladas**. 

In [None]:
fig, ax = plt.subplots()

# trazado de la clase setosa
ax.plot(X_train_escalado[:,0][y_train==0], X_train_escalado[:,1][y_train==0],\
        'yo', label = 'Setosa')
ax.plot(X_train_escalado[:,0][y_train==1], X_train_escalado[:,1][y_train==1], 'bs',\
        label = 'Versicolor')
ax.legend()

# definición del rectángulo de visualización
c,d = X_train_escalado[:,0].min()-0.3, X_train_escalado[:,0].max()+0.3
e,f = X_train_escalado[:,1].min()-0.3, X_train_escalado[:,1].max()+0.3

ax.axis([c,d,e,f])

ax.grid(alpha = 0.4)

b,w = svm_clf.intercept_[0], svm_clf.coef_[0]

x0 = np.linspace(c,d, 2)
decision_boundary = -w[0]/w[1]*x0 - b/w[1] 
ax.plot(x0, decision_boundary, 'k-')  # gráfica del hiperplano separador 

plt.xlabel('petal length')
plt.ylabel('petal width')
plt.show() 

El modelo cuyo **límite de decisión** está representado por la línea discontinua es tan malo que ni siquiera separa las clases correctamente.

* Los otros dos modelos funcionan perfectamente en este conjunto de entrenamiento, 
* pero sus límites de decisión se acercan tanto a las instancias que estos modelos probablemente no funcionarán tan bien en nuevas instancias.

* Por el contrario, la línea continua en el gráfico de la derecha representa el límite de decisión de un clasificador SVM; 
* esta línea no solo separa las dos clases, sino que también se mantiene lo más alejada posible de las instancias de entrenamiento más cercanas.

Puede pensar en un clasificador SVM como si se ajustara a la calle más ancha posible (representada por las líneas discontinuas paralelas) entre las clases.

Esto se llama **clasificación de gran margen**.

Tenga en cuenta que agregar más instancias de capacitación "fuera de la calle" no afectará en absoluto el límite de decisión: está completamente determinado (o "respaldado") por las instancias ubicadas en el borde de la calle.

Estos casos se denominan **vectores de soporte** (están encerrados en un círculo en la figura 5-1).

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_2.jpg?raw=true'>

## ADVERTENCIA

Las SVM son sensibles a las escalas de atributos, como puede ver en la Figura 5-2: en el gráfico de la izquierda, la escala vertical es mucho más grande que la escala horizontal, por lo que la calle más ancha posible está cerca de la horizontal. 

Después de escalar atributos (p. ej., usando `StandardScaler` de Scikit-Learn), el límite de decisión en el gráfico de la derecha se ve mucho mejor.

## Soft Margin Classification
Clasificación de margen blando

Si imponemos estrictamente que todas las instancias deben estar fuera de la calle y del lado derecho, esto se denomina *clasificación de margen duro*. 

Hay dos problemas principales con la **clasificación de margen duro**.

Primero, solo funciona si los datos son **linealmente separables**. 

En segundo lugar, es sensible a los **valores atípicos**.

* La Figura 5-3 muestra el conjunto de datos del iris con solo un valor atípico adicional: a la izquierda, es imposible encontrar un margen duro;   
* a la derecha, el límite de decisión termina siendo muy diferente del que vimos en la Figura 5-1 sin el valor atípico, y probablemente tampoco se generalice.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_3.jpg?raw=true'>

Para evitar estos problemas, utilice un modelo más flexible. 

El objetivo es encontrar un buen equilibrio entre mantener la calle lo más grande posible y limitar las violaciones de los márgenes (es decir, instancias que terminan en el medio de la calle o incluso en el lado equivocado).

Esto se llama ***clasificación de margen suave***.

Al crear un modelo SVM con Scikit-Learn, podemos especificar una serie de hiperparámetros. 

`C` es uno de esos hiperparámetros.

Si lo establecemos en un valor bajo, terminamos con el modelo a la izquierda de la Figura 5-4.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_4.jpg?raw=true'>

Con un valor alto, obtenemos el modelo de la derecha.

Las violaciones de los márgenes son malas.

Por lo general, es mejor tener algunos de ellos.

Sin embargo, en este caso, el modelo de la izquierda tiene muchas violaciones de márgenes, pero probablemente generalice mejor.

### Sugerencia

Si su modelo SVM está sobreajustado, puede intentar regularizarlo reduciendo `C`.

El siguiente código de Scikit-Learn carga el conjunto de datos de iris, escala las características y luego entrena un modelo SVM lineal (usando la clase `LinearSVC` con `C=1` y la función de pérdida de bisagra, descrita en breve) para detectar flores de Iris virginica:


In [None]:
import numpy as np
from sklearn import datasets
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC
iris = datasets.load_iris()
X = iris["data"][:, (2, 3)] # petal length, petal width
y = (iris["target"] == 2).astype(np.float64) # Iris virginica
svm_clf = Pipeline([
("scaler", StandardScaler()),
("linear_svc", LinearSVC(C=1, loss="hinge")),
])
svm_clf.fit(X, y)


El modelo resultante se representa a la izquierda en la Figura 5-4.

Luego, como de costumbre, puede usar el modelo para hacer predicciones:

In [None]:
svm_clf.predict([[5.5, 1.7]])

## NOTA

A diferencia de los clasificadores de regresión logística, los clasificadores `SVM` no generan probabilidades para cada clase.

En lugar de usar la clase `LinearSVC`, podríamos usar la clase SVC con un núcleo lineal.

Al crear el modelo SVC, escribiríamos `SVC(kernel="linear", C=1)`.

O podríamos usar la clase SGDClassifier, con `SGDClassifier(loss="hinge", alpha=1/(m*C))`.

In [None]:
conda install -c conda-forge/label/broken tensorflow 

Esto aplica el Descenso de Gradiente Estocástico regular (vea el Capítulo 4) para entrenar un clasificador SVM lineal. 

No converge tan rápido como la clase `LinearSVC`, pero puede ser útil para manejar tareas de clasificación en línea o grandes conjuntos de datos que no caben en la memoria (entrenamiento fuera del núcleo).

### Sugerencia

La clase `LinearSVC` regulariza el término de sesgo, por lo que primero debe centrar el conjunto de entrenamiento restando su media.

Esto es automático si escala los datos usando `StandardScaler`.

También asegúrese de establecer el hiperparámetro  `loss` en `hinge`, ya que no es el valor predeterminado.

Finalmente, para un mejor rendimiento, debe establecer el hiperparámetro `dual` en `False`, a menos que haya más funciones que instancias de entrenamiento (hablaremos de la dualidad más adelante en este capítulo).

## Nonlinear SVM Classification

Aunque los clasificadores SVM lineales son eficientes y funcionan sorprendentemente bien en muchos casos, muchos conjuntos de datos ni siquiera están cerca de ser separables linealmente.

* Un enfoque para manejar conjuntos de datos no lineales es agregar más atributos,  
* como atributos polinomiales (como hizo en el Capítulo 4); 
* en algunos casos, esto puede dar como resultado un conjunto de datos linealmente separable.

Considere el diagrama de la izquierda en la Figura 5-5: representa un conjunto de datos simple con solo una característica, $x_{1}$.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_5.jpg?raw=true'>

Este conjunto de datos no es linealmente separable, como puede ver.

Pero si agrega una segunda característica $x_{2} = (x_{1})^{2}$ , el conjunto de datos 2D resultante es perfectamente separable linealmente.

Para implementar esta idea usando Scikit-Learn, cree un Pipeline que contenga un transformador `PolynomialFeatures` (discutido en "Regresión polinomial"), seguido de un `StandardScaler` y un `LinearSVC`. 

Probemos esto en el conjunto de datos de las lunas: este es un conjunto de datos de juguete para la clasificación binaria en el que los puntos de datos tienen la forma de dos semicírculos intercalados (consulte la Figura 5-6).

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_6.jpg?raw=true'>

Puedes generar este conjunto de datos usando la función `make_moons()`:

In [None]:
from sklearn.datasets import make_moons
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
X, y = make_moons(n_samples=100, noise=0.15)
polynomial_svm_clf = Pipeline([
                              ("poly_features", PolynomialFeatures(degree=3)),
                              ("scaler", StandardScaler()),
                              ("svm_clf", LinearSVC(C=10, loss="hinge"))
                              ])
polynomial_svm_clf.fit(X, y)


## Polynomial Kernel

Agregar atributos polinomiales es simple de implementar y puede funcionar muy bien con todo tipo de algoritmos de aprendizaje automático (no solo SVM).

Dicho esto, en un grado polinomial bajo, este método no puede manejar conjuntos de datos muy complejos, y con un grado polinomial alto crea una gran cantidad de características, lo que hace que el modelo sea demasiado lento.

Afortunadamente, al usar SVM, puede aplicar una técnica matemática casi milagrosa llamada truco del kernel (explicado en un momento).

El truco del kernel hace posible obtener el mismo resultado que si hubiera agregado muchos atributos polinomiales, incluso con polinomios de muy alto grado, sin tener que agregarlos.

Por lo tanto, no hay una explosión combinatoria de la cantidad de atributos porque en realidad no agrega ningún atributo.

Este truco lo implementa la clase `SVC`.

Vamos a probarlo en el conjunto de datos de las lunas:

In [None]:
from sklearn.datasets import load_iris 
iris = load_iris()
X, y = iris.data[:,(2,3)], iris.target
from sklearn.pipeline import Pipeline 
from sklearn.preprocessing import StandardScaler 
from sklearn.svm import SVC
poly_kernel_svm_clf = Pipeline([
("scaler", StandardScaler()),
("svm_clf", SVC(kernel="poly", degree=3, coef0=1, C=5))
])
poly_kernel_svm_clf.fit(X, y)


Este código entrena un clasificador `SVM` utilizando un kernel polinomial de tercer grado.

Se representa a la izquierda en la Figura 5-7. 

A la derecha hay otro clasificador `SVM` que utiliza un núcleo polinomial de décimo grado.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_7.jpg?raw=true'>

Obviamente, si su modelo se ajusta en exceso, es posible que desee reducir el grado del polinomio.

Por el contrario, si no se ajusta bien, puede intentar aumentarlo.

El hiperparámetro `coef0` controla cuánto influyen en el modelo los polinomios de alto grado frente a los polinomios de bajo grado.

## Sugerencia

Un enfoque común para encontrar los valores correctos de hiperparámetros es usar la búsqueda en cuadrícula (consulte el Capítulo 2).

A menudo es más rápido hacer primero una búsqueda de cuadrícula muy gruesa y luego una búsqueda de cuadrícula más fina alrededor de los mejores valores encontrados.

Tener una buena idea de lo que realmente hace cada hiperparámetro también puede ayudarlo a buscar en la parte correcta del espacio de hiperparámetros.

## Similarity Features

Otra técnica para abordar problemas no lineales es agregar atributos calculados usando una función de similitud, que mide cuánto se parece cada instancia a un punto de referencia particular.

Por ejemplo, tomemos el conjunto de datos 1D discutido anteriormente y agreguemos dos puntos de referencia en $x = –2$ y $x = 1$ (vea el diagrama de la izquierda en la Figura 5-8).

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_8.jpg?raw=true'>

A continuación, definamos que la función de similitud es la función de base radial gaussiana (RBF) con $\gamma = 0,3$ (consulte la ecuación 5-1).

Equation 5-1. Gaussian RBF

$$ \phi_{\gamma}(x,\mathcal{l}) = exp\left( -\gamma \Vert x - \mathcal{l} \Vert^{2} \right) $$


Esta es una función en forma de campana que varía de 0 (muy lejos del punto de referencia) a 1 (en el punto de referencia).

Ahora estamos listos para calcular las nuevas características.

Por ejemplo, veamos la instancia $x = -1$: se encuentra a una distancia de 1 del primer punto de referencia y de 2 del segundo punto de referencia.

Por lo tanto, sus nuevos atributos son $x = exp(–0,3 × 1) \approx 0,74$ y $x = exp(– 0,3 × 2) \approx 0,30$.

El gráfico de la derecha en la Figura 5-8 muestra el conjunto de datos transformado (eliminando los atributos originales).

Como puede ver, ahora es linealmente separable.

Quizás se pregunte cómo seleccionar los puntos de referencia.

El enfoque más simple es crear un punto de referencia en la ubicación de todas y cada una de las instancias del conjunto de datos.

Hacer eso crea muchas dimensiones y, por lo tanto, aumenta las posibilidades de que el conjunto de entrenamiento transformado sea linealmente separable.

La desventaja es que un conjunto de entrenamiento con $m$ instancias y $n$ atributos se transforma en un conjunto de entrenamiento con $m$ instancias y $m$ atributos (suponiendo que descarte los atributos originales).

Si su conjunto de entrenamiento es muy grande, terminará con una cantidad igualmente grande de atributos.

## Gaussian RBF Kernel

Al igual que el método de características polinómicas, el método de características de similitud puede ser útil con cualquier algoritmo de aprendizaje automático, pero puede ser computacionalmente costoso calcular todas las características adicionales, especialmente en grandes conjuntos de entrenamiento.

Una vez más, el truco del kernel hace su magia SVM, haciendo posible obtener un resultado similar como si hubiera agregado muchas características de similitud. 

Probemos la clase SVC con el núcleo Gaussian RBF:

In [None]:
rbf_kernel_svm_clf = Pipeline([
("scaler", StandardScaler()),
("svm_clf", SVC(kernel="rbf", gamma=5, C=0.001))
])
rbf_kernel_svm_clf.fit(X, y)

Este modelo se representa en la parte inferior izquierda de la Figura 5-9. 

Los otros gráficos muestran modelos entrenados con diferentes valores de hiperparámetros gamma ($\gamma$) y `C`.

El aumento de gamma hace que la curva en forma de campana sea más estrecha (vea los gráficos de la derecha en la Figura 5-8).

Como resultado, el rango de influencia de cada instancia es más pequeño: el límite de decisión termina siendo más irregular, moviéndose alrededor de las instancias individuales.

Por el contrario, un valor de gamma pequeño hace que la curva en forma de campana sea más ancha: las instancias tienen un mayor rango de influencia y el límite de decisión termina siendo más suave.

Entonces $\gamma$ actúa como un hiperparámetro de regularización: si su modelo se sobreajusta, debe reducirlo; si es insuficiente, debe aumentarlo (similar al hiperparámetro `C`).

Existen otros núcleos, pero se usan mucho menos. 

Algunos núcleos están especializados para estructuras de datos específicas.

Los núcleos de cadena se utilizan a veces al clasificar documentos de texto o secuencias de ADN (por ejemplo, utilizando el núcleo de subsecuencia de cadena o los núcleos basados en la distancia de Levenshtein).

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_9.jpg?raw=true'>

## Sugerencia

Con tantos núcleos para elegir, ¿cómo puede decidir cuál usar?

Como regla general, siempre debe probar primero el kernel lineal (recuerde que LinearSVC es mucho más rápido que SVC(kernel="linear")), especialmente si el conjunto de entrenamiento es muy grande o si tiene muchas funciones.

Si el conjunto de entrenamiento no es demasiado grande, también debería probar el kernel Gaussian RBF; funciona bien en la mayoría de los casos. 

Luego, si tiene tiempo libre y poder de cómputo, puede experimentar con algunos otros núcleos, utilizando la validación cruzada y la búsqueda en cuadrícula.

Le gustaría experimentar así, especialmente si hay núcleos especializados para la estructura de datos de su conjunto de entrenamiento.

## Complejidad computacional

La clase LinearSVC se basa en la biblioteca liblinear, que implementa un algoritmo optimizado para SVM lineales. 

No es compatible con el truco del kernel, pero escala casi linealmente con la cantidad de instancias de capacitación y la cantidad de funciones.

Su complejidad de tiempo de entrenamiento es aproximadamente $O(m \times n)$.

El algoritmo tarda más si necesita una precisión muy alta. 

Esto está controlado por el hiperparámetro de tolerancia $\epsilon$ (llamado `tol` en Scikit-Learn). 

En la mayoría de las tareas de clasificación, la tolerancia predeterminada está bien.

La clase SVC se basa en la biblioteca libsvm, que implementa un algoritmo que admite el truco del núcleo.

La complejidad del tiempo de entrenamiento suele estar entre $O(m \times n)$ y $O(m \times n)$.

Desafortunadamente, esto significa que se vuelve terriblemente lento cuando la cantidad de instancias de capacitación aumenta (por ejemplo, cientos de miles de instancias).

Este algoritmo es perfecto para conjuntos de entrenamiento complejos de tamaño pequeño o mediano.

Se escala bien con la cantidad de funciones, especialmente con funciones escasas (es decir, cuando cada instancia tiene pocas funciones distintas de cero).

En este caso, el algoritmo se escala aproximadamente con el número promedio de entidades distintas de cero por instancia.

Table 5-1 compares Scikit-Learn’s SVM classification classes.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/table_5_1.jpg?raw=true'>

## SVM Regression

Como se mencionó anteriormente, el algoritmo SVM es versátil: no solo admite la clasificación lineal y no lineal, sino que también admite la regresión lineal y no lineal.

Para usar SVM para la regresión en lugar de la clasificación, el truco es invertir el objetivo: en lugar de intentar encajar la calle más grande posible entre dos clases mientras limita las violaciones de margen, SVM Regression intenta encajar tantas instancias como sea posible en la calle mientras limita el margen. infracciones (es decir, instancias fuera de la calle).

El ancho de la calle está controlado por un hiperparámetro, $\epsilon$.

La Figura 5-10 muestra dos modelos de regresión SVM lineal entrenados en algunos datos lineales aleatorios, uno con un margen grande ($\epsilon = 1,5$) y el otro con un margen pequeño ($\epsilon = 0,5$).

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_10.jpg?raw=true'>

Agregar más instancias de entrenamiento dentro del margen no afecta las predicciones del modelo; por lo tanto, se dice que el modelo es $\epsilon$-insensible.

Puede utilizar la clase `LinearSVR` de Scikit-Learn para realizar una regresión SVM lineal.

El siguiente código produce el modelo representado a la izquierda en la Figura 5-10 (primero se deben escalar y centrar los datos de entrenamiento):

In [None]:
from sklearn.svm import LinearSVR
svm_reg = LinearSVR(epsilon=1.5)
svm_reg.fit(X, y)

Para abordar tareas de regresión no lineal, puede usar un modelo `SVM` kernelizado.

La figura 5-11 muestra la regresión SVM en un conjunto de entrenamiento cuadrático aleatorio, utilizando un núcleo polinomial de segundo grado.

Hay poca regularización en el gráfico de la izquierda (es decir, un valor de `C` grande) y mucha más regularización en el gráfico de la derecha (es decir, un valor de `C` pequeño).


<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_11.jpg?raw=true'>

El siguiente código usa la clase SVR de Scikit-Learn (que admite el truco del kernel) para producir el modelo representado a la izquierda en la Figura 5-11:

In [None]:
from sklearn.svm import SVR
svm_poly_reg = SVR(kernel="poly", degree=2, C=100, epsilon=0.1)
svm_poly_reg.fit(X, y)

La clase `SVR` es el equivalente de regresión de la clase `SVC`, y la clase `LinearSVR` es el equivalente de regresión de la clase `LinearSVC`.

La clase `LinearSVR` escala linealmente con el tamaño del conjunto de entrenamiento (al igual que la clase `LinearSVC`), mientras que la clase `SVR` se vuelve demasiado lenta cuando el conjunto de entrenamiento crece (al igual que la clase `SVC`).

## NOTE  

Las SVM también se pueden usar para la detección de valores atípicos; consulte la documentación de Scikit-Learn para obtener más detalles.

# Bajo el capó

Esta sección explica cómo las SVM hacen predicciones y cómo funcionan sus algoritmos de entrenamiento, comenzando con clasificadores SVM lineales.

Si recién está comenzando con Machine Learning, puede omitirlo de manera segura e ir directamente a los ejercicios al final de este capítulo, y regresar más tarde cuando desee obtener una comprensión más profunda de SVM.

Primero, una palabra acerca de las notaciones.

En el Capítulo 4 usamos la convención de poner todos los parámetros del modelo en un vector $\mathbf{\theta}$, incluido el término de sesgo $\theta_{0}$ y los pesos de los atributos de entrada $\theta_{1}$ a $ \theta_{n}$, y agregando una entrada de sesgo $x = 1$ a todas las instancias.

En este capítulo usaremos una convención que es más conveniente (y más común) cuando se trata de SVM:  
* el término de sesgo se llamará $b$ y 
* el vector de ponderaciones de atributos se llamará $w$.

No se agregará ninguna característica de sesgo a los vectores de características de entrada.

## Decision Function and Predictions

El modelo clasificador lineal `SVM` predice la clase de una nueva instancia $x$ simplemente calculando la función de decisión $w^{T}x + b = w_{1} x_{1} + \cdots + w_{n} x_ {n} + b$. 

Si el resultado es positivo, la clase predicha $\hat{y}$ es la clase positiva (1), y de lo contrario, es la clase negativa (0); ver la Ecuación 5-2.

Equation 5-2. Linear SVM classifier prediction  

$$ \hat{y} = \begin{cases} 0 & \text{si}\ w^{T}x + b < 0 \\ 1 & \text{si}\ w^{T}x + b \geq 0 \end{cases} $$


La Figura 5-12 muestra la función de decisión que corresponde al modelo de la izquierda en la Figura 5-4: es un plano 2D porque este conjunto de datos tiene dos características (ancho de pétalo y largo de pétalo). 

El límite de decisión es el conjunto de puntos donde la función de decisión es igual a 0: es la intersección de dos planos, que es una línea recta (representada por la línea continua gruesa)

figura 5.12  

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_12.jpg?raw=true'>

Las líneas discontinuas representan los puntos donde la función de decisión es igual a 1 o –1: son paralelas ya la misma distancia del límite de decisión, y forman un margen a su alrededor.

Entrenar un clasificador SVM lineal significa encontrar los valores de $\mathbf{w}$ y $b$ que hacen que este margen sea lo más amplio posible mientras se evitan violaciones de margen (margen duro) o se limitan (margen blando).

## Objetivo de entrenamiento

Considere la pendiente de la función de decisión: es igual a la norma del vector de peso, $\Vert w \Vert$. 

Si dividimos esta pendiente por 2, los puntos donde la función de decisión es igual a $\pm 1$ van a estar el doble de lejos de la frontera de decisión.

En otras palabras, dividir la pendiente por 2 multiplicará el margen por 2.

Esto puede ser más fácil de visualizar en 2D, como se muestra en la Figura 5-13.

Cuanto menor sea el vector de peso $w$, mayor será el margen.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/chap_5_svm/figure_5_13.jpg?raw=true'>

Entonces queremos minimizar $\Vert w \Vert$ para obtener un margen grande.

Si también queremos evitar violaciones de margen (margen duro), entonces necesitamos que la función de decisión sea mayor que 1 para todas las instancias de entrenamiento positivo y menor que -1 para instancias de entrenamiento negativo. 

Si definimos $t^{(i)} = –1$ para instancias negativas (si $y^{(i)} = 0$) y $t^{(i)} = 1$ para instancias positivas (si $ y^{(i)} = 1$), entonces podemos expresar esta restricción como $t^{(i)} (w^{T} x^{(i)} + b) \geq 1$ para todas las instancias .

Por lo tanto, podemos expresar el objetivo del clasificador SVM lineal de margen duro como el problema de optimización con restricciones en la Ecuación 5-3.

Ecuación 5-3. Objetivo clasificador SVM lineal de margen duro

$$ \text{minimice}_{w,b} \ \ \ \   \frac{1}{2}w^{T}w $$

$$ \text{subject to} \ t^{(i)}\left( w^{T}x^{(i)} + b \right) \geq 1 $$

## NOTE

Estamos minimizando $\frac{1}{2}w^{T}w$, que es igual a $\frac{1}{2}\Vert w \Vert^{2}$, en lugar de minimizar $\Vert w \Vert$.

De hecho, $\frac{1}{2}\Vert w \Vert^{2}$ tiene una derivada simple y agradable (es solo $w$), mientras que $\Vert w \Vert$ no es diferenciable en $w = 0$.

Los algoritmos de optimización funcionan mucho mejor en funciones diferenciables.

Para obtener el objetivo de margen suave, necesitamos introducir una variable de holgura $\zeta \geq 0$ para cada instancia: $\zeta$ mide cuánto se le permite a la $i$ - ésima instancia violar el margen.

Ahora tenemos dos objetivos en conflicto: 

* hacer que las variables de holgura sean lo más pequeñas posible para reducir las violaciones de los márgenes y 
* hacer que $\frac{1}{2}w^{T}w$ sea lo más pequeño posible para aumentar el margen. 

This is where the `C` hyperparameter comes in: it allows us to define the tradeoff between these two
objectives. 

This gives us the constrained optimization problem in Equation 5-4.

Equation 5-4. Soft margin linear SVM classifier objective  

$$ \text{minimize}_{} $$
$$ \text{subject to} $$

# Quadratic Programming

The hard margin and soft margin problems are both convex quadratic optimization problems with linear constraints. 

Such problems are known as Quadratic Programming
(QP) problems. Many off-the-shelf solvers are available to solve QP problems by using a
variety of techniques that are outside the scope of this book.
The general problem formulation is given by Equation 5-5.

# Implementación en código de la propuesta de Gerón para la aplicación de las Máquinas de soporte vectorial para clasificación binaria

## [Chapter 5 – Support Vector Machines. Cuaderno de Geron en GitHub](https://github.com/ageron/handson-ml2/blob/master/05_support_vector_machines.ipynb)

Este cuaderno contiene todo el código de muestra y las soluciones a los ejercicios del capítulo 5.

## Setup

Primero, importemos algunos módulos comunes, asegurémonos de que MatplotLib trace figuras en línea y prepare una función para guardar las figuras.

También verificamos que Python 3.5 o posterior esté instalado (aunque Python 2.x puede funcionar, está obsoleto, por lo que le recomendamos que use Python 3 en su lugar), así como Scikit-Learn $\geq $ 0.20.

In [None]:
# Python ≥3.5 is required
import sys
assert sys.version_info >= (3, 5)

In [None]:
# Scikit-Learn ≥0.20 is required
import sklearn
assert sklearn.__version__ >= "0.20"

# Common imports
import numpy as np
import os

# to make this notebook's output stable across runs
np.random.seed(42)

# To plot pretty figures
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# Where to save the figures
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "svm"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True)

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    print("Saving figure", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

## Linear SVM Classification

Las siguientes celdas de código generan las primeras cifras en el capítulo 5.

El primer ejemplo de código real viene después.

Código para generar la Figura 5–1. Clasificación de gran margen

In [None]:
from sklearn.svm import SVC
from sklearn import datasets

iris = datasets.load_iris()
X = iris["data"][:, (2, 3)]  # petal length, petal width
y = iris["target"]

setosa_or_versicolor = (y == 0) | (y == 1)
X = X[setosa_or_versicolor]
y = y[setosa_or_versicolor]

# SVM Classifier model
svm_clf = SVC(kernel="linear", C=float("inf"))
svm_clf.fit(X, y)

In [None]:
# Bad models
x0 = np.linspace(0, 5.5, 200)
pred_1 = 5*x0 - 20
pred_2 = x0 - 1.8
pred_3 = 0.1 * x0 + 0.5

def plot_svc_decision_boundary(svm_clf, xmin, xmax):
    w = svm_clf.coef_[0]
    b = svm_clf.intercept_[0]

    # At the decision boundary, w0*x0 + w1*x1 + b = 0
    # => x1 = -w0/w1 * x0 - b/w1
    x0 = np.linspace(xmin, xmax, 200)
    decision_boundary = -w[0]/w[1] * x0 - b/w[1]

    margin = 1/w[1]
    gutter_up = decision_boundary + margin
    gutter_down = decision_boundary - margin

    svs = svm_clf.support_vectors_
    plt.scatter(svs[:, 0], svs[:, 1], s=180, facecolors='#FFAAAA')
    plt.plot(x0, decision_boundary, "k-", linewidth=2)
    plt.plot(x0, gutter_up, "k--", linewidth=2)
    plt.plot(x0, gutter_down, "k--", linewidth=2)

fig, axes = plt.subplots(ncols=2, figsize=(10,2.7), sharey=True)

plt.sca(axes[0])
plt.plot(x0, pred_1, "g--", linewidth=2)
plt.plot(x0, pred_2, "m-", linewidth=2)
plt.plot(x0, pred_3, "r-", linewidth=2)
plt.plot(X[:, 0][y==1], X[:, 1][y==1], "bs", label="Iris versicolor")
plt.plot(X[:, 0][y==0], X[:, 1][y==0], "yo", label="Iris setosa")
plt.xlabel("Petal length", fontsize=14)
plt.ylabel("Petal width", fontsize=14)
plt.legend(loc="upper left", fontsize=14)
plt.axis([0, 5.5, 0, 2])

plt.sca(axes[1])
plot_svc_decision_boundary(svm_clf, 0, 5.5)
plt.plot(X[:, 0][y==1], X[:, 1][y==1], "bs")
plt.plot(X[:, 0][y==0], X[:, 1][y==0], "yo")
plt.xlabel("Petal length", fontsize=14)
plt.axis([0, 5.5, 0, 2])

save_fig("large_margin_classification_plot")
plt.show()

Code to generate Figure 5–2. Sensitivity to feature scales

In [None]:
Xs = np.array([[1, 50], [5, 20], [3, 80], [5, 60]]).astype(np.float64)
ys = np.array([0, 0, 1, 1])
svm_clf = SVC(kernel="linear", C=100)
svm_clf.fit(Xs, ys)

plt.figure(figsize=(9,2.7))
plt.subplot(121)
plt.plot(Xs[:, 0][ys==1], Xs[:, 1][ys==1], "bo")
plt.plot(Xs[:, 0][ys==0], Xs[:, 1][ys==0], "ms")
plot_svc_decision_boundary(svm_clf, 0, 6)
plt.xlabel("$x_0$", fontsize=20)
plt.ylabel("$x_1$    ", fontsize=20, rotation=0)
plt.title("Unscaled", fontsize=16)
plt.axis([0, 6, 0, 90])

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(Xs)
svm_clf.fit(X_scaled, ys)

plt.subplot(122)
plt.plot(X_scaled[:, 0][ys==1], X_scaled[:, 1][ys==1], "bo")
plt.plot(X_scaled[:, 0][ys==0], X_scaled[:, 1][ys==0], "ms")
plot_svc_decision_boundary(svm_clf, -2, 2)
plt.xlabel("$x'_0$", fontsize=20)
plt.ylabel("$x'_1$  ", fontsize=20, rotation=0)
plt.title("Scaled", fontsize=16)
plt.axis([-2, 2, -2, 2])

save_fig("sensitivity_to_feature_scales_plot")

# [1.4.7. Mathematical formulation](https://scikit-learn.org/stable/modules/svm.html#svm-mathematical-formulation)

Una máquina de vectores de soporte construye un hiperplano o un conjunto de hiperplanos en un espacio dimensional alto o infinito, que puede usarse para clasificación, regresión u otras tareas.

Intuitivamente, una buena separación se logra con el hiperplano que tiene la mayor distancia a los puntos de datos de entrenamiento más cercanos de cualquier clase (el llamado margen funcional), ya que, en general, cuanto mayor es el margen, menor es el error de generalización del clasificador.

La siguiente figura muestra la función de decisión para un problema linealmente separable, con tres muestras en los límites del margen, llamados "vectores de soporte":

<img src = 'https://scikit-learn.org/stable/_images/sphx_glr_plot_separating_hyperplane_001.png'>

En general, cuando el problema no es linealmente separable, los vectores de soporte son las muestras dentro de los límites del margen.

We recommend [13] and [14] as good references for the theory and practicalities of SVMs.

## 1.4.7.1. SVC

Dados los vectores de entrenamiento $x_{i} \in \mathbb{R}^{p}$, $i = 1, \ldots, n$, en dos clases, y un vector $y \in \{1,-1\}$, nuestro objetivo es encontrar $w \in \mathbb{R}^{P}$ y $b \in \mathbb{R}$ tales que la predicción dada por $sgn(w^{T}\phi( x) + b)$ es correcto para la mayoría de las muestras.

SVC solves the following primal problem:

$$ \min_{w,b,\zeta} \ \ \frac{1}{2}w^{T}w + C \sum_{i = 1}^{n} \zeta_{i}  $$

$$ \text{Subject to}\ \  y_{i}() $$

## Referencias  

* El modelo de Máquina de soporte vectorial: https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html  

* Cuaderno de Geron sobre Maquinas de Soporte Vectorial: https://github.com/ageron/handson-ml2/blob/master/05_support_vector_machines.ipynb

* Formulación matemática de la SVC: https://scikit-learn.org/stable/modules/svm.html#svm-mathematical-formulation

* Duval, R. (2004). Semiosis y pensamiento humano: 