<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/a/aa/Logo_DuocUC.svg/2560px-Logo_DuocUC.svg.png' width=50%, height=20%>

# Support vector machines

El método de Support vector machines está basado en generar la mejor partición de un espacio mediante un hiperplano, por ende, este método sólo sería útil para clasificar problemas linealmente separables. Para solucionar esta desventaja se puede modificar el espacio pata transformar las tareas en tareas linealmente separables.

In [None]:
%pip install plotly

Collecting plotly
  Downloading plotly-5.22.0-py3-none-any.whl (16.4 MB)
[K     |████████████████████████████████| 16.4 MB 6.9 MB/s eta 0:00:01
Installing collected packages: plotly


In [1]:
import sklearn.datasets
import sklearn.svm # Support vector machines
import sklearn.metrics
import sklearn.gaussian_process # Kernel de transformación del espacio
import sklearn.preprocessing
import matplotlib.pyplot as plt
import plotly.express as px
import numpy as np
import scipy

ModuleNotFoundError: No module named 'plotly'

Para demostrar el funcionamiento base de las Support Vector Machines generaremos un conjunto de datos sintético linealmente separable.

In [None]:
blobs_features, blobs_label = sklearn.datasets.make_blobs(
    n_samples = 200, 
    n_features = 2, 
    centers=2, 
    cluster_std = 5,
    random_state=11
)

Separamos el conjunto en subconjuntos de entrenamiento y prueba.

In [None]:
(
    blobs_features_train, 
    blobs_features_test, 
    blobs_label_train, 
    blobs_label_test
) = sklearn.model_selection.train_test_split(
    blobs_features, 
    blobs_label, 
    test_size=0.33, 
    random_state=11
)

Visualizamos el conjunto de datos sintético.

In [None]:
plt.scatter(
    x = blobs_features_train[:,0],
    y = blobs_features_train[:,1],
    c = blobs_label_train,
    label = "traint"
)
plt.scatter(
    x = blobs_features_test[:,0],
    y = blobs_features_test[:,1],
    c = blobs_label_test,
    marker = "x",
    label = "test"
)

## Kernel lineal

Evaluaremos el desempeño de este método con un kernel linea, lo que es lo mismo que utilizar directamente SVM sin modificar el espacio.

In [None]:
svm_linear = sklearn.svm.SVC(kernel="linear")
svm_linear.fit(blobs_features_train, blobs_label_train)

Al entrenar nuestra SVM con kernel lineal ajustaremos los coeficientes asociados a la hiperplano que separa las clases.

In [None]:
svm_linear.coef_

In [None]:
svm_linear.intercept_

La función de decisión que utilizamos para predecir la clase de un punto es la siguiente:


$$
c = W \cdot x + b
$$

Donde $W$ son los coeficientes ajustados y $b$ es el intercepto

In [None]:
np.dot(
    blobs_features_test,
    svm_linear.coef_[0]
) + svm_linear.intercept_

Para obtener la clase asociada a cada resultado debemos considerar sólo el signo.

In [None]:
svm_linear_predictions = ((np.dot(
    blobs_features_test,
    svm_linear.coef_[0]
) + svm_linear.intercept_) > 0).astype(int)
svm_linear_predictions

El rendimiento de este modelo es el siguiente:

In [None]:
print(sklearn.metrics.classification_report(blobs_label_test,svm_linear_predictions))

El hiperplano separatriz lo podemos calcular desde los parámetros y el intercepto de la siguiente manera

In [None]:
def linear_function(x, m = -1 * svm_linear.coef_[0][0] / svm_linear.coef_[0][1] , c = svm_linear.intercept_[0] / svm_linear.coef_[0][1]):
    return m * x - c

Calculamos el hiperplano separatriz

In [None]:
decision_boundary_line_x = np.array([blobs_features_train[:,0].min(), blobs_features_train[:,0].max()])
decision_boundary_line_y = [linear_function(x) for x in decision_boundary_line_x]

In [None]:
decision_boundary_line_y

Visualizamos el hiperplano separatriz

In [None]:
plt.scatter(
    x = blobs_features_train[:,0],
    y = blobs_features_train[:,1],
    c = blobs_label_train,
    label = "traint"
)
plt.scatter(
    x = blobs_features_test[:,0],
    y = blobs_features_test[:,1],
    c = blobs_label_test,
    marker = "x",
    label = "test"
)
# plt.scatter(
#     x = svm_linear.support_vectors_[:,0],
#     y = svm_linear.support_vectors_[:,1],
#     s=100,
#     linewidth=1, 
#     facecolors='none', 
#     edgecolors='k'
# )
plt.plot(
    decision_boundary_line_x,
    decision_boundary_line_y
)

Los vectores de soporte son los puntos del conjunto de datos que se utilizan para el cálculo del hiperplano separatriz.

In [None]:
svm_linear.support_vectors_

Visualizamos los vectores de soporte con el hiperplano separatriz.

In [None]:
plt.scatter(
    x = blobs_features_train[:,0],
    y = blobs_features_train[:,1],
    c = blobs_label_train,
    label = "traint"
)
plt.scatter(
    x = blobs_features_test[:,0],
    y = blobs_features_test[:,1],
    c = blobs_label_test,
    marker = "x",
    label = "test"
)
plt.scatter(
    x = svm_linear.support_vectors_[:,0],
    y = svm_linear.support_vectors_[:,1],
    s=100,
    linewidth=1, 
    facecolors='none', 
    edgecolors='k'
)
plt.plot(
    decision_boundary_line_x,
    decision_boundary_line_y
)

In [None]:
# Funciones para mostrar los umbrales de SVM sobre nuestros datos

def make_meshgrid(x, y, h=.02):
    x_min, x_max = x.min() - 1, x.max() + 1
    y_min, y_max = y.min() - 1, y.max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
    return xx, yy

def plot_contours(ax, clf, xx, yy, **params):
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    out = ax.contourf(xx, yy, Z, **params)
    return out

In [None]:
fig, ax = plt.subplots()
X0, X1 = blobs_features_test[:,0], blobs_features_test[:,1] 
xx, yy = make_meshgrid(X0, X1)
plot_contours(ax, svm_linear, xx, yy, cmap=plt.cm.coolwarm, alpha=0.8)
ax.scatter(X0, X1, c=blobs_label_test, cmap=plt.cm.coolwarm, s=20, edgecolors='k')
plt.show()

Generaremos otro conjunto de datos sintético que no es linealmente separable.

In [None]:
circles_features, circles_label = sklearn.datasets.make_gaussian_quantiles(n_features=2, n_classes=2, n_samples=200, mean=(0,0), random_state = 12)

In [None]:
(
    circles_features_train, 
    circles_features_test, 
    circles_label_train, 
    circles_label_test
) = sklearn.model_selection.train_test_split(
    circles_features, 
    circles_label, 
    test_size=0.33, 
    random_state=11
)

In [None]:
plt.scatter(
    x = circles_features_train[:,0],
    y = circles_features_train[:,1],
    c = circles_label_train,
    label = "train"
)
plt.scatter(
    x = circles_features_test[:,0],
    y = circles_features_test[:,1],
    c = circles_label_test,
    marker = "x",
    label = "test"
)

Si ajustamos un SVM con kernel lineal vemos que no funciona correctamente.

In [None]:
svm_linear_2 = sklearn.svm.SVC(kernel="linear")
svm_linear_2.fit(circles_features_train, circles_label_train)

In [None]:
fig, ax = plt.subplots()
X0, X1 = circles_features_test[:,0], circles_features_test[:,1] 
xx, yy = make_meshgrid(X0, X1)
plot_contours(ax, svm_linear_2, xx, yy, cmap=plt.cm.coolwarm, alpha=0.8)
ax.scatter(X0, X1, c=circles_label_test, cmap=plt.cm.coolwarm, s=20, edgecolors='k')
plt.show()

In [None]:
print(sklearn.metrics.classification_report(circles_label_test, svm_linear_2.predict(circles_features_test)))

## Kernel Radial Base Function

Para poder transformar nuestro espacio en una tarea linealmente separable debemos generar una variable nueva que transforme nuestro espacio en una tarea linealmente separable.

En nuestro conjunto de datos, una buena variable extra que podemos construir es la distancia al centro.

In [None]:
distance_to_center_train = np.apply_along_axis(lambda x: scipy.spatial.distance.euclidean(x,[0,0]), 1, circles_features_train)
distance_to_center_train

In [None]:
distance_to_center_test = np.apply_along_axis(lambda x: scipy.spatial.distance.euclidean(x,[0,0]), 1, circles_features_test)

In [None]:
circles_features_train_with_distances = np.hstack([circles_features_train, np.expand_dims(distance_to_center_train, axis = 1)])
circles_features_train_with_distances

In [None]:
circles_features_test_with_distances = np.hstack([circles_features_test, np.expand_dims(distance_to_center_test, axis = 1)])

Asi se ve nuestro conjunto de datos con la variable construida.

In [None]:
px.scatter_3d(x = circles_features_train_with_distances[:,0], 
           y = circles_features_train_with_distances[:,1], 
           z = circles_features_train_with_distances[:,2],
              color = circles_label_train)


Si ajustamos el modelo sobre este conjunto de datos con la variable extra vemos que funciona mucho mejor.

In [None]:
svm_linear_3 = sklearn.svm.SVC(kernel="linear")
svm_linear_3.fit(circles_features_train_with_distances, circles_label_train)

In [None]:
print(sklearn.metrics.classification_report(circles_label_test, svm_linear_3.predict(circles_features_test_with_distances)))

La generalización de esta idea es el kernel Radial Base Function, el cual es una función que depende de la distancia hacia un centro, que puede ser el origen o no.

In [None]:
rbf = sklearn.gaussian_process.kernels.RBF()

Generamos la característica sintética.

In [None]:
rbf_train = rbf(circles_features_train)[0]
rbf_train

Visualizamos cómo se ve el conjunto de datos.

In [None]:
px.scatter_3d(x = circles_features_train[:,0], 
           y = circles_features_train[:,1], 
           z = rbf_train,
              color = circles_label_train)


Podemos instanciar un modelo que implemente directamente el kernel RBF.

In [None]:
svm_rbf = sklearn.svm.SVC(kernel="rbf")
svm_rbf.fit(circles_features_train, circles_label_train)

In [None]:
fig, ax = plt.subplots()
X0, X1 = circles_features_test[:,0], circles_features_test[:,1] 
xx, yy = make_meshgrid(X0, X1)
plot_contours(ax, svm_rbf, xx, yy, cmap=plt.cm.coolwarm, alpha=0.8)
ax.scatter(X0, X1, c=circles_label_test, cmap=plt.cm.coolwarm, s=20, edgecolors='k')
plt.show()