## Máquinas de vectores de soporte

Una máquina de vectores de soporte (SVM) es un modelo de aprendizaje automático muy potente y versátil, capaz de realizar clasificación lineal o no lineal, regresión e incluso detección de valores atípicos. Es uno de los modelos más populares en Machine Learning, y cualquier persona interesada en Machine Learning debería tenerlo en su caja de herramientas. Las SVM son particularmente adecuadas para la clasificación de conjuntos de datos complejos pero de tamaño pequeño o mediano.
Este capítulo explicará los conceptos básicos de las SVM, cómo usarlas y cómo funcionan.


## Clasificación SVM lineal

La idea fundamental detrás de las SVM se explica mejor con algunas imágenes. La Figura 5-1 muestra parte del conjunto de datos del iris que se introdujo al final del Capítulo 4. Las dos clases se pueden separar fácilmente con una línea recta (son linealmente separables). El gráfico de la izquierda muestra los límites de decisión de tres posibles clasificadores lineales. El modelo cuyo límite de decisión está representado por la línea discontinua es tan malo que ni siquiera separa las clases correctamente. Los otros dos modelos funcionan perfectamente en este conjunto de entrenamiento, pero sus límites de decisión se acercan tanto a las instancias que estos modelos probablemente no funcionarán tan bien en nuevas instancias. Por el contrario, la línea continua en el gráfico de la derecha representa el límite de decisión de un clasificador SVM; esta línea no solo separa las dos clases, sino que también se mantiene lo más alejada posible de las instancias de capacitación más cercanas. Puede pensar en un clasificador SVM como si encajara en la calle 155 más ancha posible (representada por las líneas discontinuas paralelas) entre las clases. Esto se llama clasificación de gran margen.

![SVM LMC](https://github.com/DataEngel/Training-and-studying-Machine-Learning/assets/63415652/581be30e-c229-4ac6-ab64-247736c6754a)


Tenga en cuenta que agregar más instancias de capacitación "fuera de la calle" no afectará en absoluto el límite de decisión: está completamente determinado (o "respaldado") por las instancias ubicadas en el borde de la calle. Estos casos se denominan vectores de soporte (están encerrados en un círculo en la figura 5-1).

Nota: las SVM son sensibles a las escalas de características, como puede ver en la Figura 5-2: en el diagrama de la izquierda, la escala vertical es mucho más grande que la escala horizontal, por lo que la calle más ancha posible está cerca de la horizontal. Después de escalar características (p. ej., usando StandardScaler de Scikit-Learn), el límite de decisión se ve mucho mejor (en el gráfico de la derecha).

![SVM SFS](https://github.com/DataEngel/Training-and-studying-Machine-Learning/assets/63415652/011d8524-1f25-49fd-a87e-001015a3d743)


## Clasificación de margen suave

Si imponemos estrictamente que todas las instancias estén fuera de la calle y en el lado derecho, esto se denomina clasificación de margen duro. Hay dos problemas principales con la clasificación de margen duro. En primer lugar, solo funciona si los datos son linealmente separables y, en segundo lugar, es bastante sensible a los valores atípicos. La Figura 5-3 muestra el conjunto de datos del iris con solo un valor atípico adicional: a la izquierda, es imposible encontrar un margen duro y, a la derecha, el límite de decisión termina siendo muy diferente al que vimos en la Figura 5-1 sin el atípico, y probablemente no se generalice tan bien.

![Screenshot 2023-06-06 233300](https://github.com/DataEngel/Training-and-studying-Machine-Learning/assets/63415652/b140402e-754a-4e94-a987-e70a80ab55b7)


Para evitar estos problemas, es preferible utilizar un modelo más flexible. El objetivo es encontrar un buen equilibrio entre mantener la calle lo más grande posible y limitar las violaciones de los márgenes (es decir, instancias que terminan en el medio de la calle o incluso en el lado equivocado). Esto se llama clasificación de margen blando.

En las clases SVM de Scikit-Learn, puede controlar este equilibrio utilizando el hiperparámetro C: un valor C más pequeño conduce a una calle más ancha pero a más violaciones de margen. La Figura 5-4 muestra los límites de decisión y los márgenes de dos clasificadores SVM de margen suave en un conjunto de datos separable no linealmente. A la izquierda, usando un valor C bajo, el margen es bastante grande, pero muchas instancias terminan en la calle. A la derecha, usando un valor C alto, el clasificador comete menos violaciones de margen pero termina con un margen más pequeño. Sin embargo, parece probable que el primer clasificador generalice mejor: de hecho, incluso en este conjunto de entrenamiento comete menos errores de predicción, ya que la mayoría de las violaciones de margen están en realidad en el lado correcto del límite de decisión.

![2](https://github.com/DataEngel/Training-and-studying-Machine-Learning/assets/63415652/d575aa0a-7b99-4345-9609-9ade2ff7199d)


Para evitar estos problemas, es preferible utilizar un modelo más flexible. El objetivo es encontrar un buen equilibrio entre mantener la calle lo más grande posible y limitar las violaciones de los márgenes (es decir, instancias que terminan en el medio de la calle o incluso en el lado equivocado). Esto se llama clasificación de margen suave.

En las clases SVM de Scikit-Learn, puede controlar este equilibrio utilizando el hiperparámetro C: un valor C más pequeño conduce a una calle más ancha pero a más violaciones de margen. La Figura 5-4 muestra los límites de decisión y los márgenes de dos clasificadores SVM de margen suave en un conjunto de datos separable no linealmente. A la izquierda, usando un valor C bajo, el margen es bastante grande, pero muchas instancias terminan en la calle. A la derecha, usando un valor C alto, el clasificador comete menos violaciones de margen pero termina con un margen más pequeño. Sin embargo, parece probable que el primer clasificador generalice mejor: de hecho, incluso en este conjunto de entrenamiento comete menos errores de predicción, ya que la mayoría de las violaciones del margen están en realidad en el lado correcto del límite de decisión.

![1](https://github.com/DataEngel/Training-and-studying-Machine-Learning/assets/63415652/313e206f-9a75-4c7e-8bee-d5d1093799c5)


Si su modelo SVM está sobreajustado, puede intentar regularizarlo reduciendo C.

El siguiente código de Scikit-Learn carga el conjunto de datos de iris, escala las características y luego entrena un modelo SVM lineal (usando la clase LinearSVC con C = 1 y la función de pérdida de bisagra, descrita en breve) para detectar flores de Iris-Virginica. El modelo resultante se representa a la izquierda de la Figura 5-4.


In [1]:
import numpy as np
from sklearn import datasets
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC
iris = datasets.load_iris()
X = iris["data"][:, (2, 3)] # petal length, petal width
y = (iris["target"] == 2).astype(np.float64) # Iris-Virginica
svm_clf = Pipeline([
 ("scaler", StandardScaler()),
 ("linear_svc", LinearSVC(C=1, loss="hinge")),
 ])
svm_clf.fit(X, y)

Luego, como de costumbre, puede usar el modelo para hacer predicciones:

In [2]:
svm_clf.predict([[5.5, 1.7]])

array([1.])

A diferencia de los clasificadores de regresión logística, los clasificadores SVM no generan probabilidades para cada clase.

Alternativamente, podría usar la clase SVC, usando SVC(kernel="linear", C=1), pero es mucho más lento, especialmente con grandes conjuntos de entrenamiento, por lo que no se recomienda. Otra opción es usar la clase SGDClassifier, con SGDClassifier(loss="hinge", alpha=1/(m*C)). Esto aplica el Descenso de Gradiente Estocástico regular (vea el Capítulo 4) para entrenar un clasificador SVM lineal. No converge tan rápido como la clase LinearSVC, pero puede ser útil para manejar grandes conjuntos de datos que no caben en la memoria (entrenamiento fuera del núcleo) o para manejar tareas de clasificación en línea.

La clase LinearSVC regulariza el término de sesgo, por lo que primero debe centrar el conjunto de entrenamiento restando su media. Esto es automático si escala los datos usando StandardScaler. Además, asegúrese de establecer el hiperparámetro de pérdida en "bisagra", ya que no es el valor predeterminado. Finalmente, para un mejor rendimiento, debe establecer el hiperparámetro dual en Falso, a menos que haya más funciones que instancias de entrenamiento (hablaremos de la dualidad más adelante en este capítulo).
