# Support Vector Classifiers

SVM es un algoritmo que nos sirve para realizar clasificación de datos.  Ya sabes que el funcionamiento básico de SVM consiste en encontrar un hiperplano que pueda separar las diferentes categorías de datos, 

Scikit-Learn nos ofrece una implementación de SVM para clasificación en la clase <code>SVC</code> dentro del módulo <code>sklearn.svm</code>:

In [None]:
from sklearn.svm import SVC

svc = SVC()

Pero primero, vamos a generar un dataset para probar el clasificador:

In [None]:
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

X, y = make_classification(n_samples=500, n_features=15, n_classes=2, random_state=0)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

Y después podemos entrenar el modelo

In [None]:
svc.fit(X_train, y_train)
y_pred = svc.predict(X_test)

Y podemos evaluar el desmpeño usando la función de precisión:

In [None]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo SVM: {:.2f}".format(accuracy))

## Argumentos de la función

La clase SVC tiene una gran cantidad de argumentos, y ya sabes que su importancia varía de problema a problema, sin embargo, los primeros que deberías considerar ajustar son los siguientes:

 - <code>C</code>: Este parámetro controla la penalización de errores de clasificación. Un valor adecuado de C puede ayudar a evitar tanto el <i>overfitting </i>como el <i>underfitting</i>.

 - <code>kernel</code>: Este parámetro determina la transformación que se le va a aplicar a los datos antes de ejecutar el algoritmos de SVC. Te recomiendo que intentes con varios para encontrar el mejor para tu modelo - particularmente si no son separables linealmente.

 - <code>degree</code>: Este parámetro se utiliza con el kernel <code>poly</code> y controla el grado del polinomio que se utiliza para la transformación de los datos, un grado mayor a 1 proporciona una frontera más compleja pero corre el riesgo de sufrir de <i>overfitting</i>.

 - <code>gamma</code>: Este parámetro se utiliza con los kernels <code>poly</code>, <code>rbf</code> y <code>sigmoid</code> y controla cómo es que se comporta. Un valor adecuado de gamma puede ayudar a evitar tanto el <i>overfitting</i> como el <i>underfitting</i>.

 - <code>class_weight</code>: Este parámetro se utiliza para abordar el desequilibrio de clases en el conjunto de datos. Si el conjunto de datos tiene clases desequilibradas, el ajuste de los pesos de las clases puede mejorar significativamente el rendimiento del modelo. Ya vimos la importancia que este argumento tiene en problemas de clasificación en la lección sobre la regresión logística.

## Comportamiento de algunos argumentos

Vamos a ver el efecto que tienen algunos argumentos sobre SVC, lo que haremos es visualizar la frontera de decisión. 

Primero necesitamos crear un dataset de juguete, este tendrá dos dimensiones o features:

In [None]:
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=100, random_state=42, noise=0.10)

### <code>C</code> - Regularización

En cierto modo podemos pensar en este valor como uno que nos deja elegir qué tan estricto tiene que ser el margen entre la línea y los elementos de nuestro dataset, aquí debes tener en cuenta que entre menor sea el valor, menor será el efecto sobre el margen - por default el valor es 1:

In [None]:
from utils import plot_boundaries

C_values = [0.001, 0.01,0.1, 1, 10]
svcs = []

for C_value in C_values:
    svcs.append(
        (f"C = {C_value}", SVC(kernel='linear', C=C_value))
    )

plot_boundaries(X, y, svcs)

## <code>kernel</code>

Este argumento controla la transformación interna que se le aplica a los datos para intentar obtener un hiperplano que los separe, por default el valor RBF que proviene de r<i>adial basis function:</i>

In [None]:
kernels = ['linear', 'poly', 'rbf', 'sigmoid']

svcs = []
for kernel in kernels:
    svcs.append(
        (f"Kernel = {kernel}", SVC(kernel=kernel, C=1))
    )
plot_boundaries(X, y, svcs)

## <code>degree</code>

Este controla el grado del polinomio cuando se elige el kernel <code>poly</code>:

In [None]:
degree_values = [1, 2, 3, 4, 5, 6]

svcs = [
    (f"Degree = {degree}", SVC(kernel='poly', degree=degree, C=1))
    for degree in degree_values
]

plot_boundaries(X, y, svcs)

## <code>LinearSVC</code>

Existe otra clase dentro del módulo <code>svm</code> de Scikit-Learn, llamada <code>LinearSVC</code> que  deberías considerar si tu conjunto de datos es grande o tiene muchas características. <code>LinearSVC</code> es una versión de SVM que utiliza un kernel lineal y está optimizado para la clasificación lineal. Puede ser mucho más rápido en grandes conjuntos de datos que SVC con un kernel no lineal, y consume menos memoria.

La diferencia entre <code>SVC</code> y <code>LinearSVC</code> es que <code>SVC</code> puede utilizar cualquier kernel (por ejemplo, lineal, polinómico, RBF), mientras que <code>LinearSVC</code> sólo puede utilizar un kernel lineal. Como resultado, <code>SVC</code> puede ser más potente y preciso que <code>LinearSVC</code> para problemas no lineales, pero también puede ser más lento y consumir más memoria. Por otro lado, <code>LinearSVC</code> es más rápido y consume menos memoria, pero sólo puede resolver problemas lineales.

En general es buena idea probar con ambas opciones y diferentes configuraciones para encontrar la mejor combinación que funcione para tus necesidades, siempre y cuando tengas en cuenta el costo beneficio entre ellos. 

Y pues ahí lo tienes, espero que ahora te queden má claros en qué tipo de problemas puede uno aplicar SVM y cuáles son los argumentos más importantes para comenzar a tunear los hiperparámetros.