# Support vector machine

Se trata de un método no probabilístico de clasificación binaria lineal o no lineal.

Un resumen rápido de su funcionamiento es que divide los grupos de puntos mediante una recta intentando maximizar la distancia de los puntos más cercanos a la recta con esta por ambos lados.
- En caso de no ser separables linealmente, el **support vector machine** aplica una transformación del espacio de variables basada en **kernel**.

### Clasificación de datos categóricos

In [2]:
from sklearn.svm import SVC
import numpy as np
import pandas as pd

df = pd.read_csv('.//base_datos_2008.csv')
df = df.dropna(subset = ['ArrDelay'])       # Eliminar todos los datos faltantes con esta instrucción
df = df.sample(frac = 1)                    # Remezclar la base de datos
df_test = df.tail(1000)                     # Casos para el test
df = df.head(1000)                          # Casos para el training

In [9]:
# Ajustando el modelo utilizando estas variables como predictoras
X = df[['Distance','AirTime','DepTime','TaxiIn','TaxiOut','DepDelay']]

# Mismas variables que la anterior
X_test = df_test[['Distance','AirTime','DepTime','TaxiIn','TaxiOut','DepDelay']]

# Generamos una respuesta categórica con todos los vuelos que se hayan retrasado por más de 10 minutos
Y = df['ArrDelay'] > 10
Y_test = df_test['ArrDelay'] > 10

# Ajustar el Support Vector Machine
# Se puede escoger muchos kernels, se recomienda el linear
clf = SVC(kernel = 'linear') # kernel='linear'
clf.fit(X,Y)

Y_pred = clf.predict(X_test)
# Parámetros principales para modificar el SVM
# C / Kernel
# C es un parámetro de regularización que controla el balance entre conseguir un error de training bajo y un error de training bajo
# La selección del tipo de kernel que queremos usar para ajustar nuestros datos debería responder a algún criterio específico a alguna particularidad que haga más adecuado el uso de uno por encima de los demás en nuestros datos concretos

# En la práctica,una opción habitual si lo que queremos es obtener un buen modelo predictivo, es usar la validación externa o, más interesante, la validació

In [6]:
# Ver el potencial predictivo
np.mean(Y_pred == Y_test)
# Clasifica correctamente el 77% porciento de los datos
# Con un kernel lineal aumenta a un 90% lo cual es alto por la cantidad de datos

0.775

In [None]:
# http://scikit-learn.org/stable/modules/svm.html#svm-kernels

# linear / poly / rbf / sigmoid -> Asociados a otros parámetros
# Estos kernels están asociados a otros parámetros

In [7]:
# Si se desea ajustar "support vector machines" con kernels lineales se recomienda la siguiente función
# Para kernels lineales -> LinearSVC()