# Support Vector Machines - Máquinas De Vectores Soporte (SVM)


Construiremos cuatro tipos de SVM para clasificar un dataset clasico muy conocido *Wine Dataset*, el dataset de clases de vinos.
Este dataset trae consigo 3 tipos de clases de vino, y un total de 178 instancias de estas instancias de vinos. Cada instancia trae 13 atributos y todos estos datos son reales positivos.

A continuación, se muestra cuantas instancias trae el dataset de cada clase:
- Clase 1: 59 instancias.
- Clase 2: 71 instancias.
- Clase 3: 48 instancias.

Primero, importamos todas las librerias necesarias para utilizar ciertas funciones, como por ejemplo, la funcion para adquirir el dataset, la función para utilizar el SVM en su forma de clasificador (Support Vector Classification - SVC) y otras funciones necesarias para medir la eficacia de los clasificadores.

In [1]:
from sklearn.datasets import load_wine
from sklearn import svm
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score

Primero cargamos el dataset en una variable data. En esta variable quedan los datos, las etiquetas y una pequeña descripción del dataset.

In [2]:
data = load_wine()
print(data)

{'target_names': array(['class_0', 'class_1', 'class_2'],
      dtype='|S7'), 'data': array([[  1.42300000e+01,   1.71000000e+00,   2.43000000e+00, ...,
          1.04000000e+00,   3.92000000e+00,   1.06500000e+03],
       [  1.32000000e+01,   1.78000000e+00,   2.14000000e+00, ...,
          1.05000000e+00,   3.40000000e+00,   1.05000000e+03],
       [  1.31600000e+01,   2.36000000e+00,   2.67000000e+00, ...,
          1.03000000e+00,   3.17000000e+00,   1.18500000e+03],
       ..., 
       [  1.32700000e+01,   4.28000000e+00,   2.26000000e+00, ...,
          5.90000000e-01,   1.56000000e+00,   8.35000000e+02],
       [  1.31700000e+01,   2.59000000e+00,   2.37000000e+00, ...,
          6.00000000e-01,   1.62000000e+00,   8.40000000e+02],
       [  1.41300000e+01,   4.10000000e+00,   2.74000000e+00, ...,
          6.10000000e-01,   1.60000000e+00,   5.60000000e+02]]), 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0,

Cargamos en una variable, unicamente los datos y en otra unicamente las etiquetas para empezar el proceso de clasificación.

In [3]:
X = data['data']
print X

[[  1.42300000e+01   1.71000000e+00   2.43000000e+00 ...,   1.04000000e+00
    3.92000000e+00   1.06500000e+03]
 [  1.32000000e+01   1.78000000e+00   2.14000000e+00 ...,   1.05000000e+00
    3.40000000e+00   1.05000000e+03]
 [  1.31600000e+01   2.36000000e+00   2.67000000e+00 ...,   1.03000000e+00
    3.17000000e+00   1.18500000e+03]
 ..., 
 [  1.32700000e+01   4.28000000e+00   2.26000000e+00 ...,   5.90000000e-01
    1.56000000e+00   8.35000000e+02]
 [  1.31700000e+01   2.59000000e+00   2.37000000e+00 ...,   6.00000000e-01
    1.62000000e+00   8.40000000e+02]
 [  1.41300000e+01   4.10000000e+00   2.74000000e+00 ...,   6.10000000e-01
    1.60000000e+00   5.60000000e+02]]


In [4]:
t = data['target']
print t

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]


En esta parte hacemos uso, de una función de gran ayuda, que nos permite separar nuestros datos y etiquetas, en una porción para entrenamiento (X_train, t_Train) y el resto de porcion para testeo (X_test, t_test). Los separamos de manera que quede el 70% de los datos en entrenamiento y el 30% restante en testeo. Esto lo comprobamos en la cantidad de las filas de nuestros datos. Usaremos los mismos datos de entrenamiento y test en todas las instancias de las SVC.

In [5]:
X_train, X_test, t_train, t_test = train_test_split(X, t, test_size=0.3)
print X.shape, X_train.shape, X_test.shape
print t.shape, t_train.shape, t_test.shape

(178L, 13L) (124L, 13L) (54L, 13L)
(178L,) (124L,) (54L,)


## SVC con kernel lineal

Construimos el SVC con un kernel lineal definido como {x, x'}. Lo entrenamos con los datos y etiquetas de entrenamiento (X_train, t_train) y testeamos con los datos de test (X_test) y este nos devuelve unas etiquetas que predice el SVC (t_pred), a estas etiquetas procederemos a compararla con las etiquetas de test (t_test).

In [6]:
linear_svc = svm.SVC(kernel='linear')
linear_svc.fit(X_train, t_train)
t_pred = linear_svc.predict(X_test)
print t_pred, t_test

[0 2 0 0 1 0 0 2 0 2 2 1 0 0 0 1 2 2 0 0 0 2 2 1 2 2 2 2 1 1 0 2 1 1 1 0 0
 2 2 1 1 1 1 0 2 1 2 2 1 1 1 1 1 0] [0 2 0 0 1 0 0 2 0 2 2 1 0 0 0 1 2 2 0 0 0 2 2 1 2 2 2 2 1 1 0 2 1 1 1 0 0
 2 1 1 1 1 1 0 2 1 2 2 1 1 1 1 1 0]


Creamos una matriz de confusión para que nos muestre de manera mas grafica, y estos nos dice que la SVC con kernel lineal, clasifico lo siguiente

| Clase | Correcto | Incorrecto |
|-------|----------|------------|
| 1     |     17   |      1     |
| 2     |    13    |     4      |
| 3     |    17    |     2      |

Correspondiendo esto a una efectividad del 87.03%

In [7]:
confusion_matrix(t_test, t_pred)

array([[17,  0,  0],
       [ 0, 19,  1],
       [ 0,  0, 17]], dtype=int64)

In [8]:
accuracy_score(t_test, t_pred)

0.98148148148148151

Por ultimo, mostramos los vectores de soporte

In [9]:
linear_svc.support_vectors_ 

array([[  1.30500000e+01,   1.77000000e+00,   2.10000000e+00,
          1.70000000e+01,   1.07000000e+02,   3.00000000e+00,
          3.00000000e+00,   2.80000000e-01,   2.03000000e+00,
          5.04000000e+00,   8.80000000e-01,   3.35000000e+00,
          8.85000000e+02],
       [  1.30500000e+01,   2.05000000e+00,   3.22000000e+00,
          2.50000000e+01,   1.24000000e+02,   2.63000000e+00,
          2.68000000e+00,   4.70000000e-01,   1.92000000e+00,
          3.58000000e+00,   1.13000000e+00,   3.20000000e+00,
          8.30000000e+02],
       [  1.35000000e+01,   1.81000000e+00,   2.61000000e+00,
          2.00000000e+01,   9.60000000e+01,   2.53000000e+00,
          2.61000000e+00,   2.80000000e-01,   1.66000000e+00,
          3.52000000e+00,   1.12000000e+00,   3.82000000e+00,
          8.45000000e+02],
       [  1.32400000e+01,   3.98000000e+00,   2.29000000e+00,
          1.75000000e+01,   1.03000000e+02,   2.64000000e+00,
          2.63000000e+00,   3.20000000e-01,   1.660

## SVC con kernel rbf

Ahora haremos la clasificacion pero con un kernel rbf, que esta definido como exp(-gamma ||x-x'||^2). En esta SVC tenemos gamma con un valor predefinido de 1/n donde n es la cantidad de instancias del X_train. Y hacemos el mismo proceso de entrenamiento y evaluación.

In [10]:
rbf_svc = svm.SVC(kernel='rbf')
rbf_svc.fit(X_train, t_train)
t_pred = rbf_svc.predict(X_test)
print t_pred, t_test

[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1] [0 2 0 0 1 0 0 2 0 2 2 1 0 0 0 1 2 2 0 0 0 2 2 1 2 2 2 2 1 1 0 2 1 1 1 0 0
 2 1 1 1 1 1 0 2 1 2 2 1 1 1 1 1 0]


La matriz de confusión nos dice lo siguiente:

| Clase | Correcto | Incorrecto |
|-------|----------|------------|
| 1     |     18   |      0     |
| 2     |    0    |     17      |
| 3     |    0    |     19      |

Correspondiendo esto a una efectividad del 3.15%

In [11]:
confusion_matrix(t_test, t_pred)

array([[ 1, 16,  0],
       [ 0, 20,  0],
       [ 0, 16,  1]], dtype=int64)

In [12]:
accuracy_score(t_test, t_pred)

0.40740740740740738

Y los vectores de soporte

In [13]:
rbf_svc.support_vectors_ 

array([[  1.30500000e+01,   1.77000000e+00,   2.10000000e+00, ...,
          8.80000000e-01,   3.35000000e+00,   8.85000000e+02],
       [  1.35800000e+01,   1.66000000e+00,   2.36000000e+00, ...,
          1.09000000e+00,   2.88000000e+00,   1.51500000e+03],
       [  1.33900000e+01,   1.77000000e+00,   2.62000000e+00, ...,
          9.20000000e-01,   3.22000000e+00,   1.19500000e+03],
       ..., 
       [  1.33200000e+01,   3.24000000e+00,   2.38000000e+00, ...,
          5.50000000e-01,   1.62000000e+00,   6.50000000e+02],
       [  1.25800000e+01,   1.29000000e+00,   2.10000000e+00, ...,
          5.80000000e-01,   1.55000000e+00,   6.40000000e+02],
       [  1.31600000e+01,   3.57000000e+00,   2.15000000e+00, ...,
          6.00000000e-01,   1.68000000e+00,   8.30000000e+02]])

## SVC con kernel polinomial

Siguiendo el proceso, ahora la clasificacion pero con un kernel polinomial, que esta definido como (gamma {x, x'} + r)^d. Donde d es definido como degree, r como coef0.Los cuales los dejamos por defecto que son degree igual a 3 y coef0 = 0.0 .En esta SVC tenemos gamma con un valor predefinido de 1/n donde n es la cantidad de instancias del X_train. Y hacemos el mismo proceso de entrenamiento y evaluación.

In [14]:
poly_svc = svm.SVC(kernel='poly')
poly_svc.fit(X_train, t_train)
t_pred = poly_svc.predict(X_test)
print t_pred, t_test

[0 2 0 0 1 0 0 2 0 2 2 1 0 0 0 1 1 2 0 0 0 1 2 1 2 2 2 2 1 1 0 2 1 1 1 0 0
 2 1 1 1 1 1 0 2 1 2 2 1 1 1 1 1 0] [0 2 0 0 1 0 0 2 0 2 2 1 0 0 0 1 2 2 0 0 0 2 2 1 2 2 2 2 1 1 0 2 1 1 1 0 0
 2 1 1 1 1 1 0 2 1 2 2 1 1 1 1 1 0]


La matriz de confusión nos dice lo siguiente:

| Clase | Correcto | Incorrecto |
|-------|----------|------------|
| 1     |     18   |      0     |
| 2     |    13    |     3      |
| 3     |    16    |     1      |

Correspondiendo esto a una efectividad del 87.03%

In [15]:
confusion_matrix(t_test, t_pred)

array([[17,  0,  0],
       [ 0, 20,  0],
       [ 0,  2, 15]], dtype=int64)

In [16]:
accuracy_score(t_test, t_pred)

0.96296296296296291

Los vecotres de soporte de la SVC

In [17]:
poly_svc.support_vectors_ 

array([[  1.35800000e+01,   1.66000000e+00,   2.36000000e+00,
          1.91000000e+01,   1.06000000e+02,   2.86000000e+00,
          3.19000000e+00,   2.20000000e-01,   1.95000000e+00,
          6.90000000e+00,   1.09000000e+00,   2.88000000e+00,
          1.51500000e+03],
       [  1.33000000e+01,   1.72000000e+00,   2.14000000e+00,
          1.70000000e+01,   9.40000000e+01,   2.40000000e+00,
          2.19000000e+00,   2.70000000e-01,   1.35000000e+00,
          3.95000000e+00,   1.02000000e+00,   2.77000000e+00,
          1.28500000e+03],
       [  1.30500000e+01,   2.05000000e+00,   3.22000000e+00,
          2.50000000e+01,   1.24000000e+02,   2.63000000e+00,
          2.68000000e+00,   4.70000000e-01,   1.92000000e+00,
          3.58000000e+00,   1.13000000e+00,   3.20000000e+00,
          8.30000000e+02],
       [  1.35000000e+01,   1.81000000e+00,   2.61000000e+00,
          2.00000000e+01,   9.60000000e+01,   2.53000000e+00,
          2.61000000e+00,   2.80000000e-01,   1.660

## SVC con kernel sigmoidal

Y por ultimo, usaremos un kernel sigmoidal. El cual esta definido como (tanh(gamma {x,x'} + r)), donde r esta definido como coef0 y tiene un valor por defecto de 0.0. Miremos que datos nos arroja este clasificador con este kernel.

In [18]:
sigmoid_svc = svm.SVC(kernel='sigmoid')
sigmoid_svc.fit(X_train, t_train)
t_pred = sigmoid_svc.predict(X_test)
print t_pred, t_test

[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1] [0 2 0 0 1 0 0 2 0 2 2 1 0 0 0 1 2 2 0 0 0 2 2 1 2 2 2 2 1 1 0 2 1 1 1 0 0
 2 1 1 1 1 1 0 2 1 2 2 1 1 1 1 1 0]


La matriz de confusión nos dice lo siguiente:

| Clase | Correcto | Incorrecto |
|-------|----------|------------|
| 1     |     18   |      0     |
| 2     |    0    |     17      |
| 3     |    0    |     19      |

Correspondiendo esto a una efectividad del 3.15%

In [19]:
confusion_matrix(t_test, t_pred)

array([[ 0, 17,  0],
       [ 0, 20,  0],
       [ 0, 17,  0]], dtype=int64)

In [20]:
accuracy_score(t_test, t_pred)

0.37037037037037035

Para terminar los vectores de soporte de la SVC 

In [21]:
sigmoid_svc.support_vectors_ 

array([[  1.30500000e+01,   1.77000000e+00,   2.10000000e+00, ...,
          8.80000000e-01,   3.35000000e+00,   8.85000000e+02],
       [  1.35800000e+01,   1.66000000e+00,   2.36000000e+00, ...,
          1.09000000e+00,   2.88000000e+00,   1.51500000e+03],
       [  1.33900000e+01,   1.77000000e+00,   2.62000000e+00, ...,
          9.20000000e-01,   3.22000000e+00,   1.19500000e+03],
       ..., 
       [  1.33200000e+01,   3.24000000e+00,   2.38000000e+00, ...,
          5.50000000e-01,   1.62000000e+00,   6.50000000e+02],
       [  1.25800000e+01,   1.29000000e+00,   2.10000000e+00, ...,
          5.80000000e-01,   1.55000000e+00,   6.40000000e+02],
       [  1.31600000e+01,   3.57000000e+00,   2.15000000e+00, ...,
          6.00000000e-01,   1.68000000e+00,   8.30000000e+02]])

En conclusión tenemos que, para este dataset, es mejor las SVC con kernel lineal y polinomial, que tienen un resultado de efectividad de mas del 87%. Y que no funciona muy bien las SVC kernel rbf y sigmoidal.