# Reconocimiento de patrones: Clasificación
### Ramón Soto C. [(rsotoc@moviquest.com)](mailto:rsotoc@moviquest.com/)
![ ](images/blank.png)
![agents](images/binary_data_under_a_magnifying.jpg)
[ver en nbviewer](http://nbviewer.ipython.org/github/rsotoc/pattern-recognition/blob/master/Clasificación%20IV.ipynb)

## Técnicas de clasificación: Máquinas de vectores de soporte


### El clasificador lineal

Las SVM se basan en la idea de definir planos de decisión que separen a los objetos pertenecientes a diferentes clases. Para simplificar la discusión consideremos únicamente dos clases $A$ y $B$.

![](images/classifier_plane.png)<br>

El hiperplano que separa las clases $A$ y $B$ se define en el espacio descrito por los vectores de características $\mathbf{x_i} =(x_{i,1},\dots, x_{i,n})$. Para cualquier problema, existe un número infinito de esos planos. 

![](images/classifier_plane2.png)<br>

El objetivo de clasificación es encontrar el hiperplano que separe mejor las regiones en el espacio de características ocupadas por cada una de las clases.

Cualquiera de estos hiperplanos puede describirse como el conjunto de puntos ${\mathbf {x}}$ para los cuales se cumple que

￼$$\mathbf {w}\cdot \mathbf {x} + b = 0$$

siendo $\mathbf {w}$ un vector normal al hiperplano y $b$ una constante tal que $$\frac {b}{\|{\mathbf {w}}\|}$$ es la distancia del hiperplano al origen a lo largo del vector $\mathbf {w}$.

Este hiperplano nos proporciona una regla de clasificación muy simple (*clasificador lineal*):

* Si $\mathbf {w} \cdot \mathbf x_{i} + b > 0$ entonces  $\mathbf x_{i} \in A$ (puntos por "arriba" del plano)<br><br>

* Si $\mathbf {w} \cdot \mathbf x_{i} + b < 0$ entonces  $\mathbf x_{i} \in B$ (puntos por "abajo" del plano)

O bien, si asociamos la clase $A$ con el valor $y^* = 1$ y la clase $B$ con el valor $y^* = -1$, entonces podemos reescribir más convenientemente 

* $\mathbf {w} \cdot \mathbf x_{i} + b > 0$ si  $y^*_i = 1$ <br><br>

* $\mathbf {w} \cdot \mathbf x_{i} + b < 0$ si  $y^*_i = -1$ 

Por supuesto, para $\mathbf {w} \cdot \mathbf x_{i} + b = 0$, no hay decisión; son los puntos en la frontera.


### Los hiperplanos de margen máximo y las SVM

La estrategia de las SVM es elegir como mejor hiperplano, aquel que maximiza la distancia hacia los puntos de entrenamiento. Se define entonces, una región llamada de **margen máximo** alrededor de este **hiperplano óptimo** que representa una *zona de seguridad*: El clasificador se construye tratando de que los datos de entrenamiento queden ubicados no sólo del lado correcto del hiperplano óptimo, sino incluso fuera del margen máximo. Si posteriormente un nuevo dato cae dentro de esa zona, pero aún del lado correcto del hiperplano óptimo, aún sigue estando bien clasificado. El margen máximo es la región delimitada por los vectores de entrenamiento más cercanos al hiperplano y que son los llamados **vectores de soporte**, de donde toma el nombre la técnica.

![](images/classifier_plane3.png)<br>

Los datos se clasifican sobre la base de los dos hiperplanos definidos por los vectores de soporte; el *hiperplano positivo* para $y^*_i = 1$ (clase $A$) y el *hiperplano negativo* para $y^*_i = -1$ (clase $B$). Estos hiperplanos, entonces, pueden describirse mediante las ecuaciones

* $\mathbf {w} \cdot \mathbf {x} + b = 1$, y<br><br>

* $\mathbf {w} \cdot \mathbf {x} + b = -1$.

La distancia entre estos dos hiperplanos es $\frac {2}{\|{\mathbf {w}}\|}$ de manera que, para maximizar la distancia, hay que minimizar $\|\mathbf {w}\|$ (o $\|{\mathbf {w}}\|^2$), con la restricción de que cada dato se quede dentro de su margen, es decir

* $y^*_i(\mathbf {w} \cdot \mathbf {x}_i + b) \geq 1 \quad \forall\quad  1\leq i\leq n$, siendo $n$ el número de datos de entrenamiento y $y^*_i\in[-1, 1]$.

El hiperplano óptimo se obtiene entonces minimizando la función $L(\mathbf {w}, b)$ con restricciones adicionales:

$$
\underset{\large \mathbf {w},\ b}{\min} L(\mathbf {w}, b) = \underset{\large \mathbf {w},\ b}{\min} \left( \frac{1}{2}\|{\mathbf {w}}\|^2 \right) \quad \text{sujeto a}\quad y^*_i(\mathbf {w} \cdot \mathbf {x}_i + b) \geq 1 \quad \forall i
$$

Este es un problema de optimización cuadrática sujeta a restricciones lineales. 

### Clasificador SVM de márgenes suaves

La formulación anterior para la construcción de un hiperplano óptimo se conoce como el *caso de márgenes estrictos*: se exige que **todos** los datos de entrenamiento quedan dispuestos del lado que corresponde a su clase. Sin embargo, en muchos casos reales, los datos están lejos de ser linealmente separables; en la imagen a) de la siguiente figura, por ejemplo, cualquier línea que trate de separar los datos de entrenamiento dejará, irremediablemente, vectores mal clasificados. 

![](images/classifier_plane4.png)

En casos como el mencionado antes existen dos opciones: a) utilizar otro tipo de función (computacionalmente más costosa) o b) "*flexibilizar*" las restricciones de clasificación, permitiendo al clasificador generar hiperplanos que dejen mal clasificados a un pequeño conjunto de datos. Esta estrategia, que permite seguir utilizando el clasificador lineal, es útil incluso en casos linealmente separables para aumentar el margen y con ello mejorar la generalización.

Para suavizar las restricciones reformulamos el problema de la siguiente manera:

$$
\underset{\large \mathbf {w},\ b,\ \xi}{\min} L(\mathbf {w}, b, \xi) = \underset{\large \mathbf {w},\ b,\ \xi}{\min} \left( \frac{1}{2}\|{\mathbf {w}}\|^2 + C\sum_{i=1}^n \xi_i \right)
\quad \text{sujeto a}\quad y^*_i(\mathbf {w} \cdot \mathbf {x}_i + b) \geq 1 - \xi_i, \quad \xi_i \geq 0
$$

Aquí se introducen dos elementos: los parámetros adicionales de optimización $\xi_i$, llamados **variables de holgura** (*slack variables*) y la constante de penalización $C$. Los términos $C\xi_i$ representan costos de penalización (al hiperplano candidato) por cada punto $\mathbf {x}_i$ que quede fuera de zona. Si $0<\xi_i\leq1$ el vector quedó bien clasificado, pero dentro de la zona de margen; si $\xi_i>1$, el vector queda mal clasificado. 

La constante $C>0$ es un parámetro de ajuste del método y representa qué tan estricta es el entrenamiento. Si $C$ es cercana a cero (penalización baja), entonces el entrenamiento es muy blando; esto significa que se tiene la libertad de crear una *zona de seguridad* amplia, aunque con muchos datos de entrenamiento que violan la restricción del margen. Si, por otra parte, $C\to \infty$, entonces el caso se aproxima al caso estricto, con pocos valores mal clasificados pero con una zona de seguridad pequeña, potencialmente debida a valores atípicos.

<hr style="border-width: 2px;">

Las [máquinas de vectores de soporte](https://en.wikipedia.org/wiki/Support_vector_machine) (**SVM**) son una de las aproximaciones de clasificación más utilizados en análisis de textos.
A continuación presentamos resultados de aplicación de máquina de vectores de soporte a la  clasificación de las revisiones de películas, utilizando diferentes valores de penalización.

In [2]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC, LinearSVC
import os
import time
from IPython.display import display

os.chdir('Data sets')

In [3]:
import nltk
from nltk.corpus import stopwords 
from sklearn.feature_extraction.text import TfidfVectorizer
from bs4 import BeautifulSoup
import re

movies_reviews = pd.read_csv("Movies Reviews/labeledTrainData.tsv", sep='\t')

# Limpiar los documentos. Conservar sólo plabras (alfabéticas) y pasar a minúsculas
movies_reviews.review = list(map(lambda row: re.sub("[^a-zA-Z]", " ", 
                                BeautifulSoup(row, "lxml").get_text().lower()), 
                                 movies_reviews.review))

# Agregar una columna con la conversión de mensajes a listas de palabras
# Se eliminan las palabras vacías
stops = set(stopwords.words("english"))                  
movies_reviews["words"] = list(map(lambda row: [w for w in row.split() if not w in stops], 
                                   movies_reviews.review))
display(movies_reviews.head(10))

# Calculo del vector de carcterísticas, utilizano los 4000 términos más importantes
vectorizer = TfidfVectorizer(stop_words='english', max_features = 4000)
X_data = vectorizer.fit_transform(movies_reviews.review)

# Generar un arreglo con los valores de clasificación
Sentiments = np.array([int(x) for x in movies_reviews.sentiment])

Unnamed: 0,id,sentiment,review,words
0,5814_8,1,with all this stuff going down at the moment w...,"[stuff, going, moment, mj, started, listening,..."
1,2381_9,1,the classic war of the worlds by timothy hi...,"[classic, war, worlds, timothy, hines, enterta..."
2,7759_3,0,the film starts with a manager nicholas bell ...,"[film, starts, manager, nicholas, bell, giving..."
3,3630_4,0,it must be assumed that those who praised this...,"[must, assumed, praised, film, greatest, filme..."
4,9495_8,1,superbly trashy and wondrously unpretentious ...,"[superbly, trashy, wondrously, unpretentious, ..."
5,8196_8,1,i dont know why people think this is such a ba...,"[dont, know, people, think, bad, movie, got, p..."
6,7166_2,0,this movie could have been very good but come...,"[movie, could, good, comes, way, short, cheesy..."
7,10633_1,0,i watched this video at a friend s house i m ...,"[watched, video, friend, house, glad, waste, m..."
8,319_1,0,a friend of mine bought this film for and ...,"[friend, mine, bought, film, even, grossly, ov..."
9,8713_10,1,this movie is full of references like mad ma...,"[movie, full, references, like, mad, max, ii, ..."


In [3]:
X_train, X_test, y_train, y_test = train_test_split(X_data, Sentiments, test_size=0.2)

In [4]:
svmLineal = LinearSVC(C=1)
start_time = time.time()
svmLineal.fit(X_train, y_train)
elapsed_time = time.time() - start_time

# Make an array of predictions on the test set
preds_Lineal = svmLineal.predict(X_test)
fails_Lineal = np.sum(y_test != preds_Lineal)
preds_train_Lineal = svmLineal.predict(X_train)
fails_train_Lineal = np.sum(y_train != preds_train_Lineal)
print("SVM Lineal, C=1 (default)\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Lineal, len(y_train), 100*fails_train_Lineal/len(y_train),
              fails_Lineal, len(y_test), 100*fails_Lineal/len(y_test), 
              svmLineal.score(X_test, y_test)*100, elapsed_time))

SVM Lineal, C=1 (default)
Puntos mal clasificados (entrenamiento): 1182 de 20000 (5.91%)       
Puntos mal clasificados (prueba): 646 de 5000 (12.92%)       
Aciertos del 87.08%
Tiempo: 0.16525006294250488



Otra serie de corridas

Corrida | Valor de $C$ | Puntos de entrenamiento mal clasificados | Puntos de prueba mal clasificados  
----| ----| ------ | 
0   | 0.1 | 8.39% | 12.4%
    | 0.5 | 6.49% | 13.0%
    | 1.0 | 5.83% | 13.52%
    | 100 | 3.47% | 17.98%
    | 500 | 3.58% | 18.76%
    | 1000 | 4.195% | 19.24%
1   | 0.1 | 8.405% | 12.64%
    | 0.5 | 6.56% | 13.04%
    | 1.0 | 5.84% | 13.58%
    | 100 | 3.415% | 17.7%
    | 500 | 3.85% | 18.36%
    | 1000 | 3.59% | 18.74%
2   | 0.1 | 8.57% | 11.98%
    | 0.5 | 6.685% | 11.9%
    | 1.0 | 5.985% | 12.42%
    | 100 | 3.92% | 16.94%
    | 500 | 4.73% | 17.54%
    | 1000 | 4.36% | 17.96%
3   | 0.1 | 8.46% | 12.44%
    | 0.5 | 6.48% | 12.72%
    | 1.0 | 5.83% | 13.22%
    | 100 | 3.42% | 17.96%
    | 500 | 3.23% | 18.98%
    | 1000 | 3.385% | 19.0%
4   | 0.1 | 8.53% | 11.9%
    | 0.5 | 6.55% | 12.58%
    | 1.0 | 6.01% | 13.12%
    | 100 | 3.615% | 16.74%
    | 500 | 3.58% | 17.76%
    | 1000 | 3.72% | 18.0%



De acuerdo con las pruebas realizadas podemos observar que, según lo esperado, al incrementar el valor de $C$ disminuye el número de puntos de entrenamiento mal clasificados, en este caso, hasta llegar a $C=500$ (en las pruebas realizadas). 

<Font style="color:red">**NOTA:**</Font> Es importante destacar que en realidad los únicos datos que conocemos son los de entrenamiento que, artificilmente dividimos en datos de "entrenamiento" y datos de prueba. Con estos datos conocidos (los de entrenamiento y los de prueba) esperamos entrenar el clasificador y estar preparados para datos nuevos, por ahora (realmente) **desconocidos**. De manera que reducir los errores en los datos de entrenamiento (en este caso al incrementar el valor de $C$) parece una buena decisión. 

El uso del clasificador sobre los datos de prueba, por otro lado, permiten observar que la reducción de errores de clasificación sobre los datos de entrenamiento, aumentando el valor de $C$, es decir, endureciendo las restricciones, tiene un costo alto en el nivel de generalización. 

Otro aspecto a observar en estos experimentos, es que para valores muy pequeños de $C$, el entrenamiento se ha vueto tan relajado que ya no hay aprendizaje.

![](images/classifier_plane5.png)

A continuación probaremos con otros datos conocidos. Los datos del Pima Indian Diabetes Dataset.

In [5]:
df = pd.read_csv("Pima Indian Data Set/pima-indians-diabetes.data", 
                 names = ['emb', 'gl2h', 'pad', 'ept', 'is2h', 'imc', 'fpd', 'edad', 'class'])

df.loc[df['pad'] == 0,'pad'] = np.nan
df.loc[df['ept'] == 0,'ept'] = np.nan
df.loc[df['is2h'] == 0,'is2h'] = np.nan
df.loc[df['imc'] == 0,'imc'] = np.nan
df = df.dropna()

df_pure = df[list(['emb', 'gl2h', 'pad', 'ept', 'is2h', 'imc', 'fpd', 'edad'])]
df_class = df[list(['class'])]

In [6]:
X_trainPID, X_testPID, y_trainPID, y_testPID = train_test_split(
    df_pure.values, df_class.values.ravel(), test_size=.2)

In [7]:
svmLineal = LinearSVC()
start_time = time.time()
svmLineal.fit(X_trainPID, y_trainPID)
elapsed_time = time.time() - start_time

preds_train_Lineal = svmLineal.predict(X_trainPID)
fails_train_Lineal = np.sum(y_trainPID != preds_train_Lineal)

preds_Lineal = svmLineal.predict(X_testPID)
fails_Lineal = np.sum(y_testPID != preds_Lineal)

print("SVM Lineal, C=1 (default)\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Lineal, len(y_trainPID), 100*fails_train_Lineal/len(y_trainPID),
              fails_Lineal, len(y_testPID), 100*fails_Lineal/len(y_testPID), 
              svmLineal.score(X_testPID, y_testPID)*100, elapsed_time))

SVM Lineal, C=1 (default)
Puntos mal clasificados (entrenamiento): 86 de 314 (27.388535031847134%)       
Puntos mal clasificados (prueba): 24 de 79 (30.379746835443036%)       
Aciertos del 69.62025316455697%
Tiempo: 0.011340856552124023



Los datos obtenidos en 5 corridas arrojan lo siguiente:

Corrida | Valor de $C$ | Puntos de entrenamiento mal clasificados | Puntos de prueba mal clasificados  
----| ----| ------ | 
0   | 0.1 | 67.20% | 62.03%
    | 0.5 | 32.48% | 34.18%
    | 1.0 | 32.48% | 34.18%
    | 100 | 32.48% | 35.44%
    | 500 | 53.18% | 48.10%
    | 1000 | 32.80% | 35.44%
1   | 0.1 | 24.52% | 35.444%
    | 0.5 | 31.84% | 30.38%
    | 1.0 | 60.19% | 59.49%
    | 100 | 33.44% | 31.65%
    | 500 | 33.44% | 31.65%
    | 1000 | 33.44% | 30.38%
2   | 0.1 | 27.07% | 29.11%
    | 0.5 | 46.82% | 51.90%
    | 1.0 | 27.07% | 25.323%
    | 100 | 34.08% | 26.58%
    | 500 | 34.39% | 26.58%
    | 1000 | 51.59% | 63.29%
3   | 0.1 | 34.71% | 26.58%
    | 0.5 | 33.76% | 26.58%
    | 1.0 | 29.94% | 25.32%
    | 100 | 30.25% | 17.72%
    | 500 | 30.25% | 17.72%
    | 1000 | 34.40% | 26.58%
4   | 0.1 | 30.25% | 30.38%
    | 0.5 | 33.44% | 31.65%
    | 1.0 | 32.80% | 31.65%
    | 100 | 65.29% | 68.35%
    | 500 | 39.81% | 34.18%
    | 1000 | 33.44% | 31.65%

A partir de estos resultdos podemos observar que, en este caso, no hay un valor de $C$ claramente superior.

### Funciones kernel (núcleo) 

Las máquinas de vectores de soporte se basan en la idea de utilizar hiperplanos para separar, mediante artefactos lineales, un conjunto de datos en dos clases. Cuando tenemos clases no bien separadas, aún podemos utilizar las VSM para clasificar los datos, flexibilizando la construcción de los hiperplanos y aceptando, implícitamente, la existencia de algunos datos mal clasificados. Sin embargo, en muchos casos, los datos presentan una naturaleza inherentemente no lineales, por lo cual, el uso de hiperplanos para separar las clases no es una buena elección.

![](images/classifier_plane6.png)

Una alternativa, para utilizar las VSM en datos no lineales es transformar los datos mediante una transformación $\phi : \mathbb{R}^N \to \mathbb{R}^{N+d}$ tal que los datos "equivalentes" sean linealmente separables en el nuevo espacio $\mathbb{R}^{N+d}$. En el caso anterior, por ejemplo, es posible separar los datos con un hiperplano si utilizamos la transformación $\phi ([x, y]) = [x, y, x^2+y^2]$, donde $N=2$ y $d=1$. Analizando los datos en el espacio ampliado, con esta dimensión adicional, podemos claramente separar los puntos mediante un hiperplano, como se muestra en la figura:

![](images/classifier_plane7.png)

El nuevo hiperplano óptimo puede expresarse como 

￼$$\mathbf {w}\cdot \phi(\mathbf {x}) + b = 0$$

Esta estrategia parece ser una buena solución, sin embargo, el costo computacional puede ser muy alto si crece el valor de $d$. Para problemas con un gran número de atributos el costo se vuelve intratable. 

Sin embargo, el clasificador no requiere trabajar directamente en el espacio aumentado, ni durante el entrenamiento ni durante la prueba. Puede demostrarse (mediante multiplicadores de Lagrange) que (para el hiperplano original)

$$\mathbf {w} = \sum _{i=1}^n c_i y_i \mathbf {x}_i$$

donde los $c_i$ son constantes de optimización. Entonces, podemos reescribir

￼$$\sum _{i=1}^n c_i y_i \left( \phi(\mathbf {x}_i) \cdot \phi(\mathbf {x}) \right) + b = 0$$


De donde se desprende que lo que requermos es calcular los productos interiores modificados de los vectores de entrenamiento: 

$$\phi(\mathbf {x}_i) \cdot \phi(\mathbf {x})$$


Dado un espacio de características $\mathcal {X}$, existen ciertas funciones $k\colon \mathcal {X}\times \mathcal {X}\to \mathbb {R} $ que, pueden expresarse como producto interior en otro espacio $\mathcal {V}$. Este tipo de funciones se sele denominar como un *kernel* o *función kernel*.

#### Tipos de funciones kernel
**Funciones de base radial - RBF**. Una **función de base redial** (*radial basis function - RBF*) es una función real $\phi (\mathbf {x})$ cuyo valor para un punto dado $\mathbf {x}$ depende únicamente de la distancia de $\mathbf {x}$ al origen, de manera que $\phi (\mathbf {x})=\phi (\|\mathbf {x} \|)$ o, alternativamente, de la distancia de $\mathbf {x}$ a otro punto cualquiera $\mathbf {c}$, tal que $\phi (\mathbf {x}, \mathbf {c} ) = \phi (\|\mathbf {x} -\mathbf {c} \|)$. 

Una de estas funciones, utilizada muy frecuentemente como función kernel en diversos clasificadores, particularmente en máquinas de vectores de soporte, y llamada *función kernel de base radial* es:

$$K(\mathbf {x}, \mathbf {x'} ) = \exp(-\gamma ||\mathbf {x} -\mathbf {x'} ||^{2})$$

con $\gamma =\frac {1}{2\sigma ^{2}}$.

A continuación mostramos los resultados de varias corridas utilizando una máquina de vectores de soporte con función kernel RBF y diversos valores de penalización sobre los datos de revisiones de películas.

In [8]:
svmRbf = SVC(kernel='rbf', C=1.0)
start_time = time.time()
svmRbf.fit(X_train, y_train)
elapsed_time = time.time() - start_time

preds_train_Rbf = svmRbf.predict(X_train)
fails_train_Rbf = np.sum(y_train != preds_train_Rbf)

preds_Rbf = svmRbf.predict(X_test)
fails_Rbf = np.sum(y_test != preds_Rbf)

print("SVM RBF, C=1.0\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Rbf, len(y_train), 100*fails_train_Rbf/len(y_train),
              fails_Rbf, len(y_test), 100*fails_Rbf/len(y_test), 
              svmRbf.score(X_test, y_test)*100, elapsed_time))

SVM RBF, C=1.0
Puntos mal clasificados (entrenamiento): 9991 de 20000 (49.955%)       
Puntos mal clasificados (prueba): 2509 de 5000 (50.18%)       
Aciertos del 49.82%
Tiempo: 189.208477973938



Los experimentos obtenidos en 5 corridas con los datos de revisiones de películas arrojan lo siguiente:

Corrida | Valor de $C$ | Error en entrenamiento mal clasificados | Puntos de prueba mal clasificados  
----| ----| ------ | 
0   | 0.1 | 49.91% | 50.36%
    | 0.5 | 49.91% | 50.36%
    | 1.0 | 49.91% | 50.36%
    | 100 | 13.06% | 13.94%
    | 500 | 9.335% | 12.18%
    | 1000 | 8.395% | 12.34%
1   | 0.1 | 49.895% | 50.42%
    | 0.5 | 49.895% | 50.42%
    | 1.0 | 49.895% | 50.42%
    | 100 | 12.7% | 14.54%
    | 500 | 9.25% | 12.98%
    | 1000 | 8.12% | 12.82%
2   | 0.1 | 49.62% | 51.52%
    | 0.5 | 49.62% | 51.52%
    | 1.0 | 49.62% | 51.52%
    | 100 | 12.825% | 14.82%
    | 500 | 9.25% | 13.1%
    | 1000 | 8.195% | 13.08%
3   | 0.1 | 49.9% | 50.4%
    | 0.5 | 49.9% | 50.4%
    | 1.0 | 49.9% | 50.4%
    | 100 | 12.875% | 13.9%
    | 500 | 9.435% | 11.92%
    | 1000 | 8.445% | 11.82%
4   | 0.1 | 49.55% | 51.8%
    | 0.5 | 49.55% | 51.8%
    | 1.0 | 49.55% | 51.8%
    | 100 | 12.57% | 14.98%
    | 500 | 9.22% | 13.74%
    | 1000 | 8.135% | 13.86%

Observamos que ahora los mejores resultados se obtienen para valores de penalización de alrededor de 500. Los resultados parecen ser estables, sin embargo, la complejidad de la técnica es superior, por lo que no parece ser mejor elección que el clasificador lineal (que en este problema arroja resultados ya singularmente buenos).

A continuación presentamos los resultados obtenidos al utilizar una SVM con función RBF sobre los datos de diabetes:

In [9]:
svmRbf = SVC(kernel='rbf')
start_time = time.time()
svmRbf.fit(X_trainPID, y_trainPID)
elapsed_time = time.time() - start_time

preds_train_Rbf = svmRbf.predict(X_trainPID)
fails_train_Rbf = np.sum(y_trainPID != preds_train_Rbf)

preds_Rbf = svmRbf.predict(X_testPID)
fails_Rbf = np.sum(y_testPID != preds_Rbf)

print("SVM RBF, C=1.0\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Rbf, len(y_trainPID), 100*fails_train_Rbf/len(y_trainPID),
              fails_Rbf, len(y_testPID), 100*fails_Rbf/len(y_testPID), 
              svmRbf.score(X_testPID, y_testPID)*100, elapsed_time))

SVM RBF, C=1.0
Puntos mal clasificados (entrenamiento): 0 de 314 (0.0%)       
Puntos mal clasificados (prueba): 30 de 79 (37.9746835443038%)       
Aciertos del 62.0253164556962%
Tiempo: 0.004086017608642578



Corrida | Valor de $C$ | Error en entrenamiento mal clasificados | Puntos de prueba mal clasificados  
----| ----| ------ | 
0   | 0.1 | 34.08% | 29.11%
    | 0.5 | 34.08% | 29.11%
    | 1.0 | 0.0% | 29.11%
    | 100 | 0.0% | 29.11%
    | 500 | 0.0% | 29.11%
    | 1000 | 0.0% | 29.11%
1   | 0.1 | 34.71% | 26.58%
    | 0.5 | 34.71% | 26.58%
    | 1.0 | 0.0% | 26.58%
    | 100 | 0.0% | 26.58%
    | 500 | 0.0% | 26.58%
    | 1000 | 0.0% | 26.58%
2   | 0.1 | 31.53% | 39.24%
    | 0.5 | 31.53% | 39.24%
    | 1.0 | 0.0% | 39.24%
    | 100 | 0.0% | 39.24%
    | 500 | 0.0% | 39.24%
    | 1000 | 0.0% | 39.24%
3   | 0.1 | 30.25% | 44.30%
    | 0.5 | 30.25% | 44.30%
    | 1.0 | 0.0% | 44.30%
    | 100 | 0.0% | 44.30%
    | 500 | 0.0% | 44.30%
    | 1000 | 0.0% | 44.30%
4   | 0.1 | 32.48% | 35.44%
    | 0.5 | 32.48% | 35.44%
    | 1.0 | 0.0% | 35.44%
    | 100 | 0.0% | 35.44%
    | 500 | 0.0% | 35.44%
    | 1000 | 0.0% | 35.44%
    
En estos resultados observamos que: 1) Los resultados no son estables, con errores que oscilan entre 26.58% y 44.30% con los mismos datos y tan sólo diferentes particiones para datos de entrenamiento y de prueba. 2) No hay, en las pruebas realizadas, ningún efecto de la penalización en la clasificación de los datos de prueba, a pesar de alcanzar 0% de erorres en los datos de entrenamiento. Los resultados mejoran si normalizamos los datos:

Corrida | Valor de $C$ | Error en entrenamiento mal clasificados | Puntos de prueba mal clasificados  
----| ----| ------ | 
0   | 0.1 | 33.76% | 30.38%
    | 0.5 | 28.03% | 29.11%
    | 1.0 | 20.06% | 24.05%
    | 100 | 18.15% | 24.05%
    | 500 | 16.56% | 25.32%
    | 1000 | 16.56% | 24.05%
    | 5000 | 14.65% | 21.52%
1   | 0.1 | 33.76% | 30.38%
    | 0.5 | 27.39% | 27.85%
    | 1.0 | 21.66% | 22.78%
    | 100 | 19.11% | 21.52%
    | 500 | 17.20% | 21.52%
    | 1000 | 16.88% | 21.52%
    | 5000 | 15.29% | 21.52%
2   | 0.1 | 32.17% | 36.71%
    | 0.5 | 29.62% | 37.97%
    | 1.0 | 22.93% | 20.25%
    | 100 | 19.75% | 21.52%
    | 500 | 17.52% | 17.72%
    | 1000 | 17.52% | 16.46%
    | 5000 | 15.61% | 17.72%
3   | 0.1 | 32.16% | 36.71%
    | 0.5 | 32.48% | 36.71%
    | 1.0 | 21.66% | 25.32%
    | 100 | 19.43% | 22.78%
    | 500 | 18.15% | 25.32%
    | 1000 | 16.24% | 22.78%
    | 5000 | 14.65% | 24.05%
4   | 0.1 | 32.80% | 34.18%
    | 0.5 | 31.53% | 34.18%
    | 1.0 | 22.93% | 21.52%
    | 100 | 19.43% | 21.52%
    | 500 | 17.83% | 20.25%
    | 1000 | 18.15% | 18.99%
    | 5000 | 14.33% | 22.78%

El otro gran parámetro de la función kernel RBF es $\gamma$. A continuación mostramos variaciones del valor de $\gamma$ en ejercicios de clasificación sobre los datos de diabetes originales y sobre los datos normalizados.

In [10]:
svmRbf = SVC(kernel='rbf', C=500, gamma=0.1)
start_time = time.time()
svmRbf.fit(X_trainPID, y_trainPID)
elapsed_time = time.time() - start_time

preds_train_Rbf = svmRbf.predict(X_trainPID)
fails_train_Rbf = np.sum(y_trainPID != preds_train_Rbf)

preds_Rbf = svmRbf.predict(X_testPID)
fails_Rbf = np.sum(y_testPID != preds_Rbf)

print("SVM RBF, C=500\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Rbf, len(y_trainPID), 100*fails_train_Rbf/len(y_trainPID),
              fails_Rbf, len(y_testPID), 100*fails_Rbf/len(y_testPID), 
              svmRbf.score(X_testPID, y_testPID)*100, elapsed_time))

SVM RBF, C=500
Puntos mal clasificados (entrenamiento): 0 de 314 (0.0%)       
Puntos mal clasificados (prueba): 30 de 79 (37.9746835443038%)       
Aciertos del 62.0253164556962%
Tiempo: 0.005285978317260742



Corrida | Valor de $\gamma$ | Error en entrenamiento mal clasificados | Puntos de prueba mal clasificados  
----| ----| ------ | 
0   | 0.1 | 24.52% | 16.46%
    | 0.3 | 22.29% | 15.19%
    | 0.5 | 22.29% | 16.46%
    | 0.8 | 21.97% | 16.46%
    | 1.0 | 21.02% | 15.19%
1   | 0.1 | 23.25% | 20.25%
    | 0.3 | 21.66% | 15.19%
    | 0.5 | 21.34% | 15.19%
    | 0.8 | 20.06% | 13.92%
    | 1.0 | 19.43% | 13.92%
2   | 0.1 | 25.16% | 24.05%
    | 0.3 | 20.70% | 20.25%
    | 0.5 | 20.70% | 20.25%
    | 0.8 | 20.38% | 20.25%
    | 1.0 | 19.75% | 20.25%
3   | 0.1 | 19.75% | 32.91%
    | 0.3 | 18.47% | 30.38%
    | 0.5 | 18.79% | 30.38%
    | 0.8 | 18.15% | 32.91%
    | 1.0 | 18.47% | 31.65%
4   | 0.1 | 23.57% | 21.52%
    | 0.3 | 21.66% | 20.25%
    | 0.5 | 20.70% | 22.78%
    | 0.8 | 19.75% | 21.52%
    | 1.0 | 19.43% | 22.78%
    
Los resultados no son estables, sin embargo, se aprecia cierta mejoría en algunos casos. 

Existe una gran variedad de [funciones kernel](http://crsouza.com/2010/03/17/kernel-functions-for-machine-learning-applications/). Otras  dos funciones soportadas por la biblioteca *sklearn* de Python, son el kernel **[sigmoide](https://es.wikipedia.org/wiki/Función_sigmoide)** y el kernel **[polinomial](https://en.wikipedia.org/wiki/Polynomial_kernel)**. Este último, sin embargo, es poco escalable.

In [11]:
svmSgm = SVC(kernel='sigmoid')
start_time = time.time()
svmSgm.fit(X_train, y_train)
elapsed_time = time.time() - start_time

preds_train_Sgm = svmSgm.predict(X_train)
fails_train_Sgm = np.sum(y_train != preds_train_Sgm)

preds_Sgm = svmSgm.predict(X_test)
fails_Sgm = np.sum(y_test != preds_Sgm)

print("Películas:\nSVM Sigmoide, C=1.0\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Sgm, len(y_train), 100*fails_train_Sgm/len(y_train),
              fails_Sgm, len(y_test), 100*fails_Sgm/len(y_test), 
              svmSgm.score(X_test, y_test)*100, elapsed_time))

Películas:
SVM Sigmoide, C=1.0
Puntos mal clasificados (entrenamiento): 9991 de 20000 (49.955%)       
Puntos mal clasificados (prueba): 2509 de 5000 (50.18%)       
Aciertos del 49.82%
Tiempo: 189.41826796531677



In [12]:
svmSgm = SVC(kernel='sigmoid')
start_time = time.time()
svmSgm.fit(X_trainPID, y_trainPID)
elapsed_time = time.time() - start_time

preds_train_Sgm = svmSgm.predict(X_trainPID)
fails_train_Sgm = np.sum(y_trainPID != preds_train_Sgm)

preds_Sgm = svmSgm.predict(X_testPID)
fails_Sgm = np.sum(y_testPID != preds_Sgm)

print("Diabetes\nSVM Sigmoide, C=1.0\nPuntos mal clasificados (entrenamiento): {} de {} ({}%)\
       \nPuntos mal clasificados (prueba): {} de {} ({}%)\
       \nAciertos del {}%\nTiempo: {}\n"
      .format(fails_train_Sgm, len(y_trainPID), 100*fails_train_Sgm/len(y_trainPID),
              fails_Sgm, len(y_testPID), 100*fails_Sgm/len(y_testPID), 
              svmSgm.score(X_testPID, y_testPID)*100, elapsed_time))

Diabetes
SVM Sigmoide, C=1.0
Puntos mal clasificados (entrenamiento): 100 de 314 (31.84713375796178%)       
Puntos mal clasificados (prueba): 30 de 79 (37.9746835443038%)       
Aciertos del 62.0253164556962%
Tiempo: 0.0015859603881835938



<hr style="border-width: 3px;">

### Tarea 11

* Haga una revisión de ventajas e inconvenientes de las máquinas de vectores de soporte.
* Utilice máquinas de vectores de soporte en su proyecto.

**Fecha de entrega**: Martes 18 de abril.