# Tarea 2-Aprendizaje de Máquinas Probabilítico
* Profesor: Felipe tobar
* Aux: Alejandro Cuevas y Alejandro Veragua

* Preguntas: Ucursos

# Parte a: Support vector machines
## Descripción:
* Implementar un algoritmo `support vector machine` para clasificación usando `sklearn`.
* La tarea se dividirá en 2 partes:
    * Tutorial `SVM` con `sklearn`, implementar kernels gaussianos.
    * Diseñar un clasificador multiclase para la base de datos de MNIST usando kernel gaussiano en adición con un kernel extra implementado a su elección.
* Entregue este mismo notebook de `Python` con sus desarrollos.

In [1]:
import numpy as np
import scipy as sp

# Actividad 1: SVM y sklearn

## Cargar datos ( igual que P3 - Tarea 1, Otoño 2017)
Cargamos los datos del archivo 'datosT1P3.txt' de la P3 de la tarea pasada, donde se trata de un problema de clasificación binaria (clases 0, 1) de 2 dimensiones.


In [None]:
#carga de datos
data = np.genfromtxt('datosT1P3.txt',delimiter=',')
X = data[:2, :]
Y = data[2, :].astype(int)
print('Dimension de los datos de entrada: ', X.shape)
print('Dimension de etiquetas: ', Y.shape)


* Separe los los datos en 2 conjuntos:
    * conjunto de entrenamiento (70%).
    * conjunto de prueba (30%).


In [None]:
#división de los conjuntos de entrenamiento y prueba
X_train =
X_test = 
y_train = 
y_test = 

* Grafique los datos con su respectiva etiqueta.

In [None]:
import matplotlib.pylab as plt


plt.show()

In [None]:
# funcion para visualizar la region de clasificación para el caso bidimensional
def plot_region(X, Y, classifier, title='Region de clasificacion de SVM'):
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    h = np.abs(x_max / x_min)/20
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    Z = classifier.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    plt.figure(figsize=(6,6))
    plt.contourf(xx, yy, Z, cmap=plt.cm.Paired, alpha=0.8)

    plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=plt.cm.Paired)
    plt.xlim(xx.min(), xx.max())
    plt.title(title)
    plt.show()

In [None]:
# funcion para visualizar y graficar la matriz de confusion 
from sklearn.metrics import confusion_matrix
import itertools

def plot_confusion_matrix(cm, classes, normalize=False, title='Confusion matrix', cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    Normalization can be applied by setting `normalize=True`.
    """
    plt.figure(figsize=(8,8))
    plt.title(title)
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        cm = np.round(cm, decimals=3)

        print("Normalized confusion matrix")
    else:
        print('Confusion matrix, without normalization')


    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, cm[i, j],
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")
    plt.imshow(cm, interpolation='nearest', cmap=cmap)

    plt.colorbar()

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')
    plt.show()

## Support Vector Machines y Scikit-Learn

Las support vector machines resuelven el siguiente problema de optimización:

$\hspace{1.4cm}  \min_{\texttt{w}, b, \xi}{\frac{1}{2}\texttt{w}^\texttt{T}\texttt{w}} + C \sum_{i=1}^n \xi_i$


s.a. $\hspace{1cm} y_n(\texttt{w}^\texttt{T}\phi(x_i) + b) \geq 1-\xi_i \hspace{1cm} n=1,2,...,N$


$\hspace{1.8cm} \texttt{w} \in \mathbb{R}^d \hspace{0.5cm} b \in \mathbb{R}$

Para ello se utilizará la librería `sklearn` la cual provee una implementación de `SVM` para clasificación. Por ejemplo, para configurar `SVM` con los datos anterior junto a un kernel polinomial, primero se define el kernel de la forma:

### Kernel polinomial
Un kernel polinomial de grado $d$ queda definido como:
$$\mathbf{K}(X,Y) = (x \cdot y + c)^d$$

Donde el método recibirá la matriz de Gram evaluada con el kernel.

In [None]:
def polynomial_kernel(x, y, degree=2, coef=0.1):
    k = np.dot(x, y)
    k += coef
    k **= degree
    return k

def gram_matrix_poly(X, Y):
    G = np.zeros((X.shape[0], Y.shape[0]))
    for i, x in enumerate(X):
        for j, y in enumerate(Y):
            G[i,j] = polinomial_kernel(x, y, degree, bias)
    return G

 Luego el `SVM` se invoca de la forma:

In [None]:
from sklearn import svm
from sklearn.metrics import accuracy_score

degree, bias = 3, 1  # parametros del kernel
clf = svm.SVC(kernel=gram_matrix_poly,  C=1)  # crea el clasificador
clf.fit(X_train, y_train) # entrena 
print('Support vectors por clase: ' ,clf.n_support_)
Y_pred = clf.predict(X_test)  # clasifica

print ("Accuracy on test set: " , accuracy_score(y_test, Y_pred, normalize=True))

Experimente con disintos parámetros del kernel.

In [None]:
# grafico la region de clasificación para el SVM entrenado
plot_region(X_train, y_train, clf, 'Region de clasificacion kernel polinomial')

In [None]:
# grafica la matriz de confusión
cm = confusion_matrix(y_test, Y_pred)
classes_name = ['0', '1']
plot_confusion_matrix(cm, classes_name , normalize=True)

### Kernel RBF (gaussiano)
El kernel gaussiano se define de la forma y tiene un único parámetro que denotamos $\gamma$:
$$\mathbf{K}(x,y) = \exp \big{(}-\gamma{\lVert x-y \rVert^2} \big{)}$$


#  Actividad 2:
* Implemente el kernel gaussiano y clasifique los datos de tarea 1 pregunta 3.
* Comente sobre la variación del parámetro $\gamma$, ¿Qué pasa para disintos valores de este?, ¿Qué interpretación tiene?
* Grafique la región de clasificación para este caso ¿Cómo cambia con respecto al caso polinomial?

Para esto, le puede ser útil la [documentación del método](http://scikit-learn.org/stable/modules/svm.html)

In [None]:
def gaussian_kernel(u, v, gamma):
    
    
def gram_matrix_gaussian(X, Y):
   

In [None]:
Y_pred = clf.predict(X_test)

print ("Accuracy on test set: " , accuracy_score(y_test, Y_pred, normalize=True))

In [None]:
plot_region(X_train, y_train, clf)

# SVM y MNIST

Para esta parte de la tarea se trabajará con el set de datos [MNIST](http://yann.lecun.com/exdb/mnist/), el cual contiene datos de escritura para dígitos del 1 al 10, donde cada imagen de `28x28` es representada por un vector fila de dimensión 784.

Su primera tarea será descargar este set de datos y visualizarlos. Para facilitar la lectura de la base de datos se recomienda descargar un parser de MNIST, por ejemplo [este](https://github.com/sorki/python-mnist). 

### Preámbulo: Descargar e importar base de datos

Descargue los siguientes archivos de la página de MNIST:
 * `train-images-idx3-ubyte.gz`
 * `train-labels-idx1-ubyte.gz`
 * `t10k-images-idx3-ubyte.gz`
 * `t10k-labels-idx1-ubyte.gz`
 
Estos archivos contienen conjuntos de entrenamiento y prueba que serán utilizados por su algoritmo. Si descargó el parser recomendado en el paso anterior, la carga de datos en python es de la siguiente forma (asumiendo que los archivos descomprimidos están en la carpeta `/MNIST_data`):

In [None]:
from mnist import MNIST
mndata = MNIST('MNIST_data')
train_images, train_labels = mndata.load_training()
test_images, test_labels = mndata.load_testing()

Si la carga de datos fue correcta, se podrán visualizar las imágenes, para esto, primero se debe pasar a formato `numpy array`, y luego para cada imagen que se quiera mostrar pasar el vector fila a una matriz de `28x28`.

In [None]:
# Convertir datos al formato de numpy
X1_train = np.array(train_images)
y1_train = np.array(train_labels)
X1_test = np.array(test_images)
y1_test = np.array(test_labels)

In [None]:
# Mostrar primeras 24 imágenes de entrenamiento
plt.figure(figsize=(15,5))
for i in range(24):
    plt.subplot(3,8,i+1)
    plt.imshow(X1_train[i].reshape((28,28)), cmap='gray')
    plt.title('label: ' + str(y1_train[i]))
    plt.gca().axes.get_xaxis().set_visible(False) # borrar eje x
    plt.gca().axes.get_yaxis().set_visible(False) # borrar eje y
plt.tight_layout()
plt.show()

In [None]:
print ("Dimensión de vectores de características: %d" % (np.shape(X1_train)[1]) )# 784
print ("Nº de imágenes de entrenamiento: %d" % (len(X1_train)) ) # 60000
print ("Nº de imágenes de prueba: %d" % (len(X1_test)) ) # 10000

# Actividad 3:
* Implemente un clasificador multiclase para la base de datos `MNIST` usando `SVM` y muestre su matriz de confusión.
* Comente sobre su estrategia para el problema multiclase ¿Como el `SVM` separá en múltiples clases?.
* Implemente un kernel a elección adicional fundamentando su desición y comparé resultados ¿Cómo afectan los parámetros de su nuevo kernel?.

Puede notar que para este caso de cada muestra es de dimensión 784, por lo que podría plantear un método de reducción de dimensionalidad, u obtener características por sobre las imágenes. Se recomienda usar principal component analysis.

Una pagina con sugerencia de kernels [aqui](http://crsouza.com/2010/03/17/kernel-functions-for-machine-learning-applications/)

In [None]:
print ("Accuracy on test set: " , accuracy_score(y_test, Y_pred, normalize=True))

cm = confusion_matrix(y1_test, Y1_pred)
classes_name = ['0', '1', '2', '3', '4', '5', '6','7', '8', '9']
plot_confusion_matrix(cm, classes_name , normalize=True)