# Entendiendo KMeans con MNIST dataset

En esta práctica vamos a entender cómo funciona el algoritmo de clústering MNIST con ayuda de dataset de MNIST.

Lo primero que debemos hacer es cargar la librería `sklearn`:

In [0]:
import sklearn

A continuación, cargamos el dataset de MNIST, que ha sido denominado `digits`:

In [0]:
from sklearn.datasets import load_digits
mnist = load_digits()

Este dataset contiene un total de 1797 imágenes de dígitos manuscritos en imágenes de una resolución de 8x8 píxeles. Los dígitos van desde el 0 hasta el 9, por lo que, en total, hay 10 clases diferentes. El dataset está balanceado puesto que hay, aproximadamente, 180 muestras por cada clase.

El dataset está preparado para que podamos visualizar la imágenes de los dígitos. En concreto, el campo `images` contiene una matriz cuadrada bidimensional de 8 filas y 8 columnas en las que cada valor se corresponde con la cantidad de color negro de un pixel.

Veamos como se ha codificado:

In [0]:
# Comprueba el valor que tiene mnist.images[0]. ¿Qué observas? ¿Sabes de qué número se trata?

En lugar de una representación matricial de los número podemos obtener, con ayuda de MatPlotLib una representación gráfica de los mismos.

Para ello, debemos cargar la librería MatPlotLib:

In [0]:
import matplotlib.pyplot as plt

Y escribir una función que permita pintar un array dígitos manuscritos:

In [0]:
import math
def paint_digits (images):
  for index, image in enumerate(images):
    plt.subplot(math.ceil(len(images)/5), 5, index + 1)
    plt.axis('off')
    plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')


Veamos que forma tienen los números manuscritos:

In [0]:
# Imprime los 20 primeros dígitos mnist.images. ¿Puedes reconocer ahora los números?

Evidentemente, esta representación matricial no es adecuada para ser utilizada por un algoritmo de Machine Learning. Necesitamos que cada imagen sea un vector unidimensional.

Como siempre, los datos del dataset se encuentra en el objeto `data`.

In [0]:
# Compara un elemento del objeto images con el mismo elemento del objeto data. ¿Puede ver cómo se están codificando las imágenes?

Ahora que hemos codificado nuestras imágenes en vectores, vamos a proceder a ejecutar el algoritmo KMeans. Como sabemos, este algoritmo es de aprendizaje no supervisado, por lo que para esta actividad, ignoraremos completamente cualquier referencia a `mnist.target` que contiene las clases de cada uno de los digitos manuscritos.

El objetivo de esta actividad es entender cómo funciona el algoritmo KMeans y, por lo tanto, vamos a prescindir de cualquier medida de calidad estudidada. Esto implica que NO debemos dividir el dataset en entrenamiento y test. Utilizaremos TODOS los datos que tenemos para entrenar nuestro modelo KMeans y luego analizaremos los resultados obtenidos.

Procedemos, por tanto, a ejecutar KMeans sobre los datos disponibles, es decir, sobre `mnist.data`:

In [0]:
# Ejecuta el algoritmo KMeans sobre todas las features del dataset. ¿Cuántos clusters debemos indicarle?

Tras su entrenamiento, KMeans genera un centroide por cada cluster definido. Este centroide podemos entenderlo como la muestra promedio de cada uno de los clusters encontrados. La forma del centroide será idéntica a la forma de los datos con los que se ha entrenado.

Podemos acceder a los centroides de KMeans mediante `kmeans.cluster_centers_`.

In [0]:
# Observa los centroides de KMeans. ¿Qué ves?

Puesto que los centroides son idénticos (en estructura) a cualquiera de los datos con los que hemos entrenado KMeans... ¡Podemos pintarlos!

In [0]:
# Pinta los centroides de KMeans con ayuda de la función paint_digit
# Nota: ten en cuenta que la función paint_digits espera recibir una matriz y no un vector. Puedes cambiar su forma con .reshape(8,8)

Recuerda, no se han utilizado las etiquetas en ningún momento. El algoritmo ha "aprendido a escribir" sin indicarle cuál era cada dígito.

Vamos a analizar la solución. Como puedes ver, hay número que se parecen más (en forma) y números que se parecen menos. 

Compararemos la distancia (euclidea) entre los centroides para ver cuáles se parecen más. Para ello, podemos usar `sklearn.metrics.pairwise.euclidean_distances`. Esta función permite comparar los vectores fila de dos matrices (como los que tenemos en `kmeans.cluster_centers_`).

Cargamos el módulo:

In [0]:
from sklearn.metrics.pairwise import euclidean_distances

Calculamos las distancias:

In [0]:
dist = euclidean_distances(kmeans.cluster_centers_, kmeans.cluster_centers_)

Si mostramos `dist` directamente, será dificil analizar los resultados. Formateamos la salida de `numpy` para que la lectura sea más sencilla.

In [0]:
import numpy as np
np.set_printoptions(precision=1,floatmode='fixed')
print(np.matrix(dist))