<img src="logo.png">

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

Para este ejercicio vamos a usar el dataset [MNIST dataset](http://yann.lecun.com/exdb/mnist/). Es un dataset clásico que consiste en 60000 imagenes de números (del 0 al 9) escritos a mano, y el objetivo es clasificar los números.

Scikit-learn tiene una función [load_digits](http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html) que se puede utilizar para cargar el dataset. Sin embargo, dicha función sólo tiene 1700 observaciones. Asi que lo que vamos a hacer es cargar la version completa del dataset que está almacenada [aquí](https://drive.google.com/file/d/18kXA7T3W8cOVi-WOOY7_IiiVZqQEuiiR/view?usp=sharing).

Para ello usaremos el paquete [pickle](https://docs.python.org/3/library/pickle.html) que es una forma de guardar objetos de python al disco duro y luego poder leerlos de nuevo.

In [None]:
import pickle

with open("mnist.pkl", "rb") as fname:
    mnist = pickle.load(fname)

In [None]:
mnist_data = mnist["training_images"]
mnist_target = mnist["training_labels"]

In [None]:
mnist_data.shape

El dataset consiste de 60000 imagenes de números escritos a mano, cada uno es una imagen de tamaño 28x28 pixeles (altura x anchura) en escala de grises (0 siendo el negro absoluto y 255 siendo el blanco absoluto).

In [None]:
primer_digito = mnist_data[0]

In [None]:
primer_digito

Vemos que los digitos están en un solo array de tamaño `28 x 28 = 784`. Podemos mostrarlo con la función `plt.imshow` que muestra una imagen. Tenemos que cambiar la forma del array a (28,28).

In [None]:
plt.imshow(primer_digito.reshape(28,28), cmap="Greys");

Para acelerar el ejercicio, vamos a tomar una muestra de 10000 observaciones. **Si en tu ordenador tarda mucho, siempre puedes reducir el tamaño mas**.

In [None]:
import numpy as np
sample_size = 10000
np.random.seed(42)
random_sample_index = np.random.randint(0, mnist_data.shape[0], sample_size)
random_sample_index

In [None]:
mnist_muestra_pixeles = mnist_data[random_sample_index]
mnist_muestra_clase = mnist_target[random_sample_index]

In [None]:
mnist_muestra_pixeles.shape

In [None]:
mnist_muestra_clase

In [None]:
plt.imshow(mnist_muestra_pixeles[-3].reshape(28,28),cmap="Greys");

### Usa PCA para reducir la dimensionalidad del dataset (`mnist_muestra_pixeles`) y usa el nuevo dataset como datos de entrenamiento para un clasificador que clasifique correctamente las imagenes. El criterio de evaluacion tiene que ser el criterio F1. Hay varias formas de usar el criterio F1 para casos de multiclase (en este caso hay 10 clases, del número 0 al 9). leer la [documentación del criterio F1 puede ayudar.](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)). 