# Ejercicio con la base de datos MNIST

En este ejercicio se pide que cargues la base de datos [MNIST](https://en.wikipedia.org/wiki/MNIST_database) y que escribas código para realizar las siguientes tareas:

1. Muestra:
  - la forma de los datos y las etiquetas.
  - la primera etiqueta y las características de la primera muestra.

2. Usando Numpy crea la partición de entrenamiento con el 80% de los datos y la de test con el resto.
   - Muestra la forma de los datos de cada partición.
   - Muestra la distribución de los datos (número de muestras por clase) en ambas particiones

3. Crea las particiones (80% train, 20% test) usando la función `train_test_split` de Sklearn con la opción de estratificar los datos.
   - Muestra la forma de los datos de cada partición.
   - Muestra la distribución de los datos (número de muestras por clase) en ambas particiones

<br>

Empezamos por cargar los datos:

In [None]:
import pandas as pd
import numpy as np

# Importamos la base de datos MNIST que viene con Colab de ejemplo.
# Para esto usamos Pandas:
data = pd.read_csv('/content/sample_data/mnist_train_small.csv', header=None)

# Separamos entre atributos y clases, y transformamos a Numpy:
Y = np.asarray( data.loc[:,0] )
p = Y.argsort()
Y = Y[p]
X = np.asarray( data.loc[:,1:] )[p]


print('¡Datos cargados!')



<br>

A partir de los datos anteriores completa las diferentes tareas describas al inicio.

<br>

## Solución tarea 1:

1. Muestra:

 - la forma de los datos y las etiquetas.
 - la primera etiqueta y las características de la primera muestra.




In [None]:
# Tarea 1:
print('Forma de los datos: ', X.shape)
print('Forma de las etiquetas: ', Y.shape)

print('Primera etiqueta: ', Y[0])
print('Características de la primera muestra: ', X[0])

## Solución tarea 2:

2. Usando Numpy crea la partición de entrenamiento con el 80% de los datos y la de test con el resto.
   - Muestra la forma de los datos de cada partición.
   - Muestra la distribución de los datos (número de muestras por clase) en ambas particiones.

In [None]:
# Tarea 2:
# Partición de los datos
num_train_samples = int(0.8 * X.shape[0])  # 80% de los datos para entrenamiento
X_train, X_test = X[:num_train_samples], X[num_train_samples:]
Y_train, Y_test = Y[:num_train_samples], Y[num_train_samples:]

print('Forma de los datos de entrenamiento: ', X_train.shape)
print('Forma de los datos de test: ', X_test.shape)

# Muestra la distribución de los datos en la partición de entrenamiento y test
print('Distribución de las clases en los datos de entrenamiento: ', np.bincount(Y_train))
print('Distribución de las clases en los datos de test: ', np.bincount(Y_test))

## Solución tarea 3:

3. Crea las particiones (80% train, 20% test) usando la función `train_test_split` de Sklearn con la opción de estratificar los datos.
   - Muestra la forma de los datos de cada partición.
   - Muestra la distribución de los datos (número de muestras por clase) en ambas particiones

In [None]:
# Tarea 3:
# Usando la función train_test_split de sklearn
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42, stratify=Y)

print('Forma de los datos de entrenamiento: ', X_train.shape)
print('Forma de los datos de test: ', X_test.shape)

# Muestra la distribución de los datos en la partición de entrenamiento y test
print('Distribución de las clases en los datos de entrenamiento: ', np.bincount(Y_train))
print('Distribución de las clases en los datos de test: ', np.bincount(Y_test))