# Carga de datos y verificación de tamaños

In [None]:
from tensorflow.keras.datasets import mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()

print("Formato de los datos de entrada (train,test)")
print(x_train.shape,x_test.shape)
print("Formato de los datos de salida (train,test)")
print(y_train.shape,y_test.shape)


# Visualización de los ejemplos

In [None]:
import matplotlib.pyplot as plt
image_index=0
print(f"Visualización de la imagen N {image_index} (cambiar para ver otras)")
# plt.imshow muestra la imagen
# cmap gray pone el mapa de color en escala de grises
plt.imshow(x_train[0, :,:],cmap="gray")

# Formato de los datos

El formato de los datos de imagen (entrada X) suele denominarse NHWC, indicando que un conjunto de imágenes se codifica con un tensor de 4 dimensiones, donde la primera es la dimensión de los datos/ejemplos (N ejemplos) y la segunda y tercera son las dimensiones espaciales (H y W, por Height y Width (alto y ancho)). La última, C, es la dimensión de canales. Para una imagen RGB, C=3, es decir, tiene 3 canales. Para una imagen de escala de grises, C=1, ya que tiene un solo canal.

El dataset viene con el formato *NHW*, ya que al contener imágenes en escala de grises las mismas, hay un solo canal y en este caso se eligió obviarlo.

Vamos a realizar algunas operaciones con `x_train` para explorar este formato.

In [None]:
n,h,w = x_train.shape
print(f"El conjunto de datos tiene {n} imágenes o ejemplos")
print(f"Cada ejemplo es una imagen de tamaño {h}x{w}")

# Seleccionar los ejemplos 3 a 10
seleccionados1 = x_train[3:10,:,:]
print("Ejemplos del 3 al 10")
print(seleccionados1.shape)

# Seleccionar la fila 3 de todas las imágenes
seleccionados2 = x_train[:,3,:]
print("Fila 3 de todas las imágenes")
print(seleccionados2.shape)

# Calcular la suma de todos los pixeles
suma = x_train.sum()

# mostrar la mitad de arriba de la imágen 6
plt.imshow(x_train[6,0:14,:],cmap="gray")

# Conversion a un formato ND (ejemplos x pixeles) para procesar con capas Dense

Para procesar los datos con capas dense, las mismas esperan que los datos se codifiquen como un vector. Por ende, vamos a reorganizar las entradas para que se codifiquen como un vector que consiste en una tira de todos los pixeles de la imagen. 
En este caso, como cada imagen es de tamaño $28x28$ en formato matricial, como vector tendra tamaño $28x28 = 784$

De esta forma, los datos podrán ser usados con un framework y una red, en donde la primera capa es una capa Dense.

Para eso, podemos utilizar la función `reshape`. 

NOTA: Alternativamente, se pueden dejar los datos como están, y utilizar la capa `Flatten` de Keras para hacer esta misma conversión de forma automática.

In [None]:
import numpy as np 
x_train_dense = x_train.reshape([-1,28*28]) # equivalentemente [n,h*w]
x_test_dense =  x_test.reshape([-1,28*28])

print("Formato de los datos de entrada para capas densas (train,test)")
print(x_train_dense.shape,x_test_dense.shape)

# Conversion a un formato NHWC (filas, columnas y canales) para procesar con capas Convolucionales


En el caso de las capas convolucionales, necesitamos que las imagenes tengan la estructura 2D espacial, pero además que respeten en el formato NHWC que incluye las columnas. Vamos a agregar esta dimensión extra nuevamente con `reshape`, para que los datos puedan ser usados con un framework y una red, en donde la primera capa es una capa convolucional.

In [None]:
import numpy as np 
x_train_conv = x_train.reshape([-1,28,28,1]) # equivalentemente [n,h,w,1]
x_test_conv = x_train.reshape([-1,28,28,1])

print("Formato de los datos de entrada para capas convolucionales (train,test)")
print(x_train_conv.shape,x_test_conv.shape)