### MNIST

* El dataset MNIST contiene 70k imágenes en escala de grises de dígitos escritos a mano, que van del 0 al 9
* 60k imágenes son para entrenamiento
* 10k imágenes son para testing
* Cada imagen es de 28x28 pixels representando uno solo dígito
* Label (o clase) corresponden a valores de 0 a 9

@article{lecun2010mnist,
  title={MNIST handwritten digit database},
  author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
  journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
  volume={2},
  year={2010}
}


In [None]:
import tensorflow as tf
from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras.utils import to_categorical
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# 1. Cargar dataset
(X_train, y_train), (X_test, y_test) = mnist.load_data()

print(X_train[4])
#print(y_train[4])

# Imprimir shapes de los datos
#print(f"Training data shape: {X_train.shape}")
#print(f"Training labels shape: {y_train.shape}")
#print(f"Test data shape: {X_test.shape}")
#print(f"Test labels shape: {y_test.shape}")


Mostrar una imagen del dataset original

In [None]:
plt.imshow(X_train[4], cmap='gray')
plt.title(f"Etiqueta: {y_train[4]}")
plt.axis('off')
plt.show()

In [None]:
#2. Normalizar (0-255 → 0-1)
X_train = X_train.astype("float32") / 255.0
X_test = X_test.astype("float32") / 255.0

print(X_train[4])

#3. One-hot encoding
#Representa categorías o clases como vectores binarios. Ejemplo números 8 y 9:
#[[0,0,0,0,0,0,0,0,1,0],[0,0,0,0,0,0,0,0,0,1]]
y_train = to_categorical(y_train, 10)
y_test = to_categorical(y_test, 10)

In [None]:
# 4. Modelo ANN mínima
# Capa oculta de 64 neuronas con activación ReLU
# cada de salida de 10 neuronas (y = {0...9}) con activación softmax útil para predicción multi-clase
# La función softmax convierte a vector de K valores reales en un vector de K valores reales que suman 1. Generalización de la sigmoide
# https://deepai.org/machine-learning-glossary-and-terms/softmax-layer

model = Sequential([
    Flatten(input_shape=(28, 28)),   # vectorizar imagen 28x28 → 784
    Dense(64, activation="relu"),    # solo 1 capa oculta
    Dense(10, activation="softmax")  # salida con 10 clases
])

# 5. Compilar
# Optimizador "adam": optimizador para gradiente estocástico https://arxiv.org/abs/1412.6980
model.compile(optimizer="adam", loss="categorical_crossentropy", metrics=["accuracy"])

# 6. Entrenar
model.fit(X_train, y_train, epochs=5, batch_size=128, validation_split=0.1)

# 7. Evaluar
loss, acc = model.evaluate(X_test, y_test, verbose=0)
print(f"Test accuracy: {acc:.2f}")

In [None]:
# 8. Predicciones
y_pred = model.predict(X_test)
y_pred_classes = np.argmax(y_pred, axis=1)

#convertir y_test de one-hot
y_test_classes = np.argmax(y_test, axis=1)

# 9. Matriz de confusión
cm = confusion_matrix(y_test_classes, y_pred_classes)

print("Matriz de confusión (MNIST):")
print(cm)

# 10. Visualización
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=range(10))
disp.plot(cmap="Blues", values_format="d")
plt.show()
