# 01 - MNIST Baseline (Red neuronal simple)

**Objetivo:** Clasificar imágenes de dígitos (0-9) con una red neuronal básica (MLP).

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf

## 1) Cargar el dataset MNIST

MNIST incluye:
- `x_train`: imágenes de entrenamiento (28x28)
- `y_train`: etiqueta correcta (0 a 9)
- `x_test`, `y_test`: para evaluar generalización

In [None]:
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()

x_train.shape, y_train.shape, x_test.shape, y_test.shape

## 2) Visualizar ejemplos

Antes de entrenar, siempre conviene "ver" los datos.

In [None]:
plt.figure(figsize=(8, 3))
for i in range(6):
    plt.subplot(1, 6, i+1)
    plt.imshow(x_train[i], cmap="gray")
    plt.title(str(y_train[i]))
    plt.axis("off")
plt.show()

## 3) Normalizar datos

Los pixeles vienen en rango 0–255.
Las redes entrenan mejor si escalamos a 0–1.

In [None]:
x_train = x_train.astype("float32") / 255.0
x_test  = x_test.astype("float32") / 255.0

## 4) Construir el modelo (baseline)

Este modelo hará:
- `Flatten`: convierte 28x28 → 784 (un vector)
- `Dense`: capas totalmente conectadas
- `softmax`: produce probabilidades para 10 clases

In [None]:
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation="relu"),
    tf.keras.layers.Dense(10, activation="softmax")
])

model.summary()

## 5) Compilar el modelo

Elegimos:
- **loss**: `sparse_categorical_crossentropy` (porque y es 0..9, no one-hot)
- **optimizer**: `adam` (muy buena opción general)
- **metric**: accuracy (por ser multi-clase)

In [None]:
model.compile(
    optimizer="adam",
    loss="sparse_categorical_crossentropy",
    metrics=["accuracy"]
)

## 6) Entrenar

- **epochs**: cuántas "pasadas" completas sobre el dataset
- **batch_size**: cuántos ejemplos procesa antes de actualizar pesos
- **validation_split**: separa parte de train para validar (sin tocar test)

In [None]:
history = model.fit(
    x_train, y_train,
    epochs=1,
    batch_size=128,
    validation_split=0.1,
    verbose=1
)

## 7) Evaluar en test

Aquí medimos el desempeño con datos que el modelo NO vio.

In [None]:
test_loss, test_acc = model.evaluate(x_test, y_test, verbose=0)
test_loss, test_acc

## 8) Hacer predicciones y entender resultados

`predict` devuelve probabilidades (10 valores).
La clase final es el índice con probabilidad mayor (`argmax`).

In [None]:
proba = model.predict(x_test[:8])
pred = np.argmax(proba, axis=1)

plt.figure(figsize=(10, 3))
for i in range(8):
    plt.subplot(1, 8, i+1)
    plt.imshow(x_test[i], cmap="gray")
    plt.title(f"T:{y_test[i]}\nP:{pred[i]}")
    plt.axis("off")
plt.show()