# Introducción a Keras: Deep Learning Simplificado

---

## Objetivos de la Clase

En esta clase aprenderemos:

1. **¿Qué es Keras?** - Conceptos fundamentales
2. **Clasificación de imágenes** - Reconocimiento de dígitos con MNIST
3. **Arquitectura de redes neuronales** - Capas, activaciones y parámetros
4. **Entrenamiento y evaluación** - Métricas y validación
5. **Callbacks** - Control inteligente del entrenamiento
6. **Regresión** - Predicción de valores continuos
7. **Persistencia** - Guardar y cargar modelos

---

## ¿Qué es Keras?

**Keras** es una API de alto nivel para construir y entrenar redes neuronales profundas. Características principales:

- **Simplicidad**: Código claro y conciso
- **Potencia**: Construido sobre TensorFlow
- **Flexibilidad**: Desde prototipos rápidos hasta producción
- **Documentación**: Excelente y con muchos ejemplos

```
Keras + TensorFlow = Deep Learning accesible y potente
```

---

# SECCION 1: Configuración Inicial

## Importación de Librerías

Comenzamos importando todas las herramientas necesarias para la clase.

En esta sección importaremos:
- TensorFlow y Keras: framework principal para construir redes neuronales
- NumPy: para operaciones numéricas y manipulación de arrays
- Pandas: para trabajar con datos tabulares
- Matplotlib: para crear visualizaciones y gráficos

In [None]:
# ============================================
# IMPORTACIONES PRINCIPALES
# ============================================

# TensorFlow: Framework de Deep Learning desarrollado por Google
# Es el backend que ejecuta todas las operaciones de bajo nivel
# Proporciona optimización de cálculos, soporte para GPU/TPU, y grafos computacionales
import tensorflow as tf

# Keras: API de alto nivel integrada en TensorFlow
# Simplifica enormemente la construcción de redes neuronales
# Permite crear modelos complejos con pocas líneas de código
# Abstrae la complejidad matemática manteniendo la flexibilidad
from tensorflow import keras

# NumPy: Librería fundamental para computación científica en Python
# Proporciona:
#   - Arrays multidimensionales eficientes
#   - Funciones matemáticas vectorizadas (operaciones rápidas sin loops)
#   - Álgebra lineal, transformadas de Fourier, números aleatorios
#   - Interoperabilidad con TensorFlow (convierte automáticamente entre tipos)
import numpy as np

# Pandas: Librería para análisis y manipulación de datos estructurados
# Características principales:
#   - DataFrames: tablas con filas y columnas etiquetadas
#   - Funciones para limpiar, transformar y analizar datos
#   - Lectura/escritura de múltiples formatos (CSV, Excel, SQL, etc.)
#   - Operaciones de agrupación, pivoteo y fusión de datos
import pandas as pd

# Matplotlib: Librería de visualización más popular en Python
# pyplot es el módulo que proporciona interfaz similar a MATLAB
# Permite crear:
#   - Gráficos de líneas, barras, dispersión, histogramas
#   - Imágenes y mapas de calor
#   - Subplots para múltiples gráficos
#   - Personalización completa de estilos y colores
import matplotlib.pyplot as plt

# Comando mágico de Jupyter/IPython
# %matplotlib inline indica que los gráficos se muestren directamente en el notebook
# Sin esto, los gráficos aparecerían en ventanas separadas
%matplotlib inline

# Configurar el estilo visual de matplotlib para gráficos más profesionales
# 'seaborn-v0_8-darkgrid' proporciona:
#   - Fondo gris claro para mejor contraste
#   - Rejilla para facilitar lectura de valores
#   - Colores más suaves y agradables a la vista
#   - Tipografía optimizada para presentaciones
plt.style.use('seaborn-v0_8-darkgrid')

# ============================================
# VERIFICACIÓN DE VERSIONES
# ============================================
# Es importante verificar las versiones para:
#   - Reproducibilidad: asegurar que el código funcione igual en diferentes entornos
#   - Compatibilidad: algunas APIs cambian entre versiones
#   - Debugging: facilita identificar problemas relacionados con versiones

print("VERIFICACION DE VERSIONES DE LIBRERIAS")
print("="*70)

# __version__ es un atributo especial que contiene la versión de la librería
# TensorFlow incluye Keras, por lo que sus versiones están relacionadas
print(f"TensorFlow version: {tf.__version__}")
print(f"Keras version: {keras.__version__}")
print(f"NumPy version: {np.__version__}")
print(f"Pandas version: {pd.__version__}")

# ============================================
# CONFIGURACIÓN DE SEMILLAS ALEATORIAS
# ============================================
# Las redes neuronales usan números aleatorios en múltiples lugares:
#   - Inicialización de pesos (valores iniciales de las conexiones)
#   - Dropout (desactivación aleatoria de neuronas)
#   - Shuffling de datos durante entrenamiento
#   - División de datos train/validation
#
# Establecer semillas hace que estos procesos sean REPRODUCIBLES:
# Con la misma semilla, obtendremos los mismos "números aleatorios"
# Esto es crucial para:
#   - Debugging: poder replicar errores exactamente
#   - Investigación: comparar experimentos de forma justa
#   - Educación: que todos los estudiantes vean los mismos resultados

# Semilla para NumPy
# Afecta a: np.random.rand(), np.random.choice(), etc.
# El número 42 es arbitrario (tradición en ciencia: "Hitchhiker's Guide to the Galaxy")
np.random.seed(42)

# Semilla para TensorFlow
# Afecta a: inicialización de pesos, operaciones aleatorias en GPU
# TensorFlow tiene su propio generador de números aleatorios independiente de NumPy
tf.random.set_seed(42)

print("\nSemilla aleatoria establecida: 42")
print("Todos los experimentos seran reproducibles")
print("="*70)

---

# SECCION 2: Dataset MNIST - Dígitos Manuscritos

## ¿Qué es MNIST?

**MNIST** (Modified National Institute of Standards and Technology) es el dataset "Hello World" del Deep Learning:

- **70,000 imágenes** de dígitos escritos a mano (0-9)
- **Tamaño**: 28x28 píxeles en escala de grises
- **División**: 60,000 entrenamiento + 10,000 test
- **Objetivo**: Clasificar cada imagen en una de 10 clases (dígitos 0-9)

## Estructura de los Datos

```
Imagen (28x28) → 784 píxeles → Valor entre 0-255 (intensidad)
Label → Número entero 0-9
```

## Importancia de MNIST

MNIST es fundamental en el aprendizaje de Deep Learning porque:
- Es suficientemente complejo para requerir redes neuronales
- Es suficientemente simple para entrenar rápidamente
- Permite validar que nuestro código funciona correctamente
- Es el benchmark estándar para comparar algoritmos

In [None]:
# ============================================
# CARGA DEL DATASET MNIST
# ============================================
# Keras proporciona varios datasets populares precargados
# Esto facilita enormemente comenzar con Deep Learning
# 
# Datasets disponibles en keras.datasets:
#   - mnist: dígitos manuscritos
#   - fashion_mnist: prendas de ropa
#   - cifar10/cifar100: imágenes de objetos
#   - imdb: reseñas de películas (texto)
#   - reuters: noticias (texto)

print("Cargando dataset MNIST desde Keras...")
print("(La primera vez descargara ~11 MB)")
print()

# load_data() retorna dos tuplas: (train_data, train_labels) y (test_data, test_labels)
# La función automáticamente:
#   1. Descarga el dataset si no existe localmente (se guarda en ~/.keras/datasets/)
#   2. Descomprime los archivos
#   3. Carga los datos en memoria como arrays de NumPy
#   4. Ya viene con división train/test predefinida
# 
# X = features (imágenes)
# y = labels (etiquetas, el número que representa cada imagen)
# "_full" porque luego separaremos una porción para validación
(X_train_full, y_train_full), (X_test, y_test) = keras.datasets.mnist.load_data()

print("Dataset MNIST cargado correctamente")
print()

# ============================================
# EXPLORACIÓN DETALLADA DE LOS DATOS
# ============================================
# Antes de entrenar cualquier modelo, es CRÍTICO entender los datos:
#   - Dimensiones y formas de los arrays
#   - Tipo de datos y rango de valores
#   - Distribución de las clases (¿está balanceado?)
#   - Presencia de valores faltantes o anómalos

print("="*70)
print("ANALISIS EXPLORATORIO DEL DATASET MNIST")
print("="*70)

# -------- ANÁLISIS DE DIMENSIONES --------
print("\n[1] DIMENSIONES DE LOS DATOS")
print("-" * 70)

# .shape retorna una tupla con las dimensiones del array
# Para X_train_full: (60000, 28, 28) significa:
#   - 60,000 muestras (imágenes)
#   - 28 filas de píxeles
#   - 28 columnas de píxeles
print(f"Datos de Entrenamiento:")
print(f"  X_train_full.shape = {X_train_full.shape}")
print(f"    -> {X_train_full.shape[0]:,} imágenes de {X_train_full.shape[1]}x{X_train_full.shape[2]} píxeles")

# Para y_train_full: (60000,) significa:
#   - 60,000 etiquetas (un número por cada imagen)
#   - Array 1D (unidimensional)
print(f"  y_train_full.shape = {y_train_full.shape}")
print(f"    -> {y_train_full.shape[0]:,} etiquetas (una por imagen)")

print(f"\nDatos de Test:")
print(f"  X_test.shape = {X_test.shape}")
print(f"    -> {X_test.shape[0]:,} imágenes de {X_test.shape[1]}x{X_test.shape[2]} píxeles")
print(f"  y_test.shape = {y_test.shape}")
print(f"    -> {y_test.shape[0]:,} etiquetas")

# -------- ANÁLISIS DE TIPOS Y RANGOS --------
print("\n[2] TIPOS DE DATOS Y RANGOS")
print("-" * 70)

# .dtype muestra el tipo de dato de los elementos del array
# uint8 = entero sin signo de 8 bits (rango: 0-255)
# Es eficiente en memoria: cada pixel ocupa solo 1 byte
print(f"Tipo de dato de las imágenes: {X_train_full.dtype}")
print(f"  -> uint8: entero sin signo de 8 bits")
print(f"  -> Rango posible: 0 a 255")

# .min() y .max() encuentran el valor mínimo y máximo en todo el array
# Útil para detectar:
#   - Si ya está normalizado (0-1) o no (0-255)
#   - Outliers o valores incorrectos
#   - Necesidad de preprocesamiento
print(f"\nRango real de valores en los píxeles:")
print(f"  Mínimo: {X_train_full.min()}")
print(f"  Máximo: {X_train_full.max()}")
print(f"  -> Interpretacion: 0 = negro (fondo), 255 = blanco (trazo del dígito)")

# Tipo de las etiquetas
print(f"\nTipo de dato de las etiquetas: {y_train_full.dtype}")
print(f"  -> Cada etiqueta es un número entero del 0 al 9")

# -------- ANÁLISIS DE CLASES --------
print("\n[3] DISTRIBUCIÓN DE CLASES")
print("-" * 70)

# np.unique() retorna los valores únicos en un array
# Con return_counts=True, también retorna cuántas veces aparece cada valor
# Esto nos dice:
#   - Cuántas clases tenemos
#   - Si el dataset está balanceado (similar cantidad de ejemplos por clase)
unique_classes, class_counts = np.unique(y_train_full, return_counts=True)

print(f"Clases presentes en el dataset: {unique_classes}")
print(f"Número de clases: {len(unique_classes)}")
print(f"\nDistribución de muestras por clase (train):")

# Iterar sobre cada clase y su conteo
total_samples = len(y_train_full)
for digit, count in zip(unique_classes, class_counts):
    # Calcular el porcentaje que representa cada clase
    percentage = (count / total_samples) * 100
    # Crear una barra visual simple con caracteres
    bar = '█' * int(percentage)
    print(f"  Dígito {digit}: {count:>5} imágenes ({percentage:>5.2f}%) {bar}")

# Verificar si está balanceado
# Un dataset está balanceado si todas las clases tienen similar cantidad de muestras
# Desbalance causa que el modelo se sesgue hacia clases mayoritarias
min_count = class_counts.min()
max_count = class_counts.max()
balance_ratio = min_count / max_count

print(f"\nAnálisis de balance:")
print(f"  Clase con menos muestras: {min_count}")
print(f"  Clase con más muestras: {max_count}")
print(f"  Ratio de balance: {balance_ratio:.3f}")

if balance_ratio > 0.9:
    print(f"  -> Dataset BIEN BALANCEADO (ratio > 0.9)")
    print(f"  -> No necesitamos técnicas especiales de balanceo")
elif balance_ratio > 0.7:
    print(f"  -> Dataset MODERADAMENTE BALANCEADO")
    print(f"  -> Podríamos considerar pesos de clase")
else:
    print(f"  -> Dataset DESBALANCEADO")
    print(f"  -> RECOMENDADO: usar class weights o técnicas de resampling")

# -------- ESTADÍSTICAS ADICIONALES --------
print("\n[4] ESTADÍSTICAS ADICIONALES")
print("-" * 70)

# Calcular el tamaño total en memoria
# .nbytes retorna el número de bytes que ocupa el array en memoria
train_memory_mb = X_train_full.nbytes / (1024 * 1024)
test_memory_mb = X_test.nbytes / (1024 * 1024)

print(f"Uso de memoria:")
print(f"  Training set: {train_memory_mb:.2f} MB")
print(f"  Test set: {test_memory_mb:.2f} MB")
print(f"  Total: {train_memory_mb + test_memory_mb:.2f} MB")

# Estadísticas de los píxeles
# .mean() calcula el promedio de todos los valores
# .std() calcula la desviación estándar (qué tan dispersos están los valores)
print(f"\nEstadísticas de intensidad de píxeles (training):")
print(f"  Media: {X_train_full.mean():.2f}")
print(f"  Desviación estándar: {X_train_full.std():.2f}")
print(f"  -> La mayoría de píxeles son cercanos a 0 (fondo negro)")
print(f"  -> Solo los trazos del dígito tienen valores altos")

print("\n" + "="*70)

## Visualización de Ejemplos

Veamos cómo se ven algunos dígitos del dataset. La visualización es crucial para:
- Entender qué estamos intentando clasificar
- Detectar problemas en los datos
- Verificar que la carga fue correcta
- Apreciar la variabilidad en la escritura manuscrita

In [None]:
# ============================================
# VISUALIZACIÓN: CUADRÍCULA DE IMÁGENES
# ============================================
# Mostraremos una cuadrícula de 5x5 (25 imágenes) para tener una visión general

# plt.subplots() crea una figura con múltiples subplots (gráficos)
# Parámetros:
#   5, 5: crear una cuadrícula de 5 filas x 5 columnas = 25 subplots
#   figsize=(10, 10): tamaño de la figura completa en pulgadas
# Retorna:
#   fig: objeto figura completa
#   axes: array 2D de objetos axes (cada subplot individual)
fig, axes = plt.subplots(5, 5, figsize=(10, 10))

# suptitle: título superior para toda la figura
# fontsize controla el tamaño del texto
# fontweight='bold' hace el texto en negrita para mayor énfasis
fig.suptitle('Ejemplos del Dataset MNIST', fontsize=16, fontweight='bold')

# Seleccionar 25 índices aleatorios del training set
# np.random.choice() selecciona aleatoriamente de un rango
# Parámetros:
#   len(X_train_full): seleccionar del rango [0, 59999]
#   25: seleccionar 25 índices
#   replace=False: sin reemplazo (no repetir el mismo índice)
indices = np.random.choice(len(X_train_full), 25, replace=False)

# axes.flat convierte el array 2D de axes en un iterador 1D
# Esto facilita iterar sobre todos los subplots en orden
for i, ax in enumerate(axes.flat):
    # enumerate() da tanto el índice (i) como el elemento (ax)
    idx = indices[i]  # Obtener el índice aleatorio para esta posición
    
    # -------- MOSTRAR LA IMAGEN --------
    # ax.imshow() muestra una imagen en el subplot
    # Parámetros:
    #   X_train_full[idx]: la imagen (array 28x28)
    #   cmap='gray': usar mapa de colores en escala de grises
    #     - cmap = colormap
    #     - 'gray': negro=0, blanco=255
    #     - Otras opciones: 'viridis', 'plasma', 'hot', etc.
    ax.imshow(X_train_full[idx], cmap='gray')
    
    # -------- AÑADIR TÍTULO --------
    # Mostrar la etiqueta real encima de cada imagen
    # Esto nos permite verificar visualmente si tiene sentido
    ax.set_title(f'Label: {y_train_full[idx]}', fontsize=12)
    
    # -------- QUITAR EJES --------
    # ax.axis('off') oculta los ejes x e y
    # Los ejes no son necesarios para imágenes y distraen
    # Hace la visualización más limpia y enfocada
    ax.axis('off')

# tight_layout() ajusta automáticamente los subplots para evitar solapamiento
# Optimiza el espaciado entre subplots, títulos y etiquetas
plt.tight_layout()

# show() muestra la figura en pantalla
# En Jupyter con %matplotlib inline, se muestra automáticamente
plt.show()

# ============================================
# VISUALIZACIÓN: IMAGEN INDIVIDUAL DETALLADA
# ============================================
# Ahora veamos una sola imagen en detalle para entender mejor la estructura

# Crear una figura más grande para ver detalles
plt.figure(figsize=(8, 8))

# Mostrar la primera imagen del training set
# Usamos interpolation='nearest' para:
#   - Evitar suavizado/blur al hacer zoom
#   - Ver exactamente los valores de píxeles
#   - Mantener los bordes nítidos
plt.imshow(X_train_full[0], cmap='gray', interpolation='nearest')

# Título descriptivo con información de la etiqueta
plt.title(f'Primera imagen del training set - Dígito: {y_train_full[0]}', 
          fontsize=14, fontweight='bold', pad=20)

# -------- AÑADIR COLORBAR --------
# colorbar() añade una barra de colores al lado de la imagen
# Muestra la escala de valores (0=negro, 255=blanco)
# Parámetros:
#   label: etiqueta descriptiva para la barra
#   shrink: factor de escala (0.8 = 80% del tamaño del subplot)
plt.colorbar(label='Intensidad del pixel (0-255)', shrink=0.8)

# grid(False) desactiva la rejilla
# Para imágenes, la rejilla suele ser distractora
plt.grid(False)

plt.show()

# ============================================
# ANÁLISIS DETALLADO DE LA PRIMERA IMAGEN
# ============================================
print("\nANALISIS DETALLADO DE LA PRIMERA IMAGEN")
print("="*70)

# Información básica
print(f"Etiqueta (label): {y_train_full[0]}")
print(f"Forma (shape): {X_train_full[0].shape}")
print(f"  -> {X_train_full[0].shape[0]} filas x {X_train_full[0].shape[1]} columnas")
print(f"  -> Total de píxeles: {X_train_full[0].shape[0] * X_train_full[0].shape[1]}")

# Estadísticas de píxeles de esta imagen específica
print(f"\nEstadísticas de píxeles:")
print(f"  Valor mínimo: {X_train_full[0].min()}")
print(f"  Valor máximo: {X_train_full[0].max()}")
print(f"  Valor medio: {X_train_full[0].mean():.2f}")
print(f"  Desviación estándar: {X_train_full[0].std():.2f}")

# Contar píxeles "activos" (parte del dígito) vs "fondo"
# Usamos un umbral arbitrario de 50 para distinguir
active_pixels = np.sum(X_train_full[0] > 50)
background_pixels = np.sum(X_train_full[0] <= 50)
total_pixels = X_train_full[0].size

print(f"\nDistribución de píxeles:")
print(f"  Píxeles activos (>50): {active_pixels} ({active_pixels/total_pixels*100:.1f}%)")
print(f"  Píxeles de fondo (<=50): {background_pixels} ({background_pixels/total_pixels*100:.1f}%)")
print(f"  -> La mayoría de píxeles son fondo (el dígito es pequeño)")

print("="*70)

---

# SECCION 3: Preprocesamiento de Datos

## ¿Por qué preprocesar?

Las redes neuronales funcionan mejor cuando:

1. **Los datos están normalizados** (rango [0, 1] o [-1, 1])
   - Los pesos se inicializan en valores pequeños
   - Valores grandes (255) causan gradientes inestables
   - La normalización acelera la convergencia

2. **Los datos están balanceados** (similar cantidad de ejemplos por clase)
   - Previene sesgo hacia clases mayoritarias
   - En MNIST ya está balanceado

3. **Hay un conjunto de validación** (para monitorear el entrenamiento)
   - Detecta overfitting tempranamente
   - Permite ajustar hiperparámetros
   - No debe usarse para entrenamiento

## Pasos de Preprocesamiento

1. División: Train / Validation / Test
2. Normalización: Escalar píxeles de [0, 255] a [0, 1]
3. Conversión de tipos: Asegurar float32 para eficiencia

In [None]:
# ============================================
# PASO 1: DIVISIÓN TRAIN / VALIDATION / TEST
# ============================================
# 
# División típica en Machine Learning:
#   - Training Set (70-80%): Entrenar el modelo (ajustar pesos)
#   - Validation Set (10-15%): Monitorear durante entrenamiento, ajustar hiperparámetros
#   - Test Set (10-20%): Evaluación final, nunca se usa antes
#
# En MNIST:
#   - Ya tenemos test set separado (10,000 imágenes)
#   - Del training original (60,000), tomaremos 5,000 para validation
#   - Quedará: 55,000 train, 5,000 validation, 10,000 test

print("DIVISION DE DATOS: TRAIN / VALIDATION / TEST")
print("="*70)

# -------- SEPARACIÓN DE VALIDATION --------
# Slicing de NumPy: array[inicio:fin]
#   - [:5000] = desde el inicio hasta el índice 5000 (no incluido)
#   - [5000:] = desde el índice 5000 hasta el final
#
# ¿Por qué los primeros 5000?
#   - MNIST ya viene mezclado aleatoriamente
#   - Tomar los primeros es equivalente a tomar una muestra aleatoria
#   - Es más rápido que shuffle + split
#
# IMPORTANTE: Hacemos lo mismo para X (imágenes) y y (etiquetas)
# para mantener la correspondencia

X_valid, X_train = X_train_full[:5000], X_train_full[5000:]
y_valid, y_train = y_train_full[:5000], y_train_full[5000:]

# Mostrar resultados de la división
print("Division completada:")
print()
print(f"Training Set:")
print(f"  X_train: {X_train.shape} - {X_train.shape[0]:,} imágenes")
print(f"  y_train: {y_train.shape} - {y_train.shape[0]:,} etiquetas")
print(f"  Uso: ENTRENAR el modelo (ajustar pesos de la red neuronal)")
print()
print(f"Validation Set:")
print(f"  X_valid: {X_valid.shape} - {X_valid.shape[0]:,} imágenes")
print(f"  y_valid: {y_valid.shape} - {y_valid.shape[0]:,} etiquetas")
print(f"  Uso: MONITOREAR entrenamiento, detectar overfitting, ajustar hiperparámetros")
print()
print(f"Test Set:")
print(f"  X_test: {X_test.shape} - {X_test.shape[0]:,} imágenes")
print(f"  y_test: {y_test.shape} - {y_test.shape[0]:,} etiquetas")
print(f"  Uso: EVALUACIÓN FINAL (solo se usa al final, una vez)")
print()

# Calcular porcentajes
total = len(X_train) + len(X_valid) + len(X_test)
train_pct = len(X_train) / total * 100
valid_pct = len(X_valid) / total * 100
test_pct = len(X_test) / total * 100

print(f"Porcentajes:")
print(f"  Training:   {train_pct:.1f}%")
print(f"  Validation: {valid_pct:.1f}%")
print(f"  Test:       {test_pct:.1f}%")
print(f"  Total:      {total:,} imágenes (100.0%)")

print("\n" + "="*70)

# ============================================
# PASO 2: NORMALIZACIÓN DE PÍXELES
# ============================================
#
# ¿Por qué normalizar?
#
# 1. CONVERGENCIA MÁS RÁPIDA:
#    - Los optimizadores (Adam, SGD) funcionan mejor con valores pequeños
#    - Valores grandes requieren learning rates muy pequeños
#    - Con normalización, el learning rate estándar (0.001) funciona bien
#
# 2. ESTABILIDAD NUMÉRICA:
#    - Valores grandes pueden causar overflow en los cálculos
#    - Gradientes explotan o desaparecen
#    - Normalización mantiene valores en rango manejable
#
# 3. FUNCIONAMIENTO DE ACTIVACIONES:
#    - Funciones como sigmoid/tanh saturan con valores grandes
#    - Inputs normalizados mantienen las activaciones en zona activa
#    - Mejor flujo de gradientes en backpropagation
#
# 4. COMPARABILIDAD:
#    - Si tenemos múltiples features con diferentes escalas,
#      el modelo se sesga hacia los valores más grandes
#    - Normalización pone todos en la misma escala

print("\nNORMALIZACION DE PIXELES")
print("="*70)

print("Estado ANTES de normalizar:")
print(f"  Tipo de dato: {X_train.dtype}")
print(f"  Rango de valores: [{X_train.min()}, {X_train.max()}]")
print(f"  Media: {X_train.mean():.2f}")
print(f"  Desviación estándar: {X_train.std():.2f}")

# -------- PROCESO DE NORMALIZACIÓN --------
#
# Método: Min-Max Scaling al rango [0, 1]
# Fórmula: X_normalized = (X - min) / (max - min)
# En nuestro caso: min=0, max=255, entonces: X_normalized = X / 255.0
#
# Proceso en dos pasos:
#
# 1. .astype('float32'):
#    - Convierte de uint8 (entero 0-255) a float32 (decimal)
#    - ¿Por qué float32 y no float64?
#      * float64 (8 bytes) es más preciso pero usa más memoria
#      * float32 (4 bytes) tiene precisión suficiente para ML
#      * GPUs son más eficientes con float32
#      * Reduce uso de memoria a la mitad
#
# 2. / 255.0:
#    - Divide cada píxel por 255 para escalar a [0, 1]
#    - Usamos 255.0 (float) en lugar de 255 (int) para asegurar división flotante
#    - Resultado: 0 sigue siendo 0 (negro), 255 se convierte en 1.0 (blanco)

print("\nAplicando normalización...")
print("  Formula: pixel_normalizado = pixel / 255.0")
print("  Conversion: uint8 [0-255] -> float32 [0.0-1.0]")

X_train = X_train.astype('float32') / 255.0
X_valid = X_valid.astype('float32') / 255.0
X_test = X_test.astype('float32') / 255.0

# NOTA IMPORTANTE:
# Aplicamos la MISMA transformación a train, valid y test
# Usamos los mismos parámetros (dividir por 255) para todos
# Esto es crucial para que el modelo funcione correctamente

print("\nEstado DESPUÉS de normalizar:")
print(f"  Tipo de dato: {X_train.dtype}")
print(f"  Rango de valores: [{X_train.min():.4f}, {X_train.max():.4f}]")
print(f"  Media: {X_train.mean():.4f}")
print(f"  Desviación estándar: {X_train.std():.4f}")

# -------- VERIFICACIÓN --------
# Asegurémonos de que la normalización fue correcta
print("\nVerificación de normalización:")

# Verificar que todos los conjuntos tienen el mismo rango
print(f"  Train - Min: {X_train.min():.4f}, Max: {X_train.max():.4f}")
print(f"  Valid - Min: {X_valid.min():.4f}, Max: {X_valid.max():.4f}")
print(f"  Test  - Min: {X_test.min():.4f}, Max: {X_test.max():.4f}")

# Verificar que no hay valores NaN (Not a Number) o Inf (Infinito)
# Estos valores causarían errores durante el entrenamiento
has_nan_train = np.isnan(X_train).any()
has_inf_train = np.isinf(X_train).any()

print(f"\n  ¿Contiene NaN (valores inválidos)? {has_nan_train}")
print(f"  ¿Contiene Inf (infinitos)? {has_inf_train}")

if not has_nan_train and not has_inf_train:
    print("  -> Normalización EXITOSA: datos limpios y listos para entrenar")
else:
    print("  -> ADVERTENCIA: hay valores inválidos en los datos")

# -------- IMPACTO EN MEMORIA --------
print("\nImpacto en uso de memoria:")
memory_before_mb = X_train_full.nbytes / (1024 * 1024)
memory_after_mb = X_train.nbytes / (1024 * 1024)

print(f"  Antes (uint8): {memory_before_mb:.2f} MB")
print(f"  Después (float32): {memory_after_mb:.2f} MB")
print(f"  Aumento: {(memory_after_mb / memory_before_mb - 1) * 100:.1f}%")
print(f"  -> float32 usa 4 bytes por píxel vs 1 byte de uint8")
print(f"  -> El aumento de memoria es aceptable para las ventajas en entrenamiento")

# ============================================
# RESUMEN FINAL DEL PREPROCESAMIENTO
# ============================================
print("\n" + "="*70)
print("RESUMEN DE PREPROCESAMIENTO")
print("="*70)
print("\nTransformaciones aplicadas:")
print("  1. Division de datos: 55k train / 5k valid / 10k test")
print("  2. Conversion de tipo: uint8 -> float32")
print("  3. Normalizacion: [0, 255] -> [0.0, 1.0]")
print("\nDatos listos para entrenar el modelo de red neuronal")
print("="*70)

---

# SECCION 4: Construcción del Modelo

## Arquitectura de Red Neuronal

Vamos a construir una **red neuronal totalmente conectada** (Fully Connected Neural Network o Multilayer Perceptron):

```
INPUT (28×28)     FLATTEN (784)     DENSE (300)      DENSE (100)      OUTPUT (10)
  Imagen      →      Vector 1D    →   Capa oculta  →   Capa oculta  →   Probabilidades
28×28 píxeles       784 features      300 neuronas     100 neuronas     10 clases (0-9)
                                      + ReLU           + ReLU           + Softmax
```

### Componentes clave:

1. **Flatten**: Convierte matriz 28×28 en vector de 784 elementos
2. **Dense (300)**: Primera capa oculta con 300 neuronas y activación ReLU
3. **Dense (100)**: Segunda capa oculta con 100 neuronas y activación ReLU
4. **Dense (10)**: Capa de salida con 10 neuronas (una por dígito) y activación Softmax

### Funciones de Activación:

- **ReLU** (Rectified Linear Unit): f(x) = max(0, x)
  - Introduce no-linealidad en la red
  - Rápida de calcular
  - No sufre de vanishing gradient
  
- **Softmax**: Convierte valores en probabilidades que suman 1
  - Necesaria para clasificación multiclase
  - Produce distribución de probabilidad

In [None]:
# ============================================
# CONSTRUCCIÓN DEL MODELO SEQUENTIAL
# ============================================
#
# Keras proporciona dos APIs principales para construir modelos:
#
# 1. Sequential API (la que usaremos):
#    - Para modelos lineales: una capa tras otra
#    - Simple e intuitiva
#    - Suficiente para el 80% de casos
#    - Limitación: solo puede tener una entrada y una salida
#
# 2. Functional API:
#    - Para arquitecturas complejas (múltiples entradas/salidas, skip connections)
#    - Más flexible pero más verbosa
#    - Necesaria para redes residuales, inception, etc.

print("CONSTRUCCION DEL MODELO DE RED NEURONAL")
print("="*70)
print()

# -------- CREACIÓN DEL MODELO --------
# keras.models.Sequential() crea un modelo secuencial
# Recibe una lista de capas que se ejecutarán en orden
# El output de cada capa se convierte en el input de la siguiente

model = keras.models.Sequential([
    # ============================================
    # CAPA 1: FLATTEN (APLANAMIENTO)
    # ============================================
    # Propósito: Convertir imágenes 2D en vectores 1D
    #
    # ¿Por qué necesitamos Flatten?
    #   - Las capas Dense esperan input 1D (vector)
    #   - Nuestras imágenes son 2D (matriz 28×28)
    #   - Flatten reorganiza: (28, 28) -> (784,)
    #
    # Proceso de aplanamiento:
    #   - Toma fila por fila y las concatena
    #   - Orden: [fila0, fila1, ..., fila27]
    #   - Ejemplo 3×3: [[1,2,3], [4,5,6], [7,8,9]] -> [1,2,3,4,5,6,7,8,9]
    #
    # Parámetros:
    #   input_shape=[28, 28]:
    #     - Define la forma de cada muestra individual
    #     - NO incluimos el batch size (se añade automáticamente)
    #     - [28, 28] = imagen de 28 filas × 28 columnas
    #   name='flatten_layer':
    #     - Nombre descriptivo para identificar la capa
    #     - Útil para debugging y visualización
    #
    # Parámetros entrenables: 0 (solo reorganiza, no aprende)
    keras.layers.Flatten(input_shape=[28, 28], name='flatten_layer'),
    
    # ============================================
    # CAPA 2: PRIMERA CAPA OCULTA (DENSE)
    # ============================================
    # Propósito: Aprender representaciones abstractas de los píxeles
    #
    # Dense = Capa completamente conectada (Fully Connected)
    #   - Cada neurona está conectada a TODAS las entradas
    #   - Para 300 neuronas y 784 entradas: 300 × 784 = 235,200 conexiones
    #
    # Cálculo en cada neurona:
    #   1. Producto punto: suma ponderada de todas las entradas
    #      output = w1*x1 + w2*x2 + ... + w784*x784 + bias
    #   2. Aplicar función de activación: ReLU(output)
    #
    # Parámetros:
    #   300: número de neuronas en esta capa
    #     - Cada neurona puede aprender un "patrón" diferente
    #     - Más neuronas = más capacidad de aprendizaje
    #     - Pero también más riesgo de overfitting y más cómputo
    #     - 300 es un buen equilibrio para MNIST
    #
    #   activation='relu':
    #     - ReLU (Rectified Linear Unit): f(x) = max(0, x)
    #     - Si x > 0: devuelve x (identidad)
    #     - Si x <= 0: devuelve 0 ("desactiva" la neurona)
    #     - Ventajas:
    #       * Rápida de calcular (solo una comparación)
    #       * No sufre vanishing gradient (gradiente no desaparece)
    #       * Introduce no-linealidad (permite aprender patrones complejos)
    #       * Esparsa: muchas neuronas se "apagan" (output = 0)
    #     - Alternativas: sigmoid, tanh, leaky_relu, elu
    #
    # Parámetros entrenables: 784 × 300 + 300 = 235,500
    #   - Pesos (weights): 784 × 300 = 235,200
    #     Cada conexión tiene un peso que se ajusta durante entrenamiento
    #   - Sesgos (biases): 300
    #     Cada neurona tiene un sesgo (threshold) propio
    keras.layers.Dense(300, activation='relu', name='hidden_layer_1'),
    
    # ============================================
    # CAPA 3: SEGUNDA CAPA OCULTA (DENSE)
    # ============================================
    # Propósito: Combinar los patrones de la capa anterior en patrones más complejos
    #
    # Esta capa recibe como input el output de la capa anterior (300 valores)
    # Cada una de las 100 neuronas aquí está conectada a las 300 de antes
    #
    # Jerarquía de abstracción:
    #   - Capa 1: detecta bordes, curvas básicas
    #   - Capa 2: combina bordes en formas (círculos, líneas)
    #   - Capa 3: combina formas en dígitos completos
    #
    # Parámetros:
    #   100: número de neuronas
    #     - Menos que la capa anterior (300 -> 100)
    #     - Esto crea un "cuello de botella"
    #     - Fuerza a la red a comprimir información importante
    #     - Actúa como regularización implícita
    #
    #   activation='relu':
    #     - Misma activación que la capa anterior
    #     - Mantiene la no-linealidad en capas profundas
    #     - Permite gradientes que fluyen bien en backpropagation
    #
    # Parámetros entrenables: 300 × 100 + 100 = 30,100
    #   - Pesos: 300 × 100 = 30,000
    #   - Sesgos: 100
    keras.layers.Dense(100, activation='relu', name='hidden_layer_2'),
    
    # ============================================
    # CAPA 4: CAPA DE SALIDA (OUTPUT)
    # ============================================
    # Propósito: Producir probabilidades para cada una de las 10 clases (dígitos 0-9)
    #
    # Esta es la capa final que produce la predicción del modelo
    # Su diseño depende del tipo de problema:
    #   - Clasificación binaria: 1 neurona + sigmoid
    #   - Clasificación multiclase: N neuronas + softmax (nuestro caso)
    #   - Regresión: 1 neurona + sin activación
    #
    # Parámetros:
    #   10: número de neuronas = número de clases
    #     - Una neurona por cada dígito (0, 1, 2, ..., 9)
    #     - Cada neurona produce un "score" para su clase
    #
    #   activation='softmax':
    #     - Convierte los scores en probabilidades
    #     - Fórmula: p_i = exp(score_i) / sum(exp(score_j) for all j)
    #     - Propiedades:
    #       * Todas las probabilidades están entre 0 y 1
    #       * La suma de todas las probabilidades = 1.0
    #       * El score más alto se convierte en la probabilidad más alta
    #     - Ejemplo:
    #       Scores: [2.0, 1.0, 0.1, 0.3, ...]
    #       Softmax: [0.65, 0.24, 0.01, 0.01, ...] (suman 1.0)
    #       Interpretación: 65% probabilidad de ser clase 0, 24% de ser clase 1, etc.
    #
    # Parámetros entrenables: 100 × 10 + 10 = 1,010
    #   - Pesos: 100 × 10 = 1,000
    #   - Sesgos: 10
    keras.layers.Dense(10, activation='softmax', name='output_layer')
    
], name='MNIST_Classifier')  # Nombre del modelo completo

print("Modelo construido exitosamente")
print()

# ============================================
# RESUMEN DEL MODELO
# ============================================
# model.summary() muestra una tabla con:
#   - Nombre de cada capa
#   - Tipo de capa
#   - Shape del output de cada capa
#   - Número de parámetros en cada capa
#   - Total de parámetros (entrenables y no entrenables)

print("="*70)
print("ARQUITECTURA DEL MODELO - RESUMEN")
print("="*70)
model.summary()

# -------- CÁLCULO MANUAL DE PARÁMETROS --------
# Verifiquemos los números manualmente para entender de dónde vienen

print("\n" + "="*70)
print("DESGLOSE DETALLADO DE PARAMETROS")
print("="*70)

# Capa Flatten
flatten_params = 0
print(f"\nCapa 1 - Flatten:")
print(f"  Input:  (28, 28) = 784 píxeles")
print(f"  Output: (784,) = 784 valores")
print(f"  Parámetros: {flatten_params} (solo reorganiza, no aprende)")

# Primera capa Dense
dense1_weights = 784 * 300  # Una peso por cada conexión
dense1_biases = 300  # Un sesgo por cada neurona
dense1_params = dense1_weights + dense1_biases
print(f"\nCapa 2 - Dense(300, relu):")
print(f"  Input:  784 valores (de Flatten)")
print(f"  Output: 300 valores (una por neurona)")
print(f"  Pesos (weights):  784 × 300 = {dense1_weights:,}")
print(f"  Sesgos (biases):  300 = {dense1_biases}")
print(f"  Total parámetros: {dense1_params:,}")
print(f"  Memoria: ~{dense1_params * 4 / (1024*1024):.2f} MB (en float32)")

# Segunda capa Dense
dense2_weights = 300 * 100
dense2_biases = 100
dense2_params = dense2_weights + dense2_biases
print(f"\nCapa 3 - Dense(100, relu):")
print(f"  Input:  300 valores (de Dense anterior)")
print(f"  Output: 100 valores")
print(f"  Pesos:  300 × 100 = {dense2_weights:,}")
print(f"  Sesgos: 100 = {dense2_biases}")
print(f"  Total parámetros: {dense2_params:,}")

# Capa de salida
output_weights = 100 * 10
output_biases = 10
output_params = output_weights + output_biases
print(f"\nCapa 4 - Dense(10, softmax):")
print(f"  Input:  100 valores")
print(f"  Output: 10 probabilidades (una por dígito 0-9)")
print(f"  Pesos:  100 × 10 = {output_weights:,}")
print(f"  Sesgos: 10 = {output_biases}")
print(f"  Total parámetros: {output_params:,}")

# Total
total_params = flatten_params + dense1_params + dense2_params + output_params
print(f"\n" + "-"*70)
print(f"TOTAL DE PARAMETROS ENTRENABLES: {total_params:,}")
print(f"Memoria aproximada del modelo: {total_params * 4 / (1024*1024):.2f} MB")
print(f"\nEstos {total_params:,} parámetros se ajustarán durante el entrenamiento")
print(f"para minimizar el error de clasificación.")
print("="*70)

## Visualización del Flujo de Datos

Veamos cómo cambia la forma de los datos al pasar por cada capa:

In [None]:
# ============================================
# VISUALIZACIÓN DEL FLUJO DE DATOS
# ============================================
# Vamos a "pasar" una imagen a través del modelo para ver
# cómo se transforma en cada capa
#
# Esto es útil para:
#   - Entender dimensiones en cada paso
#   - Debuggear problemas de shape
#   - Visualizar la arquitectura

print("\nFLUJO DE DATOS A TRAVES DEL MODELO")
print("="*70)
print()

# -------- PREPARAR DATOS DE EJEMPLO --------
# Tomamos la primera imagen del training set
# X_train[0] tiene shape (28, 28)
# Pero el modelo espera un batch: (batch_size, 28, 28)
#
# np.expand_dims() añade una dimensión:
#   axis=0: añadir al principio
#   (28, 28) -> (1, 28, 28)
# El "1" representa un batch de tamaño 1 (una imagen)
sample_input = np.expand_dims(X_train[0], axis=0)

print(f"Imagen de entrada:")
print(f"  Shape: {sample_input.shape}")
print(f"  Interpretación: (batch_size=1, alto=28, ancho=28)")
print(f"  Es el dígito: {y_train[0]}")
print()

# -------- TABLA DE TRANSFORMACIONES --------
# Crearemos una tabla que muestra cómo cambia el shape en cada capa

# Encabezado de la tabla
print(f"{'Capa':<25} {'Shape Input':<20} {'Shape Output':<20} {'Parámetros':<15}")
print("="*80)

# Inicialmente, tenemos nuestro sample_input
current_output = sample_input
print(f"{'INPUT (imagen)':<25} {'':<20} {str(current_output.shape):<20} {'0':<15}")

# -------- ITERAR SOBRE CADA CAPA --------
# model.layers contiene todas las capas del modelo en orden
for layer in model.layers:
    # Guardar el shape de entrada (output actual)
    input_shape = current_output.shape
    
    # Pasar los datos por esta capa
    # layer(input) ejecuta el forward pass de la capa
    # Esto aplica:
    #   - Pesos y sesgos (si es Dense)
    #   - Función de activación
    #   - Cualquier otra operación de la capa
    current_output = layer(current_output)
    
    # Obtener el shape de salida
    output_shape = current_output.shape
    
    # Contar parámetros de esta capa
    # count_params() retorna el número total de parámetros entrenables
    params = layer.count_params()
    
    # Nombre de la capa (con tipo si no tiene nombre personalizado)
    layer_name = f"{layer.name} ({layer.__class__.__name__})"
    
    # Imprimir fila de la tabla
    print(f"{layer_name:<25} {str(input_shape):<20} {str(output_shape):<20} {params:<15,}")

print("="*80)

# -------- ANÁLISIS DE LAS TRANSFORMACIONES --------
print("\nANALISIS DE LAS TRANSFORMACIONES:")
print("-"*70)

print("\n1. INPUT -> FLATTEN:")
print("   (1, 28, 28) -> (1, 784)")
print("   - Convierte matriz 2D en vector 1D")
print("   - 28 × 28 = 784 píxeles")
print("   - NO aprende nada (0 parámetros), solo reorganiza")

print("\n2. FLATTEN -> DENSE(300):")
print("   (1, 784) -> (1, 300)")
print("   - Reduce dimensionalidad: 784 -> 300")
print("   - Cada una de las 300 neuronas mira TODOS los 784 píxeles")
print("   - Aprende patrones de bajo nivel (bordes, curvas)")
print(f"   - Muchos parámetros: {784 * 300 + 300:,} (784×300 pesos + 300 sesgos)")

print("\n3. DENSE(300) -> DENSE(100):")
print("   (1, 300) -> (1, 100)")
print("   - Comprime aún más: 300 -> 100")
print("   - Crea un 'cuello de botella' que fuerza a extraer características importantes")
print("   - Aprende patrones de nivel medio (combinaciones de bordes)")
print(f"   - Parámetros: {300 * 100 + 100:,}")

print("\n4. DENSE(100) -> OUTPUT(10):")
print("   (1, 100) -> (1, 10)")
print("   - Expande a 10 valores: uno por cada dígito (0-9)")
print("   - Softmax convierte estos valores en probabilidades")
print("   - Ejemplo de output: [0.01, 0.02, 0.05, 0.80, 0.03, 0.02, 0.01, 0.02, 0.02, 0.02]")
print("                       -> 80% probabilidad de ser el dígito 3")
print(f"   - Parámetros: {100 * 10 + 10:,}")

print("\n" + "="*70)
print("OBSERVACIONES CLAVE:")
print("="*70)
print("1. El batch size (primera dimensión) se mantiene en todo el modelo")
print("2. La segunda dimensión cambia en cada capa (784 -> 300 -> 100 -> 10)")
print("3. La mayoría de parámetros están en la primera capa Dense (235,500)")
print("4. El flujo es: Píxeles -> Features -> Representaciones -> Probabilidades")
print("="*70)

---

# SECCION 5: Compilación del Modelo

## ¿Qué es la compilación?

La **compilación** es el paso donde configuramos el proceso de aprendizaje antes de entrenar. Especificamos tres componentes esenciales:

### 1. Optimizador (Optimizer)

El optimizador es el algoritmo que actualiza los pesos de la red para minimizar el error.

**Optimizadores comunes:**

- **SGD** (Stochastic Gradient Descent):
  - El algoritmo clásico de descenso de gradiente
  - Simple pero efectivo
  - Requiere ajuste cuidadoso del learning rate
  - Con momentum puede ser muy potente
  - Fórmula: peso_nuevo = peso_viejo - learning_rate × gradiente

- **Adam** (Adaptive Moment Estimation):
  - El optimizador más popular actualmente
  - Combina las ventajas de AdaGrad y RMSprop
  - Ajusta automáticamente el learning rate para cada parámetro
  - Funciona bien "out of the box" sin mucho tuning
  - Mantiene promedios móviles de gradientes y su cuadrado
  - Learning rate típico: 0.001

- **RMSprop**:
  - Diseñado para redes recurrentes
  - Adapta el learning rate basándose en promedios de gradientes
  - Bueno para problemas no estacionarios

### 2. Función de Pérdida (Loss Function)

La métrica que queremos minimizar durante el entrenamiento.

**Para clasificación:**

- **Binary Crossentropy**: Clasificación binaria (2 clases)
  - Ejemplo: spam/no-spam, gato/perro
  - Usa sigmoid en la salida

- **Categorical Crossentropy**: Clasificación multiclase con one-hot encoding
  - Labels como vectores: [0, 0, 1, 0, 0]
  - Usa softmax en la salida

- **Sparse Categorical Crossentropy**: Clasificación multiclase con integers
  - Labels como enteros: 0, 1, 2, ..., 9
  - Más eficiente en memoria
  - Internamente es equivalente a categorical crossentropy
  - NUESTRA ELECCIÓN para MNIST

**Para regresión:**

- **MSE** (Mean Squared Error): Penaliza errores grandes
- **MAE** (Mean Absolute Error): Más robusto a outliers
- **Huber**: Combinación de MSE y MAE

### 3. Métricas (Metrics)

Valores adicionales para monitorear el entrenamiento. NO afectan al entrenamiento, solo informan.

**Métricas comunes:**

- **Accuracy**: Porcentaje de predicciones correctas
  - Fácil de interpretar
  - Puede engañar en datasets desbalanceados

- **Precision**: De las predicciones positivas, cuántas son correctas
  - Importante cuando el costo de falsos positivos es alto

- **Recall**: De los casos positivos reales, cuántos detectamos
  - Importante cuando el costo de falsos negativos es alto

- **F1-Score**: Media armónica de precision y recall
  - Balance entre precision y recall

---\n\n# SECCION 5: Compilación del Modelo\n\n## ¿Qué es la compilación?\n\nLa **compilación** es el paso donde configuramos el proceso de aprendizaje antes de entrenar. Especificamos tres componentes esenciales:\n\n### 1. Optimizador (Optimizer)\n\nEl optimizador es el algoritmo que actualiza los pesos de la red para minimizar el error.\n\n**Optimizadores comunes:**\n\n- **Adam** (Adaptive Moment Estimation): El más popular\n  - Ajusta automáticamente el learning rate\n  - Combina momentum y escalado adaptativo\n  - Funciona bien sin mucho ajuste\n  - Learning rate típico: 0.001\n\n- **SGD** (Stochastic Gradient Descent): Clásico\n  - Simple pero efectivo\n  - Requiere ajuste del learning rate\n  - Con momentum puede ser muy potente\n\n### 2. Función de Pérdida (Loss Function)\n\nLa métrica a minimizar durante el entrenamiento.\n\n**Para clasificación:**\n- **Sparse Categorical Crossentropy**: Para labels enteros (nuestro caso)\n- **Categorical Crossentropy**: Para labels one-hot encoded\n- **Binary Crossentropy**: Para clasificación binaria\n\n**Para regresión:**\n- **MSE** (Mean Squared Error)\n- **MAE** (Mean Absolute Error)\n\n### 3. Métricas (Metrics)\n\nValores para monitorear (no afectan el entrenamiento):\n- **Accuracy**: Porcentaje de aciertos\n- **Precision/Recall**: Para datasets desbalanceados

In [None]:
# ============================================\n# COMPILACIÓN DEL MODELO\n# ============================================\n# Configuramos los tres componentes esenciales del entrenamiento:\n#   1. Optimizer: cómo actualizar los pesos\n#   2. Loss function: qué minimizar\n#   3. Metrics: qué monitorear\n\nprint(\"COMPILACION DEL MODELO\")\nprint(\"=\"*70)\nprint()\n\n# -------- PROCESO DE COMPILACIÓN --------\n# model.compile() configura el modelo para entrenamiento\n# IMPORTANTE: Este paso NO entrena el modelo, solo lo prepara\n# Después de compile(), el modelo está listo para fit()\n\nmodel.compile(\n    # ============================================\n    # PARAMETRO 1: OPTIMIZER (ADAM)\n    # ============================================\n    # Adam (Adaptive Moment Estimation):\n    # Es el optimizador más popular por estas razones:\n    #\n    # Funcionamiento de Adam:\n    # 1. Mantiene dos promedios móviles para cada parámetro:\n    #    - m (momentum): promedio móvil del gradiente\n    #    - v (velocity): promedio móvil del gradiente al cuadrado\n    #\n    # 2. Usa estos promedios para ajustar el learning rate:\n    #    - Si un parámetro tiene gradientes consistentes -> más actualización\n    #    - Si un parámetro tiene gradientes variables -> menos actualización\n    #\n    # 3. Corrección de sesgo al inicio del entrenamiento\n    #\n    # Ventajas de Adam:\n    #   - Converge rápido: menos épocas necesarias\n    #   - Robusto: funciona bien con configuración por defecto\n    #   - Adaptativo: ajusta learning rate para cada parámetro\n    #   - Eficiente en memoria: solo necesita almacenar m y v\n    #\n    # Hiperparámetros de Adam (valores por defecto):\n    #   - learning_rate: 0.001 (1e-3)\n    #   - beta_1: 0.9 (decay rate para momentum)\n    #   - beta_2: 0.999 (decay rate para velocity)\n    #   - epsilon: 1e-7 (para estabilidad numérica)\n    #\n    # ¿Cuándo usar Adam?\n    #   - Casi siempre es una buena elección inicial\n    #   - Especialmente en deep learning\n    #   - Cuando no quieres ajustar muchos hiperparámetros\n    #\n    # Alternativas y cuándo usarlas:\n    #   - SGD + momentum: cuando necesitas mejor generalización\n    #   - RMSprop: para redes recurrentes\n    #   - AdaGrad: cuando los features tienen frecuencias muy diferentes\n    optimizer='adam',\n    \n    # ============================================\n    # PARAMETRO 2: LOSS FUNCTION\n    # ============================================\n    # Sparse Categorical Crossentropy:\n    # Función de pérdida para clasificación multiclase\n    #\n    # ¿Qué significa \"Sparse\"?\n    #   - Las etiquetas son enteros: 0, 1, 2, ..., 9\n    #   - NO son one-hot encoded: [0,0,0,1,0,0,0,0,0,0]\n    #   - Ahorra memoria y es más eficiente\n    #\n    # ¿Cómo funciona Categorical Crossentropy?\n    #\n    # 1. El modelo produce probabilidades para cada clase:\n    #    Ejemplo: [0.05, 0.10, 0.02, 0.70, 0.03, 0.05, 0.01, 0.02, 0.01, 0.01]\n    #    Interpretación: 70% probabilidad de ser clase 3\n    #\n    # 2. Tomamos el logaritmo de la probabilidad de la clase correcta:\n    #    Si la etiqueta real es 3:\n    #    loss = -log(0.70) = 0.357\n    #\n    # 3. Penalizaciones según confianza:\n    #    - Si predice correctamente con 99% confianza: loss ≈ 0.01 (muy bajo)\n    #    - Si predice correctamente con 50% confianza: loss ≈ 0.69 (medio)\n    #    - Si predice correctamente con 10% confianza: loss ≈ 2.30 (alto)\n    #    - Si predice incorrectamente: loss puede ser infinito\n    #\n    # ¿Por qué usar logaritmo?\n    #   - Penaliza fuertemente las predicciones incorrectas\n    #   - Gradientes bien definidos para backpropagation\n    #   - Matemáticamente equivalente a maximizar likelihood\n    #\n    # Comparación con otras loss functions:\n    #   - Mean Squared Error (MSE): \n    #     * NO recomendado para clasificación\n    #     * Gradientes problemáticos con softmax\n    #     * Bueno para regresión\n    #   - Categorical Crossentropy (no-sparse):\n    #     * Funcionalmente idéntico pero requiere one-hot encoding\n    #     * Usa más memoria\n    #   - Binary Crossentropy:\n    #     * Solo para 2 clases\n    #     * Usa sigmoid en lugar de softmax\n    loss='sparse_categorical_crossentropy',\n    \n    # ============================================\n    # PARAMETRO 3: METRICS\n    # ============================================\n    # Accuracy: métrica de evaluación\n    #\n    # ¿Qué es accuracy?\n    #   - Porcentaje de predicciones correctas\n    #   - Fórmula: (predicciones_correctas / total_predicciones) × 100\n    #   - Rango: 0% (terrible) a 100% (perfecto)\n    #\n    # Ejemplo de cálculo:\n    #   Si tenemos 100 imágenes:\n    #   - Modelo predice correctamente 95\n    #   - Accuracy = 95/100 = 0.95 = 95%\n    #\n    # IMPORTANTE: Diferencia entre loss y accuracy:\n    #   - Loss: mide qué tan \"seguros\" están las predicciones incorrectas\n    #     * Penaliza predicciones incorrectas con alta confianza\n    #     * Es lo que el modelo MINIMIZA durante entrenamiento\n    #   - Accuracy: solo cuenta aciertos vs errores\n    #     * Ignora la confianza de las predicciones\n    #     * Solo para MONITOREAR, no para entrenar\n    #\n    # ¿Por qué no entrenar directamente con accuracy?\n    #   - Accuracy NO es diferenciable (gradientes indefinidos)\n    #   - Cambia en \"saltos\" discretos\n    #   - No proporciona dirección para mejorar\n    #\n    # Limitaciones de accuracy:\n    #   - Engañosa en datasets desbalanceados\n    #     Ejemplo: 95% clase A, 5% clase B\n    #     Un modelo que siempre predice A tiene 95% accuracy\n    #     ¡Pero es inútil para detectar clase B!\n    #   - No distingue entre diferentes tipos de errores\n    #     Falso positivo vs falso negativo cuenta igual\n    #\n    # Métricas alternativas (más avanzadas):\n    #   - Precision: De las predicciones positivas, cuántas son correctas\n    #   - Recall: De los casos positivos reales, cuántos detectamos\n    #   - F1-Score: Media armónica de precision y recall\n    #   - AUC-ROC: Area under curve para diferentes thresholds\n    #   - Confusion Matrix: Tabla detallada de errores\n    #\n    # Para MNIST, accuracy es suficiente porque:\n    #   - Dataset balanceado (similar cantidad por clase)\n    #   - Todas las clases son igualmente importantes\n    #   - Métrica intuitiva para principiantes\n    metrics=['accuracy']\n)\n\nprint(\"Modelo compilado exitosamente\")\nprint()\n\n# ============================================\n# VERIFICACIÓN DE LA CONFIGURACIÓN\n# ============================================\n# Mostremos la configuración del modelo compilado\n\nprint(\"=\"*70)\nprint(\"CONFIGURACION DEL ENTRENAMIENTO\")\nprint(\"=\"*70)\nprint()\n\n# Información del optimizer\nprint(f\"Optimizer: {model.optimizer.__class__.__name__}\")\nprint(f\"  - Tipo: Optimizador adaptativo\")\nprint(f\"  - Learning Rate: {model.optimizer.learning_rate.numpy()}\")\nprint(f\"  - Beta 1 (momentum decay): {model.optimizer.beta_1.numpy()}\")\nprint(f\"  - Beta 2 (velocity decay): {model.optimizer.beta_2.numpy()}\")\nprint(f\"  - Epsilon: {model.optimizer.epsilon}\")\nprint()\n\n# Información de la loss function\nprint(f\"Loss Function: {model.loss}\")\nprint(f\"  - Uso: Clasificacion multiclase\")\nprint(f\"  - Entrada: Etiquetas como enteros (0-9)\")\nprint(f\"  - Salida: Valor escalar a minimizar\")\nprint()\n\n# Información de las métricas\nprint(f\"Metrics: {model.metrics_names}\")\nprint(f\"  - Accuracy: Porcentaje de predicciones correctas\")\nprint(f\"  - Solo para monitoreo (no afecta el entrenamiento)\")\nprint()\n\nprint(\"=\"*70)\nprint(\"El modelo está listo para comenzar el entrenamiento\")\nprint(\"=\"*70)