# Preparacion de las librerias a utilizar en el laboratorio

In [2]:
import time
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.regularizers import l2
import matplotlib.pyplot as plt

# Importamos el data set desde la libreria de Keras

In [None]:
# Cargar el conjunto de datos MNIST
(X_entreno, y_entreno), (X_prueba, y_prueba) = tf.keras.datasets.mnist.load_data()

# Normalizar los datos
X_entreno = X_entreno / 255.0
X_prueba = X_prueba / 255.0

# Aplanar las imágenes
X_entreno = X_entreno.reshape(-1, 28*28)
X_prueba = X_prueba.reshape(-1, 28*28)

# Crear el modelo
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
    tf.keras.layers.Dense(10, activation='softmax')
])

# Compilar el modelo
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Entrenar el modelo
model.fit(X_entreno, y_entreno, epochs=10, validation_split=0.2)

# Evaluar el modelo
test_loss, test_acc = model.evaluate(X_prueba, y_prueba)
print(f'Test accuracy: {test_acc}')

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
[1m11490434/11490434[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Epoch 1/10
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 3ms/step - accuracy: 0.8686 - loss: 0.4716 - val_accuracy: 0.9569 - val_loss: 0.1493
Epoch 2/10
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 3ms/step - accuracy: 0.9613 - loss: 0.1323 - val_accuracy: 0.9663 - val_loss: 0.1175
Epoch 3/10
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 4ms/step - accuracy: 0.9758 - loss: 0.0863 - val_accuracy: 0.9690 - val_loss: 0.1013
Epoch 4/10
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 4ms/step - accuracy: 0.9812 - loss: 0.0629 - val_accuracy: 0.9741 - val_loss: 0.0928
Epoch 5/10
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 3ms/step - accuracy: 0.9862 - loss: 0.0456 - val_accuracy: 0.9747 - val_loss: 0.0860
Epoch 6/10
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 3ms/step - accuracy: 0.9884 - loss: 0.0371 - val_accuracy: 0.9735 - val_loss: 0.0890
Epoch 7/10
[1m

# Inciso 1 - Modificar el tamaño de la capa oculta del modelo.

In [None]:
import time

# Lista de tamaños de capa oculta a probar
hidden_layer_sizes = [50, 100, 200, 300, 500]

# Tabla para documentar resultados
results = []

for size in hidden_layer_sizes:
    # Crear el modelo con el tamaño de capa oculta actual
    model = tf.keras.models.Sequential([
        tf.keras.layers.Dense(size, activation='relu', input_shape=(784,)),
        tf.keras.layers.Dense(10, activation='softmax')
    ])

    # Compilar el modelo
    model.compile(optimizer='adam',
                  loss='sparse_categorical_crossentropy',
                  metrics=['accuracy'])

    # Medir el tiempo de entrenamiento
    start_time = time.time()
    history = model.fit(X_entreno, y_entreno, epochs=10, validation_split=0.2, verbose=0)
    end_time = time.time()

    # Obtener la precisión de validación y el tiempo de entrenamiento
    val_acc = history.history['val_accuracy'][-1]
    training_time = end_time - start_time

    # Guardar los resultados
    results.append((size, val_acc, training_time))

# Imprimir los resultados
for size, val_acc, training_time in results:
    print(f'Tamaño de capa oculta: {size}, Precisión de validación: {val_acc}, Tiempo de entrenamiento: {training_time:.2f} segundos')

Tamaño de capa oculta: 50, Precisión de validación: 0.9692500233650208, Tiempo de entrenamiento: 40.55 segundos
Tamaño de capa oculta: 100, Precisión de validación: 0.9742500185966492, Tiempo de entrenamiento: 50.66 segundos
Tamaño de capa oculta: 200, Precisión de validación: 0.9764999747276306, Tiempo de entrenamiento: 74.61 segundos
Tamaño de capa oculta: 300, Precisión de validación: 0.9770833253860474, Tiempo de entrenamiento: 89.31 segundos
Tamaño de capa oculta: 500, Precisión de validación: 0.9775833487510681, Tiempo de entrenamiento: 94.64 segundos


- ¿Cómo cambia la precisión de validación del modelo?
  - Entre las iteraciones de capas que utilice la precisión no aumenta significativamente, pero si queremos un modelo perfecto el gap de entre 200 y 300 de capa oculta puede ser muy beneficioso porque la variación de presición no es mucha pero si que es una precisión muy buena.
- ¿Cuánto tiempo tarda el algoritmo en entrenar?
  - Resultados de tiempo arriba


# Inciso 2  - Modificación de la Profundidad de la Red

In [None]:
# Crear el modelo con una capa oculta adicional
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
    tf.keras.layers.Dense(64, activation='relu'),  # Capa oculta adicional
    tf.keras.layers.Dense(10, activation='softmax')
])

# Compilar el modelo
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Medir el tiempo de entrenamiento
start_time = time.time()
history = model.fit(X_entreno, y_entreno, epochs=10, validation_split=0.2, verbose=0)
end_time = time.time()

# Obtener la precisión de validación y el tiempo de entrenamiento
val_acc = history.history['val_accuracy'][-1]
training_time = end_time - start_time

# Imprimir los resultados
print(f'Precisión de validación con capa adicional: {val_acc}, Tiempo de entrenamiento: {training_time:.2f} segundos')

Precisión de validación con capa adicional: 0.9747499823570251, Tiempo de entrenamiento: 62.39 segundos


- Compare la precisión de validación con el modelo original
  - El aumento de presición no es demasiado ya que el original ya tenía una presición muy cercana, pero en cuanto a precisión neta si que mejora al modelo original.
- Analice el impacto en el tiempo de ejecución
  - Me quedaría con el modelo original, precisión ligeramente menor pero un tiempo más corto, obviamente en cuanto escalemos los modelos y la dimensión sea más grande me quedaría con este de profundidad mayor ya que el gap si que llegaría a aumentar demasiado.
- Explique los cambios necesarios en el código para implementar esta modificación
  - Se agrego una capa más como se muestra arriba y es de tipo relu también.

# Inciso 3 - Redes Profundas

In [None]:
# Lista de profundidades a probar
depths = [2, 3, 4, 5]

# Tabla para documentar resultados
results_depth = []

for depth in depths:
    # Crear el modelo con la profundidad actual
    model = tf.keras.models.Sequential([
        tf.keras.layers.Dense(128, activation='relu', input_shape=(784,))
    ])

    for _ in range(depth - 1):
        model.add(tf.keras.layers.Dense(128, activation='relu'))

    model.add(tf.keras.layers.Dense(10, activation='softmax'))

    # Compilar el modelo
    model.compile(optimizer='adam',
                  loss='sparse_categorical_crossentropy',
                  metrics=['accuracy'])

    # Medir el tiempo de entrenamiento
    start_time = time.time()
    history = model.fit(X_entreno, y_entreno, epochs=10, validation_split=0.2, verbose=0)
    end_time = time.time()

    # Obtener la precisión de validación y el tiempo de entrenamiento
    val_acc = history.history['val_accuracy'][-1]
    training_time = end_time - start_time

    # Guardar los resultados
    results_depth.append((depth, val_acc, training_time))

# Imprimir los resultados
for depth, val_acc, training_time in results_depth:
    print(f'Profundidad: {depth}, Precisión de validación: {val_acc}, Tiempo de entrenamiento: {training_time:.2f} segundos')

Profundidad: 2, Precisión de validación: 0.9737499952316284, Tiempo de entrenamiento: 61.79 segundos
Profundidad: 3, Precisión de validación: 0.9780833125114441, Tiempo de entrenamiento: 78.94 segundos
Profundidad: 4, Precisión de validación: 0.9739166498184204, Tiempo de entrenamiento: 67.85 segundos
Profundidad: 5, Precisión de validación: 0.9765833616256714, Tiempo de entrenamiento: 78.26 segundos


- Analice la relación entre profundidad y tiempo de ejecución
 - Creo que es bastante evidente la relación que entre más profundidad el tiempo también aumenta aunque en este caso hubo una anomalia en la de profundidad 4 tardando menos que la de profundidad 3.
- Identifique posibles problemas de desvanecimiento del gradiente
  Puede ser que al llegar a cierta "anchura" el modelo llegue a perder mejora y el desvanecimiento del gradiente ya no llegue a cambiar.

# Inciso 4 - Funciones de Activación I

In [None]:
# Crear el modelo con activación sigmoidal
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(128, activation='sigmoid', input_shape=(784,)),
    tf.keras.layers.Dense(128, activation='sigmoid'),
    tf.keras.layers.Dense(10, activation='softmax')
])

# Compilar el modelo
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Medir el tiempo de entrenamiento
start_time = time.time()
history = model.fit(X_entreno, y_entreno, epochs=10, validation_split=0.2, verbose=0)
end_time = time.time()

# Obtener la precisión de validación y el tiempo de entrenamiento
val_acc = history.history['val_accuracy'][-1]
training_time = end_time - start_time

# Imprimir los resultados
print(f'Precisión de validación con activación sigmoidal: {val_acc}, Tiempo de entrenamiento: {training_time:.2f} segundos')

Precisión de validación con activación sigmoidal: 0.9738333225250244, Tiempo de entrenamiento: 74.03 segundos


# Inciso 5 - Funciones de Activación II

In [None]:
# Crear el modelo con ReLU en la primera capa y tanh en la segunda
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
    tf.keras.layers.Dense(128, activation='tanh'),
    tf.keras.layers.Dense(10, activation='softmax')
])

# Compilar el modelo
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Medir el tiempo de entrenamiento
start_time = time.time()
history = model.fit(X_entreno, y_entreno, epochs=10, validation_split=0.2, verbose=0)
end_time = time.time()

# Obtener la precisión de validación y el tiempo de entrenamiento
val_acc = history.history['val_accuracy'][-1]
training_time = end_time - start_time

# Imprimir los resultados
print(f'Precisión de validación con ReLU y tanh: {val_acc}, Tiempo de entrenamiento: {training_time:.2f} segundos')

Precisión de validación con ReLU y tanh: 0.9775000214576721, Tiempo de entrenamiento: 73.07 segundos


- Compare el rendimiento con las configuraciones anteriores
  - Rendimiento muy parecido al de Depth mayor y minimamente superior al modelo original.
- Explique las ventajas y desventajas de cada función de activación
 - Las ventajas creo que tendrían que ver con que una es lineal y la otra no, Tanh es una función no lineal más fuerte que la sigmoide, lo que puede ayudar a la red a aprender representaciones más complejas, pero igualemente es más intensiva que RElu por que requiere más calculos computacionales.

# Inciso 6 - Tamaño de Batch Grande

In [None]:
# Crear el modelo base
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
    tf.keras.layers.Dense(10, activation='softmax')
])

# Compilar el modelo
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Medir el tiempo de entrenamiento con batch size grande
start_time = time.time()
history = model.fit(X_entreno, y_entreno, epochs=10, validation_split=0.2, batch_size=10000, verbose=0)
end_time = time.time()

# Obtener la precisión de validación y el tiempo de entrenamiento
val_acc = history.history['val_accuracy'][-1]
training_time = end_time - start_time

# Imprimir los resultados
print(f'Precisión de validación con batch size 10,000: {val_acc}, Tiempo de entrenamiento: {training_time:.2f} segundos')

Precisión de validación con batch size 10,000: 0.9099166393280029, Tiempo de entrenamiento: 8.55 segundos


- Documente el cambio en el tiempo de entrenamiento
  - Pues el tiempo es menor porque el batch es mayor con lo que el tiempo de iteracion se reduce y con esto tambien el tiempo que tarda el modelo en entrenarse al igual que tambien puede ser significativo que los pesos se actualizan con menor frecuencia por la cantidad de iteraciones menores que hay.
- Analice el impacto en la precisión del modelo
 - Como dije anteriormente menos iteraciones, menos calculos de pesos por lo que la presición es buena pero vemos como es que la cantidad de iteraciones reducidas si que afecta de buena manera la presición siendo casi 7% menos efectiva que cualquiera de los modelos anteriores, incluso el original.
- Explique teóricamente por qué se observan estos cambios
 - Menos iteraciones, menos calculo de pesos y también es imporante saber que con esta dimensión de batch el modelo puede llegar a estar en un minimo local y no saberlo con exactitud.

# Inciso 7 - Descenso de Gradiente Estocástico (SGD)

In [None]:
# Crear el modelo base
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
    tf.keras.layers.Dense(10, activation='softmax')
])

# Compilar el modelo
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Medir el tiempo de entrenamiento con SGD puro
start_time = time.time()
history = model.fit(X_entreno, y_entreno, epochs=10, validation_split=0.2, batch_size=1, verbose=0)
end_time = time.time()

# Obtener la precisión de validación y el tiempo de entrenamiento
val_acc = history.history['val_accuracy'][-1]
training_time = end_time - start_time

# Imprimir los resultados
print(f'Precisión de validación con SGD puro: {val_acc}, Tiempo de entrenamiento: {training_time:.2f} segundos')

Precisión de validación con SGD puro: 0.9707499742507935, Tiempo de entrenamiento: 1361.04 segundos


- Compare el tiempo de ejecución con configuraciones anteriores
  - Precisión ligeremante menor a los modelos de depth, RElu  y original, pero mejor que la de batch 10, precisión relativamente buena, pero el tiempo de entrenamiento es una gran desventaja ya que llego a tardar hasta 6 veces más que el modelo más tardado anteriormente.
- Analice la estabilidad y precisión del entrenamiento
  - Las actualizaciones de pesos son más ruidosas y menos estables, pero pueden resultar en una precisión más alta en el conjunto de validación debido a una exploración más detallada del espacio de búsqueda. Quizás en este caso en especifico esta estabilidad no llega a compensar en cuanto a la presición, pero quizás en sets muchisimo más pesados el detalle de la busqueda si que pueda compensar con lo tardado que es.
- Explique si los resultados son coherentes con la teoría
  - El tiempo de ejecución debe ser más largo debido a las muchas más iteraciones y la menor eficiencia de la GPU. Esto es coherente con la teoría, fue el modelo que más tardo con muchisima diferencia.

# Inciso 8 - Tasa de Apredizaje Baja



In [None]:
name = "lr_low"
low_lr = 0.0001
model_low_lr = tf.keras.models.Sequential([
    tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(10, activation='softmax')
])
model_low_lr.compile(
    optimizer=tf.keras.optimizers.Adam(learning_rate=low_lr),
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

start_time = time.time()
history_low_lr = model_low_lr.fit(X_entreno, y_entreno,
                                  epochs=10,
                                  validation_split=0.2,
                                  verbose=0)
end_time = time.time()

val_acc_low_lr = history_low_lr.history['val_accuracy'][-1]
training_time_low_lr = end_time - start_time
experiments[name] = {'history': history_low_lr, 'model': model_low_lr, 'train_time': training_time_low_lr}

print(f'Tasa de aprendizaje baja ({low_lr}): '
      f'Precisión de validación: {val_acc_low_lr:.4f}, '
      f'Tiempo de entrenamiento: {training_time_low_lr:.2f} s')


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Tasa de aprendizaje baja (0.0001): Precisión de validación: 0.9693, Tiempo de entrenamiento: 87.01 s


# Inciso 9 - Tasa de Apredizaje Alta



In [None]:
name = "lr_high"
high_lr = 0.02
model_high_lr = tf.keras.models.Sequential([
    tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(10, activation='softmax')
])
model_high_lr.compile(
    optimizer=tf.keras.optimizers.Adam(learning_rate=high_lr),
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

start_time = time.time()
history_high_lr = model_high_lr.fit(X_entreno, y_entreno,
                                    epochs=10,
                                    validation_split=0.2,
                                    verbose=0)
end_time = time.time()

val_acc_high_lr = history_high_lr.history['val_accuracy'][-1]
training_time_high_lr = end_time - start_time
experiments[name] = {'history': history_high_lr, 'model': model_high_lr, 'train_time': training_time_high_lr}

test_loss_high, test_acc_high = model_high_lr.evaluate(X_prueba, y_prueba, verbose=0)

print(
    f"Tasa de aprendizaje alta ({high_lr}): "
    f"Pérdida prueba: {test_loss_high:.4f}, "
    f"Precisión prueba: {test_acc_high:.4f}, "
    f"Val Acc: {history_high_lr.history['val_accuracy'][-1]:.4f}"
)

Tasa de aprendizaje alta (0.02): Precisión de validación: 0.9497, Tiempo de entrenamiento: 92.72 s


#### Análisis comparativo
- Precisión de validación

LR baja supera en ~2 puntos porcentuales a LR alta (0.9693 vs. 0.9497), mostrando que los pasos más pequeños permiten encontrar un mínimo más preciso.

LR alta tiende a estabilizarse en un plateau inferior debido a saltos excesivos en el espacio de pesos.

- Velocidad de entrenamiento

Curiosamente, LR baja resultó algo más rápida (≈5 s menos). Esto puede deberse a diferencias en la estabilidad interna del optimizador: pasos más grandes requieren ocasionalmente correcciones adicionales (momentum, cálculos extra) que encarecen ligeramente cada batch.

- Estabilidad vs. agresividad

Con LR alta es habitual observar oscilaciones en la curva de pérdida y accuracy, riesgo de divergencia parcial.

Con LR baja, la curva es monótona y suave, reduciendo riesgo de saltarse el valle del óptimo local.

# Inciso 10 - Optimización Avanzada



In [None]:
drop_rates = [0.2, 0.5]
results_dropout = []

for rate in drop_rates:
    name = f"dropout_{int(rate*100)}"
    model_do = tf.keras.models.Sequential([
        tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
        Dropout(rate),
        tf.keras.layers.Dense(128, activation='relu'),
        Dropout(rate),
        tf.keras.layers.Dense(10, activation='softmax')
    ])
    model_do.compile(
        optimizer='adam',
        loss='sparse_categorical_crossentropy',
        metrics=['accuracy']
    )
    start = time.time()
    hist = model_do.fit(X_entreno, y_entreno,
                        epochs=10,
                        validation_split=0.2,
                        verbose=0)
    end = time.time()
    test_loss_do, test_acc_do = model_do.evaluate(X_prueba, y_prueba, verbose=0)
    print(f"Dropout {rate} — Pérdida prueba: {test_loss_do:.4f}, Precisión prueba: {test_acc_do:.4f}, Val Acc: {hist.history['val_accuracy'][-1]:.4f}")
    experiments[name] = {'history': hist, 'model': model_do, 'train_time': end - start}

    results_dropout.append((rate,
                            hist.history['val_accuracy'][-1],
                            end - start))

for rate, acc, t in results_dropout:
    print(f'Dropout {rate}: Val Acc={acc:.4f}, Tiempo={t:.2f}s')

l2_coefs = [1e-3, 1e-4]
results_l2 = []

for coef in l2_coefs:
    name = f"l2_{coef}"
    model_l2 = tf.keras.models.Sequential([
        tf.keras.layers.Dense(128, activation='relu', input_shape=(784,),
                              kernel_regularizer=regularizers.l2(coef)),
        tf.keras.layers.Dense(128, activation='relu',
                              kernel_regularizer=regularizers.l2(coef)),
        tf.keras.layers.Dense(10, activation='softmax')
    ])
    model_l2.compile(
        optimizer='adam',
        loss='sparse_categorical_crossentropy',
        metrics=['accuracy']
    )
    start = time.time()
    hist = model_l2.fit(X_entreno, y_entreno,
                        epochs=10,
                        validation_split=0.2,
                        verbose=0)
    end = time.time()
    test_loss_l2, test_acc_l2 = model_l2.evaluate(X_prueba, y_prueba, verbose=0)
    print(f"L2 coef {coef} — Pérdida prueba: {test_loss_l2:.4f}, Precisión prueba: {test_acc_l2:.4f}, Val Acc: {hist.history['val_accuracy'][-1]:.4f}")
    results_l2.append((coef,
                       hist.history['val_accuracy'][-1],
                       end - start))
    experiments[name] = {'history': hist, 'model': model_l2, 'train_time': end - start}

for coef, acc, t in results_l2:
    print(f'L2 coef {coef}: Val Acc={acc:.4f}, Tiempo={t:.2f}s')

Dropout 0.2 — Pérdida prueba: 0.0714, Precisión prueba: 0.9797, Val Acc: 0.9788
Dropout 0.5 — Pérdida prueba: 0.1057, Precisión prueba: 0.9698, Val Acc: 0.9687
Dropout 0.2: Val Acc=0.9788, Tiempo=97.10s
Dropout 0.5: Val Acc=0.9687, Tiempo=100.66s
L2 coef 0.001 — Pérdida prueba: 0.1747, Precisión prueba: 0.9713, Val Acc: 0.9678
L2 coef 0.0001 — Pérdida prueba: 0.1263, Precisión prueba: 0.9781, Val Acc: 0.9773
L2 coef 0.001: Val Acc=0.9678, Tiempo=93.76s
L2 coef 0.0001: Val Acc=0.9773, Tiempo=100.95s


Moderada regularización (Dropout 0.2 o L2 con coeficiente 1 × 10⁻⁴) es la más eficaz:

Reduce el sobreajuste manteniendo alta la precisión de prueba.

Gap muy bajo (< 0.1 %) demuestra sólida generalización.

Evitar tasas demasiado altas (Dropout 0.5 o L2 1 × 10⁻³), pues inducen underfitting y empeoran la pérdida.

Entre las dos, Dropout 0.2 se lleva la delantera por su menor pérdida final y ligera ventaja en precisión.

# Inciso 11 - Visualización

# Inciso 12 - Modelo Óptimo

In [3]:
import tensorflow as tf
from tensorflow.keras import regularizers, callbacks
from tensorflow.keras.layers import Dense, Dropout, BatchNormalization, Input, Flatten
from tensorflow.keras.models import Sequential

# 1. Carga y preprocesamiento
(X_entreno, y_entreno), (X_prueba, y_prueba) = tf.keras.datasets.mnist.load_data()
X_entreno = X_entreno.astype("float32") / 255.0
X_prueba  = X_prueba.astype("float32")  / 255.0
# Aplanar
X_entreno = X_entreno.reshape(-1, 28*28)
X_prueba  = X_prueba.reshape(-1, 28*28)

# 2. Arquitectura
model = Sequential([
    Input(shape=(784,)),

    # Capa oculta 1
    Dense(128, activation='relu',
          kernel_regularizer=regularizers.l2(1e-4)),
    BatchNormalization(),
    Dropout(0.2),

    # Capa oculta 2
    Dense(128, activation='relu',
          kernel_regularizer=regularizers.l2(1e-4)),
    BatchNormalization(),
    Dropout(0.2),

    # Capa de salida
    Dense(10, activation='softmax')
])

# 3. Compilación con LR bajo y scheduler
initial_lr = 1e-4
model.compile(
    optimizer=tf.keras.optimizers.Adam(learning_rate=initial_lr),
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

# Reduce LR si la validación se estanca
reduce_lr = callbacks.ReduceLROnPlateau(
    monitor='val_loss',
    factor=0.5,
    patience=3,
    min_lr=1e-6,
    verbose=1
)

# Early stopping para evitar overfitting
early_stop = callbacks.EarlyStopping(
    monitor='val_loss',
    patience=5,
    restore_best_weights=True,
    verbose=1
)

# 4. Entrenamiento
history = model.fit(
    X_entreno, y_entreno,
    epochs=30,
    batch_size=128,
    validation_split=0.2,
    callbacks=[reduce_lr, early_stop],
    verbose=2
)

# 5. Evaluación final
test_loss, test_acc = model.evaluate(X_prueba, y_prueba, verbose=0)
print(f"Pérdida de prueba: {test_loss:.4f}, Precisión de prueba: {test_acc:.4f}")


Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
[1m11490434/11490434[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step
Epoch 1/30
375/375 - 6s - 15ms/step - accuracy: 0.6827 - loss: 1.0549 - val_accuracy: 0.8895 - val_loss: 0.4620 - learning_rate: 1.0000e-04
Epoch 2/30
375/375 - 2s - 6ms/step - accuracy: 0.8664 - loss: 0.4833 - val_accuracy: 0.9214 - val_loss: 0.3010 - learning_rate: 1.0000e-04
Epoch 3/30
375/375 - 2s - 7ms/step - accuracy: 0.8988 - loss: 0.3729 - val_accuracy: 0.9363 - val_loss: 0.2531 - learning_rate: 1.0000e-04
Epoch 4/30
375/375 - 4s - 11ms/step - accuracy: 0.9152 - loss: 0.3177 - val_accuracy: 0.9448 - val_loss: 0.2221 - learning_rate: 1.0000e-04
Epoch 5/30
375/375 - 3s - 7ms/step - accuracy: 0.9261 - loss: 0.2808 - val_accuracy: 0.9507 - val_loss: 0.2013 - learning_rate: 1.0000e-04
Epoch 6/30
375/375 - 2s - 6ms/step - accuracy: 0.9348 - loss: 0.2508 - val_accuracy: 0.9542 - val_loss: 0.1869 - learning_rate