# Preparacion de las librerias a utilizar en el laboratorio

In [2]:
import time
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.regularizers import l2
import matplotlib.pyplot as plt

# Importamos el data set desde la libreria de Keras

In [3]:
# Cargar el conjunto de datos MNIST
(X_entreno, y_entreno), (X_prueba, y_prueba) = tf.keras.datasets.mnist.load_data()

# Normalizar los datos
X_entreno = X_entreno / 255.0
X_prueba = X_prueba / 255.0

# Aplanar las imágenes
X_entreno = X_entreno.reshape(-1, 28*28)
X_prueba = X_prueba.reshape(-1, 28*28)

# Crear el modelo
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
    tf.keras.layers.Dense(10, activation='softmax')
])

# Compilar el modelo
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Entrenar el modelo
model.fit(X_entreno, y_entreno, epochs=10, validation_split=0.2)

# Evaluar el modelo
test_loss, test_acc = model.evaluate(X_prueba, y_prueba)
print(f'Test accuracy: {test_acc}')

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
[1m11490434/11490434[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Epoch 1/10
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 3ms/step - accuracy: 0.8686 - loss: 0.4716 - val_accuracy: 0.9569 - val_loss: 0.1493
Epoch 2/10
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 3ms/step - accuracy: 0.9613 - loss: 0.1323 - val_accuracy: 0.9663 - val_loss: 0.1175
Epoch 3/10
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 4ms/step - accuracy: 0.9758 - loss: 0.0863 - val_accuracy: 0.9690 - val_loss: 0.1013
Epoch 4/10
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 4ms/step - accuracy: 0.9812 - loss: 0.0629 - val_accuracy: 0.9741 - val_loss: 0.0928
Epoch 5/10
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 3ms/step - accuracy: 0.9862 - loss: 0.0456 - val_accuracy: 0.9747 - val_loss: 0.0860
Epoch 6/10
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 3ms/step - accuracy: 0.9884 - loss: 0.0371 - val_accuracy: 0.9735 - val_loss: 0.0890
Epoch 7/10
[1m

# Inciso 1 - Modificar el tamaño de la capa oculta del modelo.

In [4]:
import time

# Lista de tamaños de capa oculta a probar
hidden_layer_sizes = [50, 100, 200, 300, 500]

# Tabla para documentar resultados
results = []

for size in hidden_layer_sizes:
    # Crear el modelo con el tamaño de capa oculta actual
    model = tf.keras.models.Sequential([
        tf.keras.layers.Dense(size, activation='relu', input_shape=(784,)),
        tf.keras.layers.Dense(10, activation='softmax')
    ])

    # Compilar el modelo
    model.compile(optimizer='adam',
                  loss='sparse_categorical_crossentropy',
                  metrics=['accuracy'])

    # Medir el tiempo de entrenamiento
    start_time = time.time()
    history = model.fit(X_entreno, y_entreno, epochs=10, validation_split=0.2, verbose=0)
    end_time = time.time()

    # Obtener la precisión de validación y el tiempo de entrenamiento
    val_acc = history.history['val_accuracy'][-1]
    training_time = end_time - start_time

    # Guardar los resultados
    results.append((size, val_acc, training_time))

# Imprimir los resultados
for size, val_acc, training_time in results:
    print(f'Tamaño de capa oculta: {size}, Precisión de validación: {val_acc}, Tiempo de entrenamiento: {training_time:.2f} segundos')

Tamaño de capa oculta: 50, Precisión de validación: 0.9692500233650208, Tiempo de entrenamiento: 40.55 segundos
Tamaño de capa oculta: 100, Precisión de validación: 0.9742500185966492, Tiempo de entrenamiento: 50.66 segundos
Tamaño de capa oculta: 200, Precisión de validación: 0.9764999747276306, Tiempo de entrenamiento: 74.61 segundos
Tamaño de capa oculta: 300, Precisión de validación: 0.9770833253860474, Tiempo de entrenamiento: 89.31 segundos
Tamaño de capa oculta: 500, Precisión de validación: 0.9775833487510681, Tiempo de entrenamiento: 94.64 segundos


- ¿Cómo cambia la precisión de validación del modelo?
  - Entre las iteraciones de capas que utilice la precisión no aumenta significativamente, pero si queremos un modelo perfecto el gap de entre 200 y 300 de capa oculta puede ser muy beneficioso porque la variación de presición no es mucha pero si que es una precisión muy buena.
- ¿Cuánto tiempo tarda el algoritmo en entrenar?
  - Resultados de tiempo arriba


# Inciso 2  - Modificación de la Profundidad de la Red

In [5]:
# Crear el modelo con una capa oculta adicional
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
    tf.keras.layers.Dense(64, activation='relu'),  # Capa oculta adicional
    tf.keras.layers.Dense(10, activation='softmax')
])

# Compilar el modelo
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Medir el tiempo de entrenamiento
start_time = time.time()
history = model.fit(X_entreno, y_entreno, epochs=10, validation_split=0.2, verbose=0)
end_time = time.time()

# Obtener la precisión de validación y el tiempo de entrenamiento
val_acc = history.history['val_accuracy'][-1]
training_time = end_time - start_time

# Imprimir los resultados
print(f'Precisión de validación con capa adicional: {val_acc}, Tiempo de entrenamiento: {training_time:.2f} segundos')

Precisión de validación con capa adicional: 0.9747499823570251, Tiempo de entrenamiento: 62.39 segundos


- Compare la precisión de validación con el modelo original
  - El aumento de presición no es demasiado ya que el original ya tenía una presición muy cercana, pero en cuanto a precisión neta si que mejora al modelo original.
- Analice el impacto en el tiempo de ejecución
  - Me quedaría con el modelo original, precisión ligeramente menor pero un tiempo más corto, obviamente en cuanto escalemos los modelos y la dimensión sea más grande me quedaría con este de profundidad mayor ya que el gap si que llegaría a aumentar demasiado.
- Explique los cambios necesarios en el código para implementar esta modificación
  - Se agrego una capa más como se muestra arriba y es de tipo relu también.

# Inciso 3 - Redes Profundas

In [6]:
# Lista de profundidades a probar
depths = [2, 3, 4, 5]

# Tabla para documentar resultados
results_depth = []

for depth in depths:
    # Crear el modelo con la profundidad actual
    model = tf.keras.models.Sequential([
        tf.keras.layers.Dense(128, activation='relu', input_shape=(784,))
    ])

    for _ in range(depth - 1):
        model.add(tf.keras.layers.Dense(128, activation='relu'))

    model.add(tf.keras.layers.Dense(10, activation='softmax'))

    # Compilar el modelo
    model.compile(optimizer='adam',
                  loss='sparse_categorical_crossentropy',
                  metrics=['accuracy'])

    # Medir el tiempo de entrenamiento
    start_time = time.time()
    history = model.fit(X_entreno, y_entreno, epochs=10, validation_split=0.2, verbose=0)
    end_time = time.time()

    # Obtener la precisión de validación y el tiempo de entrenamiento
    val_acc = history.history['val_accuracy'][-1]
    training_time = end_time - start_time

    # Guardar los resultados
    results_depth.append((depth, val_acc, training_time))

# Imprimir los resultados
for depth, val_acc, training_time in results_depth:
    print(f'Profundidad: {depth}, Precisión de validación: {val_acc}, Tiempo de entrenamiento: {training_time:.2f} segundos')

Profundidad: 2, Precisión de validación: 0.9737499952316284, Tiempo de entrenamiento: 61.79 segundos
Profundidad: 3, Precisión de validación: 0.9780833125114441, Tiempo de entrenamiento: 78.94 segundos
Profundidad: 4, Precisión de validación: 0.9739166498184204, Tiempo de entrenamiento: 67.85 segundos
Profundidad: 5, Precisión de validación: 0.9765833616256714, Tiempo de entrenamiento: 78.26 segundos


- Analice la relación entre profundidad y tiempo de ejecución
 - Creo que es bastante evidente la relación que entre más profundidad el tiempo también aumenta aunque en este caso hubo una anomalia en la de profundidad 4 tardando menos que la de profundidad 3.
- Identifique posibles problemas de desvanecimiento del gradiente
  Puede ser que al llegar a cierta "anchura" el modelo llegue a perder mejora y el desvanecimiento del gradiente ya no llegue a cambiar.

# Inciso 4 - Funciones de Activación I

In [7]:
# Crear el modelo con activación sigmoidal
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(128, activation='sigmoid', input_shape=(784,)),
    tf.keras.layers.Dense(128, activation='sigmoid'),
    tf.keras.layers.Dense(10, activation='softmax')
])

# Compilar el modelo
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Medir el tiempo de entrenamiento
start_time = time.time()
history = model.fit(X_entreno, y_entreno, epochs=10, validation_split=0.2, verbose=0)
end_time = time.time()

# Obtener la precisión de validación y el tiempo de entrenamiento
val_acc = history.history['val_accuracy'][-1]
training_time = end_time - start_time

# Imprimir los resultados
print(f'Precisión de validación con activación sigmoidal: {val_acc}, Tiempo de entrenamiento: {training_time:.2f} segundos')

Precisión de validación con activación sigmoidal: 0.9738333225250244, Tiempo de entrenamiento: 74.03 segundos


# Inciso 5 - Funciones de Activación II

In [8]:
# Crear el modelo con ReLU en la primera capa y tanh en la segunda
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
    tf.keras.layers.Dense(128, activation='tanh'),
    tf.keras.layers.Dense(10, activation='softmax')
])

# Compilar el modelo
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Medir el tiempo de entrenamiento
start_time = time.time()
history = model.fit(X_entreno, y_entreno, epochs=10, validation_split=0.2, verbose=0)
end_time = time.time()

# Obtener la precisión de validación y el tiempo de entrenamiento
val_acc = history.history['val_accuracy'][-1]
training_time = end_time - start_time

# Imprimir los resultados
print(f'Precisión de validación con ReLU y tanh: {val_acc}, Tiempo de entrenamiento: {training_time:.2f} segundos')

Precisión de validación con ReLU y tanh: 0.9775000214576721, Tiempo de entrenamiento: 73.07 segundos


# Inciso 6 - Tamaño de Batch Grande

In [9]:
# Crear el modelo base
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
    tf.keras.layers.Dense(10, activation='softmax')
])

# Compilar el modelo
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Medir el tiempo de entrenamiento con batch size grande
start_time = time.time()
history = model.fit(X_entreno, y_entreno, epochs=10, validation_split=0.2, batch_size=10000, verbose=0)
end_time = time.time()

# Obtener la precisión de validación y el tiempo de entrenamiento
val_acc = history.history['val_accuracy'][-1]
training_time = end_time - start_time

# Imprimir los resultados
print(f'Precisión de validación con batch size 10,000: {val_acc}, Tiempo de entrenamiento: {training_time:.2f} segundos')

Precisión de validación con batch size 10,000: 0.9099166393280029, Tiempo de entrenamiento: 8.55 segundos


# Inciso 7 - Descenso de Gradiente Estocástico (SGD)

In [10]:
# Crear el modelo base
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
    tf.keras.layers.Dense(10, activation='softmax')
])

# Compilar el modelo
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Medir el tiempo de entrenamiento con SGD puro
start_time = time.time()
history = model.fit(X_entreno, y_entreno, epochs=10, validation_split=0.2, batch_size=1, verbose=0)
end_time = time.time()

# Obtener la precisión de validación y el tiempo de entrenamiento
val_acc = history.history['val_accuracy'][-1]
training_time = end_time - start_time

# Imprimir los resultados
print(f'Precisión de validación con SGD puro: {val_acc}, Tiempo de entrenamiento: {training_time:.2f} segundos')

Precisión de validación con SGD puro: 0.9707499742507935, Tiempo de entrenamiento: 1361.04 segundos
