# Miniproyecto 2 Redes Neuronales

- **Profesor:** Francisco Perez Galarce
- **Ayudante:** Yesenia Salinas

**Integrante:**
- Jorge Troncoso

In [1]:
# Se importan las librerias a utilizar

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, random_split
from torchvision import datasets, transforms
import matplotlib.pyplot as plt

# 1.1 Perceptron multicapa

In [2]:
# Preprocesamiento y carga de datos de MNIST
transform = transforms.Compose([
    transforms.ToTensor(),                 # Convertimos imágenes a tensores
    transforms.Normalize((0.5,), (0.5,))  # Normalizamos a media 0 y varianza 1
])

train_dataset = datasets.MNIST(root='./data', train=True, transform=transform, download=True)
test_dataset = datasets.MNIST(root='./data', train=False, transform=transform, download=True)

# Crear dataloaders
batch_size = 64  # Ajusta según la capacidad de GPU/CPU
train_loader = DataLoader(dataset=train_dataset, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(dataset=test_dataset, batch_size=batch_size, shuffle=False)

En el siguiente bloque de codigo se hara tanto la modificación de arquitectura como las modifaciones de entrenamiento

In [3]:
# Función para construir un MLP flexible
# Solo se usaran 3 epocas como menciono el profesor para que la ejecución sea mas rapida
class MLP(nn.Module):
    def __init__(self, input_size, hidden_sizes, output_size, activation_function):
        super(MLP, self).__init__()
        layers = []
        current_size = input_size
        for hidden_size in hidden_sizes:
            layers.append(nn.Linear(current_size, hidden_size))
            layers.append(activation_function())
            current_size = hidden_size
        layers.append(nn.Linear(current_size, output_size))
        self.network = nn.Sequential(*layers)
        
    def forward(self, x):
        x = x.view(x.size(0), -1)  # Aplanar las imágenes
        return self.network(x)

# Función para entrenar el modelo
def train_model(model, train_loader, optimizer, criterion, num_epochs):
    for epoch in range(num_epochs):
        model.train()
        running_loss = 0.0
        for images, labels in train_loader:
            optimizer.zero_grad()
            outputs = model(images)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
        print(f"Epoch [{epoch + 1}/{num_epochs}], Loss: {running_loss / len(train_loader)}")

# Función para evaluar el modelo
def evaluate_model(model, data_loader):
    model.eval()
    correct = 0
    total = 0
    with torch.no_grad():
        for images, labels in data_loader:
            outputs = model(images)
            _, predicted = torch.max(outputs, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    return correct / total

# Experimentación
results = []
batch_sizes = [32, 64]
learning_rates = [0.001, 0.01]
hidden_layers = [[128], [256, 128], [512, 256, 128]]
activation_functions = [nn.ReLU, nn.Sigmoid]
optimizers = [optim.Adam, optim.SGD]

input_size = 28 * 28  # Tamaño de entrada
output_size = 10  # 10 clases de dígitos

for batch_size in batch_sizes:
    train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
    test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)
    for lr in learning_rates:
        for hidden_sizes in hidden_layers:
            for activation_function in activation_functions:
                for opt_func in optimizers:
                    print(f"Testing: batch_size={batch_size}, lr={lr}, hidden_sizes={hidden_sizes}, activation={activation_function.__name__}, optimizer={opt_func.__name__}")
                    # Crear modelo
                    model = MLP(input_size, hidden_sizes, output_size, activation_function)
                    criterion = nn.CrossEntropyLoss()
                    optimizer = opt_func(model.parameters(), lr=lr)
                    # Entrenar modelo
                    train_model(model, train_loader, optimizer, criterion, num_epochs=3)
                    # Evaluar modelo
                    train_acc = evaluate_model(model, train_loader)
                    test_acc = evaluate_model(model, test_loader)
                    print(f"Train Accuracy: {train_acc * 100:.2f}%, Test Accuracy: {test_acc * 100:.2f}%")
                    # Guardar resultados
                    results.append({
                        'batch_size': batch_size,
                        'learning_rate': lr,
                        'hidden_layers': hidden_sizes,
                        'activation': activation_function.__name__,
                        'optimizer': opt_func.__name__,
                        'train_accuracy': train_acc,
                        'test_accuracy': test_acc
                    })

# Mostrar resultados ordenados por mejor accuracy en test
import pandas as pd
results_df = pd.DataFrame(results)
results_df = results_df.sort_values(by='test_accuracy', ascending=False)
print(results_df)

Testing: batch_size=32, lr=0.001, hidden_sizes=[128], activation=ReLU, optimizer=Adam
Epoch [1/3], Loss: 0.3447279696742694
Epoch [2/3], Loss: 0.1699446654121081
Epoch [3/3], Loss: 0.12821243075355887
Train Accuracy: 97.03%, Test Accuracy: 96.43%
Testing: batch_size=32, lr=0.001, hidden_sizes=[128], activation=ReLU, optimizer=SGD
Epoch [1/3], Loss: 1.5335675369898478
Epoch [2/3], Loss: 0.7393601686636607
Epoch [3/3], Loss: 0.538245778520902
Train Accuracy: 87.52%, Test Accuracy: 88.01%
Testing: batch_size=32, lr=0.001, hidden_sizes=[128], activation=Sigmoid, optimizer=Adam
Epoch [1/3], Loss: 0.4049938795487086
Epoch [2/3], Loss: 0.1965350634942452
Epoch [3/3], Loss: 0.14589538647284112
Train Accuracy: 96.79%, Test Accuracy: 96.22%
Testing: batch_size=32, lr=0.001, hidden_sizes=[128], activation=Sigmoid, optimizer=SGD
Epoch [1/3], Loss: 2.217266143544515
Epoch [2/3], Loss: 2.0094561297098794
Epoch [3/3], Loss: 1.7560285143534342
Train Accuracy: 71.45%, Test Accuracy: 72.86%
Testing: bat

Epoch [3/3], Loss: 0.11270095981401342
Train Accuracy: 97.17%, Test Accuracy: 96.65%
Testing: batch_size=64, lr=0.001, hidden_sizes=[512, 256, 128], activation=ReLU, optimizer=SGD
Epoch [1/3], Loss: 2.281759505587092
Epoch [2/3], Loss: 2.2175865320762846
Epoch [3/3], Loss: 2.0855780517114506
Train Accuracy: 54.45%, Test Accuracy: 55.26%
Testing: batch_size=64, lr=0.001, hidden_sizes=[512, 256, 128], activation=Sigmoid, optimizer=Adam
Epoch [1/3], Loss: 0.5071390755295849
Epoch [2/3], Loss: 0.1672256277925742
Epoch [3/3], Loss: 0.11762746465283194
Train Accuracy: 97.33%, Test Accuracy: 96.54%
Testing: batch_size=64, lr=0.001, hidden_sizes=[512, 256, 128], activation=Sigmoid, optimizer=SGD
Epoch [1/3], Loss: 2.3065902208214375
Epoch [2/3], Loss: 2.3011423293461424
Epoch [3/3], Loss: 2.301063333493052
Train Accuracy: 11.24%, Test Accuracy: 11.35%
Testing: batch_size=64, lr=0.01, hidden_sizes=[128], activation=ReLU, optimizer=Adam
Epoch [1/3], Loss: 0.4244051267152656
Epoch [2/3], Loss: 0.

## **Informe Detallado de los Experimentos** (Tanto de la arquitectura como del entrenamiento)

## **Objetivo de los Experimentos**
El propósito de estos experimentos fue evaluar cómo diferentes configuraciones arquitectónicas y estrategias de entrenamiento impactan el desempeño de un Perceptrón Multicapa (MLP) entrenado para clasificar dígitos del dataset MNIST. El análisis se llevó a cabo con dos enfoques principales:

1. **Arquitectura del Modelo:**
   - Variar el número de capas ocultas y neuronas.
   - Cambiar la función de activación.
2. **Estrategia de Entrenamiento:**
   - Probar diferentes optimizadores y tasas de aprendizaje.
   - Evaluar el impacto del tamaño del batch.

---

## **Parte 1: Modificaciones en la Arquitectura**

### **Configuraciones Probadas**
Se probaron 3 configuraciones de capas ocultas: 
- `[128]`
- `[256, 128]`
- `[512, 256, 128]`

Cada configuración se probó con dos funciones de activación: 
- `ReLU` (Rectified Linear Unit).
- `Sigmoid`.

### **Resultados Resumidos**

| Arquitectura         | Activación | Optimizador | Train Accuracy | Test Accuracy | Observaciones                                          |
|----------------------|------------|-------------|----------------|---------------|-------------------------------------------------------|
| `[256, 128]`         | `Sigmoid`  | `Adam`      | 97.56%         | **96.98%**    | Excelente generalización con configuraciones intermedias. |
| `[512, 256, 128]`    | `ReLU`     | `Adam`      | 97.28%         | 96.73%        | Profundidad proporciona generalización sólida.         |
| `[128]`              | `ReLU`     | `Adam`      | 97.03%         | 96.43%        | Arquitectura más simple con buen rendimiento.          |
| `[256, 128]`         | `ReLU`     | `Adam`      | 96.81%         | 96.30%        | Buen rendimiento general, menor que configuraciones más profundas. |
| `[128]`              | `Sigmoid`  | `Adam`      | 96.79%         | 96.22%        | `Sigmoid` limita el rendimiento en configuraciones simples. |
| `[512, 256, 128]`    | `Sigmoid`  | `Adam`      | 96.80%         | 96.10%        | Menor precisión comparada con `ReLU`.                  |

### **Análisis y Conclusión**

1. **Función de Activación:**
   - `ReLU` mostró mejor desempeño en general, especialmente en configuraciones profundas.
   - `Sigmoid` tiene problemas con arquitecturas más complejas debido al gradiente desvanecido.

2. **Arquitectura:**
   - Las arquitecturas intermedias (`[256, 128]`) logran el mejor equilibrio entre rendimiento y costo computacional.
   - Redes más profundas como `[512, 256, 128]` ofrecen mayor capacidad de modelado pero requieren más tiempo de entrenamiento.

---

## **Parte 2: Modificaciones en el Entrenamiento**

### **Configuraciones Probadas**
- **Tamaño del batch:** `32` y `64`.
- **Learning rate (lr):** `0.001` y `0.01`.
- **Optimizadores:** `Adam` y `SGD`.

### **Resultados Resumidos**

| Batch Size | LR    | Optimizador | Train Accuracy | Test Accuracy | Observaciones                                    |
|------------|-------|-------------|----------------|---------------|-------------------------------------------------|
| `32`       | 0.001 | `Adam`      | 97.56%         | **96.98%**    | Estabilidad y buena generalización.             |
| `64`       | 0.001 | `Adam`      | 97.33%         | 96.54%        | Precisión sólida con menor costo computacional. |
| `32`       | 0.001 | `SGD`       | 87.52%         | 88.01%        | Lento en converger, menor precisión general.    |
| `32`       | 0.01  | `Adam`      | 92.81%         | 92.74%        | Learning rate alto afecta la generalización.    |
| `64`       | 0.01  | `SGD`       | 91.14%         | 91.50%        | `SGD` mejora con menor batch size.              |

### **Análisis y Conclusión**

1. **Tasa de Aprendizaje:**
   - `lr=0.001` fue óptimo, especialmente con `Adam`.
   - `lr=0.01` mostró menor estabilidad en la generalización.

2. **Optimizador:**
   - `Adam` superó consistentemente a `SGD` en precisión y convergencia.
   - `SGD` es competitivo con tasas de aprendizaje adecuadas pero requiere más ajuste fino.

3. **Tamaño del Batch:**
   - Batch size de `32` proporcionó mejor generalización que `64`, aunque a mayor costo computacional.

---

## **Selección del Modelo Final**

### **Modelo Seleccionado:**
- **Arquitectura:** `[256, 128]` con `Sigmoid`.
- **Entrenamiento:**
  - **Batch size:** `32`.
  - **Learning rate:** `0.001`.
  - **Optimizador:** `Adam`.

### **Rendimiento:**
- **Train Accuracy:** 97.56%.
- **Test Accuracy:** 96.98%.

### **Justificación:**
- La configuración seleccionada equilibra profundidad y estabilidad de entrenamiento.
- Proporciona el mejor desempeño en términos de precisión en pruebas.
- Es computacionalmente eficiente.

---

## **Conclusión General**

1. **Arquitectura:**
   - Las configuraciones intermedias (`[256, 128]`) mostraron ser ideales para este problema, combinando simplicidad y precisión.
   - Configuraciones más simples (`[128]`) son útiles en escenarios con limitaciones computacionales.

2. **Estrategia de Entrenamiento:**
   - El optimizador `Adam` con `lr=0.001` y batch size de `32` fue la mejor combinación para alcanzar alta precisión.

3. **Recomendaciones Futuras:**
   - Extender el número de épocas para confirmar estabilidad en redes profundas.
   - Probar técnicas de regularización como Dropout o Batch Normalization.
   - Aplicar la configuración seleccionada en datasets más complejos para evaluar generalización.

---

## **Apreciaciones Extras**
- **Impacto del Gradiente Desvanecido:** `Sigmoid` funciona bien en arquitecturas simples pero es menos eficiente en configuraciones profundas.
- **Implicaciones Prácticas:** En dispositivos con restricciones, usar configuraciones simples como `[128]` puede ser una solución viable.


# 1.2 Redes convolucionales

En el siguiente bloque de codigo se hara tanto la modificación de arquitectura como las modifaciones de entrenamiento

In [4]:
# Se usa el mismo train_dataset y test_dataset del perceptron multicapa
# Solo se usaran 3 epocas como menciono el profesor para que la ejecución sea mas rapida


# Definición de una red convolucional flexible
class FlexibleCNN(nn.Module):
    def __init__(self, num_filters, fc_neurons, dropout_rate):
        super(FlexibleCNN, self).__init__()
        self.conv_layers = nn.Sequential(
            nn.Conv2d(1, num_filters[0], kernel_size=3, stride=1, padding=1),  # Convolución 1
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),  # MaxPooling 1
            nn.Conv2d(num_filters[0], num_filters[1], kernel_size=3, stride=1, padding=1),  # Convolución 2
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2)  # MaxPooling 2
        )
        self.fc_layers = nn.Sequential(
            nn.Flatten(),
            nn.Linear(num_filters[1] * 7 * 7, fc_neurons[0]),  # Capa totalmente conectada 1
            nn.ReLU(),
            nn.Dropout(dropout_rate),
            nn.Linear(fc_neurons[0], fc_neurons[1]),  # Capa totalmente conectada 2
            nn.ReLU(),
            nn.Linear(fc_neurons[1], 10)  # Salida para 10 clases
        )
    
    def forward(self, x):
        x = self.conv_layers(x)
        x = self.fc_layers(x)
        return x

# Función para entrenar el modelo
def train_model(model, train_loader, optimizer, criterion, num_epochs):
    for epoch in range(num_epochs):
        model.train()
        running_loss = 0.0
        for images, labels in train_loader:
            optimizer.zero_grad()
            outputs = model(images)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
        print(f"Epoch [{epoch + 1}/{num_epochs}], Loss: {running_loss / len(train_loader):.4f}")

# Función para evaluar el modelo
def evaluate_model(model, data_loader):
    model.eval()
    correct = 0
    total = 0
    with torch.no_grad():
        for images, labels in data_loader:
            outputs = model(images)
            _, predicted = torch.max(outputs, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    return correct / total

# Parámetros para la experimentación
batch_size = 32  # Fijo
num_filters_list = [[16, 32], [32, 64]]  # 2 configuraciones
fc_neurons_list = [[128, 64], [256, 128]]  # Reducido a 2 configuraciones
dropout_rates = [0.25, 0.5]  # 2 valores
num_epochs = 3 
optimizers = [optim.Adam, optim.SGD]  # 2 optimizadores
learning_rates = [0.001, 0.01]  # 2 valores

# Experimentación
results = []

for opt_func in optimizers:
    for lr in learning_rates:
        for num_filters in num_filters_list:
            for fc_neurons in fc_neurons_list:
                for dropout_rate in dropout_rates:
                    print(f"Testing: optimizer={opt_func.__name__}, lr={lr}, filters={num_filters}, fc_neurons={fc_neurons}, dropout={dropout_rate}")
                    
                    # Crear modelo
                    model = FlexibleCNN(num_filters, fc_neurons, dropout_rate)
                    criterion = nn.CrossEntropyLoss()
                    optimizer = opt_func(model.parameters(), lr=lr)
                    
                    # Entrenar modelo
                    train_model(model, train_loader, optimizer, criterion, num_epochs)
                    
                    # Evaluar modelo
                    train_acc = evaluate_model(model, train_loader)
                    test_acc = evaluate_model(model, test_loader)
                    
                    print(f"Train Accuracy: {train_acc * 100:.2f}%, Test Accuracy: {test_acc * 100:.2f}%")
                    
                    # Guardar resultados
                    results.append({
                        'optimizer': opt_func.__name__,
                        'learning_rate': lr,
                        'num_filters': num_filters,
                        'fc_neurons': fc_neurons,
                        'dropout_rate': dropout_rate,
                        'train_accuracy': train_acc,
                        'test_accuracy': test_acc
                    })

# Guardar resultados en un DataFrame
results_df = pd.DataFrame(results)
results_df = results_df.sort_values(by='test_accuracy', ascending=False)

# Mostrar los mejores resultados
print("\nResultados:")
print(results_df)

Testing: optimizer=Adam, lr=0.001, filters=[16, 32], fc_neurons=[128, 64], dropout=0.25
Epoch [1/3], Loss: 0.2851
Epoch [2/3], Loss: 0.0774
Epoch [3/3], Loss: 0.0569
Train Accuracy: 99.15%, Test Accuracy: 98.87%
Testing: optimizer=Adam, lr=0.001, filters=[16, 32], fc_neurons=[128, 64], dropout=0.5
Epoch [1/3], Loss: 0.3583
Epoch [2/3], Loss: 0.1256
Epoch [3/3], Loss: 0.0962
Train Accuracy: 98.80%, Test Accuracy: 98.60%
Testing: optimizer=Adam, lr=0.001, filters=[16, 32], fc_neurons=[256, 128], dropout=0.25
Epoch [1/3], Loss: 0.2237
Epoch [2/3], Loss: 0.0620
Epoch [3/3], Loss: 0.0460
Train Accuracy: 99.18%, Test Accuracy: 98.79%
Testing: optimizer=Adam, lr=0.001, filters=[16, 32], fc_neurons=[256, 128], dropout=0.5
Epoch [1/3], Loss: 0.2551
Epoch [2/3], Loss: 0.0788
Epoch [3/3], Loss: 0.0618
Train Accuracy: 99.16%, Test Accuracy: 98.91%
Testing: optimizer=Adam, lr=0.001, filters=[32, 64], fc_neurons=[128, 64], dropout=0.25
Epoch [1/3], Loss: 0.2282
Epoch [2/3], Loss: 0.0682
Epoch [3/3],

In [5]:
# Seleccionar la mejor arquitectura
best_result = results_df.iloc[0]  # La primera fila ya es la mejor por orden descendente
print("\nMejor Configuración:")
print(best_result)


Mejor Configuración:
optimizer               Adam
learning_rate          0.001
num_filters         [32, 64]
fc_neurons        [256, 128]
dropout_rate             0.5
train_accuracy      0.992867
test_accuracy         0.9905
Name: 7, dtype: object


## Conclusiones CNN

## Mejor Arquitectura Seleccionada
La arquitectura que obtuvo el mejor rendimiento en términos de precisión en el conjunto de prueba fue:

- **Optimizador**: Adam
- **Learning Rate**: 0.001
- **Número de Filtros**: [32, 64]
- **Neuronas en Capas Conectadas**: [256, 128]
- **Tasa de Dropout**: 0.50
- **Precisión en Entrenamiento**: 99.29%
- **Precisión en Prueba**: 99.05%

Esta configuración demostró un balance adecuado entre capacidad de aprendizaje y generalización. La tasa de dropout moderada (0.50) proporcionó una regularización eficiente, permitiendo un rendimiento óptimo en el conjunto de prueba.


## Impacto de los Parámetros

### Número de Filtros y Neuronas en Capas Conectadas
- Las configuraciones con un mayor número de filtros en las capas convolucionales (**[32, 64]**) proporcionaron un mejor rendimiento. Este diseño permitió al modelo capturar características más complejas y relevantes del dataset.
- En las capas totalmente conectadas, un mayor número de neuronas (**[256, 128]**) se asoció con un rendimiento superior en comparación con configuraciones más simples (**[128, 64]**), lo que indica que estas configuraciones son adecuadas para aprovechar los patrones complejos aprendidos por las capas convolucionales.

### Tasa de Dropout
- Tasas de dropout más altas (**0.50**) mostraron un rendimiento competitivo, funcionando como un mecanismo efectivo para prevenir el sobreajuste en configuraciones más complejas.
- Tasas más bajas (**0.25**) también lograron buenos resultados, pero en algunas configuraciones llevaron a un menor desempeño debido al riesgo de sobreajuste.

### Optimizador
- **Adam** fue consistentemente superior en términos de precisión tanto en entrenamiento como en prueba. Su capacidad para adaptar dinámicamente las tasas de aprendizaje lo convierte en una opción ideal para tareas como esta.
- **SGD** mostró un rendimiento más variable. Si bien algunas configuraciones lograron precisión competitiva, otras no convergieron adecuadamente, especialmente con tasas de aprendizaje bajas.

### Learning Rate
- **Learning rate** de **0.001** fue más confiable y estable, logrando el mejor rendimiento en la mayoría de las configuraciones.
- **Learning rate** de **0.01** condujo a resultados menos estables en algunas configuraciones, con una tendencia al sobreajuste o falta de convergencia.


## Tendencias Generales

- **Arquitecturas más profundas ofrecen mejores resultados**: El uso de configuraciones más complejas como **[32, 64]** para los filtros y **[256, 128]** para las neuronas totalmente conectadas resultó en un mejor rendimiento general.
- **Optimizador Adam**: Adam fue significativamente mejor que SGD en este experimento, especialmente con una tasa de aprendizaje baja (**0.001**).
- **Regularización efectiva con Dropout**: Tasas moderadas a altas de dropout (**0.50**) ofrecieron el mejor equilibrio entre aprendizaje y regularización.
- **Tasa de Aprendizaje**: Una tasa de aprendizaje más baja (**0.001**) permitió al modelo alcanzar un rendimiento óptimo de manera estable.


## Conclusiónes finales CNN

La mejor arquitectura y configuración identificada combina un balance entre complejidad, regularización y generalización. Específicamente:

- **Número de Filtros**: [32, 64]
- **Neuronas en Capas Conectadas**: [256, 128]
- **Tasa de Dropout**: 0.50
- **Optimizador**: Adam
- **Learning Rate**: 0.001

Esta configuración puede ser recomendada como la más eficiente y robusta para clasificar imágenes en el conjunto de datos **MNIST**, destacándose tanto en precisión de entrenamiento como en generalización en el conjunto de prueba.

# 1.3 Comparación

comparación entre MLP y CNN

## **Conclusión Comparativa: MLP vs CNN (Perceptron multicapa vs redes convolucionales)**

A continuación, se presenta una comparación detallada entre las dos arquitecturas implementadas: el **Perceptrón Multicapa (MLP)** y la **Red Neuronal Convolucional (CNN)**. La comparación considera los aspectos de rendimiento, número de parámetros y tiempo de ejecución.

---

### **1. Rendimiento**

#### **MLP**
- **Mejor precisión de prueba:** 96.98% (configuración: `[256, 128]`, activación `Sigmoid`, `Adam`, `batch_size=32`, `learning_rate=0.001`).
- En configuraciones con `ReLU` como función de activación, las redes MLP mostraron una precisión ligeramente inferior (~96.43%) comparada con `Sigmoid`.
- **Limitaciones:** El MLP presentó dificultades para aprender eficientemente cuando el optimizador era `SGD` o la tasa de aprendizaje era alta (`0.01`), con resultados inconsistentes.

#### **CNN**
- **Mejor precisión de prueba:** 99.05% (configuración: `[32, 64]` filtros, `[256, 128]` neuronas, `dropout=0.50`, `Adam`, `learning_rate=0.001`).
- Las CNN superaron consistentemente al MLP en todos los experimentos debido a su capacidad de extraer características espaciales.
- **Estabilidad:** Las CNN mantuvieron un rendimiento alto y estable con diferentes configuraciones, incluso con optimizadores más simples como `SGD`.

#### **Comparación de Rendimiento**
- Las **CNN** superaron significativamente a las **MLP** en precisión de prueba, especialmente para configuraciones optimizadas.
- Las CNN aprovecharon mejor el optimizador `Adam` y una tasa de aprendizaje baja (`0.001`), logrando hasta un **2% más de precisión** en el conjunto de prueba.

---

### **2. Número de Parámetros**

#### **MLP**
- Los parámetros de MLP dependen principalmente del número de neuronas en las capas ocultas.
- **Ejemplo de configuración óptima ([256, 128]):**
  - Parámetros: \( (784 \times 256) + (256 \times 128) + (128 \times 10) = 218,378 \).

#### **CNN**
- Los parámetros de las CNN son controlados por el número de filtros en las capas convolucionales y las neuronas en las capas totalmente conectadas.
- **Ejemplo de configuración óptima ([32, 64] filtros, [256, 128] neuronas):**
  - Parámetros convolucionales:
    - Primera capa: \( (3 \times 3 \times 1 \times 32) + 32 = 320 \).
    - Segunda capa: \( (3 \times 3 \times 32 \times 64) + 64 = 18,496 \).
  - Parámetros en capas densas:
    - Primera capa: \( (7 \times 7 \times 64) \times 256 = 802,816 \).
    - Segunda capa: \( 256 \times 128 = 32,768 \).
    - Salida: \( 128 \times 10 = 1,280 \).
  - **Total:** \( 855,680 \).

#### **Comparación de Parámetros**
- **MLP:** Es más ligero en términos de parámetros (~218,378 en configuración óptima).
- **CNN:** Tiene más parámetros (~855,680 en configuración óptima), pero esta complejidad adicional es necesaria para modelar características espaciales.

---

### **3. Tiempo de Ejecución**

#### **MLP**
- Entrenamiento más rápido debido a su arquitectura simple y menor cantidad de parámetros.
- **Limitaciones:** La eficiencia decrece en configuraciones con muchas capas ocultas o cuando se usan funciones de activación que ralentizan el cálculo como `Sigmoid`.

#### **CNN**
- Entrenamiento más lento debido a la presencia de operaciones convolucionales y un mayor número de parámetros.
- Sin embargo, el entrenamiento con configuraciones optimizadas (como `ReLU` con `Adam`) permitió alcanzar alta precisión en un tiempo razonable.

#### **Comparación de Tiempo**
- El MLP tiene ventaja en términos de velocidad, pero las CNN logran mejor precisión a costa de un mayor tiempo de entrenamiento.

---

### **Conclusiones Finales**

1. **Rendimiento General:**
   - Las CNN son significativamente superiores al MLP en precisión, especialmente en configuraciones con optimizador `Adam` y una tasa de aprendizaje de `0.001`.

2. **Eficiencia de Parámetros:**
   - El MLP requiere menos parámetros, lo que lo hace adecuado para dispositivos con recursos limitados.
   - Las CNN, aunque más complejas, justifican su mayor cantidad de parámetros con un rendimiento superior.

3. **Tiempo de Ejecución:**
   - El MLP es más rápido de entrenar, pero las CNN ofrecen mejores resultados con un tiempo de ejecución ligeramente mayor.

4. **Recomendaciónes:**
   - **Uso de MLP:** En problemas con conjuntos de datos pequeños, donde no hay una estructura espacial fuerte y los recursos computacionales son limitados.
   - **Uso de CNN:** En tareas donde la estructura espacial (como imágenes) es crítica y se busca el mejor rendimiento.

En resumen, las CNN son la mejor opción para el dataset MNIST debido a su capacidad de generalización y rendimiento superior. Sin embargo, el MLP sigue siendo una solución válida para aplicaciones rápidas y ligeras.
