# Comparaci√≥n de Funciones de Activaci√≥n en una CNN (MNIST)

---

## **Introducci√≥n**

En el aprendizaje profundo, las **funciones de activaci√≥n** son un componente esencial de las redes neuronales, ya que permiten introducir **no linealidad** en los modelos y, con ello, la capacidad de **aprender patrones complejos**.

Este notebook compara el comportamiento de tres funciones de activaci√≥n cl√°sicas:
- **ReLU (Rectified Linear Unit)**  
- **Tanh (Tangente hiperb√≥lica)**  
- **Sigmoid**

Todas son evaluadas dentro de la **misma red neuronal convolucional (CNN)** entrenada sobre el conjunto de datos **MNIST**, que contiene im√°genes en escala de grises de d√≠gitos escritos a mano (0‚Äì9).

---

## **Conceptos generales**

- **Funci√≥n de activaci√≥n:**  
  Determina c√≥mo responde cada neurona a la informaci√≥n que recibe. Su papel es introducir *no linealidad*, permitiendo que la red aprenda relaciones complejas.  

- **CNN (Convolutional Neural Network):**  
  Tipo de red dise√±ada para procesar datos con estructura espacial (como im√°genes). Utiliza *capas convolucionales* que detectan bordes, formas y patrones.

- **MNIST:**  
  Dataset de im√°genes de **d√≠gitos escritos a mano** (28√ó28 px) usado tradicionalmente para evaluar modelos de visi√≥n por computadora.

- **Precisi√≥n (Accuracy):**  
  Porcentaje de aciertos del modelo al clasificar im√°genes nuevas (de prueba).

- **Saturaci√≥n de gradientes:**  
  Problema com√∫n en redes profundas donde algunas funciones (como **Sigmoid**) reducen el valor del gradiente casi a cero, dificultando el aprendizaje.

---


### 1. Importaci√≥n de librer√≠as y configuraci√≥n del entorno

In [1]:
import torch                      # N√∫cleo de PyTorch (tensores, GPU, etc.)
import torch.nn as nn             # Capas y m√≥dulos para redes neuronales
import torch.optim as optim       # Algoritmos de optimizaci√≥n (SGD, Adam, etc.)
import torchvision                # Datasets y utilidades para visi√≥n por computadora
import torchvision.transforms as transforms  # Transformaciones para preprocesar im√°genes
import time                       # Medir tiempo de entrenamiento
import numpy as np                # Operaciones num√©ricas adicionales

print(f"Usando PyTorch v{torch.__version__}")

# Configurar Dispositivo (SOLO CUDA)
# if torch.cuda.is_available():
#     device = torch.device("cuda")
#     print("¬°√âxito! Usando dispositivo: cuda (GPU)")
# else:
#     print("ERROR: CUDA no est√° disponible.")
#     print("Este script requiere una GPU NVIDIA.")
#     exit() # Salir si no hay CUDA

# Selecci√≥n autom√°tica del dispositivo (GPU si est√° disponible, de lo contrario CPU)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("Usando:", device)

Usando PyTorch v2.9.0+cpu
Usando: cpu


### 2. Carga y preparaci√≥n del dataset (MNIST)

In [None]:

# üìö 2. Carga y preparaci√≥n del dataset (MNIST)

# Transformaciones que se aplican a cada imagen:
# 1) ToTensor() ‚Üí convierte la imagen (0‚Äì255) en un tensor (0‚Äì1)
# 2) Normalize() ‚Üí ajusta los valores a un rango [-1, 1]
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

# Cargar el dataset MNIST (d√≠gitos escritos a mano)
# root: carpeta donde se almacenan los datos
# train=True  ‚Üí conjunto de entrenamiento (60,000 im√°genes)
# train=False ‚Üí conjunto de prueba (10,000 im√°genes)
# download=True ‚Üí lo descarga si no existe
# transform ‚Üí aplica las transformaciones definidas arriba
trainset = torchvision.datasets.MNIST(root='./data', train=True,
                                      download=True, transform=transform)
testset = torchvision.datasets.MNIST(root='./data', train=False,
                                     download=True, transform=transform)

# DataLoaders ‚Üí cargan los datos en mini-lotes (batches)
# batch_size: cantidad de im√°genes por iteraci√≥n
# shuffle=True ‚Üí mezcla los datos en cada √©poca
# num_workers: hilos de carga (2 = m√°s r√°pido en CPU)
BATCH_SIZE = 64
trainloader = torch.utils.data.DataLoader(trainset, batch_size=BATCH_SIZE,
                                          shuffle=True, num_workers=2)
testloader = torch.utils.data.DataLoader(testset, batch_size=BATCH_SIZE,
                                         shuffle=False, num_workers=2)


100.0%
100.0%
100.0%
100.0%


### 3. Definici√≥n del modelo CNN profundo

In [None]:

# üß© 3. Definici√≥n del modelo CNN profundo

def build_deep_cnn_model(activation_module):
    """
    Crea una red neuronal convolucional (CNN) profunda.
    
    Par√°metros:
      activation_module : m√≥dulo de activaci√≥n de PyTorch (nn.ReLU(), nn.Tanh(), nn.Sigmoid(), etc.)
                          Define qu√© funci√≥n de activaci√≥n se aplicar√° entre capas.
    """
    model = nn.Sequential(

        # ---------- Bloque 1 ----------
        nn.Conv2d(
            in_channels=1,   # n√∫mero de canales de entrada (1 para im√°genes en escala de grises)
            out_channels=16, # n√∫mero de filtros (mapas de caracter√≠sticas) que generar√° esta capa
            kernel_size=3,   # tama√±o del filtro convolucional (3x3)
            padding=1        # agrega un ‚Äúborde‚Äù de 1 p√≠xel para conservar el tama√±o original
        ),
        activation_module,

        nn.Conv2d(
            in_channels=16,  # entrada: 16 canales del paso anterior
            out_channels=16, # salida: mantiene 16 canales
            kernel_size=3,
            padding=1
        ),
        activation_module,

        nn.MaxPool2d(
            kernel_size=2,   # reduce el tama√±o de la imagen a la mitad (2x2)
            stride=2         # desplazamiento de la ventana del maxpool
        ),  # salida: 16 x 14 x 14


        # ---------- Bloque 2 ----------
        nn.Conv2d(
            in_channels=16, out_channels=32,
            kernel_size=3, padding=1
        ),
        activation_module,

        nn.Conv2d(
            in_channels=32, out_channels=32,
            kernel_size=3, padding=1
        ),
        activation_module,

        nn.MaxPool2d(
            kernel_size=2, stride=2
        ),  # salida: 32 x 7 x 7


        # ---------- Bloque 3 ----------
        nn.Conv2d(
            in_channels=32, out_channels=64,
            kernel_size=3, padding=1
        ),
        activation_module,

        nn.Conv2d(
            in_channels=64, out_channels=64,
            kernel_size=3, padding=1
        ),
        activation_module,

        nn.Conv2d(
            in_channels=64, out_channels=64,
            kernel_size=3, padding=1
        ),
        activation_module,


        # ---------- Clasificador ----------
        nn.Flatten(),  # convierte el tensor 3D (64x7x7) en un vector 1D (3136 valores)

        nn.Linear(
            in_features=64 * 7 * 7,  # n√∫mero de entradas (neuronas aplanadas)
            out_features=128         # n√∫mero de salidas (neuronas en la capa oculta)
        ),
        activation_module,

        nn.Linear(
            in_features=128,  # n√∫mero de entradas (de la capa anterior)
            out_features=10   # n√∫mero de clases de salida (d√≠gitos 0‚Äì9)
        )
    )

    # Mueve el modelo al dispositivo correcto (CPU o GPU)
    return model.to(device)


### ‚öôÔ∏è 4. Funciones de entrenamiento y evaluaci√≥n

In [None]:

# Funci√≥n de Entrenamiento
def train_model(model, trainloader, criterion, optimizer, epochs=3):
    """
    Entrena el modelo con los datos de entrenamiento.
    
    Par√°metros:
      model      : red neuronal a entrenar
      trainloader: DataLoader con los lotes (batches) de entrenamiento
      criterion  : funci√≥n de p√©rdida (por ej. CrossEntropyLoss)
      optimizer  : algoritmo que ajusta los pesos (Adam, SGD, etc.)
      epochs     : n√∫mero de √©pocas de entrenamiento
    """
    model.train()  # activa el modo entrenamiento (permite dropout, batchnorm, etc.)

    for epoch in range(epochs):
        running_loss = 0.0  # acumulador de p√©rdida por √©poca

        # i = √≠ndice del batch | data = (inputs, labels)
        for i, data in enumerate(trainloader, 0):
            inputs, labels = data
            # Mover los tensores al dispositivo (CPU o GPU)
            inputs, labels = inputs.to(device), labels.to(device)

            optimizer.zero_grad()        # reinicia los gradientes acumulados
            outputs = model(inputs)      # inferencia (forward pass)
            loss = criterion(outputs, labels)  # calcula la p√©rdida
            loss.backward()              # retropropagaci√≥n (calcula gradientes)
            optimizer.step()             # actualiza los pesos del modelo

            running_loss += loss.item()  # acumula p√©rdida promedio

        print(f"  [√âpoca {epoch + 1}/{epochs}] P√©rdida: {running_loss / len(trainloader):.3f}")

# Funci√≥n de Evaluaci√≥n
def evaluate_model(model, testloader):
    """
    Eval√∫a el modelo en el conjunto de prueba.
    
    Par√°metros:
      model      : red neuronal ya entrenada
      testloader : DataLoader con los datos de prueba
    
    Retorna:
      accuracy (%) del modelo sobre el conjunto de prueba
    """
    model.eval()  # modo evaluaci√≥n (desactiva dropout y batchnorm)
    correct = 0
    total = 0

    # torch.no_grad() ‚Üí desactiva el c√°lculo de gradientes (m√°s r√°pido y eficiente)
    with torch.no_grad():
        for data in testloader:
            images, labels = data
            images, labels = images.to(device), labels.to(device)
            outputs = model(images)                # predicciones
            _, predicted = torch.max(outputs.data, 1)  # √≠ndice de la clase con mayor probabilidad
            total += labels.size(0)                # total de im√°genes evaluadas
            correct += (predicted == labels).sum().item()  # conteo de aciertos

    accuracy = 100 * correct / total
    return accuracy



### 5. Entrenamiento y comparaci√≥n de funciones de activaci√≥n

In [5]:
# Diccionario con las funciones de activaci√≥n a probar.
# La clave es el nombre (string) y el valor es el m√≥dulo de PyTorch.
activations_to_test = {
    'relu': nn.ReLU(),      # Rectified Linear Unit
    'tanh': nn.Tanh(),      # Tangente hiperb√≥lica
    'sigmoid': nn.Sigmoid() # Funci√≥n sigmoide
}

training_results = {}  # guardar√° los resultados finales de cada activaci√≥n
EPOCHS = 3             # n√∫mero de √©pocas para todas las pruebas (igual para comparar)

print(f"\nIniciando comparaci√≥n (Red PROFUNDA, {EPOCHS} √©pocas)...\n")

# Iterar sobre cada activaci√≥n del diccionario
for name, activation_module in activations_to_test.items():
    print(f"--- ENTRENANDO CON: {name.upper()} ---")

    # Construir el modelo con la activaci√≥n correspondiente
    model = build_deep_cnn_model(activation_module)

    # Funci√≥n de p√©rdida para clasificaci√≥n multiclase (usa logits sin softmax)
    criterion = nn.CrossEntropyLoss()

    # Optimizador Adam: ajusta los pesos del modelo en cada paso
    optimizer = optim.Adam(model.parameters())

    # Medir tiempo total de entrenamiento
    start_time = time.time()
    train_model(model, trainloader, criterion, optimizer, epochs=EPOCHS)
    total_time = time.time() - start_time

    # Evaluar el modelo en el conjunto de prueba
    final_accuracy = evaluate_model(model, testloader)

    # Guardar resultados para esta activaci√≥n
    training_results[name] = {
        "time_seconds": total_time,
        "final_accuracy": final_accuracy
    }

    # Mostrar resultados intermedios
    print(f"Tiempo: {total_time:.2f} segundos")
    print(f"Precisi√≥n: {final_accuracy:.2f} %\n")



Iniciando comparaci√≥n (Red PROFUNDA, 3 √©pocas)...

--- ENTRENANDO CON: RELU ---
  [√âpoca 1/3] P√©rdida: 0.259
  [√âpoca 2/3] P√©rdida: 0.057
  [√âpoca 3/3] P√©rdida: 0.041
Tiempo: 88.45 segundos
Precisi√≥n: 99.06 %

--- ENTRENANDO CON: TANH ---
  [√âpoca 1/3] P√©rdida: 0.198
  [√âpoca 2/3] P√©rdida: 0.076
  [√âpoca 3/3] P√©rdida: 0.063
Tiempo: 94.50 segundos
Precisi√≥n: 98.69 %

--- ENTRENANDO CON: SIGMOID ---
  [√âpoca 1/3] P√©rdida: 2.308
  [√âpoca 2/3] P√©rdida: 2.303
  [√âpoca 3/3] P√©rdida: 2.302
Tiempo: 88.80 segundos
Precisi√≥n: 11.35 %



### 6. Resultados finales de la comparaci√≥n

In [6]:
# Encabezado general
print("--- RESULTADOS (Red PROFUNDA) ---")
print(f"Entrenamiento sobre {EPOCHS} √©pocas (Batch Size: {BATCH_SIZE})\n")

# Formato de tabla con columnas alineadas
print(f"{'Funci√≥n':<10} | {'Tiempo (seg)':<15} | {'Precisi√≥n Final (%)':<20}")
print("-" * 50)

# Recorrer el diccionario con los resultados guardados
for activation, results in training_results.items():
    # Imprimir nombre de la activaci√≥n, tiempo y precisi√≥n formateados
    print(f"{activation:<10} | {results['time_seconds']:<15.2f} | {results['final_accuracy']:<20.2f}")


--- RESULTADOS (Red PROFUNDA) ---
Entrenamiento sobre 3 √©pocas (Batch Size: 64)

Funci√≥n    | Tiempo (seg)    | Precisi√≥n Final (%) 
--------------------------------------------------
relu       | 88.45           | 99.06               
tanh       | 94.50           | 98.69               
sigmoid    | 88.80           | 11.35               
