# Clase 2 ‚Äî Redes Neuronales Convolucionales (CNNs)

---

### 1. **Concepto General**

Una **Red Neuronal Convolucional (CNN, por sus siglas en ingl√©s)** 
    
Es un tipo de red neuronal profunda dise√±ada especialmente para **procesar datos con estructura en forma de cuadr√≠cula**, como **im√°genes**, **videos**, o incluso **series temporales multivariadas** (por ejemplo, se√±ales de sensores).

Las CNN son una evoluci√≥n de las redes neuronales artificiales tradicionales (ANN), pero con una **arquitectura optimizada para la percepci√≥n visual**, inspirada en el **corte visual del cerebro humano**, donde existen neuronas sensibles a patrones locales (bordes, colores, texturas).

---

### 2. **Estructura General de una CNN**

Una CNN est√° compuesta por **una secuencia de capas** que transforman gradualmente la imagen de entrada en una representaci√≥n abstracta que permite clasificarla o analizarla.
Las capas principales son:

#### a) **Capa de Convoluci√≥n (Convolutional Layer)**

* Es el **n√∫cleo fundamental** de la CNN.
* Realiza una **operaci√≥n de convoluci√≥n** entre la imagen de entrada y un conjunto de **filtros (kernels)**.
* Cada filtro es una peque√±a matriz de pesos que **detecta una caracter√≠stica local**, como bordes, esquinas o texturas.
* Al desplazarse (o ‚Äúconvolucionar‚Äù) sobre la imagen, genera un **mapa de caracter√≠sticas (feature map)**.

**Intuici√≥n:**
Cada filtro aprende a detectar un patr√≥n espec√≠fico. En capas iniciales: bordes y colores. En capas profundas: formas, texturas y finalmente objetos completos.

---

#### b) **Capa de Activaci√≥n (Activation Layer)**

Despu√©s de la convoluci√≥n, se aplica una funci√≥n no lineal ‚Äît√≠picamente **ReLU (Rectified Linear Unit)**‚Äî para introducir **no linealidad** en el modelo y evitar que se comporte como una simple combinaci√≥n lineal.

Esto ayuda a que la red aprenda representaciones m√°s complejas.

---

#### c) **Capa de Submuestreo o Pooling (Pooling Layer)**

Reduce la **dimensi√≥n espacial** de los mapas de caracter√≠sticas, conservando la informaci√≥n m√°s importante.

* **Tipos comunes:**

  * *Max Pooling:* toma el valor m√°ximo de una regi√≥n.
  * *Average Pooling:* calcula el promedio de una regi√≥n.

‚úÖ **Ventajas:**

* Reduce el n√∫mero de par√°metros (menos c√≥mputo).
* Aumenta la **invariancia a traslaciones** (si el objeto se mueve un poco, sigue siendo reconocido).

---

#### d) **Capas Completamente Conectadas (Fully Connected Layers)**

Estas son similares a las de una red neuronal tradicional.

* Reciben los mapas de caracter√≠sticas aplanados (flattened).
* Combinan toda la informaci√≥n extra√≠da para realizar la **clasificaci√≥n final**.

---

#### e) **Capa de Salida (Output Layer)**

Depende de la tarea:

* **Clasificaci√≥n:** utiliza una **Softmax** que transforma los valores en probabilidades:

* **Regresi√≥n o detecci√≥n:** puede tener una salida lineal o m√∫ltiple (por ejemplo, coordenadas de cajas delimitadoras).

---

### 3. **Propagaci√≥n hacia Atr√°s (Backpropagation)**

El entrenamiento de una CNN sigue el mismo principio que una red neuronal tradicional:

1. **Propagaci√≥n hacia adelante:** la imagen pasa por todas las capas.
2. **C√°lculo del error:** se compara la salida con la etiqueta real mediante una **funci√≥n de p√©rdida** (por ejemplo, entrop√≠a cruzada).
3. **Retropropagaci√≥n:** se calculan los gradientes y se actualizan los pesos de los filtros usando un **optimizador** (SGD, Adam, etc.).

---

### 4. **Par√°metros Importantes**

* **Stride:** desplazamiento del filtro sobre la imagen.
* **Padding:** relleno que se a√±ade para conservar el tama√±o original tras la convoluci√≥n.
* **N√∫mero de filtros:** determina la cantidad de caracter√≠sticas que la red puede aprender en cada capa.

---

### 5. **Arquitecturas Populares**

| Arquitectura              | A√±o  | Caracter√≠sticas                                                    |
| ------------------------- | ---- | ------------------------------------------------------------------ |
| **LeNet-5**               | 1998 | Primera CNN exitosa para reconocimiento de d√≠gitos.                |
| **AlexNet**               | 2012 | Ganadora de ImageNet; introdujo ReLU y dropout.                    |
| **VGGNet**                | 2014 | Uso sistem√°tico de filtros 3x3.                                    |
| **ResNet**                | 2015 | Introduce *residual connections* que permiten redes muy profundas. |
| **Inception (GoogLeNet)** | 2015 | Combinaci√≥n de m√∫ltiples tama√±os de filtro en paralelo.            |

---

### 6. **Ventajas de las CNNs**

‚úÖ Capturan **relaciones espaciales locales** (formas, texturas).

‚úÖ Reducen par√°metros mediante **compartici√≥n de pesos**.

‚úÖ Funcionan bien con **im√°genes, video y se√±ales**.

‚úÖ Pueden adaptarse a otras tareas: detecci√≥n, segmentaci√≥n, reconocimiento facial, etc.


---

### 7. **Desventajas o Retos**

‚ö†Ô∏è Requieren **gran cantidad de datos** para un buen desempe√±o.

‚ö†Ô∏è Alto costo computacional (GPU recomendadas).

‚ö†Ô∏è Son modelos de tipo ‚Äúcaja negra‚Äù: dif√≠cil interpretar qu√© aprende cada filtro.


---

### 8. **Aplicaciones Comunes**

* Clasificaci√≥n de im√°genes m√©dicas (tumores, radiograf√≠as).
* Reconocimiento facial y biometr√≠a.
* Veh√≠culos aut√≥nomos (detecci√≥n de objetos).
* Visi√≥n industrial (detecci√≥n de defectos).
* Sistemas de vigilancia y seguridad.

---



## Requisitos previos y librer√≠as

* Python 3.9+ (recomendado 3.10/3.11)
* CUDA disponible para entrenamiento acelerado (opcional, recomendado)
* Librer√≠as (sugeridas): `torch`, `torchvision`, `numpy`, `matplotlib`, `scikit-learn`.

Ejemplo de `requirements.txt` m√≠nimo para laboratorio:

```
torch>=1.12
torchvision>=0.13
numpy>=1.23
matplotlib>=3.5
scikit-learn>=1.0
tensorboard>=2.11    # opcional para visualizaci√≥n de m√©tricas
```

---



In [None]:
"""
Script: install_dependencies.py
Prop√≥sito: Crear y gestionar el archivo 'requirements.txt' e instalar las dependencias necesarias para el proyecto de visi√≥n por computador.

Buenas pr√°cticas aplicadas:
- Cumplimiento del est√°ndar PEP 8 (formato y estilo)
- Uso de context manager para manejo de archivos
- Comentarios explicativos en cada paso
- Instalaci√≥n controlada mediante subprocess (m√°s seguro que usar !pip directamente)
"""

# -------------------- Librer√≠as est√°ndar --------------------
import subprocess  # Permite ejecutar comandos del sistema desde Python
from pathlib import Path  # Manejo robusto de rutas en distintos sistemas operativos


def install_dependencies() -> None:
    """
    Crea un archivo 'requirements.txt' con las librer√≠as necesarias
    e instala los paquetes usando pip.
    """

    # Definimos las dependencias requeridas por el proyecto
    dependencies = """opencv-python>=4.5
numpy>=1.23
matplotlib>=3.5
pytest>=7.0
mypy>=0.990
torch>=1.12
torchvision>=0.13
scikit-learn>=1.0
tensorboard>=2.11
"""

    # Creamos el archivo requirements.txt en el directorio actual
    requirements_path = Path("requirements.txt")

    with requirements_path.open("w", encoding="utf-8") as f:
        f.write(dependencies)

    print("‚úÖ Archivo 'requirements.txt' creado correctamente con las siguientes librer√≠as:\n")
    print(dependencies)

    # Ejecutamos el comando pip install -r requirements.txt de forma segura
    try:
        print("üöÄ Instalando dependencias, esto puede tardar unos minutos...\n")
        subprocess.check_call(["pip", "install", "-r", str(requirements_path)])
        print("\n‚úÖ Instalaci√≥n completada con √©xito.")
    except subprocess.CalledProcessError:
        print("\n‚ùå Error al instalar las dependencias. Verifica tu conexi√≥n a internet o permisos del entorno.")
    except Exception as e:
        print(f"\n‚ö†Ô∏è Error inesperado: {e}")


# -------------------- Punto de entrada --------------------
if __name__ == "__main__":
    install_dependencies()


## Laboratorio pr√°ctico ‚Äî Entrenamiento de una CNN (paso a paso)

### Objetivo del laboratorio

Entrenar una CNN para clasificaci√≥n de im√°genes usando dos enfoques:

* **A.** Entrenamiento desde cero con un modelo simple.
---

### C√≥digo: script de entrenamiento

A continuaci√≥n se ofrece un **script modular** (PyTorch) que se puede usar tanto en notebook como en consola. Est√° escrito siguiendo PEP 8, incluye tipado y logging.



In [None]:
"""
    Entrenamiento de ResNet18 optimizado para CIFAR-10
"""

# ----------------------------------------------------------
# Este script entrena un modelo de visi√≥n por computador (CNN)
# utilizando PyTorch y el dataset CIFAR-10.
# Incluye:
# - control de memoria y errores
# - logs detallados
# - guardado de checkpoints
# - early stopping
# ----------------------------------------------------------

# ===============================
# üì¶ IMPORTACI√ìN DE LIBRER√çAS
# ===============================

import gc               # 'garbage collector' ‚Üí permite liberar memoria no utilizada
import logging          # para registrar eventos durante la ejecuci√≥n
import os               # operaciones con archivos y directorios
import random           # generaci√≥n de n√∫meros aleatorios (usado para reproducibilidad)
import time             # medir tiempos de ejecuci√≥n
from dataclasses import dataclass  # simplifica la creaci√≥n de clases de configuraci√≥n
from pathlib import Path            # manejo multiplataforma de rutas de archivos
from typing import Tuple            # tipado opcional para mayor claridad

# Librer√≠as cient√≠ficas y de aprendizaje profundo
import numpy as np                  # operaciones con matrices y vectores
import torch                        # biblioteca principal para deep learning
from torch import nn, optim         # 'nn' define capas y modelos, 'optim' define optimizadores
from torch.utils.data import DataLoader  # crea lotes (batches) de datos
import torchvision                  # herramientas para visi√≥n por computador
from torchvision import transforms, datasets, models  # incluye datasets, transformaciones y modelos preentrenados

# ===============================
# üß† CONFIGURACI√ìN DE LOGGING
# ===============================
# Se usa para mostrar mensajes de progreso y depuraci√≥n.
logging.basicConfig(level=logging.INFO, format='%(levelname)s: %(message)s')
logger = logging.getLogger('train_cnn')  # se crea un logger llamado 'train_cnn'

# ===============================
# ‚öôÔ∏è CLASE DE CONFIGURACI√ìN
# ===============================
@dataclass
class Config:
    """Par√°metros globales para el entrenamiento"""
    data_dir: str = 'data'                 # Carpeta donde se descarga CIFAR-10
    model_name: str = 'simple_cnn'         # Nombre del modelo ('simple_cnn' o 'resnet18')
    pretrained: bool = False               # Usar pesos preentrenados (solo para ResNet)
    num_classes: int = 10                  # CIFAR-10 tiene 10 clases posibles
    epochs: int = 1                        # N√∫mero de √©pocas de entrenamiento (1 para demo r√°pida)
    batch_size: int = 32                   # Tama√±o de lote (batch)
    lr: float = 1e-3                       # Tasa de aprendizaje (learning rate)
    device: str = 'cuda' if torch.cuda.is_available() else 'cpu'  # Usa GPU si est√° disponible
    output_dir: str = 'checkpoints'        # Carpeta donde se guardar√°n los modelos entrenados

# ===============================
# üîÅ FIJAR SEMILLA
# ===============================
    """
        Una semilla aleatoria (random seed) es un n√∫mero inicial que sirve como punto de partida para los generadores de n√∫meros aleatorios en un programa.

        Aunque hablamos de ‚Äúaleatoriedad‚Äù, en realidad los computadores no generan n√∫meros realmente aleatorios (porque siguen instrucciones deterministas).
        Lo que hacen es usar una f√≥rmula matem√°tica que produce una secuencia de n√∫meros pseudoaleatorios, es decir, que parecen aleatorios, pero que siempre ser√°n los mismos si inicias con la misma semilla.
    """
    
def set_seed(seed: int = 42):
    """Fija la semilla aleatoria para obtener resultados reproducibles."""
    random.seed(seed)               # fija semilla de Python
    np.random.seed(seed)            # fija semilla de NumPy
    torch.manual_seed(seed)         # fija semilla de PyTorch (CPU)
    if torch.cuda.is_available():
        torch.cuda.manual_seed_all(seed)  # fija semilla en todas las GPUs
    torch.backends.cudnn.deterministic = True  # hace las operaciones deterministas

# ===============================
# ‚ôªÔ∏è FUNCI√ìN PARA LIBERAR MEMORIA
# ===============================
def clear_memory():
    """Libera memoria no usada para evitar errores 'out of memory'."""
    gc.collect()                     # libera objetos no referenciados de la memoria
    if torch.cuda.is_available():
        torch.cuda.empty_cache()     # limpia cach√© de la GPU

# ===============================
# üìÇ FUNCI√ìN PARA CARGAR LOS DATOS
# ===============================
def get_dataloaders(cfg: Config):
    """Descarga CIFAR-10 y prepara los DataLoaders de entrenamiento y validaci√≥n."""

    # ---- Transformaciones de datos (preprocesamiento) ----
    train_transform = transforms.Compose([
        transforms.RandomCrop(32, padding=4),  # recorta aleatoriamente con padding de 4 p√≠xeles
        transforms.RandomHorizontalFlip(),     # voltea horizontalmente la imagen al azar
        transforms.ToTensor(),                 # convierte imagen PIL a tensor (0‚Äì1)
    ])
    
    val_transform = transforms.Compose([
        transforms.ToTensor(),                 # para validaci√≥n, solo se convierte a tensor
    ])

    # ---- Carga de datasets ----
    
    """
        Datos para entrenar la red neuronal
    """
    train_set = datasets.CIFAR10(
        root=cfg.data_dir,        # carpeta destino
        train=True,               # conjunto de entrenamiento
        download=True,            # descarga si no est√° disponible
        transform=train_transform # aplica transformaciones
    )
    """
        Datos para validar (evaluar) el desempe√±o del modelo durante o despu√©s del entrenamiento.
    """
    val_set = datasets.CIFAR10(
        root=cfg.data_dir,        # carpeta destino
        train=False,              # conjunto de validaci√≥n
        download=True,
        transform=val_transform
    )

    # ---- Creaci√≥n de DataLoaders ----
    """
        DataLoaders encargados de servir los datos por lotes (batches) durante el entrenamiento y validaci√≥n de la red neuronal.
    """
    train_loader = DataLoader(
        train_set, batch_size=cfg.batch_size, shuffle=True, num_workers=0
    )
    val_loader = DataLoader(
        val_set, batch_size=cfg.batch_size, shuffle=False, num_workers=0
    )

    return train_loader, val_loader  # devuelve ambos cargadores

# ===============================
# üèóÔ∏è CONSTRUCCI√ìN DEL MODELO
# ===============================
def build_model(cfg: Config):
    """Crea el modelo especificado (ResNet18 o CNN simple)."""

    # Si el modelo elegido es ResNet18:
    if cfg.model_name == 'resnet18':
        model = models.resnet18(  # carga arquitectura ResNet18
            weights=models.ResNet18_Weights.DEFAULT if cfg.pretrained else None
        )
        num_ftrs = model.fc.in_features           # obtiene n√∫mero de caracter√≠sticas de la capa FC
        model.fc = nn.Linear(num_ftrs, cfg.num_classes)  # reemplaza la √∫ltima capa para 10 clases

        # Congela capas iniciales (para ahorrar recursos)
        for param in model.parameters():
            param.requires_grad = False
        # Descongela solo las capas finales (entrenamiento parcial)
        for param in model.layer4.parameters():
            param.requires_grad = True
        for param in model.fc.parameters():
            param.requires_grad = True

    # Si el modelo elegido es una CNN simple:
    elif cfg.model_name == 'simple_cnn':
        model = nn.Sequential(  # modelo secuencial (apila capas)
            nn.Conv2d(3, 32, 3, padding=1),  # capa convolucional: 3 canales de entrada (RGB) ‚Üí 32 filtros
            nn.ReLU(),                       # funci√≥n de activaci√≥n no lineal
            nn.MaxPool2d(2),                 # reduce la dimensi√≥n de la imagen a la mitad
            nn.Conv2d(32, 64, 3, padding=1), # segunda capa convolucional: 64 filtros
            nn.ReLU(),
            nn.MaxPool2d(2),                 # otra reducci√≥n espacial
            nn.Flatten(),                    # convierte el mapa 2D en un vector 1D
            nn.Linear(64 * 8 * 8, 256),      # capa totalmente conectada (FC)
            nn.ReLU(),
            nn.Linear(256, cfg.num_classes),  # capa de salida con 10 neuronas (una por clase)
        )
    else:
        raise ValueError(f'Modelo no soportado: {cfg.model_name}')  # validaci√≥n de nombre de modelo

    return model  # devuelve el modelo construido

# ===============================
# üîÅ ENTRENAMIENTO DE UNA √âPOCA
# ===============================
def train_epoch(model, dataloader, criterion, optimizer, device):
    """Entrena el modelo durante una √©poca completa."""
    model.train()               # establece modo entrenamiento
    running_loss = 0.0          # acumulador de p√©rdida
    correct = 0                 # contador de predicciones correctas
    total = 0                   # total de muestras procesadas

    # Iteraci√≥n sobre cada lote (batch)
    for batch_idx, (images, labels) in enumerate(dataloader):
        images, labels = images.to(device), labels.to(device)  # pasa datos a CPU o GPU
        optimizer.zero_grad()                                  # limpia gradientes anteriores

        try:
            outputs = model(images)              # pasa im√°genes por la red (forward)
            loss = criterion(outputs, labels)    # calcula la p√©rdida entre predicci√≥n y etiqueta
            loss.backward()                      # calcula gradientes (backpropagation)
            optimizer.step()                     # actualiza los pesos del modelo
        except RuntimeError as e:
            if "out of memory" in str(e).lower():  # maneja errores de memoria GPU
                logger.warning('Error de memoria, limpiando cach√©...')
                clear_memory()
                continue

        # ---- M√©tricas ----
        running_loss += loss.item() * images.size(0)  # acumula p√©rdida ponderada
        _, preds = torch.max(outputs, 1)              # obtiene predicci√≥n m√°s probable
        correct += (preds == labels).sum().item()     # cuenta aciertos
        total += labels.size(0)                       # acumula total de ejemplos

        # ---- Registro intermedio ----
        if batch_idx % 100 == 0:
            acc = correct / total if total > 0 else 0
            logger.info(f'Batch {batch_idx}/{len(dataloader)} - Loss: {loss.item():.4f} - Acc: {acc:.4f}')

    return running_loss / total, correct / total  # devuelve p√©rdida y precisi√≥n promedio

# ===============================
# üß™ VALIDACI√ìN DEL MODELO
# ===============================
@torch.no_grad()  # desactiva c√°lculo de gradientes (m√°s r√°pido)
def validate(model, dataloader, criterion, device):
    """Eval√∫a el modelo en el conjunto de validaci√≥n."""
    model.eval()  # cambia a modo evaluaci√≥n
    running_loss = 0.0 # acumulador de p√©rdida
    correct = 0 # contador de predicciones correctas
    total = 0 # total de muestras procesadas

    for images, labels in dataloader:
        images, labels = images.to(device), labels.to(device) # pasa datos a CPU o GPU
        outputs = model(images)               # predicciones
        loss = criterion(outputs, labels)     # c√°lculo de p√©rdida
        running_loss += loss.item() * images.size(0) # acumula p√©rdida ponderada
        _, preds = torch.max(outputs, 1) # obtiene predicci√≥n m√°s probable
        correct += (preds == labels).sum().item() # cuenta aciertos
        total += labels.size(0) # acumula total de ejemplos

    return running_loss / total, correct / total  # devuelve m√©tricas de validaci√≥n

# ===============================
# üíæ GUARDADO DE CHECKPOINT
# ===============================
def save_checkpoint(state, path):
    """Guarda el estado actual del modelo y del optimizador."""
    Path(path).parent.mkdir(parents=True, exist_ok=True)  # crea carpeta si no existe
    torch.save(state, path)                               # guarda diccionario con el estado
    logger.info(f'Checkpoint guardado: {path}')           # mensaje informativo

# ===============================
# üöÄ FUNCI√ìN PRINCIPAL
# ===============================
def main():
    """Ejecuta todo el proceso de entrenamiento."""
    start_time = time.time()              # mide tiempo de ejecuci√≥n total
    cfg = Config()                        # carga configuraci√≥n por defecto

    # ---- Muestra configuraci√≥n ----
    logger.info(f'Dispositivo: {cfg.device}')
    logger.info(f'Configuraci√≥n: batch_size={cfg.batch_size}, epochs={cfg.epochs}, model={cfg.model_name}')

    if cfg.model_name == 'simple_cnn':    # mensaje adicional para la versi√≥n r√°pida
        logger.info('CNN Simple - Configuraci√≥n optimizada para velocidad')
        logger.info('Entrenamiento r√°pido para demostraci√≥n')

    set_seed()  # asegura reproducibilidad

    try:
        # ---- Preparaci√≥n de entorno ----
        train_loader, val_loader = get_dataloaders(cfg)             # carga datos
        model = build_model(cfg).to(cfg.device)                     # crea modelo y lo mueve a CPU/GPU
        criterion = nn.CrossEntropyLoss()                           # define funci√≥n de p√©rdida
        optimizer = optim.SGD(model.parameters(), lr=cfg.lr, momentum=0.9)  # optimizador SGD
        scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, 'min', patience=2)  # reduce LR si no mejora

        best_val_loss = float('inf')  # mejor p√©rdida hasta ahora
        epochs_no_improve = 0         # contador para early stopping

        # ---- Bucle principal de entrenamiento ----
        for epoch in range(1, cfg.epochs + 1):
            epoch_start = time.time()

            # Entrenamiento y validaci√≥n
            train_loss, train_acc = train_epoch(model, train_loader, criterion, optimizer, cfg.device)
            val_loss, val_acc = validate(model, val_loader, criterion, cfg.device)

            epoch_time = time.time() - epoch_start
            logger.info(f'√âpoca {epoch}/{cfg.epochs} ({epoch_time:.1f}s): '
                        f'train_loss={train_loss:.4f} train_acc={train_acc:.4f} '
                        f'val_loss={val_loss:.4f} val_acc={val_acc:.4f}')

            scheduler.step(val_loss)  # ajusta la tasa de aprendizaje seg√∫n la p√©rdida

            # ---- Guardar estado actual ----
            save_checkpoint({
                'epoch': epoch,
                'model_state': model.state_dict(),          # pesos del modelo
                'optimizer_state': optimizer.state_dict()   # estado del optimizador
            }, f'{cfg.output_dir}/model_epoch{epoch}.pt')

            # ---- Early Stopping ----
            if val_loss < best_val_loss:
                best_val_loss = val_loss
                epochs_no_improve = 0
            else:
                epochs_no_improve += 1
                if epochs_no_improve >= 3:
                    logger.info(f'Early stopping en √©poca {epoch}')
                    break

            clear_memory()  # libera memoria al final de cada √©poca

    except Exception as e:
        logger.error(f'Error durante entrenamiento: {e}')  # registra errores
        raise  # relanza la excepci√≥n

    finally:
        clear_memory()  # limpieza final
        total_time = time.time() - start_time
        logger.info(f'Entrenamiento completado en {total_time:.1f} segundos')

# ===============================
# ‚ñ∂Ô∏è PUNTO DE ENTRADA DEL SCRIPT
# ===============================
if __name__ == '__main__':
    main()  # ejecuta la funci√≥n principal


# **Ejecute el proyecto:**

```
python main.py
```


---


## Buenas pr√°cticas integradas en el laboratorio

1. **PEP 8 y tipado**: funciones con docstrings, nombres claros, y `typing` para par√°metros y retornos.
2. **Reproducibilidad**: fijar seeds para `random`, `numpy` y `torch`; documentar ver
