# Clasificaci√≥n de Sonidos Ambientales con ResNet-50
## Pr√°ctica: Dataset ESC-50 + Transfer Learning

### Objetivo
Clasificar sonidos ambientales del dataset ESC-50 utilizando el modelo ResNet-50 pre-entrenado en ImageNet.

### ¬øPor qu√© funciona esto?
ResNet-50 est√° dise√±ado para clasificar im√°genes, pero los sonidos pueden convertirse en **espectrogramas** (representaciones visuales del audio). As√≠, aprovechamos el conocimiento que ResNet-50 aprendi√≥ de millones de im√°genes para clasificar sonidos.

### Flujo del proyecto:
1. **Descargar** el dataset ESC-50
2. **Convertir** audios a espectrogramas (im√°genes)
3. **Adaptar** ResNet-50 para 50 clases de sonidos
4. **Entrenar** el modelo
5. **Evaluar** los resultados

---
## 1. Instalaci√≥n de Dependencias

Primero instalamos las librer√≠as necesarias si no las tienes.

In [None]:
# Instalamos las librer√≠as necesarias
# - torch y torchvision: Framework de deep learning de PyTorch
# - torchaudio: Procesamiento de audio con PyTorch
# - librosa: Librer√≠a especializada en an√°lisis de audio
# - matplotlib: Para crear gr√°ficos y visualizaciones
# - pandas: Manipulaci√≥n de datos tabulares
# - tqdm: Barras de progreso bonitas

!pip install torch torchvision torchaudio librosa matplotlib pandas tqdm scikit-learn

---
## 2. Importaci√≥n de Librer√≠as

Importamos todo lo necesario con explicaciones detalladas.

In [None]:
# ============================================================
# IMPORTACIONES PRINCIPALES
# ============================================================

# --- Librer√≠as est√°ndar de Python ---
import os                    # Operaciones con el sistema de archivos (rutas, directorios)
import urllib.request        # Para descargar archivos de internet
import zipfile               # Para descomprimir archivos .zip
import warnings              # Para controlar mensajes de advertencia
warnings.filterwarnings('ignore')  # Silenciamos advertencias molestas

# --- Librer√≠as de datos ---
import numpy as np           # Operaciones num√©ricas con arrays (vectores y matrices)
import pandas as pd          # Manipulaci√≥n de datos en formato tabla (DataFrames)

# --- Librer√≠as de audio ---
import librosa               # An√°lisis y procesamiento de audio
import librosa.display       # Visualizaci√≥n de espectrogramas

# --- Librer√≠as de visualizaci√≥n ---
import matplotlib.pyplot as plt  # Crear gr√°ficos

# --- PyTorch: Framework de Deep Learning ---
import torch                            # Librer√≠a principal de PyTorch
import torch.nn as nn                   # M√≥dulos de redes neuronales (capas, funciones)
import torch.optim as optim             # Optimizadores (SGD, Adam, etc.)
from torch.utils.data import Dataset, DataLoader  # Clases para manejar datos

# --- TorchVision: Modelos y transformaciones de im√°genes ---
import torchvision.models as models     # Modelos pre-entrenados (ResNet, VGG, etc.)
import torchvision.transforms as transforms  # Transformaciones de im√°genes

# --- Utilidades ---
from tqdm import tqdm                   # Barras de progreso
from sklearn.model_selection import train_test_split  # Divisi√≥n train/test
from sklearn.metrics import confusion_matrix, classification_report  # M√©tricas

# --- Configuraci√≥n del dispositivo ---
# PyTorch puede usar GPU (CUDA) para acelerar el entrenamiento
# Si tienes GPU NVIDIA, usar√° CUDA; si no, usar√° CPU
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"üñ•Ô∏è  Dispositivo seleccionado: {device}")
print(f"üì¶ PyTorch versi√≥n: {torch.__version__}")

---
## 3. Descarga del Dataset ESC-50

### ¬øQu√© es ESC-50?
- **2000 grabaciones** de audio de 5 segundos cada una
- **50 clases** de sonidos ambientales (perro, lluvia, reloj, etc.)
- **40 clips por clase**
- Organizado en **5 folds** para validaci√≥n cruzada

In [None]:
# ============================================================
# DESCARGA DEL DATASET ESC-50
# ============================================================

# URL del dataset en GitHub (archivo ZIP)
ESC50_URL = "https://github.com/karoldvl/ESC-50/archive/master.zip"

# Directorio donde guardaremos los datos
DATA_DIR = "data"           # Carpeta principal de datos
ZIP_PATH = "data/esc50.zip" # Ruta donde guardaremos el ZIP descargado

def descargar_esc50():
    """
    Descarga y extrae el dataset ESC-50 si no existe.
    
    Returns:
        str: Ruta al directorio del dataset extra√≠do
    """
    # Creamos el directorio 'data' si no existe
    # exist_ok=True evita error si ya existe
    os.makedirs(DATA_DIR, exist_ok=True)
    
    # Ruta donde estar√° el dataset una vez extra√≠do
    dataset_path = os.path.join(DATA_DIR, "ESC-50-master")
    
    # Verificamos si ya tenemos el dataset descargado
    if os.path.exists(dataset_path):
        print("‚úÖ Dataset ESC-50 ya existe. No es necesario descargar.")
        return dataset_path
    
    # Si no existe, lo descargamos
    print("‚¨áÔ∏è  Descargando dataset ESC-50 (600+ MB)...")
    print("   Esto puede tardar varios minutos dependiendo de tu conexi√≥n.")
    
    # urllib.request.urlretrieve descarga un archivo de una URL
    # Primer argumento: URL de origen
    # Segundo argumento: ruta donde guardar el archivo
    urllib.request.urlretrieve(ESC50_URL, ZIP_PATH)
    print("‚úÖ Descarga completada.")
    
    # Extraemos el contenido del ZIP
    print("üì¶ Extrayendo archivos...")
    
    # zipfile.ZipFile abre el archivo ZIP
    # 'r' significa modo lectura
    with zipfile.ZipFile(ZIP_PATH, 'r') as zip_ref:
        # extractall extrae todos los archivos al directorio especificado
        zip_ref.extractall(DATA_DIR)
    
    print("‚úÖ Extracci√≥n completada.")
    
    # Eliminamos el ZIP para ahorrar espacio
    os.remove(ZIP_PATH)
    print("üóëÔ∏è  Archivo ZIP eliminado para ahorrar espacio.")
    
    return dataset_path

# Ejecutamos la funci√≥n y guardamos la ruta
DATASET_PATH = descargar_esc50()
print(f"\nüìÅ Dataset ubicado en: {DATASET_PATH}")

---
## 4. Exploraci√≥n del Dataset (EDA)

Antes de entrenar, es fundamental **entender nuestros datos**.

In [None]:
# ============================================================
# CARGA DE METADATOS
# ============================================================

# El dataset incluye un archivo CSV con informaci√≥n de cada audio
# Este archivo contiene: nombre del archivo, fold, categor√≠a, etc.
meta_path = os.path.join(DATASET_PATH, "meta", "esc50.csv")

# pd.read_csv lee un archivo CSV y lo convierte en DataFrame
# Un DataFrame es como una tabla de Excel en Python
df = pd.read_csv(meta_path)

# Mostramos las primeras 5 filas para ver la estructura
print("üìã Primeras filas del dataset:")
print("="*60)
df.head()

In [None]:
# ============================================================
# AN√ÅLISIS B√ÅSICO DEL DATASET
# ============================================================

print("üìä ESTAD√çSTICAS DEL DATASET ESC-50")
print("="*60)

# .shape nos da (filas, columnas) del DataFrame
print(f"\nüìÅ Total de archivos de audio: {df.shape[0]}")

# .nunique() cuenta valores √∫nicos en una columna
print(f"üè∑Ô∏è  N√∫mero de categor√≠as: {df['category'].nunique()}")

# N√∫mero de folds (para validaci√≥n cruzada)
print(f"üìÇ N√∫mero de folds: {df['fold'].nunique()}")

# Contamos cu√°ntos audios hay por categor√≠a
print(f"\nüî¢ Audios por categor√≠a:")
# value_counts() cuenta ocurrencias de cada valor √∫nico
print(df['category'].value_counts().head(10))  # Mostramos solo 10

print("\nüí° Observaci√≥n: Cada categor√≠a tiene exactamente 40 muestras (dataset balanceado)")

In [None]:
# ============================================================
# LISTADO DE TODAS LAS CATEGOR√çAS
# ============================================================

print("üè∑Ô∏è  LAS 50 CATEGOR√çAS DEL DATASET ESC-50:")
print("="*60)

# .unique() devuelve un array con los valores √∫nicos
# sorted() los ordena alfab√©ticamente
categorias = sorted(df['category'].unique())

# Mostramos las categor√≠as en formato de tabla (5 columnas)
for i, cat in enumerate(categorias, 1):  # enumerate a√±ade √≠ndice, empezando en 1
    # end=' ' evita el salto de l√≠nea
    # ljust(20) a√±ade espacios para alinear (20 caracteres de ancho)
    print(f"{i:2d}. {cat.ljust(20)}", end='')
    # Cada 3 categor√≠as, saltamos de l√≠nea
    if i % 3 == 0:
        print()  # Nueva l√≠nea

In [None]:
# ============================================================
# VISUALIZACI√ìN DE UNA ONDA DE AUDIO
# ============================================================

# Ruta a los archivos de audio
audio_dir = os.path.join(DATASET_PATH, "audio")

# Tomamos un archivo de ejemplo (el primero del DataFrame)
ejemplo_archivo = df.iloc[0]['filename']  # iloc[0] = primera fila
ejemplo_categoria = df.iloc[0]['category']
ejemplo_path = os.path.join(audio_dir, ejemplo_archivo)

print(f"üéµ Analizando: {ejemplo_archivo}")
print(f"üìÅ Categor√≠a: {ejemplo_categoria}")

# librosa.load() carga un archivo de audio
# Retorna:
#   - y: numpy array con los valores de amplitud de la onda
#   - sr: sample rate (muestras por segundo, t√≠picamente 22050 Hz)
y, sr = librosa.load(ejemplo_path, sr=None)  # sr=None mantiene el sample rate original

print(f"\nüìä Informaci√≥n del audio:")
print(f"   - Sample rate: {sr} Hz (muestras por segundo)")
print(f"   - Duraci√≥n: {len(y)/sr:.2f} segundos")
print(f"   - Total de muestras: {len(y):,}")

# Creamos una figura para visualizar
plt.figure(figsize=(14, 4))  # Tama√±o: 14 pulgadas de ancho, 4 de alto

# librosa.display.waveshow muestra la forma de onda
librosa.display.waveshow(y, sr=sr, alpha=0.8)  # alpha = transparencia

plt.title(f'Forma de Onda: {ejemplo_categoria}', fontsize=14)
plt.xlabel('Tiempo (segundos)')
plt.ylabel('Amplitud')
plt.tight_layout()  # Ajusta los m√°rgenes autom√°ticamente
plt.show()

---
## 5. Conversi√≥n de Audio a Espectrogramas

### ¬øQu√© es un espectrograma?
Un **espectrograma** es una representaci√≥n visual del audio que muestra:
- **Eje X**: Tiempo
- **Eje Y**: Frecuencia (Hz)
- **Color**: Intensidad/Energ√≠a

### ¬øPor qu√© Mel-Espectrogramas?
La escala **Mel** imita c√≥mo el o√≠do humano percibe frecuencias. Escuchamos mejor diferencias en frecuencias bajas que en altas. La escala Mel compensa esto.

### Esto es clave porque:
ResNet-50 espera **im√°genes**. Al convertir audio ‚Üí espectrograma, transformamos el problema de audio en un problema de visi√≥n.

In [None]:
# ============================================================
# FUNCI√ìN PARA CREAR MEL-ESPECTROGRAMAS
# ============================================================

def audio_a_mel_espectrograma(ruta_audio, sr=22050, n_mels=128, duracion_fija=5.0):
    """
    Convierte un archivo de audio en un Mel-espectrograma.
    
    Par√°metros:
    -----------
    ruta_audio : str
        Ruta al archivo de audio (.wav, .mp3, etc.)
    
    sr : int (default=22050)
        Sample rate deseado. 22050 Hz es est√°ndar para an√°lisis de audio.
        Significa 22,050 muestras por segundo.
    
    n_mels : int (default=128)
        N√∫mero de bandas Mel. M√°s bandas = m√°s detalle en frecuencias.
        128 es un valor com√∫n que balancea detalle y eficiencia.
    
    duracion_fija : float (default=5.0)
        Duraci√≥n en segundos. ESC-50 tiene audios de 5 segundos.
        Forzamos esta duraci√≥n para tener espectrogramas del mismo tama√±o.
    
    Retorna:
    --------
    numpy.ndarray
        Mel-espectrograma en escala de decibelios (dB)
    """
    
    # --- Paso 1: Cargar el audio ---
    # librosa.load carga el audio y lo remuestrea al sr especificado
    # duration=duracion_fija corta o rellena para tener exactamente 5 segundos
    y, sr = librosa.load(ruta_audio, sr=sr, duration=duracion_fija)
    
    # --- Paso 2: Asegurar longitud fija ---
    # Calculamos cu√°ntas muestras necesitamos para 5 segundos
    longitud_objetivo = int(sr * duracion_fija)
    
    # Si el audio es m√°s corto, rellenamos con ceros (silencio)
    if len(y) < longitud_objetivo:
        # np.pad a√±ade ceros al final del array
        # (0, longitud_objetivo - len(y)) = 0 ceros al inicio, el resto al final
        y = np.pad(y, (0, longitud_objetivo - len(y)), mode='constant')
    else:
        # Si es m√°s largo, lo cortamos
        y = y[:longitud_objetivo]
    
    # --- Paso 3: Calcular el Mel-espectrograma ---
    # librosa.feature.melspectrogram calcula el espectrograma
    # Par√°metros:
    #   - y: se√±al de audio
    #   - sr: sample rate
    #   - n_mels: n√∫mero de bandas Mel
    #   - n_fft: tama√±o de la ventana FFT (2048 es est√°ndar)
    #   - hop_length: salto entre ventanas (512 = 75% de solapamiento)
    mel_spec = librosa.feature.melspectrogram(
        y=y,              # Se√±al de audio
        sr=sr,            # Sample rate
        n_mels=n_mels,    # Bandas de frecuencia Mel
        n_fft=2048,       # Tama√±o de ventana FFT
        hop_length=512    # Salto entre ventanas
    )
    
    # --- Paso 4: Convertir a escala de decibelios ---
    # Los valores crudos var√≠an mucho. La escala dB es m√°s manejable.
    # librosa.power_to_db convierte potencia a decibelios
    # ref=np.max normaliza respecto al valor m√°ximo
    mel_spec_db = librosa.power_to_db(mel_spec, ref=np.max)
    
    return mel_spec_db

print("‚úÖ Funci√≥n audio_a_mel_espectrograma definida correctamente")

In [None]:
# ============================================================
# VISUALIZACI√ìN DE MEL-ESPECTROGRAMAS
# ============================================================

# Seleccionamos 4 ejemplos de diferentes categor√≠as para visualizar
# Tomamos uno de cada categor√≠a diferente
ejemplos = df.groupby('category').first().reset_index().head(4)

# Creamos una figura con 4 subplots (2 filas x 2 columnas)
fig, axes = plt.subplots(2, 2, figsize=(14, 10))
# flatten() convierte la matriz 2x2 de axes en un array 1D para iterar f√°cilmente
axes = axes.flatten()

print("üé® Generando Mel-espectrogramas de ejemplo...\n")

for idx, (_, fila) in enumerate(ejemplos.iterrows()):
    # Construimos la ruta completa al archivo de audio
    ruta = os.path.join(audio_dir, fila['filename'])
    categoria = fila['category']
    
    # Generamos el mel-espectrograma
    mel_spec = audio_a_mel_espectrograma(ruta)
    
    # Visualizamos en el subplot correspondiente
    # librosa.display.specshow es ideal para espectrogramas
    img = librosa.display.specshow(
        mel_spec,                    # Datos del espectrograma
        x_axis='time',               # Eje X muestra tiempo
        y_axis='mel',                # Eje Y muestra frecuencias Mel
        sr=22050,                    # Sample rate
        hop_length=512,              # Mismo hop_length usado al crear
        ax=axes[idx],                # En qu√© subplot dibujar
        cmap='viridis'               # Mapa de colores (viridis es muy legible)
    )
    
    axes[idx].set_title(f'Categor√≠a: {categoria}', fontsize=12)
    
    # A√±adimos barra de color para interpretar la intensidad
    fig.colorbar(img, ax=axes[idx], format='%+2.0f dB')

plt.suptitle('Mel-Espectrogramas de Diferentes Categor√≠as', fontsize=14, y=1.02)
plt.tight_layout()
plt.show()

print("\nüí° Observa c√≥mo cada tipo de sonido tiene un 'patr√≥n visual' √∫nico.")
print("   ResNet-50 aprender√° a reconocer estos patrones.")

---
## 6. Preparaci√≥n de Datos para PyTorch

### ¬øQu√© es un Dataset en PyTorch?
Un `Dataset` es una clase que define:
1. **`__len__`**: Cu√°ntos elementos hay
2. **`__getitem__`**: C√≥mo obtener un elemento por √≠ndice

### ¬øQu√© es un DataLoader?
Un `DataLoader` es un iterador que:
- Agrupa datos en **batches** (lotes)
- Puede **mezclar** los datos (shuffle)
- Carga datos en **paralelo** (num_workers)

In [None]:
# ============================================================
# DATASET PERSONALIZADO PARA ESC-50
# ============================================================

class ESC50Dataset(Dataset):
    """
    Dataset personalizado para ESC-50 que convierte audios a espectrogramas.
    
    Esta clase hereda de torch.utils.data.Dataset y permite:
    - Cargar audios bajo demanda (no todos a memoria)
    - Aplicar transformaciones (resize, normalizaci√≥n)
    - Integrarse con DataLoader para batching
    """
    
    def __init__(self, dataframe, audio_dir, transform=None):
        """
        Inicializa el dataset.
        
        Par√°metros:
        -----------
        dataframe : pd.DataFrame
            DataFrame con columnas 'filename' y 'target'
        
        audio_dir : str
            Directorio donde est√°n los archivos de audio
        
        transform : callable, opcional
            Transformaciones a aplicar a cada espectrograma
        """
        # Guardamos el DataFrame como atributo de la instancia
        self.dataframe = dataframe.reset_index(drop=True)
        
        # Directorio con los audios
        self.audio_dir = audio_dir
        
        # Transformaciones (resize, normalizaci√≥n, etc.)
        self.transform = transform
        
        # Creamos un mapeo de categor√≠a a √≠ndice num√©rico
        # Ejemplo: {'dog': 0, 'rain': 1, ...}
        self.categorias = sorted(dataframe['category'].unique())
        self.categoria_a_idx = {cat: idx for idx, cat in enumerate(self.categorias)}
    
    def __len__(self):
        """
        Retorna el n√∫mero total de muestras en el dataset.
        PyTorch usa esto para saber cu√°ntos datos hay.
        """
        return len(self.dataframe)
    
    def __getitem__(self, idx):
        """
        Obtiene un elemento por su √≠ndice.
        
        Este m√©todo es llamado por el DataLoader cuando necesita un dato.
        
        Par√°metros:
        -----------
        idx : int
            √çndice del elemento a obtener
        
        Retorna:
        --------
        tuple (tensor, int)
            - tensor: Espectrograma como tensor de PyTorch
            - int: Etiqueta (√≠ndice de la categor√≠a)
        """
        # Obtenemos la fila correspondiente del DataFrame
        fila = self.dataframe.iloc[idx]
        
        # Construimos la ruta completa al archivo de audio
        ruta_audio = os.path.join(self.audio_dir, fila['filename'])
        
        # Obtenemos la etiqueta (√≠ndice num√©rico de la categor√≠a)
        etiqueta = self.categoria_a_idx[fila['category']]
        
        # Convertimos el audio a mel-espectrograma
        mel_spec = audio_a_mel_espectrograma(ruta_audio)
        
        # Normalizamos el espectrograma al rango [0, 1]
        # Esto es importante para que la red neuronal funcione bien
        mel_spec = (mel_spec - mel_spec.min()) / (mel_spec.max() - mel_spec.min() + 1e-8)
        
        # Convertimos a tensor de PyTorch
        # np.float32 porque PyTorch trabaja con float32 por defecto
        mel_spec = torch.tensor(mel_spec, dtype=torch.float32)
        
        # A√±adimos dimensi√≥n de canal: (H, W) -> (1, H, W)
        # ResNet espera (C, H, W) donde C=canales, H=alto, W=ancho
        # Nuestro espectrograma es como una imagen en escala de grises (1 canal)
        mel_spec = mel_spec.unsqueeze(0)  # unsqueeze a√±ade una dimensi√≥n
        
        # ResNet-50 espera 3 canales (RGB), as√≠ que replicamos el espectrograma
        # (1, H, W) -> (3, H, W)
        mel_spec = mel_spec.repeat(3, 1, 1)  # Repetimos 3 veces en la dimensi√≥n del canal
        
        # Aplicamos transformaciones adicionales si existen
        if self.transform:
            mel_spec = self.transform(mel_spec)
        
        return mel_spec, etiqueta

print("‚úÖ Clase ESC50Dataset definida correctamente")

In [None]:
# ============================================================
# TRANSFORMACIONES PARA LAS IM√ÅGENES
# ============================================================

# ResNet-50 fue entrenado con im√°genes de 224x224 p√≠xeles
# Tambi√©n espera cierta normalizaci√≥n espec√≠fica

# transforms.Compose encadena m√∫ltiples transformaciones
transformaciones = transforms.Compose([
    # Redimensiona la imagen a 224x224 (tama√±o que espera ResNet)
    transforms.Resize((224, 224)),
    
    # Normalizaci√≥n con media y desviaci√≥n est√°ndar de ImageNet
    # Estos valores son los que us√≥ ResNet durante su entrenamiento
    # Es crucial usar los mismos para que el transfer learning funcione
    transforms.Normalize(
        mean=[0.485, 0.456, 0.406],  # Media de ImageNet por canal (R, G, B)
        std=[0.229, 0.224, 0.225]    # Desviaci√≥n est√°ndar de ImageNet
    )
])

print("‚úÖ Transformaciones definidas:")
print("   1. Resize a 224x224 (tama√±o de entrada de ResNet)")
print("   2. Normalizaci√≥n con estad√≠sticas de ImageNet")

In [None]:
# ============================================================
# DIVISI√ìN EN CONJUNTOS DE ENTRENAMIENTO Y VALIDACI√ìN
# ============================================================

# ESC-50 tiene 5 folds predefinidos para validaci√≥n cruzada
# Por simplicidad, usaremos folds 1-4 para entrenar y fold 5 para validar

# Separamos el DataFrame seg√∫n el fold
# df['fold'] != 5 selecciona todas las filas donde fold no es 5
df_train = df[df['fold'] != 5].copy()  # Folds 1, 2, 3, 4 para entrenar
df_val = df[df['fold'] == 5].copy()    # Fold 5 para validar

print("üìä Divisi√≥n del dataset:")
print(f"   - Entrenamiento: {len(df_train)} muestras (folds 1-4)")
print(f"   - Validaci√≥n: {len(df_val)} muestras (fold 5)")
print(f"   - Ratio: {len(df_train)/(len(df_train)+len(df_val))*100:.0f}% / {len(df_val)/(len(df_train)+len(df_val))*100:.0f}%")

In [None]:
# ============================================================
# CREACI√ìN DE DATASETS Y DATALOADERS
# ============================================================

# Creamos instancias del Dataset para train y validaci√≥n
dataset_train = ESC50Dataset(
    dataframe=df_train,           # DataFrame con los datos de entrenamiento
    audio_dir=audio_dir,          # Directorio con los audios
    transform=transformaciones    # Transformaciones a aplicar
)

dataset_val = ESC50Dataset(
    dataframe=df_val,
    audio_dir=audio_dir,
    transform=transformaciones
)

# Definimos el tama√±o del batch
# Un batch m√°s grande = entrenamiento m√°s estable pero m√°s memoria
# 16 o 32 son valores comunes para GPUs de consumo
BATCH_SIZE = 16

# Creamos los DataLoaders
# DataLoader se encarga de:
# - Agrupar datos en batches
# - Mezclar datos (shuffle) en entrenamiento
# - Cargar datos en paralelo (num_workers)

train_loader = DataLoader(
    dataset_train,           # Dataset a usar
    batch_size=BATCH_SIZE,   # Tama√±o del batch
    shuffle=True,            # Mezclar datos en cada √©poca (importante para training)
    num_workers=0            # Procesos paralelos (0 = todo en el principal)
)

val_loader = DataLoader(
    dataset_val,
    batch_size=BATCH_SIZE,
    shuffle=False,           # No mezclar en validaci√≥n (queremos resultados consistentes)
    num_workers=0
)

print("‚úÖ DataLoaders creados:")
print(f"   - Train: {len(train_loader)} batches de {BATCH_SIZE} muestras")
print(f"   - Validaci√≥n: {len(val_loader)} batches de {BATCH_SIZE} muestras")

In [None]:
# ============================================================
# VERIFICACI√ìN: VISUALIZAR UN BATCH
# ============================================================

# Obtenemos un batch de ejemplo
# iter() crea un iterador, next() obtiene el siguiente elemento
imagenes_ejemplo, etiquetas_ejemplo = next(iter(train_loader))

print("üì¶ Verificaci√≥n del batch:")
print(f"   - Shape de im√°genes: {imagenes_ejemplo.shape}")
print(f"     (batch_size, canales, alto, ancho)")
print(f"   - Shape de etiquetas: {etiquetas_ejemplo.shape}")
print(f"   - Tipo de datos: {imagenes_ejemplo.dtype}")
print(f"   - Rango de valores: [{imagenes_ejemplo.min():.3f}, {imagenes_ejemplo.max():.3f}]")

---
## 7. Configuraci√≥n del Modelo ResNet-50

### ¬øQu√© es Transfer Learning?
En lugar de entrenar una red desde cero (lo cual requiere millones de im√°genes), **reutilizamos** una red ya entrenada en ImageNet (1.2 millones de im√°genes, 1000 clases).

### Estrategia:
1. **Cargar** ResNet-50 con pesos de ImageNet
2. **Congelar** las capas iniciales (ya aprendieron caracter√≠sticas generales)
3. **Reemplazar** la √∫ltima capa para 50 clases (en lugar de 1000)
4. **Entrenar** solo las capas finales con nuestros datos

In [None]:
# ============================================================
# CARGAR RESNET-50 PRE-ENTRENADO
# ============================================================

# N√∫mero de clases en ESC-50
NUM_CLASES = 50

# Cargamos ResNet-50 con pesos pre-entrenados de ImageNet
# weights='IMAGENET1K_V2' usa los mejores pesos disponibles
print("‚¨áÔ∏è  Cargando modelo ResNet-50 pre-entrenado...")

# Creamos el modelo con pesos de ImageNet
modelo = models.resnet50(weights='IMAGENET1K_V2')

print("‚úÖ Modelo cargado")

# Veamos la estructura del modelo
print("\nüìê Estructura de ResNet-50 (√∫ltimas capas):")
print(f"   Capa final original: {modelo.fc}")
print(f"   (Dise√±ada para 1000 clases de ImageNet)")

In [None]:
# ============================================================
# CONGELAR CAPAS Y MODIFICAR CAPA FINAL
# ============================================================

# --- Paso 1: Congelar todas las capas ---
# "Congelar" significa que los pesos no se actualizar√°n durante el entrenamiento
# Esto preserva el conocimiento aprendido de ImageNet

for param in modelo.parameters():  # Iteramos sobre todos los par√°metros
    param.requires_grad = False    # requires_grad=False = no entrenar este par√°metro

print("‚ùÑÔ∏è  Todas las capas congeladas (pesos de ImageNet preservados)")

# --- Paso 2: Reemplazar la capa final (fc = fully connected) ---
# La capa original tiene 1000 salidas (clases de ImageNet)
# Necesitamos 50 salidas (clases de ESC-50)

# Obtenemos el n√∫mero de caracter√≠sticas de entrada de la capa fc
# in_features es el tama√±o del vector que entra a la capa
num_features_entrada = modelo.fc.in_features
print(f"\nüìä Features de entrada a la capa final: {num_features_entrada}")

# Creamos una nueva capa fully connected
# nn.Linear(entrada, salida) crea una capa densa
# Esta capa S√ç se entrenar√° (por defecto requires_grad=True)
modelo.fc = nn.Sequential(
    nn.Dropout(0.5),                           # Dropout para regularizaci√≥n (50% de neuronas apagadas)
    nn.Linear(num_features_entrada, 512),      # Capa oculta: 2048 -> 512
    nn.ReLU(),                                 # Activaci√≥n ReLU
    nn.Dropout(0.3),                           # Otro Dropout (30%)
    nn.Linear(512, NUM_CLASES)                 # Capa de salida: 512 -> 50 clases
)

print(f"\nüîß Nueva capa final creada:")
print(f"   {modelo.fc}")

# --- Paso 3: Mover modelo al dispositivo (GPU/CPU) ---
modelo = modelo.to(device)
print(f"\nüñ•Ô∏è  Modelo movido a: {device}")

In [None]:
# ============================================================
# CONTAR PAR√ÅMETROS DEL MODELO
# ============================================================

# Contamos par√°metros totales y entrenables
total_params = sum(p.numel() for p in modelo.parameters())  # numel = n√∫mero de elementos
trainable_params = sum(p.numel() for p in modelo.parameters() if p.requires_grad)

print("üìä PAR√ÅMETROS DEL MODELO:")
print("="*50)
print(f"   Total de par√°metros: {total_params:,}")
print(f"   Par√°metros entrenables: {trainable_params:,}")
print(f"   Par√°metros congelados: {total_params - trainable_params:,}")
print(f"\n   Porcentaje entrenable: {trainable_params/total_params*100:.2f}%")
print("\nüí° Solo entrenamos ~4% del modelo (transfer learning eficiente)")

---
## 8. Configuraci√≥n del Entrenamiento

Definimos:
- **Funci√≥n de p√©rdida**: CrossEntropyLoss (est√°ndar para clasificaci√≥n)
- **Optimizador**: Adam (adaptativo, funciona bien en la mayor√≠a de casos)
- **Learning Rate**: 0.001 (tasa de aprendizaje)

In [None]:
# ============================================================
# FUNCI√ìN DE P√âRDIDA Y OPTIMIZADOR
# ============================================================

# --- Funci√≥n de P√©rdida ---
# CrossEntropyLoss combina LogSoftmax + NLLLoss
# Es la funci√≥n est√°ndar para clasificaci√≥n multiclase
# Mide qu√© tan "equivocadas" est√°n las predicciones
criterio = nn.CrossEntropyLoss()

# --- Optimizador ---
# Adam es un optimizador que adapta el learning rate para cada par√°metro
# Solo optimizamos los par√°metros que requieren gradiente (la capa final)
# filter() selecciona solo los par√°metros con requires_grad=True
optimizador = optim.Adam(
    filter(lambda p: p.requires_grad, modelo.parameters()),  # Solo par√°metros entrenables
    lr=0.001,            # Learning rate (tasa de aprendizaje)
    weight_decay=1e-4    # Regularizaci√≥n L2 para evitar overfitting
)

# --- Learning Rate Scheduler ---
# Reduce el learning rate cuando la p√©rdida deja de mejorar
# Esto ayuda a "afinar" el modelo en las √∫ltimas √©pocas
scheduler = optim.lr_scheduler.ReduceLROnPlateau(
    optimizador,         # Optimizador a controlar
    mode='min',          # Reducir cuando la m√©trica disminuye
    factor=0.5,          # Multiplicar lr por 0.5 cuando se reduce
    patience=3,          # Esperar 3 √©pocas sin mejora antes de reducir
    verbose=True         # Mostrar mensaje cuando se reduce
)

print("‚úÖ Configuraci√≥n del entrenamiento:")
print(f"   - Funci√≥n de p√©rdida: CrossEntropyLoss")
print(f"   - Optimizador: Adam (lr=0.001, weight_decay=1e-4)")
print(f"   - Scheduler: ReduceLROnPlateau (factor=0.5, patience=3)")

---
## 9. Funciones de Entrenamiento y Evaluaci√≥n

Definimos las funciones que ejecutan una √©poca de entrenamiento y evaluaci√≥n.

In [None]:
# ============================================================
# FUNCI√ìN DE ENTRENAMIENTO (UNA √âPOCA)
# ============================================================

def entrenar_una_epoca(modelo, dataloader, criterio, optimizador, device):
    """
    Entrena el modelo durante una √©poca completa.
    
    Una √©poca = pasar por TODOS los datos de entrenamiento una vez.
    
    Par√°metros:
    -----------
    modelo : nn.Module
        El modelo de PyTorch a entrenar
    
    dataloader : DataLoader
        DataLoader con los datos de entrenamiento
    
    criterio : nn.Module
        Funci√≥n de p√©rdida (CrossEntropyLoss)
    
    optimizador : optim.Optimizer
        Optimizador (Adam)
    
    device : torch.device
        Dispositivo (cuda o cpu)
    
    Retorna:
    --------
    tuple (float, float)
        - P√©rdida promedio de la √©poca
        - Accuracy (precisi√≥n) de la √©poca
    """
    
    # Ponemos el modelo en modo entrenamiento
    # Esto activa Dropout y BatchNorm en modo training
    modelo.train()
    
    # Variables para acumular estad√≠sticas
    perdida_total = 0.0      # Suma de todas las p√©rdidas
    correctos = 0            # N√∫mero de predicciones correctas
    total = 0                # N√∫mero total de muestras
    
    # Iteramos sobre todos los batches
    # tqdm muestra una barra de progreso
    for imagenes, etiquetas in tqdm(dataloader, desc="Entrenando", leave=False):
        
        # --- Paso 1: Mover datos al dispositivo (GPU/CPU) ---
        imagenes = imagenes.to(device)
        etiquetas = etiquetas.to(device)
        
        # --- Paso 2: Forward pass ---
        # Pasamos las im√°genes por el modelo para obtener predicciones
        salidas = modelo(imagenes)
        
        # --- Paso 3: Calcular la p√©rdida ---
        perdida = criterio(salidas, etiquetas)
        
        # --- Paso 4: Backward pass ---
        # Primero, limpiamos los gradientes anteriores
        optimizador.zero_grad()
        
        # Calculamos los gradientes (derivadas de la p√©rdida respecto a los pesos)
        perdida.backward()
        
        # --- Paso 5: Actualizar pesos ---
        # El optimizador ajusta los pesos usando los gradientes
        optimizador.step()
        
        # --- Acumular estad√≠sticas ---
        perdida_total += perdida.item() * imagenes.size(0)  # item() extrae el valor num√©rico
        
        # torch.max devuelve (valores_max, √≠ndices_max)
        # Los √≠ndices son las clases predichas
        _, predicciones = torch.max(salidas, 1)  # 1 = a lo largo de la dimensi√≥n de clases
        
        correctos += (predicciones == etiquetas).sum().item()  # Contamos aciertos
        total += etiquetas.size(0)                              # Contamos muestras
    
    # Calculamos promedios
    perdida_promedio = perdida_total / total
    accuracy = correctos / total
    
    return perdida_promedio, accuracy

In [None]:
# ============================================================
# FUNCI√ìN DE EVALUACI√ìN
# ============================================================

def evaluar(modelo, dataloader, criterio, device):
    """
    Eval√∫a el modelo en un conjunto de datos (sin entrenar).
    
    Par√°metros:
    -----------
    modelo : nn.Module
        El modelo de PyTorch a evaluar
    
    dataloader : DataLoader
        DataLoader con los datos de evaluaci√≥n
    
    criterio : nn.Module
        Funci√≥n de p√©rdida
    
    device : torch.device
        Dispositivo (cuda o cpu)
    
    Retorna:
    --------
    tuple (float, float, list, list)
        - P√©rdida promedio
        - Accuracy
        - Lista de todas las predicciones
        - Lista de todas las etiquetas reales
    """
    
    # Ponemos el modelo en modo evaluaci√≥n
    # Esto desactiva Dropout y pone BatchNorm en modo inference
    modelo.eval()
    
    perdida_total = 0.0
    correctos = 0
    total = 0
    
    # Listas para guardar predicciones y etiquetas (para m√©tricas detalladas)
    todas_predicciones = []
    todas_etiquetas = []
    
    # torch.no_grad() desactiva el c√°lculo de gradientes
    # Esto ahorra memoria y acelera la evaluaci√≥n
    with torch.no_grad():
        for imagenes, etiquetas in tqdm(dataloader, desc="Evaluando", leave=False):
            
            imagenes = imagenes.to(device)
            etiquetas = etiquetas.to(device)
            
            # Forward pass (sin calcular gradientes)
            salidas = modelo(imagenes)
            
            # Calcular p√©rdida
            perdida = criterio(salidas, etiquetas)
            
            # Acumular estad√≠sticas
            perdida_total += perdida.item() * imagenes.size(0)
            
            _, predicciones = torch.max(salidas, 1)
            correctos += (predicciones == etiquetas).sum().item()
            total += etiquetas.size(0)
            
            # Guardar para m√©tricas detalladas
            # .cpu().numpy() mueve los tensores a CPU y los convierte a numpy
            todas_predicciones.extend(predicciones.cpu().numpy())
            todas_etiquetas.extend(etiquetas.cpu().numpy())
    
    perdida_promedio = perdida_total / total
    accuracy = correctos / total
    
    return perdida_promedio, accuracy, todas_predicciones, todas_etiquetas

print("‚úÖ Funciones de entrenamiento y evaluaci√≥n definidas")

---
## 10. Bucle de Entrenamiento Principal

Ahora entrenamos el modelo durante varias √©pocas.

In [None]:
# ============================================================
# ENTRENAMIENTO DEL MODELO
# ============================================================

# N√∫mero de √©pocas (pasadas completas por los datos)
# M√°s √©pocas = m√°s tiempo de entrenamiento, pero potencialmente mejor modelo
NUM_EPOCAS = 15

# Listas para guardar el historial de m√©tricas (para graficar)
historial = {
    'train_loss': [],      # P√©rdida de entrenamiento por √©poca
    'train_acc': [],       # Accuracy de entrenamiento por √©poca
    'val_loss': [],        # P√©rdida de validaci√≥n por √©poca
    'val_acc': []          # Accuracy de validaci√≥n por √©poca
}

# Variable para guardar el mejor modelo
mejor_accuracy = 0.0

print("üöÄ INICIANDO ENTRENAMIENTO")
print("="*60)
print(f"   √âpocas: {NUM_EPOCAS}")
print(f"   Batch size: {BATCH_SIZE}")
print(f"   Dispositivo: {device}")
print("="*60)

# Bucle principal de entrenamiento
for epoca in range(NUM_EPOCAS):
    print(f"\nüìÖ √âpoca {epoca+1}/{NUM_EPOCAS}")
    print("-"*40)
    
    # --- Fase de Entrenamiento ---
    train_loss, train_acc = entrenar_una_epoca(
        modelo, train_loader, criterio, optimizador, device
    )
    
    # --- Fase de Validaci√≥n ---
    val_loss, val_acc, _, _ = evaluar(
        modelo, val_loader, criterio, device
    )
    
    # --- Guardar historial ---
    historial['train_loss'].append(train_loss)
    historial['train_acc'].append(train_acc)
    historial['val_loss'].append(val_loss)
    historial['val_acc'].append(val_acc)
    
    # --- Actualizar Learning Rate ---
    # El scheduler reduce el lr si la p√©rdida no mejora
    scheduler.step(val_loss)
    
    # --- Mostrar resultados ---
    print(f"   Train Loss: {train_loss:.4f} | Train Acc: {train_acc*100:.2f}%")
    print(f"   Val Loss:   {val_loss:.4f} | Val Acc:   {val_acc*100:.2f}%")
    
    # --- Guardar mejor modelo ---
    if val_acc > mejor_accuracy:
        mejor_accuracy = val_acc
        # torch.save guarda el modelo a un archivo
        torch.save(modelo.state_dict(), 'mejor_modelo_esc50.pth')
        print(f"   üíæ Nuevo mejor modelo guardado! (Acc: {val_acc*100:.2f}%)")

print("\n" + "="*60)
print(f"üèÜ ENTRENAMIENTO COMPLETADO")
print(f"   Mejor accuracy de validaci√≥n: {mejor_accuracy*100:.2f}%")
print("="*60)

---
## 11. Visualizaci√≥n de Resultados

Graficamos las curvas de aprendizaje para analizar el entrenamiento.

In [None]:
# ============================================================
# GR√ÅFICAS DE CURVAS DE APRENDIZAJE
# ============================================================

# Creamos una figura con 2 subplots lado a lado
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Eje X: n√∫mero de √©pocas
epocas = range(1, len(historial['train_loss']) + 1)

# --- Gr√°fica 1: P√©rdida (Loss) ---
axes[0].plot(epocas, historial['train_loss'], 'b-o', label='Train Loss', linewidth=2)
axes[0].plot(epocas, historial['val_loss'], 'r-o', label='Val Loss', linewidth=2)
axes[0].set_xlabel('√âpoca', fontsize=12)
axes[0].set_ylabel('P√©rdida (Loss)', fontsize=12)
axes[0].set_title('Curva de P√©rdida', fontsize=14)
axes[0].legend(fontsize=10)
axes[0].grid(True, alpha=0.3)  # Cuadr√≠cula semitransparente

# --- Gr√°fica 2: Accuracy ---
# Multiplicamos por 100 para mostrar como porcentaje
axes[1].plot(epocas, [acc*100 for acc in historial['train_acc']], 'b-o', 
             label='Train Accuracy', linewidth=2)
axes[1].plot(epocas, [acc*100 for acc in historial['val_acc']], 'r-o', 
             label='Val Accuracy', linewidth=2)
axes[1].set_xlabel('√âpoca', fontsize=12)
axes[1].set_ylabel('Accuracy (%)', fontsize=12)
axes[1].set_title('Curva de Accuracy', fontsize=14)
axes[1].legend(fontsize=10)
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('curvas_aprendizaje.png', dpi=150)  # Guardamos la figura
plt.show()

print("\nüí° Interpretaci√≥n:")
print("   - Si ambas curvas bajan juntas: El modelo est√° aprendiendo bien")
print("   - Si train baja pero val sube: Overfitting (memorizaci√≥n)")
print("   - Si ambas se estancan alto: Underfitting (modelo muy simple)")

---
## 12. Evaluaci√≥n Final y M√©tricas Detalladas

In [None]:
# ============================================================
# CARGAR EL MEJOR MODELO Y EVALUAR
# ============================================================

# Cargamos el mejor modelo guardado durante el entrenamiento
# state_dict contiene los pesos del modelo
modelo.load_state_dict(torch.load('mejor_modelo_esc50.pth'))

# Evaluamos en el conjunto de validaci√≥n
val_loss, val_acc, predicciones, etiquetas_reales = evaluar(
    modelo, val_loader, criterio, device
)

print("üìä EVALUACI√ìN FINAL DEL MEJOR MODELO")
print("="*60)
print(f"   P√©rdida de validaci√≥n: {val_loss:.4f}")
print(f"   Accuracy de validaci√≥n: {val_acc*100:.2f}%")
print("="*60)

In [None]:
# ============================================================
# REPORTE DE CLASIFICACI√ìN DETALLADO
# ============================================================

# Obtenemos los nombres de las categor√≠as
nombres_categorias = dataset_train.categorias

# classification_report genera un reporte con precision, recall, f1-score
# - Precision: De los que predije como X, ¬øcu√°ntos realmente son X?
# - Recall: De los que realmente son X, ¬øcu√°ntos predije correctamente?
# - F1-score: Media arm√≥nica de precision y recall

print("\nüìã REPORTE DE CLASIFICACI√ìN (por categor√≠a):")
print("="*70)
print(classification_report(
    etiquetas_reales, 
    predicciones, 
    target_names=nombres_categorias,
    zero_division=0  # Evita warnings si alguna clase no tiene predicciones
))

In [None]:
# ============================================================
# MATRIZ DE CONFUSI√ìN
# ============================================================

# La matriz de confusi√≥n muestra qu√© categor√≠as se confunden entre s√≠
# Filas = clase real, Columnas = clase predicha
# Diagonal = predicciones correctas

# Calculamos la matriz
cm = confusion_matrix(etiquetas_reales, predicciones)

# Creamos una figura grande (50 clases es mucho)
plt.figure(figsize=(20, 16))

# Usamos imshow para visualizar la matriz como imagen
plt.imshow(cm, interpolation='nearest', cmap='Blues')
plt.title('Matriz de Confusi√≥n - ESC-50', fontsize=16)
plt.colorbar()

# Configuramos los ejes con nombres de categor√≠as
tick_marks = np.arange(len(nombres_categorias))
plt.xticks(tick_marks, nombres_categorias, rotation=90, fontsize=6)
plt.yticks(tick_marks, nombres_categorias, fontsize=6)

plt.xlabel('Predicci√≥n', fontsize=12)
plt.ylabel('Clase Real', fontsize=12)

plt.tight_layout()
plt.savefig('matriz_confusion.png', dpi=150)
plt.show()

print("\nüí° Interpretaci√≥n de la Matriz de Confusi√≥n:")
print("   - Colores m√°s oscuros = m√°s predicciones")
print("   - Diagonal oscura = buenas predicciones")
print("   - Valores fuera de la diagonal = errores (confusiones)")

---
## 13. Ejemplo de Predicci√≥n con un Audio Nuevo

In [None]:
# ============================================================
# FUNCI√ìN PARA PREDECIR UN AUDIO INDIVIDUAL
# ============================================================

def predecir_audio(ruta_audio, modelo, categorias, device):
    """
    Predice la categor√≠a de un archivo de audio.
    
    Par√°metros:
    -----------
    ruta_audio : str
        Ruta al archivo de audio
    
    modelo : nn.Module
        Modelo entrenado
    
    categorias : list
        Lista de nombres de categor√≠as
    
    device : torch.device
        Dispositivo (cuda/cpu)
    
    Retorna:
    --------
    tuple (str, float, dict)
        - Categor√≠a predicha
        - Confianza (probabilidad)
        - Diccionario con top-5 predicciones
    """
    
    # Ponemos el modelo en modo evaluaci√≥n
    modelo.eval()
    
    # Convertimos el audio a espectrograma
    mel_spec = audio_a_mel_espectrograma(ruta_audio)
    
    # Normalizamos
    mel_spec = (mel_spec - mel_spec.min()) / (mel_spec.max() - mel_spec.min() + 1e-8)
    
    # Convertimos a tensor y a√±adimos dimensiones
    mel_spec = torch.tensor(mel_spec, dtype=torch.float32)
    mel_spec = mel_spec.unsqueeze(0)  # A√±adir dimensi√≥n de canal
    mel_spec = mel_spec.repeat(3, 1, 1)  # Replicar a 3 canales
    
    # Aplicamos las mismas transformaciones
    mel_spec = transformaciones(mel_spec)
    
    # A√±adimos dimensi√≥n de batch: (C, H, W) -> (1, C, H, W)
    mel_spec = mel_spec.unsqueeze(0)
    
    # Movemos al dispositivo
    mel_spec = mel_spec.to(device)
    
    # Hacemos la predicci√≥n
    with torch.no_grad():
        salida = modelo(mel_spec)
        
        # Aplicamos softmax para obtener probabilidades
        probabilidades = torch.nn.functional.softmax(salida, dim=1)
        
        # Obtenemos top-5 predicciones
        top5_prob, top5_idx = torch.topk(probabilidades, 5)
        
    # Extraemos resultados
    idx_predicho = top5_idx[0][0].item()
    confianza = top5_prob[0][0].item()
    
    # Creamos diccionario con top-5
    top5 = {}
    for i in range(5):
        idx = top5_idx[0][i].item()
        prob = top5_prob[0][i].item()
        top5[categorias[idx]] = prob
    
    return categorias[idx_predicho], confianza, top5

print("‚úÖ Funci√≥n de predicci√≥n definida")

In [None]:
# ============================================================
# DEMOSTRACI√ìN: PREDECIR ALGUNOS AUDIOS DEL DATASET
# ============================================================

# Tomamos 5 audios aleatorios del conjunto de validaci√≥n
ejemplos_demo = df_val.sample(5, random_state=42)

print("üéµ DEMOSTRACI√ìN DE PREDICCIONES")
print("="*60)

for _, fila in ejemplos_demo.iterrows():
    ruta = os.path.join(audio_dir, fila['filename'])
    categoria_real = fila['category']
    
    # Hacemos la predicci√≥n
    prediccion, confianza, top5 = predecir_audio(
        ruta, modelo, nombres_categorias, device
    )
    
    # Mostramos resultados
    acierto = "‚úÖ" if prediccion == categoria_real else "‚ùå"
    
    print(f"\nüìÅ Archivo: {fila['filename']}")
    print(f"   Real: {categoria_real}")
    print(f"   Predicho: {prediccion} (confianza: {confianza*100:.1f}%) {acierto}")
    print(f"   Top-3:")
    for i, (cat, prob) in enumerate(list(top5.items())[:3], 1):
        print(f"      {i}. {cat}: {prob*100:.1f}%")

---
## 14. Guardar el Modelo Final

In [None]:
# ============================================================
# GUARDAR MODELO COMPLETO PARA USO FUTURO
# ============================================================

# Guardamos todo lo necesario para usar el modelo despu√©s
checkpoint = {
    'modelo_state_dict': modelo.state_dict(),  # Pesos del modelo
    'categorias': nombres_categorias,           # Lista de categor√≠as
    'accuracy': mejor_accuracy,                 # Accuracy alcanzado
    'historial': historial                      # Historial de entrenamiento
}

torch.save(checkpoint, 'modelo_esc50_completo.pth')

print("üíæ MODELO GUARDADO EXITOSAMENTE")
print("="*60)
print("   Archivo: modelo_esc50_completo.pth")
print(f"   Accuracy: {mejor_accuracy*100:.2f}%")
print(f"   Categor√≠as: {len(nombres_categorias)}")
print("\n   Para cargar el modelo en el futuro:")
print("   >>> checkpoint = torch.load('modelo_esc50_completo.pth')")
print("   >>> modelo.load_state_dict(checkpoint['modelo_state_dict'])")

---
## 15. Conclusiones y Pr√≥ximos Pasos

### Resumen
Hemos construido un clasificador de sonidos ambientales que:
1. **Convierte audio a im√°genes** (espectrogramas)
2. **Usa transfer learning** de ResNet-50 (ImageNet)
3. **Clasifica 50 categor√≠as** de sonidos

### Posibles Mejoras
- **Data Augmentation**: A√±adir ruido, cambiar pitch, time stretching
- **Fine-tuning completo**: Descongelar m√°s capas de ResNet
- **Otros modelos**: VGG, EfficientNet, Vision Transformer
- **Validaci√≥n cruzada**: Usar los 5 folds para evaluaci√≥n m√°s robusta
- **Ensemble**: Combinar m√∫ltiples modelos

In [None]:
# ============================================================
# RESUMEN FINAL
# ============================================================

print("\n" + "="*60)
print("üéâ ¬°PR√ÅCTICA COMPLETADA CON √âXITO!")
print("="*60)
print("\nüìä RESUMEN:")
print(f"   - Dataset: ESC-50 (2000 audios, 50 clases)")
print(f"   - Modelo: ResNet-50 (transfer learning de ImageNet)")
print(f"   - Accuracy final: {mejor_accuracy*100:.2f}%")
print(f"   - √âpocas entrenadas: {NUM_EPOCAS}")
print("\nüìÅ ARCHIVOS GENERADOS:")
print("   - mejor_modelo_esc50.pth (pesos del mejor modelo)")
print("   - modelo_esc50_completo.pth (checkpoint completo)")
print("   - curvas_aprendizaje.png (gr√°ficas de entrenamiento)")
print("   - matriz_confusion.png (matriz de confusi√≥n)")
print("="*60)