In [1]:
import os
import random
import shutil

# Rutas de origen y destino
ruta_origen = r"C:\Users\cadur\Downloads\Urbansonic\Urbansound8k\0_Mels_Gen\DATA\Urbansound8k__Mel"
ruta_destino = r"C:\Users\cadur\Downloads\Urbansonic\Urbansound8k\0_Mels_Gen\DATA\Submuestreo"

# Definir la cantidad deseada de archivos por clase
cantidades_por_clase = {
    "BI": 1296,
    "EM": 800,
    "S": 1200,
    "TM": 1473,
    "VM": 1426
}

# Procesar cada clase
for clase, cantidad_a_seleccionar in cantidades_por_clase.items():
    ruta_clase = os.path.join(ruta_origen, clase)
    
    if not os.path.exists(ruta_clase):
        print(f"Advertencia: La clase '{clase}' no existe en la ruta de origen.")
        continue
    
    archivos = [f for f in os.listdir(ruta_clase) if os.path.isfile(os.path.join(ruta_clase, f))]
    
    if len(archivos) < cantidad_a_seleccionar:
        print(f"Advertencia: La clase '{clase}' tiene solo {len(archivos)} archivos disponibles y se requieren {cantidad_a_seleccionar}.")
        cantidad_a_seleccionar = len(archivos)  # Ajustar al máximo disponible
    
    # Seleccionar aleatoriamente la cantidad requerida de archivos
    seleccionados = random.sample(archivos, cantidad_a_seleccionar)
    
    # Crear la carpeta de destino para esta clase
    ruta_destino_clase = os.path.join(ruta_destino, clase)
    os.makedirs(ruta_destino_clase, exist_ok=True)
    
    # Copiar los archivos seleccionados
    for archivo in seleccionados:
        origen = os.path.join(ruta_clase, archivo)
        destino = os.path.join(ruta_destino_clase, archivo)
        shutil.copy2(origen, destino)
    
    print(f"Clase '{clase}': {cantidad_a_seleccionar} archivos copiados.")

print("Submuestreo completado.")

Clase 'BI': 1296 archivos copiados.
Clase 'EM': 800 archivos copiados.
Clase 'S': 1200 archivos copiados.
Clase 'TM': 1473 archivos copiados.
Clase 'VM': 1426 archivos copiados.
Submuestreo completado.


# Submuestreo equilibrado 

In [1]:
import os
import random
import shutil

# Rutas de origen y destino
ruta_origen = r"C:\Users\cadur\Downloads\Urbansonic\Urbansound8k\0_Mels_Gen\DATA\Urbansound8k__Mel"   # Carpeta que contiene subcarpetas (clases)
ruta_destino = r"C:\Users\cadur\Downloads\Urbansonic\Urbansound8k\0_Mels_Gen\DATA\Submuestreo"   # Carpeta donde se copiarán los archivos submuestreados

# Total deseado de archivos entre todas las clases
total_deseado = 5300

# Listar las subcarpetas (clases) de la ruta de origen
clases = [d for d in os.listdir(ruta_origen) if os.path.isdir(os.path.join(ruta_origen, d))]
num_clases = len(clases)

if num_clases == 0:
    raise ValueError("No se encontraron subcarpetas (clases) en la ruta de origen.")

# Calcular cantidad base de archivos por clase y el resto para distribuir
base = total_deseado // num_clases
resto = total_deseado % num_clases

print(f"Número de clases: {num_clases}. Cada clase tendrá al menos {base} archivos, con {resto} clases recibiendo 1 archivo adicional.")

# Ordenamos las clases para asignar de forma determinista el extra a las primeras
clases = sorted(clases)

# Para cada clase, se selecciona la cantidad correspondiente de archivos
for idx, clase in enumerate(clases):
    # A cada clase se le asigna base + 1 si su posición es menor al resto, o base en otro caso
    cantidad_a_seleccionar = base + 1 if idx < resto else base

    ruta_clase = os.path.join(ruta_origen, clase)
    archivos = [f for f in os.listdir(ruta_clase) if os.path.isfile(os.path.join(ruta_clase, f))]
    
    if len(archivos) < cantidad_a_seleccionar:
        raise ValueError(f"La clase '{clase}' tiene solo {len(archivos)} archivos, pero se requieren {cantidad_a_seleccionar} para balancear.")
    
    # Seleccionar aleatoriamente la cantidad requerida de archivos
    seleccionados = random.sample(archivos, cantidad_a_seleccionar)
    
    # Crear la carpeta de destino para esta clase
    ruta_destino_clase = os.path.join(ruta_destino, clase)
    os.makedirs(ruta_destino_clase, exist_ok=True)
    
    # Copiar los archivos seleccionados
    for archivo in seleccionados:
        origen = os.path.join(ruta_clase, archivo)
        destino = os.path.join(ruta_destino_clase, archivo)
        shutil.copy2(origen, destino)
    
    print(f"Clase '{clase}': {cantidad_a_seleccionar} archivos copiados.")

print("Submuestreo completado. Total de archivos copiados:", total_deseado)

Número de clases: 5. Cada clase tendrá al menos 1060 archivos, con 0 clases recibiendo 1 archivo adicional.
Clase 'BI': 1060 archivos copiados.
Clase 'EM': 1060 archivos copiados.
Clase 'S': 1060 archivos copiados.
Clase 'TM': 1060 archivos copiados.
Clase 'VM': 1060 archivos copiados.
Submuestreo completado. Total de archivos copiados: 5300
