# Armado del dataset para el modelo CNN
Copia todas las imágenes de las diferentes carpetas de conjuntos de datos en una estructura con subcarpetas _test_, _train_ y _validation_ según una proporción determinada (70%/20%/10% por defecto). Véase el ejemplo a continuación.

Convención de nomenclatura de imágenes: ```{shape}_{dataset}_{set}_{id}.{extensión}```

In [None]:
# Datasets de entrada -------------------------------------------------------------
'''
[d1]
    [rock]
        name1.ext, name2.ext, ...
    [paper]
        name1.ext, name2.ext, ...
    [scissors]
        name1.ext, name2.ext, ...

[d2]
    [rock]
        name1.ext, name2.ext, ...
    [paper]
        name1.ext, name2.ext, ...
    [scissors]
        name1.ext, name2.ext, ...
'''

# Estructura del dataset final ------------------------------------------------------------
'''

[train]
    [rock]
        rock_d1_train_1.ext, rock_d2_train_2.ext, ...
    [paper]
        paper_d2_train_1.ext, paper_d1_train_2.ext, ...
    [scissors]
        scissors_d1_train_1.ext, scissors_d2_train_2.ext, ...

[test]
    [rock]
        rock_d1_test_1.ext, rock_d1_test_2.ext, ...
    [paper]
        paper_d2_test_1.ext, paper_d2_test_2.ext, ...
    [scissors]
        scissors_d1_test_1.ext, scissors_d2_test_2.ext, ...

[validation]
    [rock]
        rock_d2_validation_1.ext, rock_d1_validation_2.ext, ...
    [paper]
        paper_d2_validation_1.ext, paper_d2_validation_2.ext, ...
    [scissors]
        scissors_d1_validation_1.ext, scissors_d1_validation_2.ext, ...
'''

In [None]:
import os
import shutil
import random

ruta_raiz = 'dataset'
rutas_datasets = []  # carpetas de datasets a usar; si está vacío usa todas
proporcion_split = [0.7, 0.2, 0.1]  # proporción train / test / validation
clases = ['rock', 'paper', 'scissors']
splits = ['train', 'test', 'validation']
extensiones_img = ['jpg', 'jpeg', 'png']

# IDs para renombrar imágenes y evitar sobrescritura
id_train = 0
id_test = 0
id_validation = 0

contador_train = 0
contador_test = 0
contador_validation = 0

try:
    # listar directorios dentro de ruta_raiz si rutas_datasets está vacío
    if len(rutas_datasets) == 0:
        rutas_datasets = [
            d for d in os.listdir(ruta_raiz)
            if os.path.isdir(os.path.join(ruta_raiz, d))
        ]

    print(f'Cargando {len(rutas_datasets)} datasets: ', rutas_datasets)

    # crear estructura base
    for split in splits:
        for clase in clases:
            os.makedirs(os.path.join(ruta_raiz, split, clase), exist_ok=True)

    # copiar archivos
    for dataset in rutas_datasets:

        for clase in clases:

            # listar imágenes disponibles
            carpeta_origen = os.path.join(ruta_raiz, dataset, clase)
            lista_imgs = [
                img for img in os.listdir(carpeta_origen)
                if img.split('.')[-1].lower() in extensiones_img
            ]
            total_imgs = len(lista_imgs)

            # generar listas aleatorias según proporciones
            cantidad_train = int(total_imgs * proporcion_split[0])
            lista_train = random.sample(lista_imgs, cantidad_train)

            cantidad_test = int(total_imgs * proporcion_split[1])
            lista_test = random.sample(
                [img for img in lista_imgs if img not in lista_train],
                cantidad_test
            )

            lista_validation = [
                img for img in lista_imgs
                if img not in lista_train and img not in lista_test
            ]

            # --------------------------
            # COPIAR TRAIN
            # --------------------------
            destino_train = os.path.join(ruta_raiz, 'train', clase)
            for img in lista_train:
                origen = os.path.join(carpeta_origen, img)
                extension = img.split('.')[-1]
                destino = os.path.join(destino_train, f'{clase}_{dataset}_train_{id_train}.{extension}')

                shutil.copy(origen, destino)
                print(f'{origen} -> {destino:<200}', end='\r', flush=True)

                id_train += 1
                contador_train += 1

            # --------------------------
            # COPIAR TEST
            # --------------------------
            destino_test = os.path.join(ruta_raiz, 'test', clase)
            for img in lista_test:
                origen = os.path.join(carpeta_origen, img)
                extension = img.split('.')[-1]
                destino = os.path.join(destino_test, f'{clase}_{dataset}_test_{id_test}.{extension}')

                shutil.copy(origen, destino)
                print(f'{origen} -> {destino:<200}', end='\r', flush=True)

                id_test += 1
                contador_test += 1

            # --------------------------
            # COPIAR VALIDATION
            # --------------------------
            destino_validation = os.path.join(ruta_raiz, 'validation', clase)
            for img in lista_validation:
                origen = os.path.join(carpeta_origen, img)
                extension = img.split('.')[-1]
                destino = os.path.join(destino_validation, f'{clase}_{dataset}_validation_{id_validation}.{extension}')

                shutil.copy(origen, destino)
                print(f'{origen} -> {destino:<200}', end='\r', flush=True)

                id_validation += 1
                contador_validation += 1

except Exception as e:
    print('\nError creando la estructura del dataset: ', e)

print(f'\nImágenes copiadas correctamente usando proporción {proporcion_split}.')
print(f'Train: {contador_train} | Test: {contador_test} | Validation: {contador_validation} | Total: {contador_train + contador_test + contador_validation}')
