# Separación de dataset en entrenamiento y validación

In [1]:
import os
import shutil
from sklearn.model_selection import train_test_split

def split_data(root_dir, train_dir, val_dir, val_split=0.2):
    """
    Separa los datos en carpetas de entrenamiento y validación moviendo las imágenes.

    :param root_dir: Directorio raíz con las carpetas de clases.
    :param train_dir: Directorio para las imágenes de entrenamiento.
    :param val_dir: Directorio para las imágenes de validación.
    :param val_split: Proporción de datos para validación.
    """
    if not os.path.exists(train_dir):
        os.makedirs(train_dir)
    if not os.path.exists(val_dir):
        os.makedirs(val_dir)

    for class_name in os.listdir(root_dir):
        class_path = os.path.join(root_dir, class_name)
        if not os.path.isdir(class_path):
            continue

        images = [f for f in os.listdir(class_path) if os.path.isfile(os.path.join(class_path, f))]
        if len(images) == 0:
            print(f"No se encontraron imágenes en la carpeta: {class_name}")
            continue

        train_images, val_images = train_test_split(images, test_size=val_split, random_state=42)

        train_class_dir = os.path.join(train_dir, class_name)
        val_class_dir = os.path.join(val_dir, class_name)

        os.makedirs(train_class_dir, exist_ok=True)
        os.makedirs(val_class_dir, exist_ok=True)

        for image in train_images:
            shutil.move(os.path.join(class_path, image), os.path.join(train_class_dir, image))

        for image in val_images:
            shutil.move(os.path.join(class_path, image), os.path.join(val_class_dir, image))

# Definir los directorios
root_dir = 'png-dataset'
train_dir = 'png-train-dataset'
val_dir = 'png-val-dataset'

# Separar los datos
split_data(root_dir, train_dir, val_dir)

No se encontraron imágenes en la carpeta: ones
No se encontraron imágenes en la carpeta: threes
No se encontraron imágenes en la carpeta: twos
