# Dividir las imagenes para el entranamiento  de YOLO

In [1]:
import os
import shutil
import random

# Configuración de rutas
root_dir = "/home/nahumfg/Projects/GithubProjects/TesisTransparenciaDataset/data/c_label_studio_straight"  # Directorio raíz
data_org_dir = os.path.join(root_dir, "download")  # Carpeta con los datos originales
images_dir = os.path.join(data_org_dir, "images")
labels_dir = os.path.join(data_org_dir, "labels")

# Rutas de destino
data_split_dir = os.path.join(root_dir, "split")  # Carpeta donde se guardará la división
train_images_dir = os.path.join(data_split_dir, "train/images")
train_labels_dir = os.path.join(data_split_dir, "train/labels")
val_images_dir = os.path.join(data_split_dir, "val/images")
val_labels_dir = os.path.join(data_split_dir, "val/labels")

# Eliminar la carpeta de destino si existe
if os.path.exists(data_split_dir):
    shutil.rmtree(data_split_dir)
    print(f"Se eliminó la carpeta existente: {data_split_dir}")

# Crear nuevas carpetas de destino
os.makedirs(train_images_dir, exist_ok=True)
os.makedirs(train_labels_dir, exist_ok=True)
os.makedirs(val_images_dir, exist_ok=True)
os.makedirs(val_labels_dir, exist_ok=True)

Se eliminó la carpeta existente: /home/nahumfg/Projects/GithubProjects/TesisTransparenciaDataset/data/c_label_studio_straight/split


In [2]:
### 1️⃣ Dividir imágenes en train y val ###
# Obtener todos los archivos de imágenes
image_files = [f for f in os.listdir(images_dir) if f.endswith(('.jpg', '.jpeg', '.png'))]

# Barajar y dividir los archivos en 80% para entrenamiento y 20% para validación
random.shuffle(image_files)
train_split = int(0.8 * len(image_files))
train_files = image_files[:train_split]
val_files = image_files[train_split:]

# Función para copiar imágenes y etiquetas a los conjuntos de train y val
def copy_files(files, src_images_dir, src_labels_dir, dst_images_dir, dst_labels_dir, set_type):
    for file_name in files:
        # Copiar la imagen
        src_image_path = os.path.join(src_images_dir, file_name)
        dst_image_path = os.path.abspath(os.path.join(dst_images_dir, file_name))
        shutil.copy2(src_image_path, dst_image_path)
        print(f"Copiando imagen '{file_name}' a '{dst_image_path}' en el conjunto {set_type}")

        # Copiar la etiqueta correspondiente
        label_file_name = os.path.splitext(file_name)[0] + ".txt"
        src_label_path = os.path.join(src_labels_dir, label_file_name)
        dst_label_path = os.path.abspath(os.path.join(dst_labels_dir, label_file_name))
        if os.path.exists(src_label_path):
            shutil.copy2(src_label_path, dst_label_path)
            print(f"Copiando etiqueta '{label_file_name}' a '{dst_label_path}' en el conjunto {set_type}")
        else:
            print(f"[ADVERTENCIA] Etiqueta no encontrada para '{file_name}'")

# Copiar archivos de entrenamiento
copy_files(train_files, images_dir, labels_dir, train_images_dir, train_labels_dir, set_type="entrenamiento")

# Copiar archivos de validación
copy_files(val_files, images_dir, labels_dir, val_images_dir, val_labels_dir, set_type="validación")

print("División de imágenes completada.")

Copiando imagen '5c58db7f-011_Asis_vot_OFICIAL_07-12-21_page_3.png' a '/home/nahumfg/Projects/GithubProjects/TesisTransparenciaDataset/data/c_label_studio_straight/split/train/images/5c58db7f-011_Asis_vot_OFICIAL_07-12-21_page_3.png' en el conjunto entrenamiento
Copiando etiqueta '5c58db7f-011_Asis_vot_OFICIAL_07-12-21_page_3.txt' a '/home/nahumfg/Projects/GithubProjects/TesisTransparenciaDataset/data/c_label_studio_straight/split/train/labels/5c58db7f-011_Asis_vot_OFICIAL_07-12-21_page_3.txt' en el conjunto entrenamiento
Copiando imagen '84626965-006_Asis-Vot-OFICIAL-24-05-18_page_10.png' a '/home/nahumfg/Projects/GithubProjects/TesisTransparenciaDataset/data/c_label_studio_straight/split/train/images/84626965-006_Asis-Vot-OFICIAL-24-05-18_page_10.png' en el conjunto entrenamiento
Copiando etiqueta '84626965-006_Asis-Vot-OFICIAL-24-05-18_page_10.txt' a '/home/nahumfg/Projects/GithubProjects/TesisTransparenciaDataset/data/c_label_studio_straight/split/train/labels/84626965-006_Asis-Vot

In [3]:
### 2️⃣ Generar archivo data.yaml ###
data_yaml_path = os.path.join(data_split_dir, "data.yaml")

data_yaml_content = f"""path: {data_split_dir}
train: train/images
val: val/images
names:
  0: documento  # 🔹 Cambia esto si tienes más clases
"""

# Guardar el archivo data.yaml
with open(data_yaml_path, "w") as f:
    f.write(data_yaml_content)

print(f"✅ Archivo data.yaml generado en: {data_yaml_path}")

✅ Archivo data.yaml generado en: /home/nahumfg/Projects/GithubProjects/TesisTransparenciaDataset/data/c_label_studio_straight/split/data.yaml
