In [3]:
import os
import shutil
import random
import pandas as pd
from sklearn.model_selection import train_test_split

# Define the paths to the dataset and the annotations file
dataset_dir = '../../dataset/bounding/original/'
train_dir = '../../dataset/bounding/split/train/'
test_dir = '../../dataset/bounding/split/test/'
val_dir = '../../dataset/bounding/split/validation/'

# Create the directories if they don't already exist
os.makedirs(train_dir, exist_ok=True)
os.makedirs(test_dir, exist_ok=True)
os.makedirs(val_dir, exist_ok=True)

In [4]:
# Obtener lista de todas las imágenes
image_files = [f for f in os.listdir(dataset_dir) if f.endswith('.jpg')]
print(f"Total imágenes disponibles: {len(image_files)}")

# Obtener lista de todas las anotaciones
annotation_files = [f for f in os.listdir(dataset_dir) if f.endswith('.txt')]
print(f"Total anotaciones disponibles: {len(annotation_files)}")

Total imágenes disponibles: 3950
Total anotaciones disponibles: 3950


In [5]:
# Dividir el dataset en train (80%), validation (10%), y test (10%)
train_images, temp_images = train_test_split(image_files, test_size=0.2, random_state=42)
val_images, test_images = train_test_split(temp_images, test_size=0.5, random_state=42)

In [6]:
def copy_files(image_list, destination_folder):
    """Función para mover imágenes y sus anotaciones a la carpeta de destino"""
    for image in image_list:
        # Copiar imagen
        src_image = os.path.join(dataset_dir, image)
        dst_image = os.path.join(destination_folder, image)
        shutil.copy(src_image, dst_image)

        # Copiar anotación correspondiente (si existe)
        annotation_file = image.replace('.jpg', '.txt')
        src_annotation = os.path.join(dataset_dir, annotation_file)
        dst_annotation = os.path.join(destination_folder, annotation_file)

        if os.path.exists(src_annotation):
            shutil.copy(src_annotation, dst_annotation)
        else:
            print(f"Anotación no encontrada para {image}")

In [7]:
# Mover imágenes y anotaciones a los directorios correspondientes
copy_files(train_images, train_dir)
copy_files(test_images, test_dir)
copy_files(val_images, val_dir)

# Confirmar el número de archivos en cada set
print(f'Total imágenes: {len(image_files)}')
print(f'Imágenes en train: {len(os.listdir(train_dir)) // 2}')  # Dividir por 2 porque hay imagen + anotación
print(f'Imágenes en test: {len(os.listdir(test_dir)) // 2}')
print(f'Imágenes en validation: {len(os.listdir(val_dir)) // 2}')

Total imágenes: 3950
Imágenes en train: 3161
Imágenes en test: 396
Imágenes en validation: 395
