In [3]:
import os
import shutil
import random
from sklearn.model_selection import train_test_split

def split_dataset(dataset_path, output_path, validation_size=0.2, random_seed=42):
    """
    Divide um dataset de imagens e anotações YOLO em conjuntos de treino e validação.

    Args:
        dataset_path (str): Caminho para a pasta principal do dataset (onde estão imagens e anotações).
        output_path (str): Caminho para a pasta onde as subpastas 'train' e 'valid' serão criadas.
        validation_size (float, opcional): Proporção do dataset a ser usada para validação (0.0 a 1.0). Padrão: 0.2.
        random_seed (int, opcional): Semente aleatória para reproduzibilidade. Padrão: 42.
    """

    random.seed(random_seed)
    
    images_dir = os.path.join(dataset_path, "images")
    labels_dir = os.path.join(dataset_path, "labels")

    if not os.path.exists(images_dir) or not os.path.exists(labels_dir):
      raise ValueError("As pastas 'images' e 'labels' não foram encontradas no caminho do dataset.")

    
    all_images = [f for f in os.listdir(images_dir) if os.path.isfile(os.path.join(images_dir, f))]

    # Garante que as imagens e anotações tem o mesmo nome, se não, ele para
    for img_name in all_images:
      label_name = os.path.splitext(img_name)[0] + '.txt'
      if not os.path.exists(os.path.join(labels_dir, label_name)):
        raise ValueError(f"A anotação {label_name} não foi encontrada para a imagem {img_name}.")

    
    # Separa as imagens para treino e validacao
    train_images, val_images = train_test_split(all_images, test_size=validation_size, random_state=random_seed)
    

    # Cria os diretórios de saída, se não existirem
    os.makedirs(os.path.join(output_path, "train", "images"), exist_ok=True)
    os.makedirs(os.path.join(output_path, "train", "labels"), exist_ok=True)
    os.makedirs(os.path.join(output_path, "valid", "images"), exist_ok=True)
    os.makedirs(os.path.join(output_path, "valid", "labels"), exist_ok=True)

    # Copia as imagens e as anotações para suas pastas de treino e validação
    for img_name in train_images:
        shutil.copy(os.path.join(images_dir, img_name), os.path.join(output_path, "train", "images"))
        label_name = os.path.splitext(img_name)[0] + '.txt'
        shutil.copy(os.path.join(labels_dir, label_name), os.path.join(output_path, "train", "labels"))
    
    for img_name in val_images:
        shutil.copy(os.path.join(images_dir, img_name), os.path.join(output_path, "valid", "images"))
        label_name = os.path.splitext(img_name)[0] + '.txt'
        shutil.copy(os.path.join(labels_dir, label_name), os.path.join(output_path, "valid", "labels"))

    print(f"Dataset dividido com sucesso! As pastas 'train' e 'valid' foram criadas em: {output_path}")

In [4]:
# Define os caminhos do seu dataset
dataset_path = "/home/gerdson/projetos/datasets/frames_videos_renomeados"  # Caminho para a pasta principal do seu dataset (que deve ter subpastas 'images' e 'labels')
output_path = "/home/gerdson/projetos/datasets/frames_videos_renomeados_separados"  # Caminho para onde as pastas 'train' e 'val' serão criadas
validation_size = 0.2 # Porcentagem do dataset para validação
    
# Exemplo de uso
try:
    split_dataset(dataset_path, output_path, validation_size)
except ValueError as e:
    print(f"Erro: {e}")

Dataset dividido com sucesso! As pastas 'train' e 'valid' foram criadas em: /home/gerdson/projetos/datasets/frames_videos_renomeados_separados
