In [1]:
import os
import csv
import random
from math import floor

def create_csv_split(images_dir, labels_dir, train_csv, test_csv, split_ratio=0.8):
    # Liste les fichiers dans le dossier des images
    images_files = sorted([f for f in os.listdir(images_dir) if f.endswith(".jpg")])
    labels_files = sorted([f for f in os.listdir(labels_dir) if f.endswith(".txt")])

    # Filtrer uniquement les paires correspondantes image/label
    image_label_pairs = []
    for image_file in images_files:
        label_file = image_file.replace(".jpg", ".txt")
        if label_file in labels_files:
            image_label_pairs.append((image_file, label_file))
        else:
            print(f"Aucun label trouvé pour l'image: {image_file}")

    # Mélange les paires de manière aléatoire
    random.shuffle(image_label_pairs)

    # Calcule l'index de séparation selon le ratio de split
    split_index = floor(len(image_label_pairs) * split_ratio)

    # Divise en données d'entraînement et de test
    train_pairs = image_label_pairs[:split_index]
    test_pairs = image_label_pairs[split_index:]

    # Fonction pour écrire les paires dans un fichier CSV
    def write_csv(file_name, pairs):
        with open(file_name, mode='w', newline='') as file:
            writer = csv.writer(file)
            writer.writerow(["image_path", "label_path"])  # En-têtes
            for image_path, label_path in pairs:
                writer.writerow([image_path, label_path])  # Seuls les noms de fichiers

    # Crée les fichiers train.csv et test.csv
    write_csv(train_csv, train_pairs)
    write_csv(test_csv, test_pairs)

    print(f"Fichier CSV d'entraînement créé : {train_csv} ({len(train_pairs)} paires)")
    print(f"Fichier CSV de test créé : {test_csv} ({len(test_pairs)} paires)")

In [2]:
images_dir = "./images"
labels_dir = "./labels"

    # Noms des fichiers CSV de sortie
train_csv = "train.csv"
test_csv = "test.csv"

# Créer les fichiers CSV avec 80% pour l'entraînement et 20% pour les tests
create_csv_split(images_dir, labels_dir, train_csv, test_csv, split_ratio=0.9)

Fichier CSV d'entraînement créé : train.csv (511 paires)
Fichier CSV de test créé : test.csv (57 paires)
