In [1]:
import os
import shutil
import random

# Fonction pour lister les fichiers dans un dossier
def list_images_in_folder(folder_path):
    return [f for f in os.listdir(folder_path) if os.path.isfile(os.path.join(folder_path, f))]

# Chemins du premier dataset (data_set_livrable_1)
dataset_dir_1 = r'C:\Users\Utilisateur\Documents\Github\DataSciencePictureDesc\DataSets\data_set_livrable_1'
image_dir_1 = os.path.join(dataset_dir_1, 'Image')
photo_dir_1 = os.path.join(dataset_dir_1, 'Photo')

# Chemins du second dataset (random_dataset)
random_dataset_dir = r'C:\Users\Utilisateur\Documents\Github\DataSciencePictureDesc\DataSets\Rebanced_DataSets\Random_DataSets'
image_dir_2 = os.path.join(random_dataset_dir, 'Image')
photo_dir_2 = os.path.join(random_dataset_dir, 'Photo')

# Vérification des chemins avant de continuer
if not os.path.exists(photo_dir_1):
    print(f"Erreur : Le dossier 'Photo' du premier dataset n'existe pas : {photo_dir_1}")
    exit()

if not os.path.exists(image_dir_1):
    print(f"Erreur : Le dossier 'Image' du premier dataset n'existe pas : {image_dir_1}")
    exit()

# Créer les sous-dossiers du nouveau dataset s'ils n'existent pas
os.makedirs(image_dir_2, exist_ok=True)
os.makedirs(photo_dir_2, exist_ok=True)

# Sous-dossiers d'images dans le premier dataset
subfolders = ['Painting', 'Schematics', 'Sketch', 'Text']

# Étape 1 : Copier toutes les photos du premier dataset vers le second
photos = list_images_in_folder(photo_dir_1)
for photo in photos:
    source_photo = os.path.join(photo_dir_1, photo)
    destination_photo = os.path.join(photo_dir_2, photo)
    shutil.copy(source_photo, destination_photo)  # Copier sans supprimer

# Nombre de photos copiées
num_photos = len(photos)

# Étape 2 : Sélectionner aléatoirement autant d'images qu'il y a de photos
all_images = []
for subfolder in subfolders:
    source_folder = os.path.join(image_dir_1, subfolder)
    images = list_images_in_folder(source_folder)
    all_images.extend([(source_folder, image) for image in images])

# Sélectionner aléatoirement le même nombre d'images que de photos
if num_photos <= len(all_images):
    selected_images = random.sample(all_images, num_photos)

    # Copier les images sélectionnées dans le second dataset
    for source_folder, image in selected_images:
        destination_folder = os.path.join(image_dir_2, os.path.basename(source_folder))  # Créer le même sous-dossier
        os.makedirs(destination_folder, exist_ok=True)
        source_image = os.path.join(source_folder, image)
        destination_image = os.path.join(destination_folder, image)
        shutil.copy(source_image, destination_image)  # Copier sans supprimer

    print(f"{num_photos} images et photos ont été copiées avec succès dans le nouveau dataset.")
else:
    print("Il n'y a pas assez d'images dans le premier dataset pour correspondre au nombre de photos.")


9997 images et photos ont été copiées avec succès dans le nouveau dataset.


In [4]:
import os

# Fonction pour compter les fichiers dans un dossier
def count_files_in_folder(folder_path):
    if os.path.exists(folder_path):
        return len([f for f in os.listdir(folder_path) if os.path.isfile(os.path.join(folder_path, f))])
    else:
        return 0

# Chemins du dataset random_dataset
random_dataset_dir = r'C:\Users\Utilisateur\Documents\Github\DataSciencePictureDesc\DataSets\Rebanced_DataSets\Random_DataSets'
image_dir_2 = os.path.join(random_dataset_dir, 'Image')
photo_dir_2 = os.path.join(random_dataset_dir, 'Photo')

# Sous-dossiers d'images dans le dataset random_dataset
subfolders = ['Painting', 'Schematics', 'Sketch', 'Text']

# Compter les photos dans le dossier Photo
num_photos = count_files_in_folder(photo_dir_2)

# Compter les images dans les sous-dossiers (Painting, Schematics, Sketch, Text)
num_painting = count_files_in_folder(os.path.join(image_dir_2, 'Painting'))
num_schematics = count_files_in_folder(os.path.join(image_dir_2, 'Schematics'))
num_sketch = count_files_in_folder(os.path.join(image_dir_2, 'Sketch'))
num_text = count_files_in_folder(os.path.join(image_dir_2, 'Text'))

# Total d'images
total_images = num_painting + num_schematics + num_sketch + num_text

# Afficher les résultats
print(f"Nombre de photos dans random_dataset : {num_photos}")
print(f"Nombre d'images (total) dans random_dataset : {total_images}")
print(f" - Painting : {num_painting}")
print(f" - Schematics : {num_schematics}")
print(f" - Sketch : {num_sketch}")
print(f" - Text : {num_text}")


Nombre de photos dans random_dataset : 9997
Nombre d'images (total) dans random_dataset : 9997
 - Painting : 814
 - Schematics : 4306
 - Sketch : 601
 - Text : 4276
