In [2]:
import os
import shutil

def delete_underrepresented_classes_with_log(
        training_dir, testing_dir, validation_dir,
        training_threshold=50, testing_validation_threshold=5,
        log_file="deleted_classes_log.txt"):
    """
    Supprime les classes sous-représentées et enregistre leurs chemins dans un fichier log.

    :param training_dir: Chemin du dossier `training`.
    :param testing_dir: Chemin du dossier `testing`.
    :param validation_dir: Chemin du dossier `validation`.
    :param training_threshold: Seuil minimum pour les images dans `training`.
    :param testing_validation_threshold: Seuil minimum pour les images dans `testing` et `validation`.
    :param log_file: Nom du fichier log pour enregistrer les chemins supprimés.
    """
    deleted_classes = []

    training_classes = {d for d in os.listdir(training_dir) if os.path.isdir(os.path.join(training_dir, d))}
    testing_classes = {d for d in os.listdir(testing_dir) if os.path.isdir(os.path.join(testing_dir, d))}
    validation_classes = {d for d in os.listdir(validation_dir) if os.path.isdir(os.path.join(validation_dir, d))}

    # Identifier les classes communes aux trois dossiers
    common_classes = training_classes & testing_classes & validation_classes

    with open(log_file, "w") as log:
        for class_name in common_classes:
            train_class_path = os.path.join(training_dir, class_name)
            test_class_path = os.path.join(testing_dir, class_name)
            val_class_path = os.path.join(validation_dir, class_name)

            # Compter les images dans chaque dossier de la classe
            num_train_images = len(os.listdir(train_class_path))
            num_test_images = len(os.listdir(test_class_path))
            num_val_images = len(os.listdir(val_class_path))

            # Vérifier si la classe doit être supprimée
            if (num_train_images < training_threshold and
                    num_test_images < testing_validation_threshold and
                    num_val_images < testing_validation_threshold):
                # Enregistrer les chemins dans le log avant suppression
                log.write(f"Classe : {class_name}\n")
                log.write(f"Training: {train_class_path}\n")
                for img in os.listdir(train_class_path):
                    log.write(f"  - {os.path.join(train_class_path, img)}\n")
                log.write(f"Testing: {test_class_path}\n")
                for img in os.listdir(test_class_path):
                    log.write(f"  - {os.path.join(test_class_path, img)}\n")
                log.write(f"Validation: {val_class_path}\n")
                for img in os.listdir(val_class_path):
                    log.write(f"  - {os.path.join(val_class_path, img)}\n")
                log.write("\n")

                # Supprimer les dossiers correspondants
                shutil.rmtree(train_class_path)
                shutil.rmtree(test_class_path)
                shutil.rmtree(val_class_path)

                deleted_classes.append(class_name)

    # Résumé des suppressions
    print("\nRésumé des suppressions :")
    print(f"Nombre de classes supprimées : {len(deleted_classes)}")
    for class_name in deleted_classes:
        print(f" - Classe supprimée : {class_name}")

    print(f"\nChemins des images supprimées enregistrés dans : {log_file}")


# Chemins des dossiers
training_dir = "archive1/plantnet_300K/images_train"  # Remplacez par le chemin réel du dossier `training`
testing_dir = "archive1/plantnet_300K/images_test"    # Remplacez par le chemin réel du dossier `testing`
validation_dir = "archive1/plantnet_300K/images_val"  # Remplacez par le chemin réel du dossier `validation`

# Appeler la fonction pour supprimer les classes sous-représentées avec log
delete_underrepresented_classes_with_log(
    training_dir, testing_dir, validation_dir,
    training_threshold=50, testing_validation_threshold=5,
    log_file="deleted_classes_log.txt"
)



Résumé des suppressions :
Nombre de classes supprimées : 0

Chemins des images supprimées enregistrés dans : deleted_classes_log.txt


In [3]:
import os
import shutil

def delete_training_classes_below_threshold(training_dir, threshold=50, log_file="deleted_training_classes_log.txt"):
    """
    Supprime les classes dans le dossier `training` ayant un nombre d'images strictement inférieur au seuil.

    :param training_dir: Chemin du dossier `training`.
    :param threshold: Seuil minimum pour le nombre d'images.
    :param log_file: Nom du fichier log pour enregistrer les classes supprimées.
    """
    deleted_classes = []

    with open(log_file, "w") as log:
        for class_folder in os.listdir(training_dir):
            class_path = os.path.join(training_dir, class_folder)
            if not os.path.isdir(class_path):
                continue  # Ignorer les fichiers qui ne sont pas des dossiers

            # Compter le nombre d'images dans le dossier
            num_images = len(os.listdir(class_path))
            if num_images < threshold:
                # Enregistrer dans le fichier log
                log.write(f"Classe supprimée : {class_folder}\n")
                log.write(f"Chemin : {class_path}\n")
                log.write(f"Nombre d'images : {num_images}\n")
                log.write("\n")

                # Supprimer le dossier
                shutil.rmtree(class_path)
                deleted_classes.append(class_folder)

    # Résumé des suppressions
    print("\nRésumé des suppressions :")
    print(f"Nombre de classes supprimées : {len(deleted_classes)}")
    for class_name in deleted_classes:
        print(f" - Classe supprimée : {class_name}")

    print(f"\nClasses supprimées enregistrées dans : {log_file}")


# Chemin du dossier `training`
training_dir = "archive1/plantnet_300K/images_train"  # Remplacez par le chemin réel du dossier `training`

# Supprimer les classes ayant un nombre d'images strictement inférieur à 50
delete_training_classes_below_threshold(training_dir, threshold=50, log_file="deleted_training_classes_log.txt")



Résumé des suppressions :
Nombre de classes supprimées : 177
 - Classe supprimée : 1355920
 - Classe supprimée : 1355955
 - Classe supprimée : 1355961
 - Classe supprimée : 1356037
 - Classe supprimée : 1356055
 - Classe supprimée : 1356138
 - Classe supprimée : 1356279
 - Classe supprimée : 1356309
 - Classe supprimée : 1356379
 - Classe supprimée : 1356380
 - Classe supprimée : 1356847
 - Classe supprimée : 1357367
 - Classe supprimée : 1357682
 - Classe supprimée : 1358097
 - Classe supprimée : 1358102
 - Classe supprimée : 1358119
 - Classe supprimée : 1358127
 - Classe supprimée : 1358193
 - Classe supprimée : 1358302
 - Classe supprimée : 1358365
 - Classe supprimée : 1358608
 - Classe supprimée : 1358690
 - Classe supprimée : 1358691
 - Classe supprimée : 1358695
 - Classe supprimée : 1358703
 - Classe supprimée : 1358704
 - Classe supprimée : 1358706
 - Classe supprimée : 1358711
 - Classe supprimée : 1358748
 - Classe supprimée : 1358750
 - Classe supprimée : 1358755
 - Class

In [5]:
import os
import shutil

def delete_testing_classes_below_threshold(testing_dir, threshold=5, log_file="deleted_testing_classes_log.txt"):
    """
    Supprime les classes dans le dossier `testing` ayant un nombre d'images strictement inférieur au seuil.

    :param testing_dir: Chemin du dossier `testing`.
    :param threshold: Seuil minimum pour le nombre d'images.
    :param log_file: Nom du fichier log pour enregistrer les classes supprimées.
    """
    deleted_classes = []

    with open(log_file, "w") as log:
        for class_folder in os.listdir(testing_dir):
            class_path = os.path.join(testing_dir, class_folder)
            if not os.path.isdir(class_path):
                continue  # Ignorer les fichiers qui ne sont pas des dossiers

            # Compter le nombre d'images dans le dossier
            num_images = len(os.listdir(class_path))
            if num_images < threshold:
                # Enregistrer dans le fichier log
                log.write(f"Classe supprimée : {class_folder}\n")
                log.write(f"Chemin : {class_path}\n")
                log.write(f"Nombre d'images : {num_images}\n")
                log.write("\n")

                # Supprimer le dossier
                shutil.rmtree(class_path)
                deleted_classes.append(class_folder)

    # Résumé des suppressions
    print("\nRésumé des suppressions :")
    print(f"Nombre de classes supprimées : {len(deleted_classes)}")
    for class_name in deleted_classes:
        print(f" - Classe supprimée : {class_name}")

    print(f"\nClasses supprimées enregistrées dans : {log_file}")


# Chemin du dossier `testing`
testing_dir = "archive1\plantnet_300K\images_val"  # Remplacez par le chemin réel du dossier `testing`

# Supprimer les classes ayant un nombre d'images strictement inférieur à 5
delete_testing_classes_below_threshold(testing_dir, threshold=5, log_file="deleted_val_classes_log.txt")



Résumé des suppressions :
Nombre de classes supprimées : 61
 - Classe supprimée : 1356380
 - Classe supprimée : 1358704
 - Classe supprimée : 1359495
 - Classe supprimée : 1359510
 - Classe supprimée : 1359528
 - Classe supprimée : 1359530
 - Classe supprimée : 1360427
 - Classe supprimée : 1363463
 - Classe supprimée : 1363772
 - Classe supprimée : 1370279
 - Classe supprimée : 1373530
 - Classe supprimée : 1375965
 - Classe supprimée : 1376703
 - Classe supprimée : 1379513
 - Classe supprimée : 1389308
 - Classe supprimée : 1390956
 - Classe supprimée : 1391250
 - Classe supprimée : 1391326
 - Classe supprimée : 1391762
 - Classe supprimée : 1391805
 - Classe supprimée : 1392093
 - Classe supprimée : 1392601
 - Classe supprimée : 1393253
 - Classe supprimée : 1393294
 - Classe supprimée : 1393823
 - Classe supprimée : 1393965
 - Classe supprimée : 1394143
 - Classe supprimée : 1394313
 - Classe supprimée : 1394383
 - Classe supprimée : 1394396
 - Classe supprimée : 1394508
 - Classe

In [6]:
import os
import shutil

def delete_non_common_classes_with_log(
        training_dir, testing_dir, validation_dir, log_file="deleted_non_common_classes_log.txt"):
    """
    Supprime les classes qui ne sont pas communes entre `training`, `testing`, et `validation` et enregistre leurs chemins dans un fichier log.

    :param training_dir: Chemin du dossier `training`.
    :param testing_dir: Chemin du dossier `testing`.
    :param validation_dir: Chemin du dossier `validation`.
    :param log_file: Nom du fichier log pour enregistrer les classes supprimées.
    """
    deleted_classes = []

    # Obtenir les classes dans chaque dossier
    training_classes = {d for d in os.listdir(training_dir) if os.path.isdir(os.path.join(training_dir, d))}
    testing_classes = {d for d in os.listdir(testing_dir) if os.path.isdir(os.path.join(testing_dir, d))}
    validation_classes = {d for d in os.listdir(validation_dir) if os.path.isdir(os.path.join(validation_dir, d))}

    # Identifier les classes non communes
    all_classes = training_classes | testing_classes | validation_classes
    common_classes = training_classes & testing_classes & validation_classes
    non_common_classes = all_classes - common_classes

    with open(log_file, "w") as log:
        for class_name in non_common_classes:
            log.write(f"Classe supprimée : {class_name}\n")

            # Supprimer dans training
            train_class_path = os.path.join(training_dir, class_name)
            if os.path.exists(train_class_path):
                log.write(f"  Training: {train_class_path}\n")
                shutil.rmtree(train_class_path)

            # Supprimer dans testing
            test_class_path = os.path.join(testing_dir, class_name)
            if os.path.exists(test_class_path):
                log.write(f"  Testing: {test_class_path}\n")
                shutil.rmtree(test_class_path)

            # Supprimer dans validation
            val_class_path = os.path.join(validation_dir, class_name)
            if os.path.exists(val_class_path):
                log.write(f"  Validation: {val_class_path}\n")
                shutil.rmtree(val_class_path)

            # Ajouter à la liste des classes supprimées
            deleted_classes.append(class_name)

    # Résumé des suppressions
    print("\nRésumé des suppressions :")
    print(f"Nombre de classes supprimées : {len(deleted_classes)}")
    for class_name in deleted_classes:
        print(f" - Classe supprimée : {class_name}")

    print(f"\nClasses supprimées enregistrées dans : {log_file}")


# Chemins des dossiers
training_dir = "archive1/plantnet_300K/images_train"  # Remplacez par le chemin réel du dossier `training`
testing_dir = "archive1/plantnet_300K/images_test"    # Remplacez par le chemin réel du dossier `testing`
validation_dir = "archive1/plantnet_300K/images_val"  # Remplacez par le chemin réel du dossier `validation`

# Appeler la fonction pour supprimer les classes non communes avec log
delete_non_common_classes_with_log(training_dir, testing_dir, validation_dir, log_file="deleted_non_common_classes_log.txt")



Résumé des suppressions :
Nombre de classes supprimées : 177
 - Classe supprimée : 1370991
 - Classe supprimée : 1367087
 - Classe supprimée : 1408214
 - Classe supprimée : 1394383
 - Classe supprimée : 1360838
 - Classe supprimée : 1514627
 - Classe supprimée : 1409746
 - Classe supprimée : 1356379
 - Classe supprimée : 1358704
 - Classe supprimée : 1369472
 - Classe supprimée : 1358365
 - Classe supprimée : 1394313
 - Classe supprimée : 1408421
 - Classe supprimée : 1361357
 - Classe supprimée : 1358097
 - Classe supprimée : 1376703
 - Classe supprimée : 1409296
 - Classe supprimée : 1359821
 - Classe supprimée : 1360427
 - Classe supprimée : 1360004
 - Classe supprimée : 1359526
 - Classe supprimée : 1391250
 - Classe supprimée : 1367431
 - Classe supprimée : 1367784
 - Classe supprimée : 1367949
 - Classe supprimée : 1391805
 - Classe supprimée : 1361233
 - Classe supprimée : 1363019
 - Classe supprimée : 1359364
 - Classe supprimée : 1363343
 - Classe supprimée : 1420792
 - Class

In [11]:
from PIL import Image
import os

def validate_images(directory):
    """
    Valide toutes les images dans un répertoire et ses sous-répertoires.
    Supprime les fichiers corrompus ou non valides.
    """
    invalid_files = []
    for root, dirs, files in os.walk(directory):
        for file in files:
            file_path = os.path.join(root, file)
            try:
                with Image.open(file_path) as img:
                    img.verify()  # Vérifie si l'image est valide
            except (IOError, SyntaxError, Image.UnidentifiedImageError):
                invalid_files.append(file_path)
                os.remove(file_path)
                print(f"Fichier invalide supprimé : {file_path}")
    
    print(f"Validation terminée. {len(invalid_files)} fichiers supprimés.")
    return invalid_files

# Valider les images dans les répertoires
training_dir = "archive1/plantnet_300K/images_train"
validation_dir = "archive1/plantnet_300K/images_val"
testing_dir = "archive1/plantnet_300K/images_test"

validate_images(training_dir)
validate_images(validation_dir)
validate_images(testing_dir)


Validation terminée. 0 fichiers supprimés.
Fichier invalide supprimé : archive1/plantnet_300K/images_val\1394498\generated_18.jpg
Fichier invalide supprimé : archive1/plantnet_300K/images_val\1408041\generated_26.jpg
Fichier invalide supprimé : archive1/plantnet_300K/images_val\1550692\generated_15.jpg
Validation terminée. 3 fichiers supprimés.
Validation terminée. 0 fichiers supprimés.


[]