In [1]:
import os
import hashlib
import shutil
from PIL import Image

In [2]:

def find_and_copy_duplicate_images(source_folder, duplicate_folder):

    if not os.path.exists(duplicate_folder):
        os.makedirs(duplicate_folder)
    

    image_hashes = {}
    duplicate_count = 0
    

    for filename in os.listdir(source_folder):
        filepath = os.path.join(source_folder, filename)
        
        #
        try:
            with Image.open(filepath) as img:
                # Calculer le hash de l'image
                img_hash = hashlib.md5(img.tobytes()).hexdigest()
                
                # Si le hash existe déjà, c'est un doublon
                if img_hash in image_hashes:
                    print(f"Doublon trouvé: {filename} (identique à {image_hashes[img_hash]})")
                    # Créer une copie du fichier dans le dossier des doublons
                    base, ext = os.path.splitext(filename)
                    new_filename = f"{base}{ext}"
                    shutil.copy2(filepath, os.path.join(duplicate_folder, new_filename))
                    duplicate_count += 1
                else:
                    image_hashes[img_hash] = filename
        except (IOError, OSError):
            # Ce n'est pas une image valide, on passe au fichier suivant
            continue
    
    print(f"\n{duplicate_count} doublons copiés dans {duplicate_folder}")



In [3]:

source_directory = '../images/'
duplicate_directory = '../duplicated_images/'
    
find_and_copy_duplicate_images(source_directory, duplicate_directory)
print("Opération terminée avec succès!")

Doublon trouvé: 00588_00.jpg (identique à 00587_00.jpg)
Doublon trouvé: 00756_00.jpg (identique à 00755_00.jpg)
Doublon trouvé: 01008_00.jpg (identique à 01007_00.jpg)
Doublon trouvé: 01260_00.jpg (identique à 01258_00.jpg)
Doublon trouvé: 01261_00.jpg (identique à 01259_00.jpg)
Doublon trouvé: 01680_00.jpg (identique à 01679_00.jpg)
Doublon trouvé: 01932_00.jpg (identique à 01931_00.jpg)
Doublon trouvé: 02016_00.jpg (identique à 02015_00.jpg)
Doublon trouvé: 02520_00.jpg (identique à 02419_00.jpg)
Doublon trouvé: 02521_00.jpg (identique à 02519_00.jpg)
Doublon trouvé: 02772_00.jpg (identique à 02770_00.jpg)
Doublon trouvé: 02773_00.jpg (identique à 02771_00.jpg)
Doublon trouvé: 03360_00.jpg (identique à 03359_00.jpg)
Doublon trouvé: 03444_00.jpg (identique à 03443_00.jpg)
Doublon trouvé: 03528_00.jpg (identique à 03527_00.jpg)
Doublon trouvé: 03696_00.jpg (identique à 03695_00.jpg)
Doublon trouvé: 03865_00.jpg (identique à 03863_00.jpg)
Doublon trouvé: 04032_00.jpg (identique à 04030_