# ModOAP - Repérage de doublons images

Ce script permet de repérer des doublons au sein d'un corpus d'images.

Le corpus est attendu sous la forme d'un dossier sur un Google Drive contenant directement les fichiers images. 

Le script implémente la version CNN de la bibliothèque Imagededup : https://github.com/idealo/imagededup
(Tanuj Jain and Christopher Lennan and Zubin John and Dat Tran, 2019 )

**Ce carnet doit être exécuté dans un environnement GPU : Exécution -> Modifier le type d'exécution -> GPU**


In [None]:
#@markdown # Préparation du script et synchronisation d'un Google Drive

#@markdown Lancer cette cellule, puis cliquer sur le lien généré par Google pour connecter un compte Drive si demandé.

#@markdown Il est nécessaire de relancer l'environnement d'exécution et de relancer la cellule si précisé. 

# chargement d'un google drive

import os
from google.colab import drive

if not os.path.exists("/content/drive/My Drive"):
  drive.mount('/content/drive')
else : print("Le Drive est déjà monté")

try :
  from imagededup.methods import CNN, PHash, DHash, AHash, WHash
except ModuleNotFoundError :
  !pip install imagededup
  from imagededup.methods import CNN, PHash, DHash, AHash, WHash



In [None]:
#@markdown # Repérage de doublons

#@markdown Cette cellule génère un fichier liste_doublons.txt dans le dossier du corpus



#@markdown Spécifier le chemin vers le dossier contenant les fichiers images :

chemin_corpus = ""#@param {type:"string"}

#@markdown Spécifier le seuil de similarité attendu (un nombre décimal entre 0 et 1) :

seuil_similarite = 0.85 #@param {type:"slider", min:0, max:1, step:0.05}


cnn = CNN()
duplicates = cnn.find_duplicates(image_dir=chemin_corpus, scores=True, min_similarity_threshold=seuil_similarite)



with open(os.path.join(chemin_corpus,"liste_doublons.txt"), "w") as res :
  res.write("Doublons repérés dans le dossier {} \n".format(chemin_corpus))
  for entry, dups in duplicates.items() :
    if duplicates[entry]:
      res.write("---------------------------------------------\n")
      res.write("Image source :\n")
      res.write(entry+"\n")
      res.write("Doublons :\n")
      for dup in dups :
        res.write(dup[0]+"\n")
      res.write("---------------------------------------------\n")

print("La liste des doublons a été générée dans le fichier ",os.path.join(chemin_corpus,"liste_doublons.txt"))

In [None]:
#@markdown # Visualisation des doublons

#@markdown Cette cellule permet de visualiser les doublons repérés

from imagededup.utils import plot_duplicates
for k in duplicates :
  try : 

    if duplicates[k] :
      print("Doublon repéré : ",k," -> ",duplicates[k])
    plot_duplicates(image_dir="/content/drive/MyDrive/ModOAP/Outils_Modoap/MonumenTal/testdedup",
                    duplicate_map=duplicates,
                    filename=k)
    print("-------------------------------------------")
  except AssertionError : 
    pass