In [9]:
import csv
import urllib.parse

def normalize_url(url):
    """
    Normalise une URL :
    - Convertit en minuscules
    - Supprime les espaces inutiles
    - Supprime les '/' à la fin
    - Décode les caractères encodés (%20 → espace)
    """
    url = url.strip().lower()
    url = urllib.parse.unquote(url)  # Décode les caractères encodés
    if url.endswith('/'):
        url = url[:-1]  # Supprime le '/' final
    return url

def load_csv(file_path, delimiter=';'):
    """
    Charge un fichier CSV et retourne un ensemble d'URLs et fichiers associés.
    On normalise les URLs et les noms de fichiers.
    """
    urls = set()
    try:
        with open(file_path, mode='r', encoding='utf-8-sig') as file:
            reader = csv.reader(file, delimiter=delimiter)
            next(reader, None)  # Ignore l'en-tête
            for row in reader:
                if len(row) >= 2:
                    url = normalize_url(row[0])
                    filename = row[1].strip().lower()
                    urls.add((url, filename))
    except Exception as e:
        print(f"Erreur lors de la lecture de {file_path}: {e}")
    return urls

def compare_csv(file1, file2, output_csv):
    """
    Compare deux fichiers CSV contenant des colonnes 'url' et 'filename'.
    Génère un fichier contenant les correspondances et les différences.
    """
    urls_file1 = load_csv(file1, delimiter=';')
    urls_file2 = load_csv(file2, delimiter=',')

    # Vérifier s'il y a un problème de lecture
    print(f"Total URLs in {file1}: {len(urls_file1)}")
    print(f"Total URLs in {file2}: {len(urls_file2)}")

    common_urls = urls_file1 & urls_file2
    only_in_file1 = urls_file1 - urls_file2
    only_in_file2 = urls_file2 - urls_file1

    with open(output_csv, mode="w", encoding="utf-8", newline="") as csv_file:
        writer = csv.writer(csv_file, delimiter=';')
        writer.writerow(["url", "filename", "status"])

        for url, filename in common_urls:
            writer.writerow([url, filename, "Common"])
        
        for url, filename in only_in_file1:
            writer.writerow([url, filename, "Only in xml_result_daniel.csv"])
        
        for url, filename in only_in_file2:
            writer.writerow([url, filename, "Only in urls_found_xml.csv"])

    print(f"Comparaison terminée. Résultats enregistrés dans {output_csv}")
    print(f"Communes : {len(common_urls)}, Seulement dans {file1}: {len(only_in_file1)}, Seulement dans {file2}: {len(only_in_file2)}")

# Chemins des fichiers à comparer
file1 = "../result/txt_result_daniel.csv"
file2 = "../result/urls_found_txt.csv"
output_file = "../result/comparison_result.csv"

# Exécution de la comparaison
compare_csv(file1, file2, output_file)


Total URLs in ../result/txt_result_daniel.csv: 8377
Total URLs in ../result/urls_found_txt.csv: 8283
Comparaison terminée. Résultats enregistrés dans ../result/comparison_result.csv
Communes : 2801, Seulement dans ../result/txt_result_daniel.csv: 5576, Seulement dans ../result/urls_found_txt.csv: 5482


In [None]:
comparer les documents avec l'article et ensuite comparer le nombre de docs associés a chaQUE DOC tuple (doc,nb_url)