In [1]:
import csv

## ETAPE 1 : COMPARAISON DES AUTORITES DANS LES FICHIERS CSV ET EXTRACTION DES NOTICES PRESENTES DANS PHOEBUS ET INCOMPLETES

In [2]:

def find_matching_authorities(old_authority_csv_file, input_csv_files, output_csv_file):
    """
    Compare les autorités contenues dans le fichier 04_PHOEBUS_OLD_AUTHORITY généré par le bot traitetISAD
    avec celles des fichiers contenant toutes les notices ISAAR-CPF extraites de Phoebus.
    Si ces noms sont dans la base de données et que leur statut est en "Ebauche" ou "Non aligné", alors ce sont des autorités
    présentes dans Phoebus et qu'elles n'ont pas été alignées avec IdRef.
    
    Le fichier nouvellement créé sera à intégrer dans le flux principal et envoyer à IdRef pour extraire les informations de leur base.
    """
    # Liste pour stocker les noms des autorités trouvées
    matched_authorities = []

    # Lecture du fichier des anciennes autorités
    with open(old_authority_csv_file, 'r', newline='', encoding='utf-8') as old_file:
        reader = csv.DictReader(old_file)
        for row in reader:
            matched_authorities.append(row["nameAccessPoints"])

    # Recherche des autorités dans les fichiers d'entrée et récupèration des infos ISAAR, si les autorités ont le statut Ebauche, Non aligné ou vide
    matching_results = []
    authority_details = {}
    for input_csv_file in input_csv_files:
        with open(input_csv_file, 'r', newline='', encoding='utf-8') as input_file:
            reader = csv.DictReader(input_file)
            for row in reader:
                if row["authorizedFormOfName"] in matched_authorities and (row["status"] == "Ébauche" or row["status"] == "Non aligné" or row["status"]== ""):
                    matching_results.append((row["authorizedFormOfName"], row["datesOfExistence"], row["history"], row["descriptionIdentifier"]))
                    # Stocker le nom, les dates d'existence, l'historique et l'identifiant dans une variable
                    authority_details[row["authorizedFormOfName"]] = row

    print(f"Les autorités présentes dans PHOEBUS dont le statut est non aligné (assez d'info et pas alignées, Ebauche (pas assez d'info et pas alignées) ou vide (nouvellement créées): {matching_results}")

    # Copie du fichier "04_PHOEBUS_OLD_AUTHORITY_2024-04-23.csv" vers "autoritesAReexaminer.csv" : les noms contenus dans la variable row (status Ebauche, Non aligné ou vide) = A REEXAMINER ; sinon la notices est complètes
    with open(old_authority_csv_file, 'r', newline='', encoding='utf-8') as old_file, \
         open(output_csv_file, 'w', newline='', encoding='utf-8') as output_file:
        reader = csv.DictReader(old_file)
        #Crée les colonnes du fichier output_csv_file
        fieldnames = reader.fieldnames + ["Etat du traitement"] + ["ISAAR_datesOfExistence", "ISAAR_history", "ISAAR_identifiant"]
        writer = csv.DictWriter(output_file, fieldnames=fieldnames)
        writer.writeheader()
        for row in reader:
            if row["nameAccessPoints"] in [result[0] for result in matching_results]:
                row["Etat du traitement"] = "A REEXAMINER"
                # Ajouter les informations supplémentaires du fichier ISAAR
                additional_info = authority_details.get(row["nameAccessPoints"], {})
                row["ISAAR_datesOfExistence"] = additional_info.get("datesOfExistence", "")
                row["ISAAR_history"] = additional_info.get("history", "")
                row["ISAAR_identifiant"] = additional_info.get("descriptionIdentifier", "")
            else:
                row["Etat du traitement"] = "AUTORITE COMPLETE"
            writer.writerow(row)

# Chemins des fichiers d'entrée et de sortie
old_authority_csv_file = "03_isad_data_OUTPUT.csv"
input_directory = 'noticesAutorite_2024-06-10/'
input_csv_files = [input_directory + '0000000001.csv', input_directory + '0000000002.csv', input_directory + '0000000003.csv', input_directory + '0000000004.csv',input_directory + '0000000005.csv']
output_csv_file = "autoritesAReexaminerISAD_ISAAR.csv"

# Appel de la fonction 
find_matching_authorities(old_authority_csv_file, input_csv_files, output_csv_file)


Les autorités présentes dans PHOEBUS dont le statut est non aligné (assez d'info et pas alignées, Ebauche (pas assez d'info et pas alignées) ou vide (nouvellement créées): [('CONTINI Umberto', '1908-1978', 'Ecrivain, contribution à la revue *Présence* pour le numéro consacré à Ezra Pound.', 'contini-umberto'), ('MONTMOLLIN Éric de', '1907-2011', '', 'montmollin-de-eric_idref-058114181'), ('VINCENT Gilbert', '1933-', 'Abbé, ami des écrivains, poète, né à Savigny (Vaud), il est ordonné prêtre en 1967.', 'vincent-gilbert'), ('ANEX Jacqueline', 's.d.', '**Production participative [*crowdsourcing*]** : Si vous possédez des informations sur cette personne, notamment les dates de naissance et de décès, ainsi que des éléments biographiques, veuillez nous contacter à  [clsr@unil.ch](mailto:clsr@unil.ch?subject=[crowdsourcing]).', 'anex-jacqueline'), ('ABRAVANEL Ernest', '1900-2005', 'Libraire.', 'abravanel-ernest'), ('DESARZENS Martine', '1943-', '**Production participative [*crowdsourcing*]** 

# APPEL DE LA FONCTION

In [None]:
# ETAPE 1
# Chemins des fichiers d'entrée et de sortie
old_authority_csv_file = "04_PHOEBUS_OLD_AUTHORITY_2024-05-27.csv"
input_directory = 'noticesAutoritePHOEBUS_2024-05-27/'
input_csv_files = [input_directory + '0000000001.csv', input_directory + '0000000002.csv', input_directory + '0000000003.csv', input_directory + '0000000004.csv',input_directory + '0000000005.csv']
output_csv_file = "autoritesAReexaminerISAD_ISAAR.csv"

# Appel de la fonction
find_matching_authorities(old_authority_csv_file, input_csv_files, output_csv_file)