## Chargement des fichiers

In [7]:
import pandas as pd
import re
import requests
from ipywidgets import IntProgress
from IPython.display import display
#import jellyfish

pd.options.mode.chained_assignment = None  # Remove copy in place warning for dataframe operations


# Définition du fichier d'alignement à vérifier
input_file_path = "input/test-dataset.tsv"

# Définition du fichier de sortie pour les cas suspects
output_file_root = "output/test-output"

# Faut-il exporter tous les alignements vérifiés avec une colonne identifiant les cas suspects (True),
# ou exporter ces derniers à part (False)?
output_in_place = True

# Types d'alignement à vérifier
valid_types = {'externe', 'manuel'}

# Types de validation à effectuer
validations = {'auteur-titre'}
# Les valeurs suivantes sont possibles:
# - 'dates'
# - 'auteur-titre' ATTENTION cette validation fait un appel d'API IdRef pour CHAQUE ALIGNEMENT. Utiliser uniquement lorsque nécessaire.


# Nom de la colonne ajoutée
output_colname = "validation auto"

# Définition des colonnes contenant les formes sources et cible à comparer
source_form_colname = "forme principale source"
target_form_colname = "forme principale cible"
align_type_colname = "décision d'alignement"
target_colname = "réservoir cible"
target_candidatenr_colname = "nombre de candidats"
idref_id_colname = "id cible"

# Le fichier à vérifier est chargé dans une dataframe
df = pd.read_csv(input_file_path, sep='\t', dtype = str)
print(df.shape)

# Pour la comparaison, on retire les types d'alignements ignorés ainsi que les non-alignements
df_filtered = df[(df[align_type_colname].isin(valid_types)) & (df[target_colname] == 'idref')]
df_rest = df[(~df[align_type_colname].isin(valid_types)) | (df[target_colname] != 'idref')]
print(df_filtered.shape)
print(df_rest.shape)
display(df_filtered.head())

df_filtered.reset_index(drop=True, inplace=True)  # Drop indexes since we're not going to use them

(57, 23)
(41, 23)
(16, 23)


Unnamed: 0,réservoir source,id source,forme principale source,arbitre,date d'arbitrage,niveau de confiance,commentaire,décision d'alignement,nombre de candidats,score algo max,...,id cible,forme principale cible,type de cible 2,réservoir cible 2,id cible 2,forme principale cible 2,type de cible 3,réservoir cible 3,id cible 3,forme principale cible 3
0,rnv-nz-auth-atc,981023280174602851,"Bauer, Axel W",,,,,externe,1,1.0,...,77176561,"Bauer, Axel 1955-....",,,,,,,,
1,rnv-nz-auth-atc,981023280175902851,"Smits, Jan M., 1967-",,,,,externe,1,0.9625,...,33304610,"Smits, Jan M. 1967-....",,,,,,,,
2,rnv-nz-auth-atc,981023280246402851,"Windekens, Albert J. van",,,,,externe,1,1.0,...,28361091,"Van Windekens, Albert J. 1915-1989",,,,,,,,
3,rnv-nz-auth-atc,981023280313602851,"Beeby-Thompson, A",,,,,externe,0,,...,147520681,"Thompson, Arthur Beeby",,,,,,,,
4,rnv-nz-auth-atc,981023280897802851,"De Grand, Alexander J",,,,,externe,1,1.0,...,28798538,"De Grand, Alexander J 1938-....",,,,,,,,


## Définition des fonctions utiles

In [2]:
# Fonction de comparaison des dates
def date_compare(source_date,target_date):
    source_date = str(source_date)
    target_date = str(target_date)
    # Ignorer les points d'interrogation
    source_date = source_date.replace('?','')
    target_date = target_date.replace('?','')
    # Retirer le zéro en début de date
    if source_date.startswith('0'):
        source_date = source_date[1:0]
    if target_date.startswith('0'):
        target_date = target_date[1:0]
    # Si l'une des dates à comparer est vide, on passe
    if ((source_date == '') | (target_date == '')):
        return False
    # Si l'une des dates comporte des points, ne comparer que les chiffres entre eux
    if (('.' in source_date) | ('.' in target_date)):
        #print('Comparaison avec points: ' + source_date + ' et ' + target_date)
        for char in range(0,len(source_date)):
            if ((source_date[char] != '.') & (target_date[char] != '.') & (source_date[char] != target_date[char])):
                #print('Je pense que ' + source_date[char] + ' != ' + target_date[char])
                return True
        return False
    if (source_date != target_date):
        return True
    else:
        return False

# Expression régulière pour trouver les dates
date_pattern = r'(?:ca\.|fl\.)?([0-9\.]{4}|\?)-?([0-9\.]{4}|\?)?'

# Vérification des auteurs-titre

idref_base_url = 'https://idref.fr/'

# Fonction utile pour déterminer si un champ MARC existe
def contains_tag(data, tag_value):
    return any(record['tag'] == tag_value for record in data)



## Moulinette de validation
C'est là que tout se passe!

In [9]:
# Affiche une barre de progression
numrows = df_filtered.shape[0]
barre_attente = IntProgress(min=1, max=numrows, description="État d'avancement: ")
display(barre_attente)

if not(output_in_place):
    wrong_dates = []
    wrong_types = []
    misc_errors = []

for index, row in df_filtered.iterrows():
    if not ((row[source_form_colname] == '') | (row[target_form_colname] == '') | pd.isnull(row[source_form_colname]) | pd.isnull(row[target_form_colname])):
        
        # Procéder à la validation de date seulement si demandé
        if 'dates' in validations:
            source_dates = re.findall(date_pattern, row[source_form_colname])
            target_dates = re.findall(date_pattern, row[target_form_colname])
            if ((len(source_dates) > 0) & (len(target_dates) > 0)):
                if (date_compare(source_dates[0][0],target_dates[0][0]) | date_compare(source_dates[0][1],target_dates[0][1])):
                    # Cas potentiel de dates qui ne correspondent pas
    
                    if (output_in_place):
                        df_filtered.loc[index, output_colname] = "Vérifier dates"
                    else:
                        wrong_dates.append(row)
        
        # Vérifier si la notice IdRef vers laquelle on aligne est de type auteur-titre, seulement si demandé
        if 'auteur-titre' in validations:
            idref_id = row[idref_id_colname]
            url = idref_base_url + str(idref_id) + '.json'
            # Query the IdRef API
            idref_result = requests.get(url)
            if (idref_result.status_code == 200):
                # Identifier si le résultat contient un champ 240
                if contains_tag(idref_result.json()['record']['datafield'], 240):
                    if (output_in_place):
                        df_filtered.loc[index, output_colname] = "Cible de type auteur-titre"
                    else:
                        wrong_types.append(row)
            else:
                # Erreur de requête API
                if (output_in_place):
                    df_filtered.loc[index, output_colname] = "Erreur de requête API IdRef. Code:" + idref_result.status_code
                else:
                    misc_errors.append(row)
    
    else:
        # Il manque un des champs à comparer, autre erreur
        if (output_in_place):
            df_filtered.loc[index, output_colname] = "Erreur de validation"
        else:
            misc_errors.append(row)
    
    barre_attente.value += 1

display(df_filtered.head())

IntProgress(value=1, max=41, min=1)

Unnamed: 0,réservoir source,id source,forme principale source,arbitre,date d'arbitrage,niveau de confiance,commentaire,décision d'alignement,nombre de candidats,score algo max,...,forme principale cible,type de cible 2,réservoir cible 2,id cible 2,forme principale cible 2,type de cible 3,réservoir cible 3,id cible 3,forme principale cible 3,validation auto
0,rnv-nz-auth-atc,981023280174602851,"Bauer, Axel W",,,,,externe,1,1.0,...,"Bauer, Axel 1955-....",,,,,,,,,
1,rnv-nz-auth-atc,981023280175902851,"Smits, Jan M., 1967-",,,,,externe,1,0.9625,...,"Smits, Jan M. 1967-....",,,,,,,,,
2,rnv-nz-auth-atc,981023280246402851,"Windekens, Albert J. van",,,,,externe,1,1.0,...,"Van Windekens, Albert J. 1915-1989",,,,,,,,,
3,rnv-nz-auth-atc,981023280313602851,"Beeby-Thompson, A",,,,,externe,0,,...,"Thompson, Arthur Beeby",,,,,,,,,
4,rnv-nz-auth-atc,981023280897802851,"De Grand, Alexander J",,,,,externe,1,1.0,...,"De Grand, Alexander J 1938-....",,,,,,,,,


## Exports des fichiers de résultats

In [10]:
if not(output_in_place):
    wrong_dates_df = pd.DataFrame(wrong_dates)
    misc_errors_df = pd.DataFrame(misc_errors)

    wrong_dates_df.to_excel(output_file_root + "_dates.xlsx",index=False)
    misc_errors_df.to_excel(output_file_root + "_erreurs.xlsx",index=False)
else:
    print(df_filtered.shape)
    # Combiner le fichier filtré qui a été validé avec les alignements retirés au début
    df_output = pd.concat([df_filtered,df_rest])
    print(df_output.shape)
    df_output.to_excel(output_file_root + "_tout.xlsx",index=False)
    

(41, 24)
(57, 24)
