# Si on ajoute les @lemma et @pos dans un fichier XML qui n'en a pas encore, utiliser les fonctions suivantes.

In [1]:
def resynchronisation(chemin_csv, chemin_xml, chemin_sortie):
    
    """
    Fonction prenant en entrée deux fichiers :
        - le XML tokenisé à partir duquel on avait précédemment extrait
            les tokens pour Analog, inchangé depuis,
        - le CSV contenant ces tokens analysés par Analog et modifiés
            par les scripts de désambiguisation.
    
    Cette fonction compare les numéros des tokens dans les deux fichiers
    et ajoute au token du XML les informations suivantes issues de son double
    en CSV :
        - dans un @lemma, le contenu de la colonne 'Lemme(s)' du token CSV, tel quel,
        - dans un @pos, le contenu de la colonne 'POS' du token CSV, tel quel.
    
    :param chemin_csv: Le fichier CSV d'entrée.
    :param chemin_xml: Le fichier XML d'entrée.
    :param chemin_sortie: Le chemin pour le nouveau XML.
    
    """
    
    import xml.etree.ElementTree as ET
    import csv
    
    # On crée un dictionnaire pour contenir les tokens en local.
    dico_tokens = {}
    
    # On ouvre et on lit le CSV d'origine.
    with open(chemin_csv) as csv_a_lire:
        csv_lu = csv.DictReader(csv_a_lire)
        
        # On ajoute un à un les tokens au dictionnaire.
        for token in csv_lu:
            dico_tokens[token['Numero de token']] = [token['Lemme(s)'], token['POS']]
    
    # On donne à ET l'espace de nom de la TEI utilisé dans nos XML.
    # ET.register_namespace('', "http://tei-c.org/ns/1.0")
    
    # On lit l'arbre XML et on trouve sa racine ('TEI').
    tree = ET.parse(chemin_xml)
    root = tree.getroot()
    
    # On boucle sur tous les éléments <w> du XML, dans l'ordre du fichier.
    for word in root.findall('.//w'):
        
        # On récupère le numéro du token.
        numero_xml = str(word.get('n'))
        
        # On récupère les lemmes du token CSV correspondant dans une variable.
        lemmes = str(dico_tokens[numero_xml][0])
        
        # On récupère les POS du token CSV correspondant dans une variable.
        pospos = str(dico_tokens[numero_xml][1])

        # On ajoute des @lemma et @pos au token.
        word.set('lemma', lemmes)
        word.set('pos', pospos)
    
    # On écrit le nouveau fichier XML au chemin précisé en 3e argument. 
    tree.write(chemin_sortie, xml_declaration=True, encoding="unicode")

In [2]:
resynchronisation(
    '/home/erminea/Documents/CONDE/GC/GC-desambig-5-cs.csv',
    '/home/erminea/Documents/CONDE/GC/GC-w-numerote-5.xml',
    '/home/erminea/Documents/CONDE/GC/2021-05-21_GC-resync.xml'
)

In [3]:
# CSV, puis XML d'origine, puis XML de destination.

resynchronisation(
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/Basnage-pro-fait.csv',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/Basnage-base-orig.xml',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-editions-base/Basnage_base.xml'
)

resynchronisation(
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/Berault-pro-fait.csv',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/Berault-base-orig.xml',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-editions-base/Berault_base.xml'
)

resynchronisation(
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/instructions-pro-fait.csv',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/instructions-base-orig.xml',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-editions-base/instructions_base.xml'
)

resynchronisation(
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/Merville-pro-fait.csv',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/Merville-base-orig.xml',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-editions-base/Merville_base.xml'
)

resynchronisation(
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/Pesnelle-pro-fait.csv',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/Pesnelle-base-orig.xml',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-editions-base/Pesnelle_base.xml'
)

resynchronisation(
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/Rouille-pro-fait.csv',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/Rouille-base-orig.xml',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-editions-base/Rouille_base.xml'
)

resynchronisation(
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/ruines-pro-fait.csv',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/ruines-base-orig.xml',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-editions-base/ruines_base.xml'
)

resynchronisation(
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/tac-pro-fait.csv',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/tac-base-orig.xml',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-editions-base/tac_base.xml'
)

resynchronisation(
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/Terrien-pro-fait.csv',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-work/Terrien-base-orig.xml',
    '/home/erminea/Documents/CONDE/Encodage/2020-04-22-editions-base/Terrien_base.xml'
)

# Si on change des @lemma et @pos déjà présents, utiliser le fichier REV.