# Remplacements simples initiaux de désambiguïsation des lemmes/pos à faire sur une analyse d'Analog. Ne requiert pas le contexte des tokens.

In [1]:
def nc_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="Nc" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """
    
    # Passer le mot-forme en minuscules.
    mot_forme = mot["Mot forme"].lower()
    # Préparer la variable pour accueillir la forme singulière du mot si elle existe.
    mot_singulier = ""
    
    # Les noms pouvant être au singulier comme au pluriel.
    nc_sg_ou_pl = [
        'acte',
        'action',
        'adiudication',
        'administrateur',
        'aide',
        'affaire',
        'affaire',
        'amende',
        'amende',
        'an',
        'annee',
        'annee',
        'année',
        'arrest',
        'arrest',
        'arrêt',
        'article',
        'article',
        'auantage',
        'bailli',
        'bailly',
        'barons',
        'beste',
        'cession',
        'chambre',
        'chancellerie',
        'chapitre',
        'chapître',
        'charge',
        'cheualier',
        'chose',
        'commission',
        'compagnie',
        'condition',
        'confession',
        'contumace',
        'coustume',
        'crime',
        'danger',
        'description',
        'desertion',
        'dessaisine',
        'diuision',
        'dommage',
        'don',
        'droict',
        'droit',
        'droiture',
        'exception',
        'execution',
        'exemple',
        'expedition',
        'façon',
        'femme',
        'fille',
        'force',
        'forest',
        'forme',
        'fraude',
        'greffe',
        'greffier',
        'guerre',
        'haro',
        'heure',
        'homicide',
        'hommage',
        'homme',
        'hoste',
        'instance',
        'intention',
        'interest',
        'iusticier',
        'lettre',
        'ligne',
        'main',
        'maison',
        'maladie',
        'maniere',
        'manière',
        'marchandise',
        'mari',
        'mary',
        'membre',
        'mere',
        'mère',
        'mestier',
        'meuble',
        'mineur',
        'monnoye',
        'moyen',
        'nauire',
        'nation',
        'nature',
        'nom',
        'nombre',
        'obligation',
        'occasion',
        'office',
        'ombre',
        'opinion',
        'opposition',
        'ordon',
        'ouuurage',
        'pain',
        'paroisse',
        'parroisse',
        'partie',
        'passage',
        'peage',
        'peine',
        'pere',
        'permission',
        'peuple',
        'poinct',
        'poisson',
        'port',
        'portion',
        'possession',
        'possesseur',
        'presence',
        'prestre',
        'preuue',
        'prince',
        'prison',
        'prouince',
        'querelle',
        'question',
        'raison',
        'regard',
        'relation',
        'remission',
        'rente',
        'reparation',
        'requeste',
        'response',
        'riuiere',
        'roi',
        'roy',
        'seigneurie',
        'sentence',
        'sergenterie',
        'seruice',
        'sorte',
        'style',
        'terme',
        'terre',
        'titre',
        'torture',
        'usage',
        'vente',
        'vertu',
        'vie',
        'ville',
        'volonté',
        'vsage',
        'vsure'
    ]
    
    
    # Les noms à chercher sous forme exacte.
    exact = [
        'aage',
        'abus',
        'additions',
        'administration',
        'aduis',
        'amiral',
        'amis',
        'arbres',
        'argent',
        'armes',
        'biens',
        'bois',
        'bourse',
        'cas',
        'cause',
        'causes',
        'champ',
        'charges',
        'clause',
        'cleres',
        'confusion',
        'conquest',
        'consentement',
        'corps',
        'coup',
        'cour',
        'courscourt',
        'crainte',
        'creation',
        'decision',
        'defense',
        'delay',
        'delict',
        'despens',
        'despenses',
        'dettes',
        'difference',
        'difficulté',
        'douaire',
        'droit',
        'duc',
        'eau',
        'eaux',
        'edit',
        'effect',
        'encheres',
        'encontre',
        'enfans',
        'escus',
        'espoir',
        'estat',
        'examen',
        'famille',
        'feu',
        'fin',
        'fois',
        'foy',
        'gages',
        'gain',
        'gardes',
        'gens',
        'grain',
        'grandeur',
        'haro',
        'hypotheques',
        'information',
        'iuges',
        'livres',
        'marbre',
        'mars',
        'matin',
        'mention',
        'mil',
        'mois',
        'mort',
        'nécessité',
        'nécessitez'
        'nouembre',
        'orfeures',
        'paix',
        'papier',
        'pardon',
        'parens',
        'parquoy',
        'parroisses',
        'part',
        'partages',
        'patron',
        'payement',
        'pays',
        'païs',
        'peines',
        'personnes',
        'pieces',
        'places',
        'plaintes',
        'possessions',
        'poures',
        'production',
        'profit',
        'provisions',
        'questions',
        'rachat',
        'recours',
        'religion',
        'reliqua',
        'ressort',
        'rolles',
        'siege',
        'sieges',
        'soldats',
        'somme',
        'soye',
        'surplus',
        'temps',
        'titres',
        'trespas',
        'village',
        'vin',
        'violence',
        'delinquant',
        'record'
    ]
        
    # Une spécificité.
    bailly = [
        'bailli',
        'baillis',
        'baillys'
        'bailly'
    ]
    
    
    # Si le mot_forme se termine par un S, enlever ce S
    # pour pouvoir vérifier si la forme est contenue dans la
    # liste "nc_sg_ou_pl".
    
    if mot_forme[-1] == "s":
        mot_singulier = mot_forme[0:-1]
    else:
        mot_singuler = "NOPE"
    
    
    # Options particulières pour des mots particuliers :
    if mot['Mot forme'] == "Aduocat":
        index_pos = mot["POS"].split("|").index("Nc")
        liste_lemmes = mot["Lemme(s)"].split("|")
        lemme = liste_lemmes[index_pos]
        return lemme
    
    elif mot_forme == "fons":
        lemme = "FONDS"
        return lemme
    
    elif mot_forme == "seigneur" or mot_singulier == "seigneur":
        lemme = "SEIGNEUR"
        return lemme
    
    elif mot_forme == "demaine" or mot_singulier == "demaine":
        lemme = "DOMAINE"
        return lemme
    
    elif mot_forme == "ancesseur" or mot_singulier == "ancesseur":
        lemme = "ANCESSEUR"
        return lemme
    
    elif mot_forme == "barons":
        lemme = "BARON"
        return lemme
    
    elif mot_forme in bailly:
        lemme = "BAILLI"
        return lemme
    
    elif mot_forme == "archeuesque" or mot["Mot forme"] == "Archeuesque":
        lemme = "ARCHEVESQUE"
        return lemme
    
    elif mot_forme == "adiounemens" or mot_forme == "adiournement":
        lemme = "AJOURNEMENT"
        return lemme
    
    elif mot_forme == "fils":
        lemme = mot["Lemme(s)"]
        return lemme
    
    # Si tout le reste a échoué, vérifier si le mot_forme ou le mot_forme sans S final
    # sont dans la liste des mots vérifiés comme noms communs.
    
    elif mot_forme in exact or mot_forme in nc_sg_ou_pl or mot_singulier in nc_sg_ou_pl:
        if "|" in mot["Lemme(s)"]:
            index_pos = mot["POS"].split("|").index("Nc")
            liste_lemmes = mot["Lemme(s)"].split("|")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    
    # Si aucune des vérifications n'a été positive, on ne retourne rien et
    # la fonction principale pourra convoquer les autres fonctions.
    else:
        return None
    
    
    
# Fait 14avr20
def ag_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="Ag" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """
    
    mot_forme = mot["Mot forme"].lower()
    mot_singulier = ""
    
    sg_pl = [
        'ancien',
        'ancienne',
        'arbitraire',
        'bon',
        'bonne',
        'extraordinaire',
        'grande',
        'grosse',
        'haute',
        'petit',
        'petite',
        'fausse',
        'simple',
        'subalterne',
        'tierce',
        'publique',
        'conforme',
        'expresse',
        'iuste',
        'nouuelle',
        'plein',
        'general',
        'generale',
        'principale',
        'vraye',
        'possessoire',
        'ordinaire',
        'nécessaire'
    ]
    
    exact = [
        'grans',
        'gros',
        'honneste',
        'longue',
        'nouvel',
        'seule',
        'nouueau',
        'nouueaux',
        'pures',
        'tournois',
        'diuerses',
        'vrai',
        'vray',
        'presens',
        'royal',
        'haut',
        'bas',
        'faux',
        'lay',
        'apparente'
        ]
    
    if mot_forme[-1] == "s":
        mot_singulier = mot_forme[0:-1]
    else:
        mot_singuler = "NOPE"
    
    if mot_forme in exact or mot_forme in sg_pl or mot_singulier in sg_pl:
        if "|" in mot["Lemme(s)"]:
            index_pos = mot["POS"].split("|").index("Ag")
            liste_lemmes = mot["Lemme(s)"].split("|")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    else:
        return None

In [2]:
# Fait 10avr20
def cc_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="Cc" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """
    
    mot_forme = mot["Mot forme"].lower()
    mot_singulier = ""
    liste_lemmes = mot["Lemme(s)"].split("|")
    
    exact = [
        'car',
        'et',
        'mais',
        'ni',
        'ny',
        'ou'
        ]
    
    if mot_forme in exact:
        if mot_forme == "ny":
            lemme = "NI"
        elif "|" in mot["Lemme(s)"]:
            index_pos = mot["POS"].split("|").index("Cc")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    else:
        return None
    
    
# Fait 10avr20
def ds_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="Ds" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """
    
    mot_forme = mot["Mot forme"].lower()
    mot_singulier = ""
    liste_lemmes = mot["Lemme(s)"].split("|")
    
    exact = [
        'nos',
        'sa',
        'ses',
        'nostre'
        ]
    
    if mot_forme in exact:
        if "|" in mot["Lemme(s)"]:
            index_pos = mot["POS"].split("|").index("Ds")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    else:
        return None
    
    
    
# Fait 10avr20
def ga_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="Ga" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """
    
    mot_forme = mot["Mot forme"].lower()
    mot_singulier = ""
    liste_lemmes = mot["Lemme(s)"].split("|")
    
    exact = [
        'ayans',
        'ayant',
        'appartenans',
        'appartenant',
        'baillant',
        'estans',
        'estant',
        'faisans',
        'iugeant',
        'partant',
        'partans',
        'portant',
        'portans',
        'contenant',
        'contenans',
        'vacans',
        'vacant'
        ]
    
    if mot_forme in exact:
        if "|" in mot["Lemme(s)"]:
            index_pos = mot["POS"].split("|").index("Ga")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    else:
        return None
    
    
    
# Fait 10avr20
def ge_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="Ge" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """
    
    mot_forme = mot["Mot forme"].lower()
    mot_singulier = ""
    liste_lemmes = mot["Lemme(s)"].split("|")
    
    exact = [
        'entendu',
        'entendus',
        'entenduë',
        'entenduës',
        'esté',
        'eu',
        'gardé',
        'gardés',
        'gardee',
        'gardees',
        'iugé',
        'veu',
        'appelez',
        'faites',
        'punis',
        'receus',
        'requis',
        'tenus',
        'mis',
        'mise',
        'mises',
        'comprins',
        'baillé',
        'aduertis',
        'deu',
        'deus',
        'issus',
        'prins',
        'permis',
        'meus',
        'acquis',
        'ouy',
        'ouye',
        'ouyes',
        'ouys',
        'amenez',
        'baillé',
        'baillee'
        'baillés',
        'baillees'
        ]
    
    if mot_forme in exact:
        if "|" in mot["Lemme(s)"] and "Ge" in mot['POS']:
            index_pos = mot["POS"].split("|").index("Ge")
            lemme = liste_lemmes[index_pos]
        elif "|" in mot['Lemme(s)'] and "Vvc" in mot['POS']:
            index_pos = mot['POS'].split("|").index("Vvc")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    else:
        return None
    

def np_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="Np" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """
    
    mot_forme = mot["Mot forme"]
    liste_lemmes = mot["Lemme(s)"].split("|")
    
    exact = [
        'Caen',
        'Caux',
        'Charles',
        'Dieu',
        'Guillaume',
        'Henry',
        'Orléans',
        'Paris',
        'Pasques',
        'Philippe',
        'Pierre',
        'Richard',
        'Robert',
        'Rouen',
        'Rouën',
        'Iean',
        'Ieanne',
        'Iaques',
        'Rome',
        'Angleterre',
        'Loys'
        ]
    
    if mot_forme in exact:
        if "|" in mot["Lemme(s)"]:
            index_pos = mot["POS"].split("|").index("Np")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    else:
        return None
    
    
    
def pd_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="Pd" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """
    
    mot_forme = mot["Mot forme"].lower()
    liste_lemmes = mot["Lemme(s)"].split("|")
    
    exact = [
        'cela',
        'celle',
        'celles',
        'ceux'
        ]
    
    if mot_forme in exact:
        if "|" in mot["Lemme(s)"]:
            index_pos = mot["POS"].split("|").index("Pd")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    else:
        return None
    
    
    
def pp_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="Pp" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """
    
    mot_forme = mot["Mot forme"].lower()
    liste_lemmes = mot["Lemme(s)"].split("|")
    
    exact = [
        'elle',
        'elles',
        'eux',
        'il',
        'ils',
        'luy',
        'me',
        'nous',
        'on',
        'se',
        'soy',
        'vous',
        'y'
        ]
    
    if mot_forme in exact:
        if "|" in mot["Lemme(s)"]:
            index_pos = mot["POS"].split("|").index("Pp")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    else:
        return None
    
    
def pr_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="Pr" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """
    
    mot_forme = mot["Mot forme"].lower()
    liste_lemmes = mot["Lemme(s)"].split("|")
    
    exact = [
        'dont',
        'où',
        'qui'
        ]
    
    if mot_forme in exact:
        if "|" in mot["Lemme(s)"]:
            index_pos = mot["POS"].split("|").index("Pr")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    else:
        return None
    
    
def rg_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="Rg" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """
    
    mot_forme = mot["Mot forme"].lower()
    liste_lemmes = mot["Lemme(s)"].split("|")
    
    exact = [
        'ailleurs',
        'ainsi',
        'alors',
        'assez',
        'aussi',
        'beaucoup',
        'combien',
        'cy',
        'dedans',
        'encores',
        'ensemble',
        'expressement',
        'icy',
        'item',
        'là',
        'lors',
        'mieux',
        'moins',
        'non',
        'plus',
        'pourtant',
        'respectiuement',
        'seulement',
        'souuent',
        'tant',
        'tres',
        'trop',
        'ores',
        'pas',
        'derrière',
        'ains',
        'quant',
        'puis',
        'point'
        ]
    
    if mot_forme in exact:
        if "|" in mot["Lemme(s)"]:
            index_pos = mot["POS"].split("|").index("Rg")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    else:
        return None
    
def s_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="S" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """
    
    mot_forme = mot["Mot forme"].lower()
    liste_lemmes = mot["Lemme(s)"].split("|")
    
    exact = [
        'à',
        'apres',
        'auant',
        'par',
        'pour',
        'sans',
        'selon',
        'deuers',
        'vers',
        'fors',
        'nonobstant',
        'dans',
        'depuis',
        'dés',
        'pendant',
        'outre'
        ]
    
    if mot_forme in exact:
        if mot_forme == "fors":
            lemme = "FORS"
        elif "|" in mot["Lemme(s)"]:
            index_pos = mot["POS"].split("|").index("PREP")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    else:
        return None
    
    
    
def vuc_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="Vuc" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """
    
    mot_forme = mot["Mot forme"].lower()
    liste_lemmes = mot["Lemme(s)"].split("|")
    
    exact = [
        'ait',
        'aura',
        'ont',
        'sera',
        'seroit',
        'sont',
        'soyent',
        'fut',
        'fust',
        'a',
        'auoient'
        ]
    
    if mot_forme in exact:
        if "|" in mot["Lemme(s)"]:
            index_pos = mot["POS"].split("|").index("Vuc")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    else:
        return None
    
    
    
def vvc_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="Vvc" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """
    
    mot_forme = mot["Mot forme"].lower()
    liste_lemmes = mot["Lemme(s)"].split("|")
    
    exact = [
        'allégue',
        'appelle',
        'appert',
        'baillent',
        'baillera',
        'bailleront',
        'contient',
        'conuient',
        'demeurent',
        'doit',
        'donne',
        'faudroit',
        'faut',
        'fera',
        'font',
        'met',
        'notez',
        'peust',
        'peut',
        'semble',
        'vaut',
        'vient',
        'voyez',
        'vueille',
        'parle',
        'parles',
        'trouue',
        'trouues',
        'valent',
        'procedent',
        'fit',
        'defend',
        'baille'
        ]
    
    if mot_forme in exact:
        if "|" in mot["Lemme(s)"]:
            index_pos = mot["POS"].split("|").index("Vvc")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    else:
        return None
    
def vun_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="Vun" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """
    
    mot_forme = mot["Mot forme"].lower()
    liste_lemmes = mot["Lemme(s)"].split("|")
    
    exact = [
        'auoir',
        'etre',
        'estre'
    ]
    
    if mot_forme in exact:
        if "|" in mot["Lemme(s)"]:
            index_pos = mot["POS"].split("|").index("Vun")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    else:
        return None
    
    
    
def vvn_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="Pp" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """ 
    
    mot_forme = mot["Mot forme"].lower()
    liste_lemmes = mot["Lemme(s)"].split("|")
    
    exact = [
        'aller',
        'apparoir',
        'bailler',
        'commettre',
        'comparoir',
        'conduire',
        'courir',
        'dire',
        'donner',
        'entendre',
        'escrire',
        'examiner',
        'exercer',
        'faire',
        'iurer',
        'leuer',
        'lire',
        'mettre',
        'parler',
        'passer',
        'porter',
        'pouruoir',
        'pouuoir',
        'prendre',
        'respondre',
        'sauoir',
        'sçavoir',
        'trouuer',
        'user',
        'voir',
        'viure'
        ]
    
    if mot_forme in exact:
        if "|" in mot["Lemme(s)"]:
            index_pos = mot["POS"].split("|").index("Vvn")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    else:
        return None
    
    
    
def xe_comme_pos(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mot à automatiquement considérer comme
        pos="Xe" contenus dans les listes internes à la fonction (listes établies
        par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme ou son singulier est dans l'une des listes,
            la fonction retourne le lemme correct.
        
    """
    
    mot_forme = mot["Mot forme"].lower()
    liste_lemmes = mot["Lemme(s)"].split("|")
    
    exact = [
        'ab',
        'ad',
        'alterius',
        'aut',
        'causa',
        'contra',
        'essent',
        'ex',
        'extra',
        'hodie',
        'in',
        'inter',
        'is',
        'iuris',
        'lege',
        'nam',
        'natura',
        'nec',
        'neque',
        'olim',
        'parte',
        'partem',
        'partes',
        'pecunia',
        'quantum',
        'quidem',
        'quis',
        'quo',
        'quoniam',
        'quoque',
        'quorum',
        'quos',
        'rebus',
        'rem',
        'sic',
        'sine',
        'sint',
        'sit',
        'siue',
        'solum',
        'sua',
        'sub',
        'sui',
        'sunt',
        'super',
        'tam',
        'tandem',
        'ut',
        'vel',
        'vidimus',
        'vir',
        'vt'
    ]
    
    if mot_forme in exact:
        if mot["Lemme(s)"] == "INC":
            lemme = mot_forme.upper()
            
        elif "Xe" in mot["POS"] and "|" in mot["Lemme(s)"]:
            index_pos = mot["POS"].split("|").index("Xe")
            lemme = liste_lemmes[index_pos]
        else:
            lemme = mot["Lemme(s)"]
            
        return lemme
    else:
        return None

In [3]:
# Fait 10avr20
def simple_checks(mot):
    
    """
        Fonction récupérant un dictionnaire avec toutes les informations d'un token
        et déterminant s'il correspond aux mots traités dans les options if/elif
        (listes établies par M. Goux à partir du coutumier de Guillaume Terrien, 1578).
        
        :param mot: Un dictionnaire correspondant à 1 token, dont les clés sont :
            - 'Numero de token'
            - 'Mot forme'
            - 'Validation automatique'
            - 'Lemme(s)'
            - 'POS'
        
        :return: Si le mot-forme est traité par l'une des possibilités,
            la fonction retourne un court dictionnaire contenant :
            le mot_forme, le lemme et le pos.
        
    """
    
    import re
    
    mot_forme = mot["Mot forme"].lower()
    annees = re.compile(r"\d{4}")
    date = re.fullmatch(annees, mot_forme)
    retour = {}
    
    if mot_forme == "est":
        if "Vuc" in mot['POS']:
            index_pos = mot["POS"].split("|").index("Vuc")
            liste_lemmes = mot["Lemme(s)"].split("|")
            retour["forme"] = mot["Mot forme"]
            retour["lemme"] = liste_lemmes[index_pos]
            retour["pos"] = "Vuc"
        
        return retour
    
    elif mot_forme == "autruy":
        retour["forme"] = mot['Mot forme']
        retour["lemme"] = "AUTRUI"
        retour["pos"] = "Pi"
        
        return retour
            
    elif mot_forme == "comme":
        retour["forme"] = mot["Mot forme"]
        retour["lemme"] = "COMME"
        retour["pos"] = "Cs"
        
        return retour
    
    elif mot_forme == "ces":
        retour["forme"] = mot["Mot forme"]
        retour["lemme"] = "CE"
        retour["pos"] = "Dd"
        
        return retour
    
    elif mot_forme == "ne":
        retour["forme"] = mot["Mot forme"]
        retour["lemme"] = "NE"
        retour["pos"] = "Rp"
        
        return retour
    
    elif mot_forme == "comment":
        retour["forme"] = mot["Mot forme"]
        retour["lemme"] = "COMMENT"
        retour["pos"] = "Rt"
        
        return retour
    
    elif mot_forme == "au" or mot_forme == "aux":
        retour["forme"] = mot["Mot forme"]
        retour["lemme"] = "À+LE"
        retour["pos"] = "S+Da"
        
        return retour
    
    elif mot_forme == "ès":
        retour["forme"] = mot["Mot forme"]
        retour["lemme"] = "EN+LE"
        retour["pos"] = "S+Da"
        
        return retour
    
    elif mot_forme == "du":
        retour["forme"] = mot["Mot forme"]
        retour["lemme"] = "DE+LE"
        retour["pos"] = "S+Da"
        
        return retour
        
    elif mot_forme == "etc":
        retour["forme"] = mot["Mot forme"]
        retour["lemme"] = "ET CAETERA"
        retour["pos"] = "Xa"
        
        return retour
        
    elif mot_forme == "ff":
        retour["forme"] = mot["Mot forme"]
        retour["lemme"] = "FF"
        retour["pos"] = "Xa"
        
        return retour
        
    elif mot_forme == "lib":
        retour["forme"] = mot["Mot forme"]
        retour["lemme"] = mot["Lemme(s)"]
        retour["pos"] = "Xa"
        
        return retour
    
    elif mot_forme == "chacun":
        retour["forme"] = mot["Mot forme"]
        retour["lemme"] = mot["Lemme(s)"]
        retour["pos"] = "Pi"
        
        return retour
        
    elif date and mot_forme[0] == "1":
        retour["forme"] = mot["Mot forme"]
        retour["lemme"] = mot["Lemme(s)"]
        retour["pos"] = "Mc"
        
        return retour
        
    elif mot["Lemme(s)"] == "POUR":
        retour["forme"] = mot["Mot forme"]
        retour["lemme"] = mot["Lemme(s)"]
        retour["pos"] = "S"
        
        return retour
    
    elif mot_forme == "prenne":
        retour["forme"] = mot["Mot forme"]
        retour["lemme"] = "PRENDRE"
        retour["pos"] = "Vvc"
        
        return retour
        
    elif mot_forme == "second":
        retour["forme"] = "second"
        retour["lemme"] = mot["Lemme(s)"]
        retour["pos"] = "Mo"
        
        return retour
    
    elif mot_forme == "audit":
        retour["forme"] = "audit"
        retour["lemme"] = "À+LEDIT"
        retour["pos"] = "S+Dd"
        
        return retour

    else:
        return None

In [4]:
def desambiguiser(csv_entree, csv_sortie):
    
    """
        Fonction récupérant un CSV dont chaque ligne est un token lemmatisé,
        avec les colonnes telles quelles :
        
            - "Numero de token" --- étant le numéro constituant la valeur du @n
                    de l'élément <w> dans le XML dont les tokens ont été extraits
                    (en principe, chaque token a un numéro unique).
                    
            - "Mot forme" --- étant le texte de l'élément <w> original, avec
                    abréviations résolues et graphie modernisée s'il y a lieu.
                    
            - "Validation automatique" --- contient soit "yes", soit "no" ; la
                    valeur est produite par Analog lors de la lemmatisation et
                    exprime si Analog est certain d'une interprétation particulière.
                    
            - "Lemme(s)" --- étant le lemme préconisé par Analog, ou bien les lemmes
                    entre lesquels Analog hésite, séparés par des '|'.
                    
            - "POS" --- étant la valeur POS préconisée par Analog, ou bien les
                    différentes valeurs entre lesquelles Analog hésite, séparées par
                    des '|'.
                    
        Avec ce CSV d'entrée, cette fonction principale appelle les différentes fonctions secondaires
        et les teste l'une après l'autre sur chaque token jusqu'à obtenir un résultat
        positif ou échouer à toutes.
        Si un résultat positif est trouvé, les valeurs POS et Lemme du token peuvent être
        changées en fonction.
        
        La fonction produit un autre fichier CSV avec les mêmes colonnes que le fichier
        d'entrée, plus une : "Modifié", contenant la valeur "yes" ou "no". Si un token a
        été reconnu par l'une des vérifications du script, il aura la valeur "yes",
        sinon il aura la valeur "no".
        
        :param csv_entree: Le chemin interne du fichier CSV sur lequel on souhaite
            effectuer des vérifications.
            
        :param csv_sortie: Le chemin interne du fichier CSV dans lequel écrire
            les tokens modifiés.
            
    """
        
    import csv
    dico_mot = {}
    colonnes = [
            'Numero de token',
            'Mot forme',
            'Validation automatique',
            'Modifié',
            'Lemme(s)',
            'POS'
        ]
    compteur = 0
    total = 0
    
    # Ouvrir le CSV d'Analog et le lire.
    with open(csv_entree) as csv_a_lire:
        csv_lu = csv.DictReader(csv_a_lire)
        
        # Ouvrir le fichier de sortie et le lire en mode écriture.
        with open(csv_sortie, 'w') as csv_a_ecrire:
            a_ecrire = csv.DictWriter(csv_a_ecrire, fieldnames = colonnes)
            # Écrire les noms des colonnes.
            a_ecrire.writeheader()
        
            # Boucler sur les lignes du CSV d'Analog.
            for mot in csv_lu:
                
                total += 1
                
                if "BAILLER/BÂILLER" in mot["Lemme(s)"]:
                    mot["Lemme(s)"] = "BAILLER"
                                    
                elif mot["Mot forme"] == "yeux":
                    mot["Lemme(s)"] = "OEIL"
                
                # Si le mot a été validé automatiquement, on l'écrira tel quel.
                if mot['Validation automatique'] == "yes":
                    modifie = "no"
                    lemme = mot["Lemme(s)"]
                    pos = mot["POS"]
                
                # Sinon, on va chercher s'il est possible de le désambiguïser.
                else:
                    dico_mot["Mot forme"] = mot["Mot forme"]
                    dico_mot["Lemme(s)"] = mot["Lemme(s)"]
                    dico_mot["POS"] = mot["POS"]
                    
                    if simple_checks(dico_mot) != None:
                        modifie = "yes"
                        lemme = simple_checks(dico_mot)["lemme"]
                        pos = simple_checks(dico_mot)["pos"]
                        
                        compteur += 1
                        
                    elif nc_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = nc_comme_pos(dico_mot)
                        pos = "Nc"
                        
                        compteur += 1
                    
                    elif ag_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = ag_comme_pos(dico_mot)
                        pos = "Ag"
                        
                        compteur += 1
                    
                    
                    elif cc_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = cc_comme_pos(dico_mot)
                        pos = "Cc"
                        
                        compteur += 1
                    
                    
                    elif ds_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = ds_comme_pos(dico_mot)
                        pos = "Ds"
                        
                        compteur += 1
                    
                    
                    elif ga_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = ga_comme_pos(dico_mot)
                        pos = "Ga"
                        
                        compteur += 1
                    
                    
                    elif ge_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = ge_comme_pos(dico_mot)
                        pos = "Ge"
                        
                        compteur += 1
                    
                    
                    elif np_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = np_comme_pos(dico_mot)
                        pos = "Np"
                        
                        compteur += 1
                    
                    
                    elif pd_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = pd_comme_pos(dico_mot)
                        pos = "Pd"
                        
                        compteur += 1
                    
                    
                    elif pp_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = pp_comme_pos(dico_mot)
                        pos = "Pp"
                        
                        compteur += 1
                    
                    
                    elif pr_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = pr_comme_pos(dico_mot)
                        pos = "Pr"
                        
                        compteur += 1
                    
                    
                    elif rg_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = rg_comme_pos(dico_mot)
                        pos = "Rg"
                        
                        compteur += 1
                        
                        
                    elif s_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = s_comme_pos(dico_mot)
                        pos = "S"
                        
                        compteur += 1
                    
                    
                    elif vuc_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = vuc_comme_pos(dico_mot)
                        pos = "Vuc"
                        
                        compteur += 1
                    
                    
                    elif vvc_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = vvc_comme_pos(dico_mot)
                        pos = "Vvc"
                        
                        compteur += 1
                        
                    elif vun_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = vun_comme_pos(dico_mot)
                        pos = "Vun"
                        
                        compteur += 1
                    
                    
                    elif vvn_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = vvn_comme_pos(dico_mot)
                        pos = "Vvn"
                        
                        compteur += 1
                    
                    
                    elif xe_comme_pos(dico_mot) != None:
                        modifie = "yes"
                        lemme = xe_comme_pos(dico_mot)
                        pos = "Xe"
                        
                        compteur += 1
                    
                    else:
                        modifie = "no"
                        lemme = mot["Lemme(s)"]
                        pos = mot["POS"]
                
                a_ecrire.writerow({
                    'Numero de token': mot['Numero de token'],
                    'Mot forme': mot['Mot forme'],
                    'Validation automatique': mot['Validation automatique'],
                    'Modifié' : modifie,
                    'Lemme(s)': lemme,
                    'POS': pos
                })
    
    pourcent_traites = compteur * 100 / total
    print(compteur, ":", round(pourcent_traites, 1), "% traités")

In [6]:
# CSV originel, puis destination du nouveau CSV.

desambiguiser(
    '/home/erminea/Documents/CONDE/GC/GC-Analog-compile.csv',
    '/home/erminea/Documents/CONDE/GC/GC-desambig-1-simple.csv'
)

20111 : 32.5 % traités
