# Reconnaissance d'Entités Nommées et Vérité de Terrain

Un outil de **reconnaissance d'entités nommées** (REN) sert à reconnaître automatiquement les noms de personnes, de lieux, d'organisations, de monnaies, d'évènements etc. dans des textes.

La majorités des outils de REN sont entraînés sur des corpus de langue moderne, souvent issus d'articles de journaux et nativement numériques.

Aujourd'hui, nous allons d'abord annoter manuellement des textes romanesques du 19ème siècle, puis les annoter de manière automatique en utilisant la bibliothèque \textit{spaCy}.
Nous nous demanderons si ces outils automatiques sont robustes à la variabilité car notre corpus de textes n'est pas du même genre (littéraire) et de la même époque que les corpus utilisés pour leur entraînement.

Un outil de reconnaissance d'entités nommées (REN) sert à reconnaître automatiquement les noms de personnes, de lieux, d'organisations, de monnaies, d'évènements etc. dans des textes.

La majorités des outils de REN sont entraînés sur des corpus de langue moderne, souvent issus d'articles de journaux et nativement numériques.

Aujourd'hui, nous allons d'abord annoter manuellement des textes romanesques du 19ème siècle, puis les annoter de manière automatique en utilisant la bibliothèque ``spaCy``.
Nous nous demanderons si ces outils automatiques sont robustes à la variabilité car notre corpus de textes n'est pas du même genre (littéraire) et de la même époque que les corpus utilisés pour leur entraînement.



### Annoter manuellement un texte littéraire

L'annotation des entités nommées est utile pour déterminer qui sont les protagonistes, où se déroule l'action...
 Par ailleurs des chercheurs ont montré que la majorité des requêtes dans les moteurs de recherches contiennent une entité nommée.

Il est donc très utile de repérer les EN pour pouvoir indexer un texte et faire des recherches via un moteur de recherche.

La REN permet une indexation qui fait que nous n'avons pas à parcourir toute une base de données afin de trouver des documents pertinents pour chaque requête (et donc aller "lire" tous les documents à chaque requête), l'index est utilisé pour  accéder directement à un ensemble de documents qui contiennent les mots de la requête.

En Python, un index peut être représenté par un dictionnaire avec les mots comme clé, puis en valeur un ensemble (ou une liste) de documents qui contient ce mot.

#### Etape 1: Préparer son document d'annotation

Pour annoter les textes manuellement, nous allons stocker les tokens dans des tableaux au format .csv qui comprendront une colonne "Token" et une colonne pour chaque type d'entité nommée qui existe dans le schéma d'annotation de ``spaCy`` pour le français : LOC (lieux), PER (personne), ORG (organisation) et MISC (divers). Pour faciliter le stockage, un token par ligne, dans le tableau csv nous remplacerons les sauts de lignes, les doubles espaces et les tabulations par un "$", en utilisant la bibliothèque {re}

In [None]:
def lire_fichier(path):
    with open(path) as f:
        chaine = f.read()
    return chaine

import glob
import re
import csv
liste_txt = glob.glob("corpus-REN_2023-2024/*/*.txt")
print(liste_txt)
for path_file in liste_txt:
    print(path_file)
    texte=lire_fichier(path_file)
    print("Taille en caractères", len(texte))
    for ponctuation in ["\n","  ","\t"]:# On va découper en phrases ou lignes
        texte=re.sub(ponctuation,"$",texte)
        
    #On choisit un tokénisation plus efficace que le simple split :
    liste_mots = re.findall("[a-zA-ZÀ-ÿ][a-zA-ZÀ-ÿ-]*", texte)
    print("Taille en mots", len(liste_mots))
          
    # On va créer un csv (tableau Excel simplifié) pour stocker notre texte 
    with open(f"{path_file}_annot.csv", 'w',  newline='') as csvfile:
      writer = csv.writer(csvfile, delimiter=';',quotechar='\t', quoting=csv.QUOTE_MINIMAL)
      writer.writerow(["Token","LOC","PER","ORG","MISC"])
          
    #On va annoter un échantillon de 5000 mots
      for token in liste_mots[:5000]:
        writer.writerow([token])


In [None]:
#On va vérifier ce qu'on a dans les csv :
liste_csv = glob.glob("corpus-REN_2023-2024/*/*.csv")
print(liste_csv)
for path_file in liste_csv:
    with open(path_file, encoding="utf-8") as f:
        lignes = f.readlines()
    print(lignes[:5])

In [None]:
import pandas
#On va vérifier ce qu'on a dans les csv :
liste_csv = glob.glob("corpus-REN_2023-2024/*/*.csv")
print(liste_csv)
for path_file in liste_csv:
    lignes = pandas.read_csv(path_file, delimiter=";")

    print(lignes)

#### Etape 2: c'est parti, annotez !

L'annotation des entités nommées dans un texte nécessite que chaque annotateur.ice se fît à un référentiel commun afin que les annotations ne soient pas chaotiques. Il est très important de tenir compte du fait que chaque annotateur.ice ne dispose pas du même savoir culturel ou scientifique à priori et que les annotateurs.ices ne sont pas tous nativement des locuteur.ice.s de la langue à annoter. Ainsi le fait d'utiliser un guide d'annotation commun et de discuter entre pairs sont deux pratiques fondamentales de l'annotation manuelle des textes.

Les étudiant.e.s se répartissent en groupes de 4. Chaque groupe se voit attribuer un des textes figurant dans le répertoire : corpus-REN\_2023-2024.zip. Ce répertoire comprends trois textes de trois auteurs : "Belle rivière" de G.Aimard, "L'éducation sentimentale" de G. Flaubert et "La nouvelle espérance" de A. de Noailles.

Le guide d'annotation est disponible sur moodle : ``Guide_Named_Entities.pdf``. Il s'agit d'un guide qui définit un nouveau schéma d'annotation pour les textes littéraires.
Pour notre annotation, nous tiendrons compte uniquement des grandes catégories et pas des attributs.

Chaque étudiant.e annote individuellement les 5000 premiers tokens en mettant une croix "X" (un X majuscule) dans la colonne PER si c'est une personne, LOC s'il s'agit d'un lieu etc. en se référant au guide d'annotation qui donne des exemples. Au bout de 30 minutes chaque groupe se réunit pour dialoguer autour des difficultés de l'annotation et des questions que chacun.e a pu se poser, le but de cette étape est d'harmoniser les annotations de chacun.
Lisez attentivement le guide d'annotation, posez des questions, ouvrez la discussion sur ce qui vous semble plus ou moins pertinent. Félicitations, vous avez constituez  une ``vérité de terrain`` !

A l’issue de ce premier exercice vous devez remettre le fichier .csv avec les annotations et un compte rendu retraçant les difficultés, les questions qui vous ont traversées pendant l'annotation.

Normalement on devrait voir que l'on a des noms de lieux par exemple

In [None]:
liste_csv = glob.glob("corpus-REN_2023-2024/*/*.csv")
print(liste_csv)
from IPython.display import display, HTML


for path_file in liste_csv:
    lignes = pandas.read_csv(path_file, delimiter=";")
    display(HTML(lignes.to_html()))
    print(lignes[lignes['LOC'].str.contains('X')])
    break