## Annoter les entités nommées automatiquement
Nous allons utiliser La librairie ``Spacy`` tout d'abord pour annoter automatiquement les entités nommées du corpus puis ensuite nous comparerons celle-cio à l'annotation manuelle réalisée précédemment.

In [1]:
#SI l'import ci-dessous ne fonctionne pas, décommentez la ligne suivante et relancez la cellule :
#!pip install spacy
import spacy

In [2]:
#Idemn si le spacy.load ne fonctionne pas c'est que vous devez télécharger le modèle en décommentant ceci :
#!python -m spacy download fr_core_news_sm
nlp = spacy.load("fr_core_news_sm")

In [3]:
#On peut tester sur une phrase toute bête :
texte = "Je suis Michèle, j'étudie la linguistique à la Sorbonne à Paris"
doc = nlp(texte)

for ent in doc.ents:
    print(ent.text, ent.label_)


Michèle PER
Sorbonne LOC
Paris LOC


In [6]:
#Visualiser la REN, voici de qui générer un résultat plus joli :

from spacy import displacy
displacy.render(doc, style="ent", jupyter=True)

#SI cette cellule persiste avec une "*" affichée, interrompez son exécution en cliquant sur "STOP" (le carré)

In [7]:
from spacy import displacy
displacy.render(doc, style="ent", jupyter=True)

### Stocker les résultats

 Maintenant que l'on peut identifier des entités nommées, il serait bon de pouvoir les stocker.

Le programme doit permettre de :
- récupérer les entités nommées dans le texte qui vous a été assigné et leur label (PER : personne ; LOC : localisation ; MISC : Divers ; ....)   en utilisant ``spaCy``
- sauvegarder un dictionnaire en json
- d' utiliser deux modèles de langue de \textit{spaCy}. Par exemple : ``fr_core_news_sm`` puis ``fr_core_news_lg}``
- indiquer le temps d'exécution du programme en l'affichant

Enfin, on attend un fichier de sortie pour chaque modèle de langue, structuré ainsi :
{
  "entité_0": {
    "Entité": "Paris",
    "Label": "LOC"
  }
  "entité_1": {
    "Entité": "Norine",
    "Label": "PER"
  } ....
  }
  
L'opération peut-être longue, appliquez le programme sur au moins une partie de votre texte pour générer une sortie. Les 5000 premiers tokens par exemple.

Rédiger de manière synthétique quelques observations sur les sorties de reconnaissance d'entités nommées obtenues avec les deux modèles de langue de spacy sm et lg.



In [28]:
import spacy
import json
import time


sortie_sm = "entites_sm.json"
sortie_lg = "entites_lg.json"

try:
    with open("D:/DOCUMENTS/corpus/pg70488.txt", "r", encoding="utf-8") as f:  
        texte = f.read()
except FileNotFoundError:
    print("Error: Fichier introuvable")
    exit()


def traiter_texte(texte, modele):
    nlp = spacy.load(modele) 
    doc_complet = nlp(texte)
    doc = doc_complet[:5000] if len(doc_complet) > 5000 else doc_complet
    return doc


def extraire_entites(doc):
    entites = {}
    for i, ent in enumerate(doc.ents):
        entites[f"entité_{i}"] = {
            "Entité": ent.text,
            "Label": ent.label_
        }
    return entites


modeles = {
    "fr_core_news_sm": sortie_sm,
    "fr_core_news_lg": sortie_lg
}


for modele, fichier_sortie in modeles.items():
    debut = time.time()
    print(f"Traitement du modèle {modele} en cours...")
    
    doc = traiter_texte(texte, modele)
    entites = extraire_entites(doc)
    
    with open(fichier_sortie, "w", encoding="utf-8") as f:
        json.dump(entites, f, ensure_ascii=False, indent=2)
    
    fin = time.time()
    temps_exec = fin - debut
    print(f"Modèle {modele} traité en {temps_exec:.2f} secondes. Résultats sauvegardés dans {fichier_sortie}\n")

Traitement du modèle fr_core_news_sm en cours...
Modèle fr_core_news_sm traité en 16.07 secondes. Résultats sauvegardés dans entites_sm.json

Traitement du modèle fr_core_news_lg en cours...
Modèle fr_core_news_lg traité en 15.74 secondes. Résultats sauvegardés dans entites_lg.json



**Question finale** : comment faire si l'on veut comparer la sortie de SPacy avec votre annotation ?