# Reconnaissance d'entités nommées avec SpaCy

La documentation est accessible ici: https://spacy.io/api

## Imports

In [1]:
from collections import defaultdict
import sys
import spacy
from spacy.lang.fr.examples import sentences
import os

In [2]:
nlp = spacy.load('fr_core_news_md')

In [3]:
# Choisir une année
year = 1900

In [None]:
# Lister les fichiers de cette année
data_path = '../data'
txt_path = '../data/txt'
txts = [f for f in os.listdir(txt_path) if os.path.isfile(os.path.join(txt_path, f)) and str(year) in f]
len(txts)

In [5]:
# Stocker le contenu de ces fichiers dans une liste
c_list = []
for txt in txts:
    with open(os.path.join(txt_path, txt), 'r', encoding='utf-8') as f:
        c_list.append(f.read())

In [None]:
# Imprimer tous les caractères du contenu des fichiers
for text in c_list:
    for char in text:
        print(char, end='') 

## Illustration avec le corpus de test SpaCy

In [None]:
# Imprimer le corpus de Spacy
c_list

In [None]:
# stocker dans une nouvelle variable 
sent = c_list
sent

In [None]:
# Traiter la phrase avec Spacy
nlp.max_length = 5000000
corpus = "\n".join(sent)
doc = nlp(corpus)

## Identifier les entités dans notre corpus

In [None]:
# Charger le texte
n=100000
text = doc

In [None]:
%%time
# Traiter le texte

doc = nlp(text)

In [None]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

: 

In [None]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

Exercice: essayez de lister les lieux (LOC) et les organisations (ORG) les plus mentionnées dans le corpus

In [None]:
# Analyse du texte  avec SpaCy
doc = nlp(text)

# Extraction et count des lieux (LOC) et les organisations (ORG)
locations = {}
organizations = {}

for ent in doc.ents:
    if ent.label_ == "LOC":
        locations[ent.text] = locations.get(ent.text, 0) + 1
    elif ent.label_ == "ORG":
        organizations[ent.text] = organizations.get(ent.text, 0) + 1

# Trier et afficher les lieux les plus mentionnés
sorted_locations = sorted(locations.items(), key=lambda kv: kv[1], reverse=True)
print("\nLieux les plus mentionnés :")
for location, freq in sorted_locations[:50]:
    print(f"{location} apparait {freq} fois dans le corpus")

# Trier et afficher les organisations les plus mentionnées
sorted_organizations = sorted(organizations.items(), key=lambda kv: kv[1], reverse=True)
print("\nOrganisations les plus mentionnées :")
for organization, freq in sorted_organizations[:50]:
    print(f"{organization} apparait {freq} fois dans le corpus")