# Reconnaissance d'entités nommées avec SpaCy

La documentation est accessible ici: https://spacy.io/api

## Imports

In [1]:
from collections import defaultdict
import spacy
from spacy.lang.fr.examples import sentences
!python -m spacy download fr_core_news_md

Collecting fr-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_md-3.8.0/fr_core_news_md-3.8.0-py3-none-any.whl (45.8 MB)
     ---------------------------------------- 0.0/45.8 MB ? eta -:--:--
     - -------------------------------------- 1.3/45.8 MB 7.5 MB/s eta 0:00:06
     -- ------------------------------------- 3.4/45.8 MB 9.6 MB/s eta 0:00:05
     ---- ----------------------------------- 5.5/45.8 MB 9.3 MB/s eta 0:00:05
     ------ --------------------------------- 7.3/45.8 MB 9.4 MB/s eta 0:00:05
     -------- ------------------------------- 9.2/45.8 MB 9.4 MB/s eta 0:00:04
     --------- ------------------------------ 11.3/45.8 MB 9.4 MB/s eta 0:00:04
     ----------- ---------------------------- 13.1/45.8 MB 9.2 MB/s eta 0:00:04
     ------------- -------------------------- 15.5/45.8 MB 9.4 MB/s eta 0:00:04
     --------------- ------------------------ 17.8/45.8 MB 9.6 MB/s eta 0:00:03
     ----------------- -----------


[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
nlp = spacy.load('fr_core_news_md')

## Appliquer la reconnaissance d'entités nommées sur notre corpus

In [7]:
# Charger le texte
n=1000000
text = open("../../data/tmp/1906_clean.txt", encoding='utf-8').read()[:n]

In [8]:
%%time
# Traiter le texte

doc = nlp(text)

CPU times: total: 19.5 s
Wall time: 34.5 s


In [9]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

In [10]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

DUDIT apparait 5 fois dans le corpus
LOCAT apparait 4 fois dans le corpus
ALLA apparait 3 fois dans le corpus
HECTOR DENIS apparait 3 fois dans le corpus
CIBILS apparait 3 fois dans le corpus
MÉRODE apparait 3 fois dans le corpus
VLEURGAT apparait 3 fois dans le corpus
HERRY apparait 2 fois dans le corpus
BRAVES apparait 2 fois dans le corpus
LOUIS GARDE apparait 2 fois dans le corpus
LOUIS BOIS DORÉ apparait 2 fois dans le corpus
FIAI apparait 2 fois dans le corpus
HEURS apparait 2 fois dans le corpus
BELGIKA apparait 2 fois dans le corpus
MAES IXELLES apparait 2 fois dans le corpus
REMBOURSABLE apparait 2 fois dans le corpus
SÉRIÉ REMBOURSABLE apparait 2 fois dans le corpus
MINÉRALE apparait 2 fois dans le corpus
BAUDOUIN apparait 2 fois dans le corpus
JJOSTE ÉTAUX apparait 1 fois dans le corpus
TOURNIS apparait 1 fois dans le corpus
HONNEURS apparait 1 fois dans le corpus
REGARDAIT COIFFET apparait 1 fois dans le corpus
MÉCHA apparait 1 fois dans le corpus
SOMBRES apparait 1 fois da

Exercice: essayez de lister les lieux (LOC) et les organisations (ORG) les plus mentionnées dans le corpus

In [13]:
# Dictionnaire pour compter les entités "LOCATION"
location = defaultdict(int)

# Compter les entités "LOCATION"
for ent in doc.ents:
    if ent.label_ == "LOC" and len(ent.text) > 3:
        location[ent.text] += 1

# Afficher les résultats
print(location)



defaultdict(<class 'int'>, {'PROUVE LLCTCN': 1, 'CONTENTER MÉTT': 1, 'LEVA': 2, 'BLANCHEUR IMPASSIBLE': 1, 'MONS': 10, 'FÉRAL': 1, 'MAGE': 1, 'ESBRE CHARME': 1, 'CIRO CACHELER': 1, 'RÉUNIR': 1, 'CAMBRIDGE NUISANT': 1, 'NAVIRE': 6, 'RYNLAND': 1, 'OFFICIERS CADETS HEUREUX': 1, 'AJOURNEMENT': 1, 'LIÉGE': 1, 'ARGENTINS': 1, 'ROSALIE': 1, 'FORAME': 1, 'DRAPEAUX': 1, 'PRÉTE': 1, 'POUI': 1, 'REFIRAIM': 1, 'AIRT': 2, 'MISÉRABLE': 1, 'COSTUMAS': 1, 'CIETTU OAISTS': 1, 'FORCES SANTÉ': 1, 'FOSSÊ': 1, 'BRÀFFÀNT': 1, 'CULS BOURG': 1, 'PASCAK SERVANTE': 1, 'EARALO BIJDIOTHÉNUO MIMÉS': 1, 'TERRE': 5, 'BATTU MARDI': 1, 'MENTALITÉ': 1, 'MORCEAU': 1, 'ROYAL SEMBLABLE': 1, 'EIWMT': 1, 'REPOUSSÉ FRANCE': 1, 'MÔME CALME': 1, 'FRITURE': 1, 'MOMENTANÉ': 1, 'JAPON': 5, 'YISCONTI VENOSTA': 1, 'TRADUITS': 1, 'ENREIGISTREMENT': 1, 'CONGO': 5, 'REVUE': 1, 'ÉTAI': 1, 'IPAREH': 1, 'TICKETS': 1, 'IMPASSIBLE CRIMINEL': 1, 'REPART CELTE': 1, 'BRAINE COMLC': 1, 'COMMURIAI': 1, 'NORDFESP': 1, 'BRUXELLOIS': 6, 'HONG': 1,