# Reconnaissance d'entités nommées avec SpaCy

La documentation est accessible ici: https://spacy.io/api

## Imports

In [4]:
from collections import defaultdict
import spacy
import os
from spacy.lang.fr.examples import sentences
!python -m spacy download fr_core_news_md

Collecting fr-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_md-3.8.0/fr_core_news_md-3.8.0-py3-none-any.whl (45.8 MB)
     ---------------------------------------- 0.0/45.8 MB ? eta -:--:--
     ---------------------------------------- 0.0/45.8 MB ? eta -:--:--
     - -------------------------------------- 1.3/45.8 MB 9.6 MB/s eta 0:00:05
     ---- ----------------------------------- 5.2/45.8 MB 15.9 MB/s eta 0:00:03
     ------- -------------------------------- 8.9/45.8 MB 16.8 MB/s eta 0:00:03
     ---------- ---------------------------- 12.6/45.8 MB 17.1 MB/s eta 0:00:02
     -------------- ------------------------ 16.5/45.8 MB 17.3 MB/s eta 0:00:02
     ----------------- --------------------- 20.4/45.8 MB 17.5 MB/s eta 0:00:02
     -------------------- ------------------ 23.9/45.8 MB 17.4 MB/s eta 0:00:02
     ----------------------- --------------- 27.8/45.8 MB 17.4 MB/s eta 0:00:02
     -------------------------- ------

In [5]:
nlp = spacy.load('fr_core_news_md')

## Appliquer la reconnaissance d'entités nommées sur notre corpus

In [6]:
temp_path = "../../data/tmp"  # adapte selon ton dossier
file_name = "corpus.txt" 
n=1000000
text = open(os.path.join(temp_path, file_name), encoding='utf-8').read()[:n]

In [7]:
%%time
# Traiter le texte

doc = nlp(text)

CPU times: total: 27.4 s
Wall time: 28 s


In [5]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

In [8]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

Spaak apparait 28 fois dans le corpus
Kravchenko apparait 24 fois dans le corpus
Léopold apparait 22 fois dans le corpus
A.F.P. apparait 21 fois dans le corpus
Tito apparait 18 fois dans le corpus
Hitler apparait 17 fois dans le corpus
Léopold III apparait 16 fois dans le corpus
Libois apparait 15 fois dans le corpus
Baccarat apparait 15 fois dans le corpus
Edgar Lalmand apparait 14 fois dans le corpus
M. Eyskens apparait 13 fois dans le corpus
P. S. C. apparait 12 fois dans le corpus
Vandermill apparait 12 fois dans le corpus
Truman apparait 11 fois dans le corpus
U. S. A. apparait 10 fois dans le corpus
Staline apparait 9 fois dans le corpus
Franco apparait 9 fois dans le corpus
la F.S.M. apparait 9 fois dans le corpus
M. Devèze apparait 9 fois dans le corpus
Wallace apparait 8 fois dans le corpus
M. Spaak apparait 8 fois dans le corpus
P. S. B. apparait 8 fois dans le corpus
Marshall apparait 7 fois dans le corpus
président Truman apparait 7 fois dans le corpus
Petkov apparait 7 foi

Exercice: essayez de lister les lieux (LOC) et les organisations (ORG) les plus mentionnées dans le corpus

In [9]:
# Compter les entités de type lieu (LOC)
locations = defaultdict(int)
for ent in doc.ents:
    if ent.label_ in ["LOC"] and len(ent.text) > 3:
        locations[ent.text] += 1

# Trier et imprimer
sorted_locations = sorted(locations.items(), key=lambda kv: kv[1], reverse=True)

for loc, freq in sorted_locations[:50]:
    print(f"{loc} apparait {freq} fois dans le corpus")

Belgique apparait 114 fois dans le corpus
Bruxelles apparait 107 fois dans le corpus
Allemagne apparait 76 fois dans le corpus
Etats-Unis apparait 70 fois dans le corpus
Paris apparait 53 fois dans le corpus
P.S.C. apparait 44 fois dans le corpus
Londres apparait 42 fois dans le corpus
l'Europe apparait 42 fois dans le corpus
France apparait 37 fois dans le corpus
Etat apparait 36 fois dans le corpus
Angleterre apparait 36 fois dans le corpus
Grande-Bretagne apparait 34 fois dans le corpus
Liège apparait 32 fois dans le corpus
Washington apparait 30 fois dans le corpus
Anvers apparait 28 fois dans le corpus
Moscou apparait 28 fois dans le corpus
Américains apparait 25 fois dans le corpus
Amérique apparait 20 fois dans le corpus
Europe apparait 18 fois dans le corpus
Chine apparait 18 fois dans le corpus
la France apparait 17 fois dans le corpus
Berlin apparait 17 fois dans le corpus
Corée apparait 16 fois dans le corpus
U.S.A. apparait 16 fois dans le corpus
Grèce apparait 15 fois dans

In [10]:
# Compter les entités de type organisations (ORG)
organisations = defaultdict(int)
for ent in doc.ents:
    if ent.label_ in ["ORG"] and len(ent.text) > 3:
        organisations[ent.text] += 1

# Trier et imprimer
sorted_organisations = sorted(organisations.items(), key=lambda kv: kv[1], reverse=True)

for org, freq in sorted_organisations[:50]:
    print(f"{org} apparait {freq} fois dans le corpus")

Parti apparait 50 fois dans le corpus
plan Marshall apparait 42 fois dans le corpus
Reuter apparait 25 fois dans le corpus
Union Soviétique apparait 24 fois dans le corpus
Conseil apparait 21 fois dans le corpus
U.R.S.S. apparait 21 fois dans le corpus
Parti Communiste apparait 20 fois dans le corpus
Drapeau Rouge apparait 16 fois dans le corpus
Peuple apparait 15 fois dans le corpus
Sénat apparait 13 fois dans le corpus
Commission apparait 13 fois dans le corpus
C.G.T. apparait 13 fois dans le corpus
Yougoslavie apparait 13 fois dans le corpus
Parti communiste apparait 13 fois dans le corpus
Chambre apparait 12 fois dans le corpus
Plan Marshall apparait 12 fois dans le corpus
Tokio apparait 12 fois dans le corpus
O.N.U. apparait 11 fois dans le corpus
Comité apparait 10 fois dans le corpus
Comité Central apparait 10 fois dans le corpus
Princey apparait 8 fois dans le corpus
GALERIES apparait 7 fois dans le corpus
ACTION apparait 7 fois dans le corpus
VILLAGE apparait 6 fois dans le co

In [10]:
# Compter les entités de type loi (LAW)
laws = defaultdict(int)
for ent in doc.ents:
    if ent.label_ in ["LAW"] and len(ent.text) > 3:
        laws[ent.text] += 1

# Trier et imprimer
sorted_laws = sorted(laws.items(), key=lambda kv: kv[1], reverse=True)

for law, freq in sorted_laws[:50]:
    print(f"{law} apparait {freq} fois dans le corpus")

In [11]:

# Compter les entités de type événement (EVENT)
events = defaultdict(int)
for ent in doc.ents:
    if ent.label_ in ["EVENT"] and len(ent.text) > 3:
        events[ent.text] += 1

# Trier et imprimer
sorted_events = sorted(events.items(), key=lambda kv: kv[1], reverse=True)

for event, freq in sorted_events[:50]:
    print(f"{event} apparait {freq} fois dans le corpus")