# Reconnaissance d'entités nommées avec SpaCy

La documentation est accessible ici: https://spacy.io/api

## Imports

In [1]:
from collections import defaultdict
import sys
import spacy
from spacy.lang.fr.examples import sentences

In [2]:
nlp = spacy.load('fr_core_news_md')

## Appliquer la reconnaissance d'entités nommées sur notre corpus

In [3]:
# Charger le texte
n=900000
text = open("../data/sents.txt", encoding='utf-8').read()[:n]

In [4]:
%%time
# Traiter le texte

doc = nlp(text)

CPU times: user 52.7 s, sys: 3.26 s, total: 55.9 s
Wall time: 57 s


In [5]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

In [6]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

Mac Arthur apparait 53 fois dans le corpus
Staline apparait 43 fois dans le corpus
Nehru apparait 40 fois dans le corpus
P. S. C. apparait 26 fois dans le corpus
M. Duvieusart apparait 25 fois dans le corpus
président Truman apparait 23 fois dans le corpus
M. Churchill apparait 21 fois dans le corpus
M. Malik apparait 21 fois dans le corpus
M. Gromyko apparait 19 fois dans le corpus
Prince Royal apparait 19 fois dans le corpus
A. P. apparait 17 fois dans le corpus
M. Spaak apparait 16 fois dans le corpus
Léopold III apparait 16 fois dans le corpus
Attlee apparait 14 fois dans le corpus
Spaak apparait 13 fois dans le corpus
M. Struye apparait 13 fois dans le corpus
A. F. P. apparait 13 fois dans le corpus
Hitler apparait 13 fois dans le corpus
prince Baudouin apparait 11 fois dans le corpus
Sir David Kelly apparait 10 fois dans le corpus
Léopold apparait 10 fois dans le corpus
Prince Régent apparait 9 fois dans le corpus
M. Acheson apparait 9 fois dans le corpus
Bixler apparait 9 fois d

Exercice: essayez de lister les lieux (LOC) et les organisations (ORG) les plus mentionnées dans le corpus

In [7]:
# Compter les entités
organisations = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "ORG" and len(ent.text) > 3:
        organisations[ent.text] += 1


In [8]:
sorted_organisations = sorted(organisations.items(), key=lambda kv: kv[1], reverse=True)

for organisation, freq in sorted_organisations[:50]:
        print(f"{organisation} apparait {freq} fois dans le corpus")


Conseil apparait 60 fois dans le corpus
Reuter apparait 55 fois dans le corpus
Conseil de Sécurité apparait 45 fois dans le corpus
Nations-Unies apparait 36 fois dans le corpus
Chambre apparait 27 fois dans le corpus
Parlement apparait 27 fois dans le corpus
Sénat apparait 26 fois dans le corpus
Assemblée apparait 24 fois dans le corpus
U.R.S.S. apparait 23 fois dans le corpus
Chambres apparait 23 fois dans le corpus
Tokio apparait 21 fois dans le corpus
Benelux apparait 19 fois dans le corpus
O.N.U. apparait 16 fois dans le corpus
Constitution apparait 14 fois dans le corpus
Conseil de l’Europe apparait 14 fois dans le corpus
ministre de la Défense apparait 12 fois dans le corpus
ZURICH apparait 12 fois dans le corpus
Times apparait 11 fois dans le corpus
TELEPHONES apparait 11 fois dans le corpus
Le Soir apparait 10 fois dans le corpus
Commission apparait 10 fois dans le corpus
Appl apparait 9 fois dans le corpus
ministre des Affaires apparait 8 fois dans le corpus
Comité apparait 8 

In [9]:
# Compter les entités
locations = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "LOC" and len(ent.text) > 3:
        locations[ent.text] += 1

In [10]:
sorted_locations = sorted(locations.items(), key=lambda kv: kv[1], reverse=True)

for location, freq in sorted_locations[:50]:
         print(f"{location} apparait {freq} fois dans le corpus")

Corée apparait 190 fois dans le corpus
Etats-Unis apparait 100 fois dans le corpus
Belgique apparait 78 fois dans le corpus
Bruxelles apparait 72 fois dans le corpus
Américains apparait 70 fois dans le corpus
Etat apparait 57 fois dans le corpus
Grande-Bretagne apparait 56 fois dans le corpus
Londres apparait 52 fois dans le corpus
Moscou apparait 51 fois dans le corpus
Anvers apparait 51 fois dans le corpus
Paris apparait 47 fois dans le corpus
Allemagne apparait 45 fois dans le corpus
Washington apparait 44 fois dans le corpus
Russie apparait 37 fois dans le corpus
Coréens apparait 37 fois dans le corpus
Europe apparait 37 fois dans le corpus
Inde apparait 37 fois dans le corpus
Séoul apparait 36 fois dans le corpus
la Chine apparait 35 fois dans le corpus
la France apparait 32 fois dans le corpus
Taejon apparait 29 fois dans le corpus
Angleterre apparait 27 fois dans le corpus
Formose apparait 26 fois dans le corpus
Nord apparait 26 fois dans le corpus
Belges apparait 26 fois dans l