# Reconnaissance d'entités nommées avec SpaCy

La documentation est accessible ici: https://spacy.io/api

## Imports

In [1]:
from collections import defaultdict
import sys
import spacy
from spacy.lang.fr.examples import sentences

In [2]:
nlp = spacy.load('fr_core_news_md')

## Exemple sur un corpus de test fourni par SpaCy

In [3]:
# Imprimer le corpus de Spacy
sentences

['Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 "Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs",
 "San Francisco envisage d'interdire les robots coursiers sur les trottoirs",
 'Londres est une grande ville du Royaume-Uni',
 'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe',
 "Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon",
 "La France ne devrait pas manquer d'électricité cet été, même en cas de canicule",
 'Nouvelles attaques de Trump contre le maire de Londres',
 'Où es-tu ?',
 'Qui est le président de la France ?',
 'Où est la capitale des États-Unis ?',
 'Quand est né Barack Obama ?']

In [4]:
# Isoler la première phrase
sent = sentences[0]
sent

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars'

In [5]:
# Traiter la phrase avec Spacy
doc = nlp(sent)

In [6]:
type(doc)

spacy.tokens.doc.Doc

In [7]:
doc.text

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars'

In [8]:
doc.to_json()

{'text': 'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 'ents': [{'start': 0, 'end': 5, 'label': 'ORG'}],
 'sents': [{'start': 0, 'end': 33},
  {'start': 33, 'end': 34},
  {'start': 34, 'end': 72}],
 'tokens': [{'id': 0,
   'start': 0,
   'end': 5,
   'tag': 'PROPN',
   'pos': 'PROPN',
   'morph': '',
   'lemma': 'Apple',
   'dep': 'nsubj',
   'head': 1},
  {'id': 1,
   'start': 6,
   'end': 13,
   'tag': 'VERB',
   'pos': 'VERB',
   'morph': 'Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin',
   'lemma': 'cherche',
   'dep': 'ROOT',
   'head': 1},
  {'id': 2,
   'start': 14,
   'end': 15,
   'tag': 'ADP',
   'pos': 'ADP',
   'morph': '',
   'lemma': 'à',
   'dep': 'mark',
   'head': 3},
  {'id': 3,
   'start': 16,
   'end': 23,
   'tag': 'VERB',
   'pos': 'VERB',
   'morph': 'VerbForm=Inf',
   'lemma': 'acheter',
   'dep': 'xcomp',
   'head': 1},
  {'id': 4,
   'start': 24,
   'end': 27,
   'tag': 'DET',
   'pos': 'DET',
   'morph': 'Definite=Ind|Gen

In [9]:
# Appliquer le test sur toutes les phrases
for sent in sentences:
    doc = nlp(sent)
    entities = []
    for ent in doc.ents:
        entities.append(f"{ent.text} ({ent.label_})")
    if entities:
        print(f"'{doc.text}' contient les entités suivantes : {', '.join(entities)}")
    else:
        print(f"'{doc.text}' ne contient aucune entité")

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars' contient les entités suivantes : Apple (ORG)
'Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs' ne contient aucune entité
'San Francisco envisage d'interdire les robots coursiers sur les trottoirs' contient les entités suivantes : San Francisco (LOC)
'Londres est une grande ville du Royaume-Uni' contient les entités suivantes : Londres (LOC), Royaume-Uni (LOC)
'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe' contient les entités suivantes : L’Italie (LOC), ArcelorMittal (ORG), Europe (LOC)
'Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon' contient les entités suivantes : Apple (ORG), HomePod (MISC), Echo (ORG), Amazon (ORG)
'La France ne devrait pas manquer d'électricité cet été, même en cas de canicule' contient les entités suivantes : La France (LOC)
'Nouvelles attaques de Trump contre le maire de Londres' contient les en

## Appliquer la reconnaissance d'entités nommées sur notre corpus

In [10]:
# Charger le texte
n=100000
text = open("../data/tmp/1920.txt", encoding='utf-8').read()[:n]

In [11]:
%%time
# Traiter le texte

doc = nlp(text)

CPU times: user 5.86 s, sys: 178 ms, total: 6.03 s
Wall time: 6.11 s


In [12]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

In [13]:
# Compter les entités
organisations = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "ORG" and len(ent.text) > 3:
        organisations[ent.text] += 1

In [14]:
# Compter les entités
locations = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "LOC" and len(ent.text) > 3:
        locations[ent.text] += 1

In [15]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")



Caillaux apparait 7 fois dans le corpus
Lion Noir apparait 3 fois dans le corpus
Charles Benoist apparait 2 fois dans le corpus
Mirabeau apparait 2 fois dans le corpus
Humbert apparait 2 fois dans le corpus
M. Deiwarde apparait 2 fois dans le corpus
Lobet apparait 2 fois dans le corpus
Jean apparait 2 fois dans le corpus
aibi't apparait 1 fois dans le corpus
risa fe doiuictle apparait 1 fois dans le corpus
Charles I apparait 1 fois dans le corpus
jqed table apparait 1 fois dans le corpus
A1J>. G apparait 1 fois dans le corpus
Giraud apparait 1 fois dans le corpus
O. X. apparait 1 fois dans le corpus
S j. J apparait 1 fois dans le corpus
Umvs M apparait 1 fois dans le corpus
L ïï-AJisla^. apparait 1 fois dans le corpus
R. PETITFIL8 apparait 1 fois dans le corpus
T6léphono Bruxolfea apparait 1 fois dans le corpus
mmm cço apparait 1 fois dans le corpus
Gands Do apparait 1 fois dans le corpus
AiTest.- apparait 1 fois dans le corpus
Kts t s. apparait 1 fois dans le corpus
P.A.D. apparait 1 

In [16]:
sorted_organisations = sorted(organisations.items(), key=lambda kv: kv[1], reverse=True)

for organisation, freq in sorted_organisations[:50]:
        print(f"{organisation} apparait {freq} fois dans le corpus")

URINAIRES apparait 2 fois dans le corpus
Chevrolet apparait 2 fois dans le corpus
FIRME apparait 2 fois dans le corpus
Steinbach apparait 2 fois dans le corpus
Commanderie apparait 2 fois dans le corpus
Conseil apparait 2 fois dans le corpus
COMMERCIAIE apparait 1 fois dans le corpus
Ajrecee Rossai apparait 1 fois dans le corpus
Pharmacie apparait 1 fois dans le corpus
D«blii».7Lî ç.(£:5’&>.y<^rîfe2& ii)î5 apparait 1 fois dans le corpus
Irui apparait 1 fois dans le corpus
Vrl Four von apparait 1 fois dans le corpus
YAA£)î9li apparait 1 fois dans le corpus
aiiTlaixes apparait 1 fois dans le corpus
Palîle apparait 1 fois dans le corpus
VIDEE Fins apparait 1 fois dans le corpus
hianonae 50 fr.. ejitroe nrls apparait 1 fois dans le corpus
APPUCATIONS apparait 1 fois dans le corpus
Fauta Die apparait 1 fois dans le corpus
JVAriçnt apparait 1 fois dans le corpus
.ta j ! apparait 1 fois dans le corpus
J U LIA apparait 1 fois dans le corpus
IIYTE apparait 1 fois dans le corpus
Marché-| apparai

In [17]:
sorted_locations = sorted(locations.items(), key=lambda kv: kv[1], reverse=True)

for location, freq in sorted_locations[:50]:
         print(f"{location} apparait {freq} fois dans le corpus")

Belgique apparait 13 fois dans le corpus
Bruxelles apparait 12 fois dans le corpus
état apparait 10 fois dans le corpus
Anvers apparait 5 fois dans le corpus
France apparait 5 fois dans le corpus
Paris apparait 5 fois dans le corpus
Allemagne apparait 4 fois dans le corpus
Bouteilles apparait 3 fois dans le corpus
Nord apparait 3 fois dans le corpus
Cologne apparait 3 fois dans le corpus
Rhin apparait 3 fois dans le corpus
Etat apparait 3 fois dans le corpus
La Haye apparait 3 fois dans le corpus
Flandre apparait 2 fois dans le corpus
Brux apparait 2 fois dans le corpus
A VEND apparait 2 fois dans le corpus
Stockholm apparait 2 fois dans le corpus
Français apparait 2 fois dans le corpus
Liège apparait 2 fois dans le corpus
la France apparait 2 fois dans le corpus
Belges apparait 2 fois dans le corpus
Londres apparait 2 fois dans le corpus
Angleterre apparait 2 fois dans le corpus
Rome apparait 2 fois dans le corpus
Russie apparait 2 fois dans le corpus
Suisse apparait 2 fois dans le co

Exercice: essayez de lister les lieux (LOC) et les organisations (ORG) les plus mentionnées dans le corpus