# Reconnaissance d'entités nommées avec SpaCy

La documentation est accessible ici: https://spacy.io/api

## Imports

In [1]:
from collections import defaultdict
import spacy
from spacy.lang.fr.examples import sentences
!pip install  fr_core_news_md




[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
nlp = spacy.load('fr_core_news_md')

## Exemple sur un corpus de test fourni par SpaCy

In [3]:
# Imprimer le corpus de Spacy
sentences

['Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 "Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs",
 "San Francisco envisage d'interdire les robots coursiers sur les trottoirs",
 'Londres est une grande ville du Royaume-Uni',
 'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe',
 "Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon",
 "La France ne devrait pas manquer d'électricité cet été, même en cas de canicule",
 'Nouvelles attaques de Trump contre le maire de Londres',
 'Où es-tu ?',
 'Qui est le président de la France ?',
 'Où est la capitale des États-Unis ?',
 'Quand est né Barack Obama ?']

In [4]:
# Isoler la première phrase
sent = sentences[0]
sent

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars'

In [5]:
# Traiter la phrase avec Spacy
doc = nlp(sent)

In [6]:
type(doc)

spacy.tokens.doc.Doc

In [7]:
doc.text

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars'

In [8]:
doc.to_json()

{'text': 'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 'ents': [{'start': 0, 'end': 5, 'label': 'ORG'}],
 'sents': [{'start': 0, 'end': 72}],
 'tokens': [{'id': 0,
   'start': 0,
   'end': 5,
   'tag': 'PROPN',
   'pos': 'PROPN',
   'morph': 'Gender=Masc|Number=Sing',
   'lemma': 'Apple',
   'dep': 'nsubj',
   'head': 1},
  {'id': 1,
   'start': 6,
   'end': 13,
   'tag': 'VERB',
   'pos': 'VERB',
   'morph': 'Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin',
   'lemma': 'cherche',
   'dep': 'ROOT',
   'head': 1},
  {'id': 2,
   'start': 14,
   'end': 15,
   'tag': 'ADP',
   'pos': 'ADP',
   'morph': '',
   'lemma': 'à',
   'dep': 'mark',
   'head': 3},
  {'id': 3,
   'start': 16,
   'end': 23,
   'tag': 'VERB',
   'pos': 'VERB',
   'morph': 'VerbForm=Inf',
   'lemma': 'acheter',
   'dep': 'xcomp',
   'head': 1},
  {'id': 4,
   'start': 24,
   'end': 27,
   'tag': 'DET',
   'pos': 'DET',
   'morph': 'Definite=Ind|Gender=Fem|Number=Sing|PronType=Art'

In [9]:
# Appliquer le test sur toutes les phrases
for sent in sentences:
    doc = nlp(sent)
    entities = []
    for ent in doc.ents:
        entities.append(f"{ent.text} ({ent.label_})")
    if entities:
        print(f"'{doc.text}' contient les entités suivantes : {', '.join(entities)}")
    else:
        print(f"'{doc.text}' ne contient aucune entité")

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars' contient les entités suivantes : Apple (ORG)
'Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs' ne contient aucune entité
'San Francisco envisage d'interdire les robots coursiers sur les trottoirs' contient les entités suivantes : San Francisco (LOC)
'Londres est une grande ville du Royaume-Uni' contient les entités suivantes : Londres (LOC), Royaume-Uni (LOC)
'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe' contient les entités suivantes : L’Italie (LOC), ArcelorMittal (ORG), Europe (LOC)
'Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon' contient les entités suivantes : Apple (ORG), HomePod (MISC), Echo (ORG), Amazon (ORG)
'La France ne devrait pas manquer d'électricité cet été, même en cas de canicule' contient les entités suivantes : La France (LOC)
'Nouvelles attaques de Trump contre le maire de Londres' contient les en

## Appliquer la reconnaissance d'entités nommées sur notre corpus

In [10]:
# Charger le texte
text = open("../data/Annee_1900/all_1900.txt", encoding='utf-8').read()

In [11]:
%%time
# Traiter le texte

doc = nlp(text)

CPU times: total: 1min 52s
Wall time: 2min 2s


In [None]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

LOC
PER
ORG
LOC
MISC
LOC
MISC
PER
ORG
PER
PER
LOC
LOC
MISC
LOC
PER
PER
LOC
PER
PER
PER
PER
LOC
PER
LOC
LOC
PER
PER
PER
LOC
PER
LOC
PER
PER
LOC
LOC
MISC
PER
ORG
LOC
LOC
LOC
LOC
LOC
ORG
ORG
LOC
MISC
PER
MISC
LOC
LOC
ORG
ORG
LOC
MISC
LOC
LOC
PER
LOC
ORG
MISC
ORG
PER
ORG
ORG
LOC
LOC
LOC
PER
LOC
MISC
LOC
ORG
LOC
LOC
MISC
MISC
ORG
ORG
LOC
PER
MISC
LOC
MISC
MISC
PER
ORG
ORG
LOC
LOC
LOC
PER
PER
LOC
ORG
ORG
MISC
LOC
LOC
LOC
LOC
LOC
LOC
LOC
LOC
LOC
PER
PER
ORG
ORG
LOC
LOC
PER
MISC
MISC
PER
ORG
PER
PER
MISC
PER
PER
MISC
PER
LOC
PER
PER
ORG
MISC
MISC
PER
LOC
PER
PER
PER
PER
LOC
ORG
MISC
PER
PER
LOC
MISC
PER
ORG
PER
LOC
LOC
PER
PER
LOC
PER
LOC
MISC
PER
MISC
MISC
MISC
PER
LOC
PER
PER
ORG
PER
PER
MISC
PER
LOC
ORG
PER
PER
PER
LOC
LOC
LOC
PER
LOC
LOC
LOC
PER
ORG
ORG
MISC
PER
MISC
LOC
MISC
PER
MISC
LOC
LOC
MISC
PER
PER
PER
MISC
LOC
PER
PER
PER
LOC
PER
PER
MISC
LOC
PER
PER
PER
LOC
LOC
PER
LOC
LOC
LOC
LOC
LOC
PER
PER
LOC
PER
PER
LOC
LOC
PER
LOC
MISC
LOC
MISC
PER
LOC
LOC
LOC
LOC
LOC
PER
LOC
PER
PER
LOC
PER

In [13]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

Rossel apparait 143 fois dans le corpus
Agence Rossel apparait 32 fois dans le corpus
Guérin apparait 26 fois dans le corpus
Jeanne apparait 22 fois dans le corpus
Louise apparait 20 fois dans le corpus
Kossel apparait 15 fois dans le corpus
M. Travers apparait 14 fois dans le corpus
Ladysmith apparait 13 fois dans le corpus
Emile apparait 13 fois dans le corpus
général Buller apparait 12 fois dans le corpus
Mérode apparait 11 fois dans le corpus
French apparait 9 fois dans le corpus
Frère apparait 9 fois dans le corpus
Louis XV apparait 9 fois dans le corpus
Van Artevelde apparait 9 fois dans le corpus
Mme de Rambure apparait 9 fois dans le corpus
Mrs Anderson apparait 9 fois dans le corpus
magas apparait 8 fois dans le corpus
Anspach apparait 8 fois dans le corpus
b. cert apparait 8 fois dans le corpus
Messieurs apparait 7 fois dans le corpus
M. de Samery apparait 7 fois dans le corpus
Louis XVI apparait 7 fois dans le corpus
Buller apparait 7 fois dans le corpus
Tina apparait 7 fois

Exercice: essayez de lister les lieux (LOC) et les organisations (ORG) les plus mentionnées dans le corpus

In [14]:
loc = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "LOC" and len(ent.text) > 3:
        loc[ent.text] += 1

sorted_loc = sorted(loc.items(), key=lambda kv: kv[1], reverse=True)

for loc, freq in sorted_loc[:50]:
    print(f"{loc} apparait {freq} fois dans le corpus")

Bruxelles apparait 165 fois dans le corpus
Boers apparait 88 fois dans le corpus
Paris apparait 56 fois dans le corpus
Anvers apparait 39 fois dans le corpus
Anglais apparait 38 fois dans le corpus
Angleterre apparait 35 fois dans le corpus
Centre apparait 34 fois dans le corpus
Midi apparait 34 fois dans le corpus
Nord apparait 33 fois dans le corpus
Belgique apparait 29 fois dans le corpus
Brux apparait 27 fois dans le corpus
Londres apparait 25 fois dans le corpus
Laeken apparait 25 fois dans le corpus
Ixelles apparait 23 fois dans le corpus
Etat apparait 21 fois dans le corpus
Bourse apparait 20 fois dans le corpus
Tugela apparait 19 fois dans le corpus
Agence Rossel apparait 19 fois dans le corpus
Allemagne apparait 18 fois dans le corpus
Schaerbeek apparait 18 fois dans le corpus
Liège apparait 17 fois dans le corpus
Charleroi apparait 17 fois dans le corpus
France apparait 16 fois dans le corpus
Namur apparait 16 fois dans le corpus
Louvain apparait 16 fois dans le corpus
Kimber

In [15]:
org = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "ORG" and len(ent.text) > 3:
        org[ent.text] += 1

sorted_org = sorted(org.items(), key=lambda kv: kv[1], reverse=True)

for org, freq in sorted_org[:50]:
    print(f"{org} apparait {freq} fois dans le corpus")

Qn dem apparait 48 fois dans le corpus
Chambre apparait 16 fois dans le corpus
An dem apparait 9 fois dans le corpus
FRONTIERE apparait 8 fois dans le corpus
Conseil apparait 7 fois dans le corpus
Times apparait 7 fois dans le corpus
Sénat apparait 6 fois dans le corpus
PIANOS apparait 6 fois dans le corpus
n dem apparait 5 fois dans le corpus
Aciéries apparait 5 fois dans le corpus
Daily Mail apparait 4 fois dans le corpus
Standard apparait 4 fois dans le corpus
Matelas laine apparait 4 fois dans le corpus
Banque Belge apparait 4 fois dans le corpus
Société apparait 4 fois dans le corpus
Tout-venant apparait 4 fois dans le corpus
Banque nationale apparait 4 fois dans le corpus
COIFFEUR apparait 4 fois dans le corpus
Parlement apparait 3 fois dans le corpus
AMEUBLEMENTS apparait 3 fois dans le corpus
pAtiss apparait 3 fois dans le corpus
trav apparait 3 fois dans le corpus
Le Soir apparait 3 fois dans le corpus
SOUWEINE apparait 3 fois dans le corpus
Bureau apparait 3 fois dans le corp