# Reconnaissance d'entités nommées avec SpaCy

La documentation est accessible ici: https://spacy.io/api

## Imports

In [17]:
from collections import defaultdict
import spacy
from spacy.lang.fr.examples import sentences
!pip install  fr_core_news_md




[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [18]:
nlp = spacy.load('fr_core_news_md')

## Exemple sur un corpus de test fourni par SpaCy

In [19]:
# Imprimer le corpus de Spacy
sentences

['Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 "Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs",
 "San Francisco envisage d'interdire les robots coursiers sur les trottoirs",
 'Londres est une grande ville du Royaume-Uni',
 'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe',
 "Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon",
 "La France ne devrait pas manquer d'électricité cet été, même en cas de canicule",
 'Nouvelles attaques de Trump contre le maire de Londres',
 'Où es-tu ?',
 'Qui est le président de la France ?',
 'Où est la capitale des États-Unis ?',
 'Quand est né Barack Obama ?']

In [20]:
# Isoler la première phrase
sent = sentences[0]
sent

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars'

In [21]:
# Traiter la phrase avec Spacy
doc = nlp(sent)

In [22]:
type(doc)

spacy.tokens.doc.Doc

In [23]:
doc.text

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars'

In [24]:
doc.to_json()

{'text': 'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 'ents': [{'start': 0, 'end': 5, 'label': 'ORG'}],
 'sents': [{'start': 0, 'end': 72}],
 'tokens': [{'id': 0,
   'start': 0,
   'end': 5,
   'tag': 'PROPN',
   'pos': 'PROPN',
   'morph': 'Gender=Masc|Number=Sing',
   'lemma': 'Apple',
   'dep': 'nsubj',
   'head': 1},
  {'id': 1,
   'start': 6,
   'end': 13,
   'tag': 'VERB',
   'pos': 'VERB',
   'morph': 'Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin',
   'lemma': 'cherche',
   'dep': 'ROOT',
   'head': 1},
  {'id': 2,
   'start': 14,
   'end': 15,
   'tag': 'ADP',
   'pos': 'ADP',
   'morph': '',
   'lemma': 'à',
   'dep': 'mark',
   'head': 3},
  {'id': 3,
   'start': 16,
   'end': 23,
   'tag': 'VERB',
   'pos': 'VERB',
   'morph': 'VerbForm=Inf',
   'lemma': 'acheter',
   'dep': 'xcomp',
   'head': 1},
  {'id': 4,
   'start': 24,
   'end': 27,
   'tag': 'DET',
   'pos': 'DET',
   'morph': 'Definite=Ind|Gender=Fem|Number=Sing|PronType=Art'

In [25]:
# Appliquer le test sur toutes les phrases
for sent in sentences:
    doc = nlp(sent)
    entities = []
    for ent in doc.ents:
        entities.append(f"{ent.text} ({ent.label_})")
    if entities:
        print(f"'{doc.text}' contient les entités suivantes : {', '.join(entities)}")
    else:
        print(f"'{doc.text}' ne contient aucune entité")

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars' contient les entités suivantes : Apple (ORG)
'Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs' ne contient aucune entité
'San Francisco envisage d'interdire les robots coursiers sur les trottoirs' contient les entités suivantes : San Francisco (LOC)
'Londres est une grande ville du Royaume-Uni' contient les entités suivantes : Londres (LOC), Royaume-Uni (LOC)
'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe' contient les entités suivantes : L’Italie (LOC), ArcelorMittal (ORG), Europe (LOC)
'Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon' contient les entités suivantes : Apple (ORG), HomePod (MISC), Echo (ORG), Amazon (ORG)
'La France ne devrait pas manquer d'électricité cet été, même en cas de canicule' contient les entités suivantes : La France (LOC)
'Nouvelles attaques de Trump contre le maire de Londres' contient les en

## Appliquer la reconnaissance d'entités nommées sur notre corpus

J'ai modifié le path pour utiliser le fichier texte relatif à l'année 1951

In [None]:
# Charger le texte
n=1000000
text = open("../../data/tmp/1951.txt", encoding='utf-8').read()[:n]

In [27]:
%%time
# Traiter le texte

doc = nlp(text)

CPU times: total: 1min 7s
Wall time: 1min 8s


Lister les personnes présentes dans le corpus de textes de l'année 1951

In [28]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

In [29]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

Rossel apparait 428 fois dans le corpus
Ecrire Ag apparait 51 fois dans le corpus
Louise apparait 32 fois dans le corpus
Haydn apparait 30 fois dans le corpus
- Tél apparait 29 fois dans le corpus
Hitler apparait 28 fois dans le corpus
von Falkenhausen apparait 27 fois dans le corpus
chamb apparait 24 fois dans le corpus
Brugmann apparait 20 fois dans le corpus
Madou apparait 20 fois dans le corpus
atel apparait 19 fois dans le corpus
Agence Rossel apparait 19 fois dans le corpus
Courtin apparait 17 fois dans le corpus
lr ét apparait 16 fois dans le corpus
A. F. P. apparait 15 fois dans le corpus
A.F.P. apparait 15 fois dans le corpus
trav apparait 15 fois dans le corpus
Bonne apparait 14 fois dans le corpus
b. inst apparait 13 fois dans le corpus
A. P. apparait 13 fois dans le corpus
Hella apparait 11 fois dans le corpus
Dandoy apparait 10 fois dans le corpus
s. de b. apparait 10 fois dans le corpus
Ag Rossel apparait 10 fois dans le corpus
paiem apparait 10 fois dans le corpus
Gros a

Exercice: essayez de lister les lieux (LOC) et les organisations (ORG) les plus mentionnées dans le corpus

Lister les lieux présents dans le corpus de textes de l'année 1951

In [None]:
# Compter les entités de type lieu (LOC)
locations = defaultdict(int)
for ent in doc.ents:
    if ent.label_ in ["LOC"] and len(ent.text) > 3:
        locations[ent.text] += 1

# Trier et imprimer
sorted_locations = sorted(locations.items(), key=lambda kv: kv[1], reverse=True)

for loc, freq in sorted_locations[:50]:
    print(f"{loc} apparait {freq} fois dans le corpus")

Bruxelles apparait 217 fois dans le corpus
Brux apparait 133 fois dans le corpus
Téléph apparait 99 fois dans le corpus
Etat apparait 49 fois dans le corpus
Belgique apparait 41 fois dans le corpus
Ixelles apparait 39 fois dans le corpus
Anvers apparait 38 fois dans le corpus
Charleroi apparait 37 fois dans le corpus
Paris apparait 35 fois dans le corpus
Allemagne apparait 31 fois dans le corpus
chff apparait 31 fois dans le corpus
Mons apparait 30 fois dans le corpus
mans apparait 30 fois dans le corpus
garn apparait 28 fois dans le corpus
rue Royale apparait 27 fois dans le corpus
Nord apparait 26 fois dans le corpus
Uccle apparait 25 fois dans le corpus
Londres apparait 25 fois dans le corpus
meub apparait 25 fois dans le corpus
Etats-Unis apparait 24 fois dans le corpus
conf apparait 23 fois dans le corpus
tranq apparait 23 fois dans le corpus
terr apparait 23 fois dans le corpus
jard apparait 21 fois dans le corpus
France apparait 21 fois dans le corpus
Congo apparait 21 fois dans

Lister les organisations présentes dans le corpus de textes de l'année 1951

In [31]:
# Compter les entités de type organisations (ORG)
organisations = defaultdict(int)
for ent in doc.ents:
    if ent.label_ in ["ORG"] and len(ent.text) > 3:
        organisations[ent.text] += 1

# Trier et imprimer
sorted_organisations = sorted(organisations.items(), key=lambda kv: kv[1], reverse=True)

for org, freq in sorted_organisations[:50]:
    print(f"{org} apparait {freq} fois dans le corpus")

Reuter apparait 22 fois dans le corpus
Conseil apparait 21 fois dans le corpus
Agence Rossel num apparait 18 fois dans le corpus
Chambre apparait 15 fois dans le corpus
trav apparait 15 fois dans le corpus
Sipo apparait 13 fois dans le corpus
Agence Rossel apparait 11 fois dans le corpus
K ON DEM apparait 11 fois dans le corpus
Vietminh apparait 10 fois dans le corpus
Téléphone apparait 9 fois dans le corpus
Ezda apparait 9 fois dans le corpus
Référ apparait 9 fois dans le corpus
Banque Nationale apparait 9 fois dans le corpus
MENAGE apparait 8 fois dans le corpus
Banque apparait 8 fois dans le corpus
Justice apparait 7 fois dans le corpus
Sénat apparait 7 fois dans le corpus
Citroën apparait 6 fois dans le corpus
Firme apparait 6 fois dans le corpus
Inst apparait 6 fois dans le corpus
inst apparait 6 fois dans le corpus
ministre des Communications apparait 6 fois dans le corpus
Chevrolet apparait 6 fois dans le corpus
Nations-Unies apparait 6 fois dans le corpus
GALERIES apparait 5 fo