# Reconnaissance d'entités nommées avec SpaCy

La documentation est accessible ici: https://spacy.io/api

## Imports

In [2]:
from collections import defaultdict
import spacy
from spacy.lang.fr.examples import sentences
!python -m spacy download fr_core_news_md

Collecting fr-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_md-3.8.0/fr_core_news_md-3.8.0-py3-none-any.whl (45.8 MB)
     ---------------------------------------- 0.0/45.8 MB ? eta -:--:--
     ---------------------------------------- 0.0/45.8 MB ? eta -:--:--
     ---------------------------------------- 0.0/45.8 MB ? eta -:--:--
     ---------------------------------------- 0.0/45.8 MB ? eta -:--:--
     --------------------------------------- 0.0/45.8 MB 163.8 kB/s eta 0:04:40
     --------------------------------------- 0.0/45.8 MB 178.6 kB/s eta 0:04:17
     --------------------------------------- 0.2/45.8 MB 888.4 kB/s eta 0:00:52
      --------------------------------------- 0.7/45.8 MB 2.6 MB/s eta 0:00:18
     - -------------------------------------- 1.2/45.8 MB 3.8 MB/s eta 0:00:12
     - -------------------------------------- 1.8/45.8 MB 4.9 MB/s eta 0:00:10
     -- ------------------------------------- 2.5/45.8 M


[notice] A new release of pip is available: 24.0 -> 25.3
[notice] To update, run: C:\Users\Admin\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [3]:
nlp = spacy.load('fr_core_news_md')

## Exemple sur un corpus de test fourni par SpaCy

In [4]:
# Imprimer le corpus de Spacy
sentences

['Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 "Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs",
 "San Francisco envisage d'interdire les robots coursiers sur les trottoirs",
 'Londres est une grande ville du Royaume-Uni',
 'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe',
 "Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon",
 "La France ne devrait pas manquer d'électricité cet été, même en cas de canicule",
 'Nouvelles attaques de Trump contre le maire de Londres',
 'Où es-tu ?',
 'Qui est le président de la France ?',
 'Où est la capitale des États-Unis ?',
 'Quand est né Barack Obama ?']

In [5]:
# Isoler la première phrase
sent = sentences[0]
sent

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars'

In [6]:
# Traiter la phrase avec Spacy
doc = nlp(sent)

In [7]:
type(doc)

spacy.tokens.doc.Doc

In [8]:
doc.text

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars'

In [9]:
doc.to_json()

{'text': 'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 'ents': [{'start': 0, 'end': 5, 'label': 'ORG'}],
 'sents': [{'start': 0, 'end': 72}],
 'tokens': [{'id': 0,
   'start': 0,
   'end': 5,
   'tag': 'PROPN',
   'pos': 'PROPN',
   'morph': 'Gender=Masc|Number=Sing',
   'lemma': 'Apple',
   'dep': 'nsubj',
   'head': 1},
  {'id': 1,
   'start': 6,
   'end': 13,
   'tag': 'VERB',
   'pos': 'VERB',
   'morph': 'Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin',
   'lemma': 'cherche',
   'dep': 'ROOT',
   'head': 1},
  {'id': 2,
   'start': 14,
   'end': 15,
   'tag': 'ADP',
   'pos': 'ADP',
   'morph': '',
   'lemma': 'à',
   'dep': 'mark',
   'head': 3},
  {'id': 3,
   'start': 16,
   'end': 23,
   'tag': 'VERB',
   'pos': 'VERB',
   'morph': 'VerbForm=Inf',
   'lemma': 'acheter',
   'dep': 'xcomp',
   'head': 1},
  {'id': 4,
   'start': 24,
   'end': 27,
   'tag': 'DET',
   'pos': 'DET',
   'morph': 'Definite=Ind|Gender=Fem|Number=Sing|PronType=Art'

In [10]:
# Appliquer le test sur toutes les phrases
for sent in sentences:
    doc = nlp(sent)
    entities = []
    for ent in doc.ents:
        entities.append(f"{ent.text} ({ent.label_})")
    if entities:
        print(f"'{doc.text}' contient les entités suivantes : {', '.join(entities)}")
    else:
        print(f"'{doc.text}' ne contient aucune entité")

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars' contient les entités suivantes : Apple (ORG)
'Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs' ne contient aucune entité
'San Francisco envisage d'interdire les robots coursiers sur les trottoirs' contient les entités suivantes : San Francisco (LOC)
'Londres est une grande ville du Royaume-Uni' contient les entités suivantes : Londres (LOC), Royaume-Uni (LOC)
'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe' contient les entités suivantes : L’Italie (LOC), ArcelorMittal (ORG), Europe (LOC)
'Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon' contient les entités suivantes : Apple (ORG), HomePod (MISC), Echo (ORG), Amazon (ORG)
'La France ne devrait pas manquer d'électricité cet été, même en cas de canicule' contient les entités suivantes : La France (LOC)
'Nouvelles attaques de Trump contre le maire de Londres' contient les en

## Appliquer la reconnaissance d'entités nommées sur notre corpus

In [12]:
# Charger le texte
n=1000000
text = open("../data/tmp/1926.txt", encoding='utf-8').read()[:n]

In [13]:
%%time
# Traiter le texte

doc = nlp(text)

CPU times: total: 36.2 s
Wall time: 36.6 s


In [14]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

In [15]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

Rossel apparait 73 fois dans le corpus
Agence Rossel apparait 26 fois dans le corpus
Louise apparait 25 fois dans le corpus
Jeanne apparait 14 fois dans le corpus
Reine apparait 13 fois dans le corpus
Ledit apparait 9 fois dans le corpus
Turq apparait 9 fois dans le corpus
Anonyme apparait 9 fois dans le corpus
Salle apparait 9 fois dans le corpus
Molière apparait 9 fois dans le corpus
Agence Bossel apparait 9 fois dans le corpus
Soviets apparait 8 fois dans le corpus
repr apparait 8 fois dans le corpus
Président apparait 7 fois dans le corpus
Créd apparait 7 fois dans le corpus
Kérallan apparait 6 fois dans le corpus
Marthe apparait 6 fois dans le corpus
Brugmann apparait 6 fois dans le corpus
M. Briand apparait 6 fois dans le corpus
Mutuel apparait 6 fois dans le corpus
trav apparait 6 fois dans le corpus
L. DUCHENE 78 apparait 6 fois dans le corpus
Aristophane apparait 5 fois dans le corpus
M. Despret apparait 5 fois dans le corpus
VAN BENEDEN apparait 5 fois dans le corpus
Bailli a

Exercice: essayez de lister les lieux (LOC) et les organisations (ORG) les plus mentionnées dans le corpus

In [16]:
# Compter les entités de type lieu (LOC)
locations = defaultdict(int)
for ent in doc.ents:
    if ent.label_ in ["LOC"] and len(ent.text) > 3:
        locations[ent.text] += 1

# Trier et imprimer
sorted_locations = sorted(locations.items(), key=lambda kv: kv[1], reverse=True)

for loc, freq in sorted_locations[:50]:
    print(f"{loc} apparait {freq} fois dans le corpus")

Bruxelles apparait 195 fois dans le corpus
Paris apparait 68 fois dans le corpus
Brux apparait 67 fois dans le corpus
Anvers apparait 60 fois dans le corpus
Nord apparait 51 fois dans le corpus
Belgique apparait 49 fois dans le corpus
Etat apparait 34 fois dans le corpus
Liège apparait 33 fois dans le corpus
Londres apparait 31 fois dans le corpus
Agence Rossel apparait 29 fois dans le corpus
Bourse apparait 25 fois dans le corpus
Congo apparait 24 fois dans le corpus
garn apparait 24 fois dans le corpus
Midi apparait 23 fois dans le corpus
BRUXELLES apparait 22 fois dans le corpus
état apparait 19 fois dans le corpus
Collecte apparait 19 fois dans le corpus
Bossel apparait 18 fois dans le corpus
Gand apparait 17 fois dans le corpus
Ixelles apparait 16 fois dans le corpus
Téléphone apparait 16 fois dans le corpus
Louvain apparait 16 fois dans le corpus
Uccle apparait 16 fois dans le corpus
Berlin apparait 16 fois dans le corpus
Allemagne apparait 16 fois dans le corpus
jard apparait 16

In [18]:
# Compter les entités de type organisations (ORG)
organisations = defaultdict(int)
for ent in doc.ents:
    if ent.label_ in ["ORG"] and len(ent.text) > 3:
        organisations[ent.text] += 1

# Trier et imprimer
sorted_organisations = sorted(organisations.items(), key=lambda kv: kv[1], reverse=True)

for org, freq in sorted_organisations[:50]:
    print(f"{org} apparait {freq} fois dans le corpus")

Conseil apparait 20 fois dans le corpus
Téléphone apparait 11 fois dans le corpus
Ford apparait 10 fois dans le corpus
Parlement apparait 9 fois dans le corpus
Chambre apparait 9 fois dans le corpus
Banque apparait 9 fois dans le corpus
Société apparait 9 fois dans le corpus
Agence apparait 8 fois dans le corpus
Reich apparait 8 fois dans le corpus
Garantie apparait 7 fois dans le corpus
Reichstag apparait 7 fois dans le corpus
DEMOIS apparait 7 fois dans le corpus
Société des Nations apparait 6 fois dans le corpus
Torp apparait 5 fois dans le corpus
Elect apparait 5 fois dans le corpus
Sénat apparait 5 fois dans le corpus
AGENCE apparait 5 fois dans le corpus
COIFFEUR apparait 5 fois dans le corpus
Agence Rosscl apparait 5 fois dans le corpus
Couronne apparait 5 fois dans le corpus
Agence Rossel apparait 4 fois dans le corpus
FORD apparait 4 fois dans le corpus
PLOMBS apparait 4 fois dans le corpus
ALLEMAGNE apparait 4 fois dans le corpus
Académie d’Italie apparait 4 fois dans le corp