# Reconnaissance d'entités nommées avec SpaCy

La documentation est accessible ici: https://spacy.io/api

## Imports

In [5]:
from collections import defaultdict
import spacy
from spacy.lang.fr.examples import sentences
!python -m spacy download fr_core_news_md

Collecting fr-core-news-md==3.5.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_md-3.5.0/fr_core_news_md-3.5.0-py3-none-any.whl (45.8 MB)
     --------------------------------------- 45.8/45.8 MB 14.4 MB/s eta 0:00:00
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_md')


2024-11-04 10:05:13.570879: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2024-11-04 10:05:15.679150: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.

[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [6]:
nlp = spacy.load('fr_core_news_md')

## Exemple sur un corpus de test fourni par SpaCy

In [7]:
# Imprimer le corpus de Spacy
sentences

['Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 "Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs",
 "San Francisco envisage d'interdire les robots coursiers sur les trottoirs",
 'Londres est une grande ville du Royaume-Uni',
 'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe',
 "Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon",
 "La France ne devrait pas manquer d'électricité cet été, même en cas de canicule",
 'Nouvelles attaques de Trump contre le maire de Londres',
 'Où es-tu ?',
 'Qui est le président de la France ?',
 'Où est la capitale des États-Unis ?',
 'Quand est né Barack Obama ?']

In [8]:
# Isoler la première phrase
sent = sentences[1]
sent

"Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs"

In [9]:
# Traiter la phrase avec Spacy
doc = nlp(sent)

In [10]:
type(doc)

spacy.tokens.doc.Doc

In [11]:
doc.text

"Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs"

In [12]:
doc.to_json()

{'text': "Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs",
 'ents': [],
 'sents': [{'start': 0, 'end': 88}],
 'tokens': [{'id': 0,
   'start': 0,
   'end': 3,
   'tag': 'DET',
   'pos': 'DET',
   'morph': 'Definite=Def|Number=Plur|PronType=Art',
   'lemma': 'le',
   'dep': 'det',
   'head': 1},
  {'id': 1,
   'start': 4,
   'end': 12,
   'tag': 'NOUN',
   'pos': 'NOUN',
   'morph': 'Gender=Fem|Number=Plur',
   'lemma': 'voiture',
   'dep': 'nsubj',
   'head': 3},
  {'id': 2,
   'start': 13,
   'end': 22,
   'tag': 'ADJ',
   'pos': 'ADJ',
   'morph': 'Number=Plur',
   'lemma': 'autonome',
   'dep': 'amod',
   'head': 1},
  {'id': 3,
   'start': 23,
   'end': 32,
   'tag': 'VERB',
   'pos': 'VERB',
   'morph': 'Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin',
   'lemma': 'déplacer',
   'dep': 'ROOT',
   'head': 3},
  {'id': 4,
   'start': 33,
   'end': 35,
   'tag': 'DET',
   'pos': 'DET',
   'morph': 'Definite=Def|Gender=Fem|Number=Sing|P

In [13]:
# Appliquer le test sur toutes les phrases
for sent in sentences:
    doc = nlp(sent)
    entities = []
    for ent in doc.ents:
        entities.append(f"{ent.text} ({ent.label_})")
    if entities:
        print(f"'{doc.text}' contient les entités suivantes : {', '.join(entities)}")
    else:
        print(f"'{doc.text}' ne contient aucune entité")

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars' contient les entités suivantes : Apple (ORG)
'Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs' ne contient aucune entité
'San Francisco envisage d'interdire les robots coursiers sur les trottoirs' contient les entités suivantes : San Francisco (LOC)
'Londres est une grande ville du Royaume-Uni' contient les entités suivantes : Londres (LOC), Royaume-Uni (LOC)
'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe' contient les entités suivantes : L’Italie (LOC), ArcelorMittal (ORG), Europe (LOC)
'Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon' contient les entités suivantes : Apple (ORG), HomePod (MISC), Echo (MISC), Amazon (ORG)
'La France ne devrait pas manquer d'électricité cet été, même en cas de canicule' contient les entités suivantes : La France (LOC)
'Nouvelles attaques de Trump contre le maire de Londres' contient les e

## Appliquer la reconnaissance d'entités nommées sur notre corpus

In [19]:
# Charger le texte
n=100000
text = open("txt\KB_JB838_1887-12-22_01-00001.txt", encoding='utf-8').read()[:n]

In [15]:
%%time
# Traiter le texte
doc = nlp(text)

CPU times: total: 1.95 s
Wall time: 2.61 s


In [25]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

In [26]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

Louvel apparait 3 fois dans le corpus
Morey apparait 2 fois dans le corpus
Pépin apparait 2 fois dans le corpus
Thérèse apparait 2 fois dans le corpus
et.en province apparait 1 fois dans le corpus
frie d’Isabelle apparait 1 fois dans le corpus
Aubert apparait 1 fois dans le corpus
Auber apparait 1 fois dans le corpus
Aristogiton apparait 1 fois dans le corpus
depuil Brutus apparait 1 fois dans le corpus
Cassius apparait 1 fois dans le corpus
navecmernt apparait 1 fois dans le corpus
notrrJ temps apparait 1 fois dans le corpus
duc de Berry apparait 1 fois dans le corpus
Louvois apparait 1 fois dans le corpus
envic apparait 1 fois dans le corpus
Louis-Philippe apparait 1 fois dans le corpus
cetté époque apparait 1 fois dans le corpus
Fieschi apparait 1 fois dans le corpus
Ctus ’Héros 'et üe» apparait 1 fois dans le corpus
Jacques Clément apparait 1 fois dans le corpus
Henri III apparait 1 fois dans le corpus
Dieuoutragé apparait 1 fois dans le corpus
Liorsquo Louvel apparait 1 fois dans 

Exercice: essayez de lister les lieux (LOC) et les organisations (ORG) les plus mentionnées dans le corpus