# Reconnaissance d'entités nommées avec SpaCy

La documentation est accessible ici: https://spacy.io/api

## Imports

In [1]:
from collections import defaultdict
import sys
import spacy
from spacy.lang.fr.examples import sentences

In [2]:
nlp = spacy.load('fr_core_news_md')

## Exemple sur un corpus de test fourni par SpaCy

In [3]:
# Imprimer le corpus de Spacy
sentences

['Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 "Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs",
 "San Francisco envisage d'interdire les robots coursiers sur les trottoirs",
 'Londres est une grande ville du Royaume-Uni',
 'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe',
 "Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon",
 "La France ne devrait pas manquer d'électricité cet été, même en cas de canicule",
 'Nouvelles attaques de Trump contre le maire de Londres',
 'Où es-tu ?',
 'Qui est le président de la France ?',
 'Où est la capitale des États-Unis ?',
 'Quand est né Barack Obama ?']

In [4]:
# Isoler la première phrase
sent = sentences[0]
sent

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars'

In [5]:
# Traiter la phrase avec Spacy
doc = nlp(sent)

In [6]:
type(doc)

spacy.tokens.doc.Doc

In [7]:
doc.text

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars'

In [8]:
doc.to_json()

{'text': 'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 'ents': [{'start': 0, 'end': 5, 'label': 'ORG'}],
 'sents': [{'start': 0, 'end': 33},
  {'start': 33, 'end': 34},
  {'start': 34, 'end': 72}],
 'tokens': [{'id': 0,
   'start': 0,
   'end': 5,
   'tag': 'PROPN',
   'pos': 'PROPN',
   'morph': '',
   'lemma': 'Apple',
   'dep': 'nsubj',
   'head': 1},
  {'id': 1,
   'start': 6,
   'end': 13,
   'tag': 'VERB',
   'pos': 'VERB',
   'morph': 'Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin',
   'lemma': 'cherche',
   'dep': 'ROOT',
   'head': 1},
  {'id': 2,
   'start': 14,
   'end': 15,
   'tag': 'ADP',
   'pos': 'ADP',
   'morph': '',
   'lemma': 'à',
   'dep': 'mark',
   'head': 3},
  {'id': 3,
   'start': 16,
   'end': 23,
   'tag': 'VERB',
   'pos': 'VERB',
   'morph': 'VerbForm=Inf',
   'lemma': 'acheter',
   'dep': 'xcomp',
   'head': 1},
  {'id': 4,
   'start': 24,
   'end': 27,
   'tag': 'DET',
   'pos': 'DET',
   'morph': 'Definite=Ind|Gen

In [9]:
# Appliquer le test sur toutes les phrases
for sent in sentences:
    doc = nlp(sent)
    entities = []
    for ent in doc.ents:
        entities.append(f"{ent.text} ({ent.label_})")
    if entities:
        print(f"'{doc.text}' contient les entités suivantes : {', '.join(entities)}")
    else:
        print(f"'{doc.text}' ne contient aucune entité")

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars' contient les entités suivantes : Apple (ORG)
'Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs' ne contient aucune entité
'San Francisco envisage d'interdire les robots coursiers sur les trottoirs' contient les entités suivantes : San Francisco (LOC)
'Londres est une grande ville du Royaume-Uni' contient les entités suivantes : Londres (LOC), Royaume-Uni (LOC)
'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe' contient les entités suivantes : L’Italie (LOC), ArcelorMittal (ORG), Europe (LOC)
'Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon' contient les entités suivantes : Apple (ORG), HomePod (MISC), Echo (ORG), Amazon (ORG)
'La France ne devrait pas manquer d'électricité cet été, même en cas de canicule' contient les entités suivantes : La France (LOC)
'Nouvelles attaques de Trump contre le maire de Londres' contient les en

## Appliquer la reconnaissance d'entités nommées (personnes) sur le fichier 1960_clean.txt

In [10]:
# Charger le texte
n=900000
text = open("../data/tmp/1960_clean.txt", encoding='utf-8').read()[:n]

In [11]:
%%time
# Traiter le texte

doc = nlp(text)

CPU times: user 31.9 s, sys: 2.04 s, total: 34 s
Wall time: 34.3 s


In [12]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

In [13]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

looy apparait 19 fois dans le corpus
jean rouch apparait 10 fois dans le corpus
stockman apparait 8 fois dans le corpus
khrouchtchev apparait 7 fois dans le corpus
himst apparait 5 fois dans le corpus
césar apparait 5 fois dans le corpus
jeanne moreau apparait 5 fois dans le corpus
atel apparait 5 fois dans le corpus
liliane wouters apparait 5 fois dans le corpus
rollectric apparait 5 fois dans le corpus
eisenhower apparait 5 fois dans le corpus
sweeckx apparait 5 fois dans le corpus
jean nicolay apparait 4 fois dans le corpus
albert apparait 4 fois dans le corpus
molière apparait 4 fois dans le corpus
meyer apparait 4 fois dans le corpus
martin apparait 4 fois dans le corpus
beerschot apparait 4 fois dans le corpus
gilbert desmet apparait 4 fois dans le corpus
plèc apparait 4 fois dans le corpus
henri apparait 4 fois dans le corpus
paul gaity cabaret gaite apparait 4 fois dans le corpus
jean pierre jacobs apparait 4 fois dans le corpus
curric apparait 4 fois dans le corpus
emile daems

Exercice: essayez de lister les lieux (LOC) et les organisations (ORG) les plus mentionnées dans le corpus

## Appliquer la reconnaissance d'entités nommées (lieux) sur le fichier 1960_clean.txt

In [14]:
# Compter les entités
location = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "LOC" and len(ent.text) > 3:
        location[ent.text] += 1

# Trier et imprimer
sorted_location = sorted(location.items(), key=lambda kv: kv[1], reverse=True)

for place, freq in sorted_location[:50]:
    print(f"{place} apparait {freq} fois dans le corpus")

belgique apparait 59 fois dans le corpus
france apparait 49 fois dans le corpus
paris apparait 45 fois dans le corpus
namur apparait 22 fois dans le corpus
liège apparait 21 fois dans le corpus
gand apparait 20 fois dans le corpus
schaerbeek apparait 18 fois dans le corpus
algérie apparait 17 fois dans le corpus
italie apparait 17 fois dans le corpus
londres apparait 16 fois dans le corpus
japon apparait 14 fois dans le corpus
europe apparait 13 fois dans le corpus
congo apparait 12 fois dans le corpus
allemagne apparait 10 fois dans le corpus
washington apparait 10 fois dans le corpus
stockholm apparait 9 fois dans le corpus
rome apparait 9 fois dans le corpus
lyon apparait 9 fois dans le corpus
amérique apparait 8 fois dans le corpus
charleroi apparait 7 fois dans le corpus
new york apparait 7 fois dans le corpus
angleterre apparait 7 fois dans le corpus
milan apparait 7 fois dans le corpus
léopoldville apparait 7 fois dans le corpus
brésil apparait 6 fois dans le corpus
anderlecht a

## Appliquer la reconnaissance d'entités nommées (organisations) sur le fichier 1960_clean.txt

In [15]:
# Compter les entités
organization = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "ORG" and len(ent.text) > 3:
        organization[ent.text] += 1

# Trier et imprimer
sorted_organization = sorted(organization.items(), key=lambda kv: kv[1], reverse=True)

for org, freq in sorted_organization[:50]:
    print(f"{org} apparait {freq} fois dans le corpus")

peugeot apparait 21 fois dans le corpus
fiat apparait 12 fois dans le corpus
ford apparait 12 fois dans le corpus
michelin apparait 10 fois dans le corpus
renault apparait 7 fois dans le corpus
racing apparait 6 fois dans le corpus
opel apparait 4 fois dans le corpus
gaitskell apparait 3 fois dans le corpus
acec apparait 3 fois dans le corpus
volkswagen apparait 3 fois dans le corpus
mercedes apparait 3 fois dans le corpus
philips apparait 3 fois dans le corpus
tlve apparait 2 fois dans le corpus
france belgique apparait 2 fois dans le corpus
congo belge apparait 2 fois dans le corpus
fernande apparait 2 fois dans le corpus
chauss anvers apparait 2 fois dans le corpus
porsche apparait 2 fois dans le corpus
paris congrès apparait 2 fois dans le corpus
simca apparait 2 fois dans le corpus
volvo apparait 2 fois dans le corpus
num jeune apparait 2 fois dans le corpus
citroën apparait 2 fois dans le corpus
paris nice apparait 2 fois dans le corpus
wcndclen apparait 2 fois dans le corpus
whi