# Named-entity recognition with SpaCy

In [1]:
from collections import defaultdict
import sys

import spacy
from spacy.lang.fr.examples import sentences

Pour installer les modèles Spacy en français : `python -m spacy download fr_core_news_sm`

In [2]:
nlp = spacy.load('fr_core_news_sm')

## Exemple sur un corpus de Spacy

In [3]:
# Imprimer le corpus de Spacy

sentences

['Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 "Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs",
 "San Francisco envisage d'interdire les robots coursiers sur les trottoirs",
 'Londres est une grande ville du Royaume-Uni',
 'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe',
 "Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon",
 "La France ne devrait pas manquer d'électricité cet été, même en cas de canicule",
 'Nouvelles attaques de Trump contre le maire de Londres',
 'Où es-tu ?',
 'Qui est le président de la France ?',
 'Où est la capitale des États-Unis ?',
 'Quand est né Barack Obama ?']

In [4]:
# Isoler la première phrase

sent = sentences[0]

sent

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars'

In [5]:
# Traiter la phrase avec Spacy

doc = nlp(sent)

In [6]:
type(doc)

spacy.tokens.doc.Doc

## La documentation est accessible ici, https://spacy.io/api/doc¶

In [7]:
doc.text

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars'

In [8]:
doc.to_json()

{'text': 'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 'ents': [{'start': 0, 'end': 5, 'label': 'ORG'}],
 'sents': [{'start': 0, 'end': 72}],
 'tokens': [{'id': 0,
   'start': 0,
   'end': 5,
   'pos': 'NOUN',
   'tag': 'NOUN__Gender=Fem|Number=Sing',
   'dep': 'ROOT',
   'head': 0},
  {'id': 1,
   'start': 6,
   'end': 13,
   'pos': 'NOUN',
   'tag': 'NOUN__Gender=Fem|Number=Sing',
   'dep': 'amod',
   'head': 0},
  {'id': 2,
   'start': 14,
   'end': 15,
   'pos': 'ADP',
   'tag': 'ADP',
   'dep': 'mark',
   'head': 3},
  {'id': 3,
   'start': 16,
   'end': 23,
   'pos': 'VERB',
   'tag': 'VERB__VerbForm=Inf',
   'dep': 'acl',
   'head': 0},
  {'id': 4,
   'start': 24,
   'end': 27,
   'pos': 'DET',
   'tag': 'DET__Definite=Ind|Gender=Fem|Number=Sing|PronType=Art',
   'dep': 'det',
   'head': 5},
  {'id': 5,
   'start': 28,
   'end': 33,
   'pos': 'NOUN',
   'tag': 'NOUN__Gender=Fem|Number=Sing',
   'dep': 'obj',
   'head': 3},
  {'id': 6,
   'start': 3

## Appliquer l'approche sur toutes les phrases


In [9]:
for sent in sentences:
    doc = nlp(sent)
    entities = []
    for ent in doc.ents:
        entities.append(f"{ent.text} ({ent.label_})")
    if entities:
        print(f"'{doc.text}' contains the following entities: {', '.join(entities)}")
    else:
        print(f"'{doc.text}' contains no entities")

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars' contains the following entities: Apple (ORG)
'Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs' contains no entities
'San Francisco envisage d'interdire les robots coursiers sur les trottoirs' contains the following entities: San Francisco (LOC)
'Londres est une grande ville du Royaume-Uni' contains the following entities: Londres (LOC), Royaume-Uni (LOC)
'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe' contains the following entities: ArcelorMittal (MISC), Europe (LOC)
'Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon' contains the following entities: Apple (ORG), HomePod (MISC), Echo (MISC)
'La France ne devrait pas manquer d'électricité cet été, même en cas de canicule' contains the following entities: La France (LOC)
'Nouvelles attaques de Trump contre le maire de Londres' contains the following entities: Trump (LOC), Lo

## Application sur le corpus


In [10]:
# Charger le texte

n=1000000
text = open("../data/all.txt", encoding='utf-8').read()[:n]

In [11]:
%%time
# Traiter le texte

doc = nlp(text)

Wall time: 49.7 s


In [12]:
# Compter les entités

people = defaultdict(int)

for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

In [13]:
people

defaultdict(int,
            {'H. B': 1,
             'I\n\nfai Phonnenr': 1,
             'Adolphe Bartels': 1,
             '— Dépôt': 1,
             'M. le conseiller Bartels': 1,
             'M. Bortier': 21,
             'Hospices': 8,
             'M. Partoes': 3,
             'É V A L U A T I O N DES T': 1,
             'Bortier': 65,
             'M le Président': 1,
             'Cluysenaar': 8,
             'Jean-Philippe Verelst': 1,
             'baron de Ghendt': 2,
             'A. De la blanchisserie le Noyer': 1,
             'Verelst': 4,
             'Anne': 1,
             'Marie Van Craenenbroeck': 1,
             'baron de Ghendt de Lenglentier': 2,
             'Phospiee': 1,
             'Gendebien': 120,
             'Messieurs': 24,
             'Anspach': 32,
             'Président': 6,
             'De Hemplinne': 1,
             'Pardon': 1,
             'Pentretien': 1,
             'Trumper': 4,
             'Van Doornick': 6,
             'Fontainas': 

In [15]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:10]:
    print(f"{person} appears {freq} times in the corpus")

Gendebien appears 120 times in the corpus
Bortier appears 65 times in the corpus
Brouckere appears 63 times in the corpus
Doncker appears 43 times in the corpus
Anspach appears 32 times in the corpus
Messieurs appears 24 times in the corpus
M. Bortier appears 21 times in the corpus
Page appears 21 times in the corpus
Fontainas appears 19 times in the corpus
Blaes appears 17 times in the corpus
