# Reconnaissance d'entités nommées avec SpaCy

La documentation est accessible ici: https://spacy.io/api

## Imports

In [10]:
from collections import defaultdict
import sys
import spacy
from spacy.lang.fr.examples import sentences

In [11]:
nlp = spacy.load('fr_core_news_md')

## Exemple sur un corpus de test fourni par SpaCy

In [12]:
# Imprimer le corpus de Spacy
sentences

['Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 "Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs",
 "San Francisco envisage d'interdire les robots coursiers sur les trottoirs",
 'Londres est une grande ville du Royaume-Uni',
 'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe',
 "Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon",
 "La France ne devrait pas manquer d'électricité cet été, même en cas de canicule",
 'Nouvelles attaques de Trump contre le maire de Londres',
 'Où es-tu ?',
 'Qui est le président de la France ?',
 'Où est la capitale des États-Unis ?',
 'Quand est né Barack Obama ?']

In [13]:
# Isoler la première phrase
sent = sentences[0]
sent

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars'

In [14]:
# Traiter la phrase avec Spacy
doc = nlp(sent)

In [15]:
type(doc)

spacy.tokens.doc.Doc

In [16]:
doc.text

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars'

In [17]:
doc.to_json()

{'text': 'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 'ents': [{'start': 0, 'end': 5, 'label': 'ORG'}],
 'sents': [{'start': 0, 'end': 72}],
 'tokens': [{'id': 0,
   'start': 0,
   'end': 5,
   'tag': 'PROPN',
   'pos': 'PROPN',
   'morph': '',
   'lemma': 'Apple',
   'dep': 'nsubj',
   'head': 1},
  {'id': 1,
   'start': 6,
   'end': 13,
   'tag': 'VERB',
   'pos': 'VERB',
   'morph': 'Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin',
   'lemma': 'cherche',
   'dep': 'ROOT',
   'head': 1},
  {'id': 2,
   'start': 14,
   'end': 15,
   'tag': 'ADP',
   'pos': 'ADP',
   'morph': '',
   'lemma': 'à',
   'dep': 'mark',
   'head': 3},
  {'id': 3,
   'start': 16,
   'end': 23,
   'tag': 'VERB',
   'pos': 'VERB',
   'morph': 'VerbForm=Inf',
   'lemma': 'acheter',
   'dep': 'xcomp',
   'head': 1},
  {'id': 4,
   'start': 24,
   'end': 27,
   'tag': 'DET',
   'pos': 'DET',
   'morph': 'Definite=Ind|Gender=Fem|Number=Sing|PronType=Art',
   'lemma': 'un',
   

In [18]:
# Appliquer le test sur toutes les phrases
for sent in sentences:
    doc = nlp(sent)
    entities = []
    for ent in doc.ents:
        entities.append(f"{ent.text} ({ent.label_})")
    if entities:
        print(f"'{doc.text}' contient les entités suivantes : {', '.join(entities)}")
    else:
        print(f"'{doc.text}' ne contient aucune entité")

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars' contient les entités suivantes : Apple (ORG)
'Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs' ne contient aucune entité
'San Francisco envisage d'interdire les robots coursiers sur les trottoirs' contient les entités suivantes : San Francisco (LOC)
'Londres est une grande ville du Royaume-Uni' contient les entités suivantes : Londres (LOC), Royaume-Uni (LOC)
'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe' contient les entités suivantes : L’Italie (LOC), ArcelorMittal (ORG), Europe (LOC)
'Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon' contient les entités suivantes : Apple (ORG), HomePod (MISC), Echo (MISC), Amazon (ORG)
'La France ne devrait pas manquer d'électricité cet été, même en cas de canicule' contient les entités suivantes : La France (LOC)
'Nouvelles attaques de Trump contre le maire de Londres' contient les e

## Appliquer la reconnaissance d'entités nommées sur notre corpus

In [19]:
# Charger le texte
n=100000
text = open("../data/keywords1925.txt", encoding='utf-8').read()[:n]

In [20]:
%%time
# Traiter le texte

doc = nlp(text)

CPU times: total: 656 ms
Wall time: 1.36 s


  lister les lieux (LOC) les plus mentionnées dans le corpus

In [21]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "LOC" and len(ent.text) > 3:
        people[ent.text] += 1

In [22]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

COIFFEUR apparait 2 fois dans le corpus
SociÃ©tÃ© apparait 2 fois dans le corpus
Agence apparait 1 fois dans le corpus
Agence Rossel,0.0021744848278108363 apparait 1 fois dans le corpus
Agence Rossel,0.0024280779041161277 apparait 1 fois dans le corpus
Agence Rossel,0.0027909900547092746
Agence Rossel,0.0029805879400731233
AcadÃ©mie Royale,0.003073659551423866 apparait 1 fois dans le corpus
Agence Rossel,0.0031780703666202666
 apparait 1 fois dans le corpus
Agence Rossel,0.0032102829421320517
 apparait 1 fois dans le corpus
Agence Rossel,0.0034953154188307684
Agence Rossel,0.0037445232215797706 apparait 1 fois dans le corpus
Agence Rossel,0.003941031595896739 apparait 1 fois dans le corpus
WLS SPÃ‰CIAUX,0.004438131297630017 apparait 1 fois dans le corpus
DIJK apparait 1 fois dans le corpus
Agence Rossel,0.0049979691167412865 apparait 1 fois dans le corpus
CREDIT apparait 1 fois dans le corpus
ANGLAIS,0.005170072504927538 apparait 1 fois dans le corpus
VENTE PUBLIQUE,0.00678886503670068

  lister les personnes (PER)  les plus mentionnées dans le corpus

In [None]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

In [None]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

  lister  les organisations (ORG) les plus mentionnées dans le corpus

In [None]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "ORG" and len(ent.text) > 3:
        people[ent.text] += 1

In [None]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")