# Reconnaissance d'entités nommées avec SpaCy

La documentation est accessible ici: https://spacy.io/api

## Imports

In [1]:
from collections import defaultdict
import spacy
from spacy.lang.fr.examples import sentences
import  fr_core_news_md

In [2]:
nlp = spacy.load('fr_core_news_md')

## Exemple sur un corpus de test fourni par SpaCy

In [3]:
# Imprimer le corpus de Spacy
sentences

['Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 "Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs",
 "San Francisco envisage d'interdire les robots coursiers sur les trottoirs",
 'Londres est une grande ville du Royaume-Uni',
 'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe',
 "Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon",
 "La France ne devrait pas manquer d'électricité cet été, même en cas de canicule",
 'Nouvelles attaques de Trump contre le maire de Londres',
 'Où es-tu ?',
 'Qui est le président de la France ?',
 'Où est la capitale des États-Unis ?',
 'Quand est né Barack Obama ?']

In [4]:
# Isoler la première phrase
sent = sentences[0]
sent

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars'

In [5]:
# Traiter la phrase avec Spacy
doc = nlp(sent)

In [6]:
type(doc)

spacy.tokens.doc.Doc

In [7]:
doc.text

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars'

In [8]:
doc.to_json()

{'text': 'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars',
 'ents': [{'start': 0, 'end': 5, 'label': 'ORG'}],
 'sents': [{'start': 0, 'end': 72}],
 'tokens': [{'id': 0,
   'start': 0,
   'end': 5,
   'tag': 'PROPN',
   'pos': 'PROPN',
   'morph': 'Gender=Masc|Number=Sing',
   'lemma': 'Apple',
   'dep': 'nsubj',
   'head': 1},
  {'id': 1,
   'start': 6,
   'end': 13,
   'tag': 'VERB',
   'pos': 'VERB',
   'morph': 'Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin',
   'lemma': 'cherche',
   'dep': 'ROOT',
   'head': 1},
  {'id': 2,
   'start': 14,
   'end': 15,
   'tag': 'ADP',
   'pos': 'ADP',
   'morph': '',
   'lemma': 'à',
   'dep': 'mark',
   'head': 3},
  {'id': 3,
   'start': 16,
   'end': 23,
   'tag': 'VERB',
   'pos': 'VERB',
   'morph': 'VerbForm=Inf',
   'lemma': 'acheter',
   'dep': 'xcomp',
   'head': 1},
  {'id': 4,
   'start': 24,
   'end': 27,
   'tag': 'DET',
   'pos': 'DET',
   'morph': 'Definite=Ind|Gender=Fem|Number=Sing|PronType=Art'

In [9]:
# Appliquer le test sur toutes les phrases
for sent in sentences:
    doc = nlp(sent)
    entities = []
    for ent in doc.ents:
        entities.append(f"{ent.text} ({ent.label_})")
    if entities:
        print(f"'{doc.text}' contient les entités suivantes : {', '.join(entities)}")
    else:
        print(f"'{doc.text}' ne contient aucune entité")

'Apple cherche à acheter une start-up anglaise pour 1 milliard de dollars' contient les entités suivantes : Apple (ORG)
'Les voitures autonomes déplacent la responsabilité de l'assurance vers les constructeurs' ne contient aucune entité
'San Francisco envisage d'interdire les robots coursiers sur les trottoirs' contient les entités suivantes : San Francisco (LOC)
'Londres est une grande ville du Royaume-Uni' contient les entités suivantes : Londres (LOC), Royaume-Uni (LOC)
'L’Italie choisit ArcelorMittal pour reprendre la plus grande aciérie d’Europe' contient les entités suivantes : L’Italie (LOC), ArcelorMittal (ORG), Europe (LOC)
'Apple lance HomePod parce qu'il se sent menacé par l'Echo d'Amazon' contient les entités suivantes : Apple (ORG), HomePod (MISC), Echo (ORG), Amazon (ORG)
'La France ne devrait pas manquer d'électricité cet été, même en cas de canicule' contient les entités suivantes : La France (LOC)
'Nouvelles attaques de Trump contre le maire de Londres' contient les en

## Appliquer la reconnaissance d'entités nommées sur notre corpus

In [10]:
# Charger le texte
n=1000000
text = open("../data/tmp/1934.txt", encoding='utf-8').read()[:n]

In [11]:
%%time
# Traiter le texte

doc = nlp(text)

CPU times: total: 43.9 s
Wall time: 44 s


In [12]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

In [13]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

Rossel apparait 363 fois dans le corpus
Ecrire Ag apparait 64 fois dans le corpus
Agence Rossel apparait 51 fois dans le corpus
Stavisky apparait 27 fois dans le corpus
culs apparait 22 fois dans le corpus
Louise apparait 22 fois dans le corpus
Brugmann apparait 22 fois dans le corpus
chamb apparait 19 fois dans le corpus
Paul-Louis apparait 19 fois dans le corpus
Ledit apparait 18 fois dans le corpus
Jacques apparait 17 fois dans le corpus
atel apparait 15 fois dans le corpus
Monsieur apparait 15 fois dans le corpus
Jean apparait 14 fois dans le corpus
Disques apparait 14 fois dans le corpus
Rosse apparait 12 fois dans le corpus
coch apparait 12 fois dans le corpus
Madou apparait 11 fois dans le corpus
Inut apparait 10 fois dans le corpus
lr ét apparait 10 fois dans le corpus
Albert apparait 10 fois dans le corpus
Leroux apparait 10 fois dans le corpus
Camille HAUCHAMPS apparait 9 fois dans le corpus
Van Volxem apparait 9 fois dans le corpus
Mathieu apparait 9 fois dans le corpus
Pers

Exercice: essayez de lister les lieux (LOC) et les organisations (ORG) les plus mentionnées dans le corpus

In [14]:
# Compter les lieux (LOC)
locations = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "LOC" and len(ent.text) > 3:
        locations[ent.text] += 1

# Trier et imprimer les lieux
print("=== LIEUX LES PLUS MENTIONNÉS ===\n")
sorted_locations = sorted(locations.items(), key=lambda kv: kv[1], reverse=True)

for location, freq in sorted_locations[:50]:
    print(f"{location} apparaît {freq} fois dans le corpus")


=== LIEUX LES PLUS MENTIONNÉS ===

Bruxelles apparaît 306 fois dans le corpus
Paris apparaît 78 fois dans le corpus
Brux apparaît 73 fois dans le corpus
Anvers apparaît 59 fois dans le corpus
A Bruxelles apparaît 58 fois dans le corpus
Belgique apparaît 55 fois dans le corpus
rue du Nord apparaît 50 fois dans le corpus
Londres apparaît 38 fois dans le corpus
Schaerbeek apparaît 34 fois dans le corpus
Bourse apparaît 34 fois dans le corpus
Allemagne apparaît 33 fois dans le corpus
w.-c apparaît 29 fois dans le corpus
Liège apparaît 28 fois dans le corpus
Ixelles apparaît 26 fois dans le corpus
Nord apparaît 26 fois dans le corpus
Gand apparaît 25 fois dans le corpus
Centre apparaît 25 fois dans le corpus
Wavre apparaît 24 fois dans le corpus
Mons apparaît 24 fois dans le corpus
Haecht apparaît 23 fois dans le corpus
BRUXELLES apparaît 22 fois dans le corpus
Etat apparaît 21 fois dans le corpus
Louvain apparaît 20 fois dans le corpus
Uccle apparaît 20 fois dans le corpus
Brabant apparaît

In [15]:
# Compter les organisations (ORG)
organizations = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "ORG" and len(ent.text) > 3:
        organizations[ent.text] += 1

# Trier et imprimer les organisations
print("\n\n=== ORGANISATIONS LES PLUS MENTIONNÉES ===\n")
sorted_organizations = sorted(organizations.items(), key=lambda kv: kv[1], reverse=True)

for org, freq in sorted_organizations[:50]:
    print(f"{org} apparaît {freq} fois dans le corpus")




=== ORGANISATIONS LES PLUS MENTIONNÉES ===

Disques apparaît 54 fois dans le corpus
K ON DEM apparaît 29 fois dans le corpus
Conseil apparaît 20 fois dans le corpus
Emeraude apparaît 15 fois dans le corpus
Inform apparaît 14 fois dans le corpus
Chambre apparaît 12 fois dans le corpus
Inst apparaît 10 fois dans le corpus
Chevrolet apparaît 9 fois dans le corpus
trav apparaît 8 fois dans le corpus
SERVEUSE apparaît 8 fois dans le corpus
Conseil de la S. D. N. apparaît 8 fois dans le corpus
Shell apparaît 8 fois dans le corpus
Intér apparaît 8 fois dans le corpus
Couronne apparaît 7 fois dans le corpus
ON DEM apparaît 7 fois dans le corpus
ASPRO apparaît 7 fois dans le corpus
Ligue apparaît 7 fois dans le corpus
Commission apparaît 7 fois dans le corpus
Jeudi apparaît 6 fois dans le corpus
Parlement apparaît 6 fois dans le corpus
Reich apparaît 6 fois dans le corpus
Ford apparaît 6 fois dans le corpus
WALON apparaît 6 fois dans le corpus
exlg apparaît 6 fois dans le corpus
A ON DEM appa

In [16]:
print("\n\n=== STATISTIQUES GLOBALES ===\n")
all_entities = defaultdict(int)
for ent in doc.ents:
    all_entities[ent.label_] += 1

for entity_type, count in sorted(all_entities.items(), key=lambda kv: kv[1], reverse=True):
    print(f"{entity_type}: {count} entités détectées")



=== STATISTIQUES GLOBALES ===

LOC: 9367 entités détectées
MISC: 6455 entités détectées
PER: 6334 entités détectées
ORG: 2642 entités détectées
