# Reconnaissance d'entités nommées avec SpaCy

La documentation est accessible ici: https://spacy.io/api

## Imports

In [22]:
from collections import defaultdict
import spacy
from spacy.lang.fr.examples import sentences
!python -m spacy download fr_core_news_md

Collecting fr-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_md-3.8.0/fr_core_news_md-3.8.0-py3-none-any.whl (45.8 MB)
     ---------------------------------------- 0.0/45.8 MB ? eta -:--:--
     -- ------------------------------------- 2.9/45.8 MB 16.7 MB/s eta 0:00:03
     ----- ---------------------------------- 6.0/45.8 MB 16.0 MB/s eta 0:00:03
     -------- ------------------------------- 9.4/45.8 MB 16.3 MB/s eta 0:00:03
     ---------- ---------------------------- 12.6/45.8 MB 16.1 MB/s eta 0:00:03
     ------------ -------------------------- 14.4/45.8 MB 14.4 MB/s eta 0:00:03
     -------------- ------------------------ 17.3/45.8 MB 14.2 MB/s eta 0:00:03
     ----------------- --------------------- 20.7/45.8 MB 14.4 MB/s eta 0:00:02
     -------------------- ------------------ 24.4/45.8 MB 14.7 MB/s eta 0:00:02
     ----------------------- --------------- 28.0/45.8 MB 14.9 MB/s eta 0:00:02
     ------------------------


[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [23]:
nlp = spacy.load('fr_core_news_md')

## Appliquer la reconnaissance d'entités nommées sur notre corpus

In [36]:
# Charger le texte
n=1000000
text = open("../../data/tmp/1906_clean.txt", encoding='utf-8').read()[:n]

In [37]:
%%time
# Traiter le texte

doc = nlp(text)

CPU times: total: 12.8 s
Wall time: 15.7 s


In [30]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

Boucle pour le traitement successif des portions de texte

In [39]:
import spacy
from collections import defaultdict

# Charger le modèle français
nlp = spacy.load("fr_core_news_md")

# Exemple : Texte à analyser (remplacez `text` par votre contenu)
# Divisez votre texte en morceaux si nécessaire
chunk_size = 100000  # Taille d'un segment
chunks = [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]

# Initialiser un dictionnaire pour stocker les occurrences cumulées
people = defaultdict(int)

# Traiter chaque segment
for i, chunk in enumerate(chunks):
    print(f"Traitement du segment {i+1}/{len(chunks)}...")

    # Traiter le texte avec SpaCy
    doc = nlp(chunk)

    # Compter les entités de type "PER" (Personnes)
    for ent in doc.ents:
        if ent.label_ == "PER" and len(ent.text) > 3:  # Filtrer par longueur
            people[ent.text] += 1

    # Afficher les résultats intermédiaires
    print(f"Résultats intermédiaires après le segment {i+1}:")
    sorted_people = sorted(people.items(), key=lambda x: x[1], reverse=True)
    for name, count in sorted_people[:10]:  # Afficher les 10 noms les plus fréquents
        print(f"{name}: {count}")

# Afficher les résultats finaux
print("\nRésultats finaux :")
sorted_people = sorted(people.items(), key=lambda x: x[1], reverse=True)
for name, count in sorted_people[:20]:  # Afficher les 20 noms les plus fréquents
    print(f"{name}: {count}")


Traitement du segment 1/10...
Résultats intermédiaires après le segment 1:
HECTOR DENIS: 2
JJOSTE ÉTAUX: 1
TOURNIS: 1
HONNEURS: 1
REGARDAIT COIFFET: 1
FAUDRA: 1
MÉCHA: 1
SOMBRES: 1
AÇORES BISE: 1
NOËL ALITA: 1
Traitement du segment 2/10...
Résultats intermédiaires après le segment 2:
CIBILS: 3
HECTOR DENIS: 2
JJOSTE ÉTAUX: 1
TOURNIS: 1
HONNEURS: 1
REGARDAIT COIFFET: 1
FAUDRA: 1
MÉCHA: 1
SOMBRES: 1
AÇORES BISE: 1
Traitement du segment 3/10...
Résultats intermédiaires après le segment 3:
CIBILS: 3
HECTOR DENIS: 2
HERRY: 2
BONNO: 2
JJOSTE ÉTAUX: 1
TOURNIS: 1
HONNEURS: 1
REGARDAIT COIFFET: 1
FAUDRA: 1
MÉCHA: 1
Traitement du segment 4/10...
Résultats intermédiaires après le segment 4:
CIBILS: 3
DUDIT: 3
HECTOR DENIS: 2
HERRY: 2
BONNO: 2
JJOSTE ÉTAUX: 1
TOURNIS: 1
HONNEURS: 1
REGARDAIT COIFFET: 1
FAUDRA: 1
Traitement du segment 5/10...
Résultats intermédiaires après le segment 5:
CIBILS: 3
DUDIT: 3
HECTOR DENIS: 2
HERRY: 2
BONNO: 2
LOCAT: 2
LOUIS BOIS DORÉ: 2
ALLA: 2
HEURS: 2
BELGIKA: 2
Trai

In [40]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

LOCAT apparait 5 fois dans le corpus
DUDIT apparait 5 fois dans le corpus
CIBILS apparait 3 fois dans le corpus
VLEURGAT apparait 3 fois dans le corpus
REMBOURSABLE apparait 3 fois dans le corpus
HECTOR DENIS apparait 2 fois dans le corpus
HERRY apparait 2 fois dans le corpus
BONNO apparait 2 fois dans le corpus
BRAVES apparait 2 fois dans le corpus
LOUIS BOIS DORÉ apparait 2 fois dans le corpus
FIAI apparait 2 fois dans le corpus
ALLA apparait 2 fois dans le corpus
HEURS apparait 2 fois dans le corpus
BELGIKA apparait 2 fois dans le corpus
SÉRIÉ REMBOURSABLE apparait 2 fois dans le corpus
MINÉRALE apparait 2 fois dans le corpus
BAUDOUIN apparait 2 fois dans le corpus
JJOSTE ÉTAUX apparait 1 fois dans le corpus
TOURNIS apparait 1 fois dans le corpus
HONNEURS apparait 1 fois dans le corpus
REGARDAIT COIFFET apparait 1 fois dans le corpus
FAUDRA apparait 1 fois dans le corpus
MÉCHA apparait 1 fois dans le corpus
SOMBRES apparait 1 fois dans le corpus
AÇORES BISE apparait 1 fois dans le c

Exercice: essayez de lister les lieux (LOC) et les organisations (ORG) les plus mentionnées dans le corpus

In [41]:
# Dictionnaire pour compter les entités "LOCATION"
location = defaultdict(int)

# Compter les entités "LOCATION"
for ent in doc.ents:
    if ent.label_ == "LOC" and len(ent.text) > 3:
        location[ent.text] += 1

# Afficher les résultats
print(location)



defaultdict(<class 'int'>, {'LFCRZ VOLL': 1, 'ÎJCTDC': 1, 'PHILIPPE PENNINCKX': 1, 'GARE PUNAISES MENUISIERS': 1, 'BAIHL': 1, 'GARE CONLMEUB ECRIRE': 1, 'SCHUELEN': 1, 'GÎTÉ': 1, 'SOATERR IENVIR CAVES': 1, 'MONS': 1, 'RFLIIFCS': 1, 'STER ARTEVELDÉ': 1, 'SERVANTE': 1, 'ECRIRE NÂMUR TIEN': 1, 'OCCUPERA': 1, 'AUPRÈS': 1, 'GARE ÇAIN': 1, 'ROSALIE': 1, 'LIÉGEOIS': 1, 'SOULEVA': 1, 'RÈGÎE': 1, 'CPUPE': 1, 'PROCUREUR GÉNÉRAL': 1, 'PRÉCÉDENTES RÉVÉLÉ': 1, 'OBLIG MÔRIA': 1, 'CHÇNE FROIS': 1, 'NAVENUE': 1, 'RANDS CARMES': 1})


Trier et imprimer les loc

In [42]:
sorted_location = sorted(location.items(), key=lambda kv: kv[1], reverse=True)

for location, freq in sorted_location[:50]:
    print(f"{location} apparait {freq} fois dans le corpus")

LFCRZ VOLL apparait 1 fois dans le corpus
ÎJCTDC apparait 1 fois dans le corpus
PHILIPPE PENNINCKX apparait 1 fois dans le corpus
GARE PUNAISES MENUISIERS apparait 1 fois dans le corpus
BAIHL apparait 1 fois dans le corpus
GARE CONLMEUB ECRIRE apparait 1 fois dans le corpus
SCHUELEN apparait 1 fois dans le corpus
GÎTÉ apparait 1 fois dans le corpus
SOATERR IENVIR CAVES apparait 1 fois dans le corpus
MONS apparait 1 fois dans le corpus
RFLIIFCS apparait 1 fois dans le corpus
STER ARTEVELDÉ apparait 1 fois dans le corpus
SERVANTE apparait 1 fois dans le corpus
ECRIRE NÂMUR TIEN apparait 1 fois dans le corpus
OCCUPERA apparait 1 fois dans le corpus
AUPRÈS apparait 1 fois dans le corpus
GARE ÇAIN apparait 1 fois dans le corpus
ROSALIE apparait 1 fois dans le corpus
LIÉGEOIS apparait 1 fois dans le corpus
SOULEVA apparait 1 fois dans le corpus
RÈGÎE apparait 1 fois dans le corpus
CPUPE apparait 1 fois dans le corpus
PROCUREUR GÉNÉRAL apparait 1 fois dans le corpus
PRÉCÉDENTES RÉVÉLÉ apparai

Reconnaître les organisations

In [43]:
# Dictionnaire pour compter les entités "ORGANIZATION"
organization = defaultdict(int)

# Compter les entités "ORGANIZATION"
for ent in doc.ents:
    if ent.label_ == "ORG" and len(ent.text) > 3:  # Filtrer les entités de type "ORG"
        organization[ent.text] += 1


Trier et imprimer les organisations

In [44]:
sorted_organization = sorted(organization.items(), key=lambda kv: kv[1], reverse=True)

for organization, freq in sorted_organization[:50]:
    print(f"{organization} apparait {freq} fois dans le corpus")

CAPITAINES apparait 7 fois dans le corpus
LIEUTENANT apparait 7 fois dans le corpus
DÉSIRE apparait 6 fois dans le corpus
HEUR apparait 5 fois dans le corpus
TRANSPORTÉ apparait 5 fois dans le corpus
COUCH apparait 4 fois dans le corpus
ACAJ apparait 4 fois dans le corpus
ALLEMAGNE apparait 4 fois dans le corpus
SACHANT apparait 4 fois dans le corpus
FOULE apparait 4 fois dans le corpus
OITURE apparait 3 fois dans le corpus
MINISTÈRE apparait 3 fois dans le corpus
GÊNE apparait 3 fois dans le corpus
ACCOUCHEUSE apparait 3 fois dans le corpus
SERVI apparait 3 fois dans le corpus
SÉPARÉMENT apparait 3 fois dans le corpus
LÉOPOLD apparait 3 fois dans le corpus
SERVANTE apparait 3 fois dans le corpus
AUTOMOBILE apparait 3 fois dans le corpus
AUSSITÔT apparait 3 fois dans le corpus
RENDAIT apparait 3 fois dans le corpus
MAJORS apparait 3 fois dans le corpus
REMBOURSABLE apparait 3 fois dans le corpus
GONSE apparait 3 fois dans le corpus
LOUVAIN apparait 2 fois dans le corpus
PÉPIN apparait 