# Reconnaissance d'entités nommées avec SpaCy

La documentation est accessible ici: https://spacy.io/api

## Imports

In [2]:
from collections import defaultdict
import spacy
from spacy.lang.fr.examples import sentences

In [3]:
nlp = spacy.load('fr_core_news_md')

In [4]:
# chargement du corpus
import os

data_path = "../../data/txt_tp4"
files = [f for f in os.listdir(data_path) if f.endswith(".txt")]

corpus_text = ""

for f in files:
    with open(os.path.join(data_path, f), "r", encoding="utf-8") as ff:
        corpus_text += ff.read() + "\n"


In [6]:
# appliquation de Spacy, on traite chaque document individuellementite article par article sinon 
# le corpus est trop grande pour spacy
people = defaultdict(int)
places = defaultdict(int)
orgs = defaultdict(int)

for f in files:
    with open(os.path.join(data_path, f), "r", encoding="utf-8") as ff:
        text = ff.read()

    doc = nlp(text)

    for ent in doc.ents:
        if ent.label_ == "PER":
            people[ent.text] += 1
        elif ent.label_ == "LOC":
            places[ent.text] += 1
        elif ent.label_ == "ORG":
            orgs[ent.text] += 1



In [None]:
# afficher les 20 entités les plus fréquentes par catégorie
print("PERSONNES les plus citées :")
for p, n in sorted(people.items(), key=lambda x: x[1], reverse=True)[:20]:
    print(f" - {p}: {n}")

print("\nLIEUX les plus cités :")
for p, n in sorted(places.items(), key=lambda x: x[1], reverse=True)[:20]:
    print(f" - {p}: {n}")

print("\nORGANISATIONS les plus citées :")
for p, n in sorted(orgs.items(), key=lambda x: x[1], reverse=True)[:20]:
    print(f" - {p}: {n}")


PERSONNES les plus citées :
 - Enf: 1822
 - Ag: 1612
 - Rossel: 1029
 - Mozart: 930
 - SENT: 872
 - M: 717
 - Beethoven: 698
 - P.f: 597
 - Bach: 467
 - H: 455
 - Monsieur: 438
 - Ea: 430
 - Musique: 427
 - Haydn: 396
 - R. T. B.: 385
 - Molière: 382
 - Brahms: 369
 - R.T.B.: 359
 - Schubert: 336
 - Roi: 322

LIEUX les plus cités :
 - F: 4789
 - Bruxelles: 3998
 - I: 2522
 - Paris: 1914
 - fr: 1863
 - A: 1800
 - Belgique: 1550
 - E.a: 1048
 - France: 966
 - Anvers: 888
 - Brux: 881
 - Liège: 875
 - Fr: 771
 - R.T.B.: 745
 - B: 712
 - Téléph: 667
 - Etat: 663
 - P: 647
 - Europe: 611
 - Luxembourg: 602

ORGANISATIONS les plus citées :
 - ena: 820
 - PF: 664
 - GALERIES: 642
 - ea: 632
 - EA: 601
 - ENA: 580
 - ALLEMAGNE: 561
 - LUXEMBOURG: 481
 - PARC: 419
 - LEOPOLD: 349
 - Techn: 339
 - EUROPE: 320
 - AFF: 315
 - Ena: 302
 - Conseil: 296
 - Variétés: 279
 - GAITE: 279
 - METRO: 262
 - SOTTENS: 216
 - For: 212
