# Extraction de Keywords

## Imports

In [1]:
import os
import yake

## Extraire les mots clés d'un document avec Yake

https://github.com/LIAAD/yake

In [2]:
# Création d'une liste de mots à ignorer
ignored = set(["conseil communal", "conseil général"])
ignored

{'conseil communal', 'conseil général'}

In [3]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x7f7e90403e80>

In [4]:
# Lister les Fichiers
data_path = "../data/txt/"
files = os.listdir(data_path)

In [5]:
# Imprimer le nombre de fichiers identifiés
len(files)

2828

In [6]:
# Les dix premiers fichiers
files[:20]

['Bxl_1847_Tome_I1_Part_1.txt',
 'Bxl_1847_Tome_I1_Part_2.txt',
 'Bxl_1847_Tome_I1_Part_3.txt',
 'Bxl_1847_Tome_I1_Part_4.txt',
 'Bxl_1847_Tome_I1_Part_5.txt',
 'Bxl_1848_Tome_I1_Part_1.txt',
 'Bxl_1848_Tome_I1_Part_2.txt',
 'Bxl_1848_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_1.txt',
 'Bxl_1849_Tome_I1_Part_2.txt',
 'Bxl_1849_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_4.txt',
 'Bxl_1849_Tome_I1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_1.txt',
 'Bxl_1849_Tome_II1_Part_2.txt',
 'Bxl_1849_Tome_II1_Part_3.txt',
 'Bxl_1849_Tome_II1_Part_4.txt',
 'Bxl_1849_Tome_II1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_6.txt',
 'Bxl_1849_Tome_II1_Part_7.txt']

In [7]:
# Enlever les fichiers qui ne commencent pas par Bxl_
bxl_files = [f for f in files if f.startswith('Bxl_')]
len(bxl_files)

2677

In [8]:
# Choisir un fichier
this_file = bxl_files[7]
this_file

'Bxl_1848_Tome_I1_Part_3.txt'

In [9]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r').read()
text[:500]

"— 197 —\ndivers arrêtés de la mairie. A qui le billet d'enterrement doit-il être\nremis? La commune, fidèle aux traditions de l'an XII, le délivre au fossoyeurs ; l'église le réclame pour le receveur des droits d'inhumation. Aussi\nles attributions se sont-elles confondues, ici parce que la ville a nommé le\npréposé de l'église fossoyeur, là, parce que le fossoyeur a usurpé les fonctions de receveur des fabriques.\nNous croyons que le billet d'enterrement pourrait être délivré directement à la famill"

In [11]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)

In [12]:
keywords

[('Conseil', 0.00036890284246636506),
 ('Hardy de Beaulieu', 0.0005425323266774805),
 ('Conseil communal', 0.0006574113831178961),
 ('ville', 0.0008562019679912539),
 ('BRUXELLES', 0.0011997326824872813),
 ('système', 0.00122373619395982),
 ("qu'il", 0.0013965360380542354),
 ('Section', 0.0014591773648888198),
 ('dépense', 0.001615066009279891),
 ('commission', 0.0017002784422375527),
 ("c'est", 0.0018717881203792759),
 ('faire', 0.0018923244789421124),
 ("d'une", 0.0019719701315637096),
 ("d'eau", 0.0019734114434378854),
 ('collège', 0.0021183612690772167),
 ('Hardy', 0.0022895922507226614),
 ('rapport', 0.0024687264766768556),
 ('serait', 0.002528891739306828),
 ('travaux', 0.0025458808180149678),
 ("d'un", 0.0026901526261965234),
 ('Beaulieu', 0.002725188311669609),
 ('rue', 0.0029239760167334957),
 ("distribution d'eau", 0.002944410614572923),
 ('question', 0.0030429934651004017),
 ('Delaveleye', 0.0032285484648275887),
 ('section des finances', 0.003335816744078953),
 ('eaux', 0.0

In [13]:
# Ne garder que les bigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 2 and kw.lower() not in ignored:
        kept.append(kw)
kept

["distribution d'eau",
 "qu'il serait",
 "l'échevin Fontainas",
 'travaux publics',
 'Conseil adopte',
 'rue Royale']

## Faire la même opération sur tous les documents

In [15]:
for f in sorted(bxl_files)[230:240]:
    text = open(os.path.join(data_path, f), 'r').read()
    keywords = kw_extractor.extract_keywords(text.lower())
    kept = []
    for kw, score in keywords:
        words = kw.split()
        if len(words) == 2 and kw.lower() not in ignored:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

Bxl_1871_Tome_II1_Part_2.txt mentions these keywords: rue haute, théâtre royal, travaux publics, représentation gratuite, rue terre-neuve, travaux d'assainissement, voie publique...
Bxl_1871_Tome_II1_Part_3.txt mentions these keywords: d'une somme, travaux publics, nombre nombre, don d'une, l'adjudication publique, enfants trouvés, fonds communal...
Bxl_1871_Tome_II1_Part_4.txt mentions these keywords: ...
Bxl_1871_Tome_II1_Part_5.txt mentions these keywords: travaux publics, crois qu'il, l'echevin lemaieur, rue haute...
Bxl_1871_Tome_II1_Part_6.txt mentions these keywords: l'echevin funck, l'echevin lemaieur, qu'il faut, l'administration communale, d'un subside...
Bxl_1871_Tome_II1_Part_7.txt mentions these keywords: compagnie anglaise, travaux publics, l'echevin orts, l'echevin fontainas, l'administration communale...
Bxl_1871_Tome_II1_Part_8.txt mentions these keywords: conseiller communal, voir terrains, d'un crédit, d'un terrain...
Bxl_1872_Tome_I1_Part_1.txt mentions these keywor