# Testing keyword extraction with YAKE

In [29]:
import os
import yake

## Extraire les mots clés des documents avec YAKE

In [30]:
# Faire une liste des mots à ignorer
ignored = set(["conseil communal", "conseil général"])
ignored

{'conseil communal', 'conseil général'}

In [31]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=20)
kw_extractor

<yake.yake.KeywordExtractor at 0x1d5174cea30>

In [32]:
# Lister les PDFs
data_path = "../data/txt/"
files = os.listdir(data_path)

In [33]:
# Imprimer le nombre de PDFs identifiés
len(files)

2829

In [34]:
# Les dix premiers PDFs
files[:20]

['bul',
 'Bxl_1847_Tome_I1_Part_1.txt',
 'Bxl_1847_Tome_I1_Part_2.txt',
 'Bxl_1847_Tome_I1_Part_3.txt',
 'Bxl_1847_Tome_I1_Part_4.txt',
 'Bxl_1847_Tome_I1_Part_5.txt',
 'Bxl_1848_Tome_I1_Part_1.txt',
 'Bxl_1848_Tome_I1_Part_2.txt',
 'Bxl_1848_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_1.txt',
 'Bxl_1849_Tome_I1_Part_2.txt',
 'Bxl_1849_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_4.txt',
 'Bxl_1849_Tome_I1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_1.txt',
 'Bxl_1849_Tome_II1_Part_2.txt',
 'Bxl_1849_Tome_II1_Part_3.txt',
 'Bxl_1849_Tome_II1_Part_4.txt',
 'Bxl_1849_Tome_II1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_6.txt']

In [24]:
# Enlever les fichiers qui ne commencent pas par Bxl_
bxl_files = [f for f in files if f.startswith('Bxl_')]
len(bxl_files)

2677

In [25]:
# Choisir un fichier
this_file = bxl_files[42]
this_file

'Bxl_1851_Tome_II1_Part_7.txt'

In [26]:
# Récupérer le texte dans le fichier
text = open(f'{data_path}/{this_file}', encoding='utf-8').read()
text[:500]

"— 587\n\n_\n\nP r e m i è r e b a l a n c e à f a i r e . I l y a d a n s ce p r o j e t u n i m m e n s e avantage p o u r les propriétaires r i v e r a i n s . . . . J e n e m ' y r a l l i e r a i q u e s i\nje s u i s assuré d ' u n c o n c o u r s s u f f i s a n t de l e u r p a r t à l a d é p e n s e . A\ncette conditionne v o t e r a i ce p r o j e t , p a r c e q u ' i l est u t i l e , p a r c e q u ' i l\nest p e u c o û t e u x , et s u r t o u t p a r c e q u ' i l e n t e r r e t o u s l"

In [27]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)

In [11]:
keywords

[(0.002915277651733182, "c'est"),
 (0.0031347655094047812, 'conseil'),
 (0.004412925741544969, 'collège'),
 (0.004479387999783052, 'projet'),
 (0.005885065382619684, 'montagne'),
 (0.007989494569296957, 'section'),
 (0.008681299536199177, "d'une"),
 (0.009602187874178401, "l'administration des hospices"),
 (0.01109513348604184, 'hospices'),
 (0.012021524631033412, 'mètres'),
 (0.012301299226574346, 'séance'),
 (0.012351275790050669, 'budget'),
 (0.012668954166379821, 'rapport'),
 (0.013683411179325389, 'pâté'),
 (0.015523671218216297, 'vote'),
 (0.015892891369880216, 'faire'),
 (0.017160597212780168, "l'administration"),
 (0.019406305334008427, 'taxes communales'),
 (0.020749498483378037, "n'est"),
 (0.02110305098601052, 'approbation')]

In [28]:
# Ne garder que les bigrams
kept = []
for score, kw in keywords:
    words = kw.split()
    if len(words) > 1 and kw not in ignored:
        kept.append(kw)
kept

["l'administration des hospices", 'taxes communales']

# Faire la même opération sur tous les documents

In [13]:
for f in sorted(bxl_files)[:10]:
    text = open(f'{data_path}/{f}', encoding='utf-8').read()
    keywords = kw_extractor.extract_keywords(text)
    kept = []
    for score, kw in keywords:
        words = kw.split()
        if len(words) > 1 and kw not in ignored:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

Bxl_1847_Tome_I1_Part_1.txt mentions these keywords: marchés couverts, d'un marché couvert, d'un marché, d'un marché dans, nouveau marché, l'établissement d'un marché, marché dans...
Bxl_1847_Tome_I1_Part_2.txt mentions these keywords: belgique communale, l'administration communale...
Bxl_1847_Tome_I1_Part_3.txt mentions these keywords: rue royale, rue royale neuve, rue royale jusqu'à, rue royale serait, rue royale extérieure...
Bxl_1847_Tome_I1_Part_4.txt mentions these keywords: rue royale, conseil provincial, rue duquesnoy...
Bxl_1847_Tome_I1_Part_5.txt mentions these keywords: domicile de secours, dépôt de mendicité...
Bxl_1848_Tome_I1_Part_1.txt mentions these keywords: conseils de prud'hommes, d'un conseil, l'institution d'un conseil, l'établissement d'un conseil, l'organisation d'un conseil, conseil d'un plan...
Bxl_1848_Tome_I1_Part_2.txt mentions these keywords: société civile...
Bxl_1848_Tome_I1_Part_3.txt mentions these keywords: hardy de beaulieu...
Bxl_1849_Tome_I1_Part_1.