# Testing keyword extraction with YAKE

In [1]:
import os
import yake

## Extraire les mots clés des documents avec YAKE

In [2]:
# Faire une liste des mots à ignorer
ignored = set(["conseil communal", "conseil général", "les", "plus", "cette", "fait", "faire", "être", "deux", "comme", "dont", "tout",
       "ils", "bien", "sans", "peut", "tous", "après", "ainsi", "donc", "cet", "sous",
       "celle", "entre", "encore", "toutes", "pendant", "moins", "dire", "cela", "non",
       "faut", "trois", "aussi", "dit", "avoir", "doit", "contre", "depuis", "autres",
       "van", "het", "autre", "jusqu", "ville", "trouve","mot","peu","tant","chaque",
       "cependant", "assez","peu","beaucoup","car","trop","vient","très","alors","établir",
       "telle","déjà","chose","part", "quant", "le","la","des","un","une", "madame", "monsieur",
       "messieurs","mesdames","attendu","président","échevin","Monsieur le bourgmestre","van het",
       "Collège van Burgemeester","approbation", "Burgemeester","voorbehoud van goedkeuring door de Provinciegouverneur","- Salaire",
       "- Frais", "duur van"])
ignored

{'- Frais',
 '- Salaire',
 'Burgemeester',
 'Collège van Burgemeester',
 'Monsieur le bourgmestre',
 'ainsi',
 'alors',
 'approbation',
 'après',
 'assez',
 'attendu',
 'aussi',
 'autre',
 'autres',
 'avoir',
 'beaucoup',
 'bien',
 'car',
 'cela',
 'celle',
 'cependant',
 'cet',
 'cette',
 'chaque',
 'chose',
 'comme',
 'conseil communal',
 'conseil général',
 'contre',
 'depuis',
 'des',
 'deux',
 'dire',
 'dit',
 'doit',
 'donc',
 'dont',
 'duur van',
 'déjà',
 'encore',
 'entre',
 'faire',
 'fait',
 'faut',
 'het',
 'ils',
 'jusqu',
 'la',
 'le',
 'les',
 'madame',
 'mesdames',
 'messieurs',
 'moins',
 'monsieur',
 'mot',
 'non',
 'part',
 'pendant',
 'peu',
 'peut',
 'plus',
 'président',
 'quant',
 'sans',
 'sous',
 'tant',
 'telle',
 'tous',
 'tout',
 'toutes',
 'trois',
 'trop',
 'trouve',
 'très',
 'un',
 'une',
 'van',
 'van het',
 'vient',
 'ville',
 'voorbehoud van goedkeuring door de Provinciegouverneur',
 'échevin',
 'établir',
 'être'}

In [3]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=20)
kw_extractor

<yake.yake.KeywordExtractor at 0x2a7297f1520>

In [4]:
# Lister les PDFs
data_path = "../data/txt/"
files = os.listdir(data_path)

In [5]:
# Imprimer le nombre de PDFs identifiés
len(files)

2828

In [6]:
# Les dix premiers PDFs
files[:20]

['Bxl_1847_Tome_I1_Part_1.txt',
 'Bxl_1847_Tome_I1_Part_2.txt',
 'Bxl_1847_Tome_I1_Part_3.txt',
 'Bxl_1847_Tome_I1_Part_4.txt',
 'Bxl_1847_Tome_I1_Part_5.txt',
 'Bxl_1848_Tome_I1_Part_1.txt',
 'Bxl_1848_Tome_I1_Part_2.txt',
 'Bxl_1848_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_1.txt',
 'Bxl_1849_Tome_I1_Part_2.txt',
 'Bxl_1849_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_4.txt',
 'Bxl_1849_Tome_I1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_1.txt',
 'Bxl_1849_Tome_II1_Part_2.txt',
 'Bxl_1849_Tome_II1_Part_3.txt',
 'Bxl_1849_Tome_II1_Part_4.txt',
 'Bxl_1849_Tome_II1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_6.txt',
 'Bxl_1849_Tome_II1_Part_7.txt']

In [7]:
# Enlever les fichiers qui ne commencent pas par Bxl_
bxl_files = [f for f in files if f.startswith('Bxl_')]
len(bxl_files)

2677

In [8]:
# Choisir un fichier
this_file = bxl_files[42]
this_file

'Bxl_1851_Tome_II1_Part_7.txt'

In [9]:
# Récupérer le texte dans le fichier
text = open(f'{data_path}/{this_file}', encoding='utf-8').read()
text[:500]

"— 587\n\n_\n\nP r e m i è r e b a l a n c e à f a i r e . I l y a d a n s ce p r o j e t u n i m m e n s e avantage p o u r les propriétaires r i v e r a i n s . . . . J e n e m ' y r a l l i e r a i q u e s i\nje s u i s assuré d ' u n c o n c o u r s s u f f i s a n t de l e u r p a r t à l a d é p e n s e . A\ncette conditionne v o t e r a i ce p r o j e t , p a r c e q u ' i l est u t i l e , p a r c e q u ' i l\nest p e u c o û t e u x , et s u r t o u t p a r c e q u ' i l e n t e r r e t o u s l"

In [10]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)

In [11]:
keywords

[("c'est", 0.0028498678345994463),
 ('conseil', 0.003028760287207713),
 ('projet', 0.00430469132372881),
 ('collège', 0.004328624107683449),
 ('montagne', 0.005828678036199464),
 ('section', 0.007842091286942243),
 ("d'une", 0.008382542508288071),
 ("l'administration des hospices", 0.0093663834547135),
 ('hospices', 0.010946634792955235),
 ('mètres', 0.011952303628168563),
 ('budget', 0.012137720103416337),
 ('séance', 0.012233338965651278),
 ('rapport', 0.012442374352604818),
 ('pâté', 0.013513805918093905),
 ('vote', 0.015217391180844702),
 ('faire', 0.015542129090031385),
 ('projets', 0.015927357897796597),
 ("l'administration", 0.01699076881319443),
 ('taxes communales', 0.01924143654778442),
 ("n'est", 0.020419006087800517)]

In [12]:
'rapport'.split()

['rapport']

In [13]:
# Ne garder que les bigrams
kept = []
for score, kw in keywords:
    words = kw.split()
    if len(words) > 1 and kw not in ignored:
        kept.append(kw)
kept

AttributeError: 'numpy.float64' object has no attribute 'split'

In [None]:
Extraire les mots clés des documents avec YAKE

In [14]:

for f in sorted(bxl_files)[:10]:
    text = open(f'{data_path}/{f}', encoding='utf-8').read()
    keywords = kw_extractor.extract_keywords(text)
    kept = []
    for score, kw in keywords:
        words = kw.split()
        if len(words) > 1 and kw not in ignored:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

AttributeError: 'numpy.float64' object has no attribute 'split'