# Testing keyword extraction with YAKE

In [104]:
import os
import yake

## Extraire les mots clés des documents avec YAKE

In [105]:
# Faire une liste des mots à ignorer
ignored = set(["conseil communal", "conseil général","bourgmestre","conseil communal","stad","bruxelles","ville","van","van het","monsieur le bourgmestre","naam van het","van het collã","het principe van","les", "plus", "cette", "fait", "faire", "être", "deux", "comme", "dont", "tout",
       "ils", "bien", "sans", "peut", "tous", "après", "ainsi", "donc", "cet", "sous",
       "celle", "entre", "encore", "toutes", "pendant", "moins", "dire", "cela", "non",
       "faut", "trois", "aussi", "dit", "avoir", "doit", "contre", "depuis", "autres",
       "van", "het", "autre", "jusqu", "ville","octobre","service","bruxelles","assistance publique",
       "assistance","publique","commission","conseil","communal","Bruxelles","Octobre","Assistance","demande",
       "rue","franc","commune","conseil","commission","assistance","publique","bruxelles","conseil","collège","favorable","avis","franc","francs"])
ignored

{'Assistance',
 'Bruxelles',
 'Octobre',
 'ainsi',
 'après',
 'assistance',
 'assistance publique',
 'aussi',
 'autre',
 'autres',
 'avis',
 'avoir',
 'bien',
 'bourgmestre',
 'bruxelles',
 'cela',
 'celle',
 'cet',
 'cette',
 'collège',
 'comme',
 'commission',
 'communal',
 'commune',
 'conseil',
 'conseil communal',
 'conseil général',
 'contre',
 'demande',
 'depuis',
 'deux',
 'dire',
 'dit',
 'doit',
 'donc',
 'dont',
 'encore',
 'entre',
 'faire',
 'fait',
 'faut',
 'favorable',
 'franc',
 'francs',
 'het',
 'het principe van',
 'ils',
 'jusqu',
 'les',
 'moins',
 'monsieur le bourgmestre',
 'naam van het',
 'non',
 'octobre',
 'pendant',
 'peut',
 'plus',
 'publique',
 'rue',
 'sans',
 'service',
 'sous',
 'stad',
 'tous',
 'tout',
 'toutes',
 'trois',
 'van',
 'van het',
 'van het collã',
 'ville',
 'être'}

In [106]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=20)
kw_extractor

<yake.yake.KeywordExtractor at 0x1be0cb82b08>

In [107]:
# Lister les PDFs
data_path = "../data/hopitaux/1977/"
files = os.listdir(data_path)

In [108]:
# Imprimer le nombre de PDFs identifiés
len(files)

30

In [109]:
# Les dix premiers PDFs
files[:10]

['Bxl_1977_Tome_RptAn_Part_4.txt',
 'Bxl_1977_Tome_II1_Part_8.txt',
 'Bxl_1977_Tome_RptAn_Part_1.txt',
 'Bxl_1977_Tome_RptAn_Part_2.txt',
 'Bxl_1977_Tome_RptAn_Part_3.txt',
 'Bxl_1977_Tome_II1_Part_5.txt',
 'Bxl_1977_Tome_II1_Part_6.txt',
 'Bxl_1977_Tome_II1_Part_7.txt',
 'Bxl_1977_Tome_II1_Part_2.txt',
 'Bxl_1977_Tome_II1_Part_3.txt']

In [110]:
# Enlever les fichiers qui ne commencent pas par Bxl_
bxl_files = [f for f in files if f.startswith('Bx')]
len(bxl_files)

29

In [111]:
# Choisir un fichier
this_file = bxl_files[2]
this_file

'Bxl_1977_Tome_RptAn_Part_1.txt'

In [112]:

# Récupérer le texte dans le fichier
text = open(f'{data_path}/{this_file}', encoding='utf-8').read()
text[:500]

"\x0cAdministratie\n\nHoofdstuk I\n\nPersoneel\nArchieven\n\na) Administratie\nGedurende het jaar 1976 heeft de Raad 54 zittingen gehouden.\nBovendien zijn er 20 zittingen der verenigde secties, 180\nzittingen der secties en 29 zittingen van verschillende commissies of komitees geweest.\nDe Raad heeft de vernieuwde gebouwen gelegen Eredienststraat n 7, 9 en 11, en Verenigingsstraat n ' Itè, de\nappartementen van het complex begrensd door de Grétyen Hallenstraat en de Anspachlaan, alsook het appartementencomplex"

In [113]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)

In [114]:
keywords

[(0.0003163151659785402, 'van'),
 (0.0007284389007689688, 'van het'),
 (0.0007819628493810316, 'het'),
 (0.0013361814774239973, 'vrouwen mannen vrouwen'),
 (0.0016956879236654575, 'totaal mannen vrouwen'),
 (0.002147819522988341, 'mannen vrouwen mannen'),
 (0.0022016867500959493, 'mannen vrouwen'),
 (0.002806995581623455, 'totaal'),
 (0.003246965939442615, 'van brussel'),
 (0.0032470056155637903, 'van een'),
 (0.0033042620723826074, 'brussel'),
 (0.0034390044146415163, 'een'),
 (0.003972387674281061, 'ligging van het'),
 (0.004133882522799285, 'district district'),
 (0.004211469323484994, 'district district district'),
 (0.004417494393459271, 'burgerlijke stand'),
 (0.004562039625240492, 'vrouwen'),
 (0.004656623522307994, 'loop van het'),
 (0.00466935117131878, 'mannen vrouwen vreemdelingen'),
 (0.004748532828482996, 'totaal mannen')]

In [115]:
# Ne garder que les bigrams
kept = []
for score, kw in keywords:
    words = kw.split()
    if len(words) > 1 and kw not in ignored:
        kept.append(kw)
kept

['vrouwen mannen vrouwen',
 'totaal mannen vrouwen',
 'mannen vrouwen mannen',
 'mannen vrouwen',
 'van brussel',
 'van een',
 'ligging van het',
 'district district',
 'district district district',
 'burgerlijke stand',
 'loop van het',
 'mannen vrouwen vreemdelingen',
 'totaal mannen']

# Faire la même opération sur tous les documents

In [116]:
for f in sorted(bxl_files)[:92]:
    text = open(f'{data_path}/{f}', encoding='utf-8').read()
    keywords = kw_extractor.extract_keywords(text)
    kept = []
    for score, kw in keywords:
        words = kw.split()
        if len(words) > 1 and kw not in ignored:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

Bxl_1977_Tome_I1_Part_1.txt mentions these keywords: gemeenteraad van brussel, van der elst, van het collège, van brussel, raad van het, monsieur lagasse, plan de secteur...
Bxl_1977_Tome_I1_Part_2.txt mentions these keywords: plan de secteur, projet de plan, monsieur lagasse...
Bxl_1977_Tome_I1_Part_3.txt mentions these keywords: van het collège, marcel van oosterzee, het collège van, protestantse kerk van, francs. francs. francs., kerk van het, année année année, kerk van brussel, francs. francs., gemeenschap van brussel, kerk van...
Bxl_1977_Tome_I1_Part_4.txt mentions these keywords: van het collège, raad van beheer, world trade center, raad van, koninklijke vlaamse schouwburg, instelling van openbaar, principe d'une dépense, world trade, van beheer...
Bxl_1977_Tome_I1_Part_5.txt mentions these keywords: van het collège, het collège van, conseil de fabrique, van een, het collège, begroting van...
Bxl_1977_Tome_I1_Part_6.txt mentions these keywords: année année année, van het collèg