# Testing keyword extraction with YAKE

In [292]:
import os
import yake

## Extraire les mots clés des documents avec YAKE

In [293]:
# Faire une liste des mots à ignorer
ignored = set(["conseil communal", "conseil général","bourgmestre","conseil communal","stad","bruxelles","ville","van","van het","monsieur le bourgmestre","naam van het","van het collã","het principe van"])
ignored

{'bourgmestre',
 'bruxelles',
 'conseil communal',
 'conseil général',
 'het principe van',
 'monsieur le bourgmestre',
 'naam van het',
 'stad',
 'van',
 'van het',
 'van het collã',
 'ville'}

In [278]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=20)
kw_extractor

<yake.yake.KeywordExtractor at 0x1519cb70948>

In [279]:
# Lister les PDFs
data_path = "../data/1960-1980/"
files = os.listdir(data_path)

In [280]:
# Imprimer le nombre de PDFs identifiés
len(files)

19

In [281]:
# Les dix premiers PDFs
files[:10]

['1960.txt',
 '1961.txt',
 '1962.txt',
 '1963.txt',
 '1964.txt',
 '1965.txt',
 '1966.txt',
 '1967.txt',
 '1968.txt',
 '1969.txt']

In [282]:
# Enlever les fichiers qui ne commencent pas par Bxl_
bxl_files = [f for f in files if f.startswith('19')]
len(bxl_files)

19

In [285]:
# Choisir un fichier
this_file = bxl_files[17]
this_file

'1977.txt'

In [286]:

# Récupérer le texte dans le fichier
text = open(f'{data_path}/{this_file}', encoding='utf-16').read()
text[:500]

'\x0c\x0cVILLE DE\nBRUXELLES\n\nSTAD\nBRUSSEL\n\nBULLETIN COMMUNAL\nGEMEENTEBLAD\nAnnÃ©e â€” Jaargang\n1977\nN. 1.\nCONSEIL COMMUNAL â€” GEMEENTERAAD\nSÃ©ance du â€” Zitting van\n10-1-1977.\nPRESIDENT â€” V O O R Z I T T E R\nM.-de heer Pierre V A N H A L T E R E N ,\nBourgmestre â€” Burgemeester.\n\nLa sÃ©ance est ouverte Ã\xa0 quatorze heures trente-cinq\nminutes.\nDe zitting wordt geopend te veertien uur vijfendertig\nminuten.\n\nPrÃ©sents :\nZijn aanwezig : M . - de heer Van Halteren, Bourgmestre Burgemeester ; M M . - de he'

In [287]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)

In [290]:
keywords

[(7.120595354382989e-07, 'van het'),
 (8.007046337947367e-07, 'van het collã'),
 (1.5077322593317703e-06, 'raad van het'),
 (1.6424840295611317e-06, 'conseil communal'),
 (1.9465678821742392e-06, 'van'),
 (2.2101610113209367e-06, 'van het openbaar'),
 (4.113187064193619e-06, 'van het artikel'),
 (4.801011634809771e-06, 'monsieur le bourgmestre'),
 (5.154358358577638e-06, 'het gemeentebestuur van'),
 (5.170192465702507e-06, 'van een'),
 (5.395537189890868e-06, 'raad van beheer'),
 (6.016187108314415e-06, 'omschrijving van het'),
 (6.318218290908566e-06, 'van brussel'),
 (6.671681895517606e-06, 'conseil'),
 (7.2866743187747195e-06, 'het principe van'),
 (8.042838620429268e-06, 'raad van'),
 (8.090731849158068e-06, 'van het instituut'),
 (8.157541793954154e-06, 'gebouwen van het'),
 (8.343168040960168e-06, 'dienst van het'),
 (9.034912652864303e-06, 'van het centrum')]

In [291]:
# Ne garder que les bigrams
kept = []
for score, kw in keywords:
    words = kw.split()
    if len(words) > 1 and kw not in ignored:
        kept.append(kw)
kept

['raad van het',
 'van het openbaar',
 'van het artikel',
 'het gemeentebestuur van',
 'van een',
 'raad van beheer',
 'omschrijving van het',
 'van brussel',
 'raad van',
 'van het instituut',
 'gebouwen van het',
 'dienst van het',
 'van het centrum']

# Faire la même opération sur tous les documents

In [251]:
for f in sorted(bxl_files)[:10]:
    text = open(f'{data_path}/{f}', encoding='utf-16').read()
    keywords = kw_extractor.extract_keywords(text)
    kept = []
    for score, kw in keywords:
        words = kw.split()
        if len(words) > 1 and kw not in ignored:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

KeyboardInterrupt: 