# Extraction de Keywords

## Imports

In [None]:
import os
import yake

## Extraire les mots clés d'un document avec Yake

https://github.com/LIAAD/yake

In [None]:
# Création d'une liste de mots à ignorer
ignored = set(["conseil communal", "conseil général", "bruxelles", "acte", "article", "conseiller", "bourgmestre", 
               "capitale", "belgique", "loi", "législation", "collège", "voix", "mandat", "séance", "administration",
               "commission", "assemblée", "état", "ministre", "gouvernement", "public", "publique", "communal", 
               "francs", "comité", "membre", "conseil", "ville", "dépense", "rue", "échevin", "travaux", "adopte",
              "demande", "rapport", "plan", "habitant", "projet", "section", "quartier", "secteur", "place", "travaux publics"])
ignored

In [38]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x7fbceb1da7f0>

In [39]:
# Lister les Fichiers
data_path = "../data/txt/"
files = os.listdir(data_path)

In [40]:
# Imprimer le nombre de fichiers identifiés
len(files)

2828

In [41]:
# Les dix premiers fichiers
files[:10]

['Bxl_1847_Tome_I1_Part_1.txt',
 'Bxl_1847_Tome_I1_Part_2.txt',
 'Bxl_1847_Tome_I1_Part_3.txt',
 'Bxl_1847_Tome_I1_Part_4.txt',
 'Bxl_1847_Tome_I1_Part_5.txt',
 'Bxl_1848_Tome_I1_Part_1.txt',
 'Bxl_1848_Tome_I1_Part_2.txt',
 'Bxl_1848_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_1.txt',
 'Bxl_1849_Tome_I1_Part_2.txt']

In [None]:
# Enlever les fichiers qui ne commencent pas par Bxl_
bxl_files = [f for f in files if f.startswith('Bxl_')]
len(bxl_files)

2677

In [None]:
# Choisir un fichier
this_file = bxl_files[67]
this_file

'Bxl_1855_Tome_I1_Part_6.txt'

In [50]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r').read()
text[:500]

"-\n\n487\n\n-\n\nVILLE DE BRUXELLES*\n\nBULLETIN COMMUNAL\nANNÉE 1855.\nNUMÉRO 17.\n\nMARDI 3 JUILLET.\n\nDénomination de deux portes et d'une rue du\nquartier Léopold.\nLe Collège des Bourgmestre et Échevins de Bruxelles,\nConsidérant que deux nouvelles portes vont être ouvertes au\nboulevard du Régent, l'une dans l'axe de la rue Montoyer, l'autre\nen face de la rue Joseph II ;\nRevu son arrêté du 17 mars 1854, par lequel i l a adopté, pour\nune des rues du quartier Léopold, le nom de rue de la Station,\nque l'admin"

In [51]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)

In [52]:
keywords

[('section', 0.0017321471235297418),
 ('francs', 0.0018717083949984139),
 ("l'eau", 0.0028603574845722543),
 ('Conseil', 0.00292757654754931),
 ('travaux publics', 0.003314458139017069),
 ('Bourgmestre', 0.003397885867429574),
 ('prix', 0.003459499291041943),
 ('Collège', 0.0038363640058526006),
 ('Rapport', 0.003917764111425599),
 ('section des travaux', 0.003972346008686998),
 ('rue', 0.00446760951554409),
 ("qu'il", 0.005040139075611472),
 ('travaux', 0.005048160050089289),
 ("d'un", 0.005763080793874695),
 ("C'est", 0.0059594655353677846),
 ('BULLETIN COMMUNAL', 0.00599979582825937),
 ('VILLE', 0.006322168085848469),
 ('section des finances', 0.0071730650290827945),
 ("d'eau", 0.007710000677188209),
 ('maisons', 0.00817693449180188),
 ('BRUXELLES', 0.008312461195710868),
 ("d'un franc", 0.008590601156884183),
 ('séance', 0.009444841647297413),
 ('parvis', 0.00955119281110076),
 ('projet', 0.009655031374169776),
 ('service', 0.009659430181177823),
 ("l'administration", 0.01012481821

In [48]:
# Ne garder que les bigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 2 and kw.lower() not in ignored:
        kept.append(kw)
kept

['quartier Léopold', 'second projet', "qu'à Bruxelles", 'Conseil adopte']

## Faire la même opération sur tous les documents

In [35]:
for f in sorted(bxl_files)[230:240]:
    text = open(os.path.join(data_path, f), 'r').read()
    keywords = kw_extractor.extract_keywords(text.lower())
    kept = []
    for kw, score in keywords:
        words = kw.split()
        if len(words) == 2 and kw.lower() not in ignored:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

Bxl_1871_Tome_II1_Part_2.txt mentions these keywords: rue haute, théâtre royal, travaux publics, représentation gratuite, rue terre-neuve, travaux d'assainissement, voie publique...
Bxl_1871_Tome_II1_Part_3.txt mentions these keywords: d'une somme, travaux publics, nombre nombre, don d'une, l'adjudication publique, enfants trouvés, fonds communal...
Bxl_1871_Tome_II1_Part_4.txt mentions these keywords: ...
Bxl_1871_Tome_II1_Part_5.txt mentions these keywords: travaux publics, crois qu'il, l'echevin lemaieur, rue haute...
Bxl_1871_Tome_II1_Part_6.txt mentions these keywords: l'echevin funck, l'echevin lemaieur, qu'il faut, l'administration communale, d'un subside...
Bxl_1871_Tome_II1_Part_7.txt mentions these keywords: compagnie anglaise, travaux publics, l'echevin orts, l'echevin fontainas, l'administration communale...
Bxl_1871_Tome_II1_Part_8.txt mentions these keywords: conseiller communal, voir terrains, d'un crédit, d'un terrain...
Bxl_1872_Tome_I1_Part_1.txt mentions these keywor

KeyboardInterrupt: 