## Extraction de Keywords

### Imports

In [33]:
import os
import yake

### Load Data & list files

In [34]:
# Lister les Fichiers
data_path = "../data/txt/"
files = os.listdir(data_path)

### Choose year 1908

In [35]:
# Keep just the files from year 1908
bxl_files = [f for f in files if f.startswith('Bxl_1908')]
len(bxl_files)

16

In [36]:
this_file = bxl_files[0]
this_file

'Bxl_1908_Tome_I1_Part_1.txt'

In [37]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r').read()
text[:500]

'V I L L E\n\nDE\n\nB R U X E L L E S .\no\n\nB U L L E T I N COMMUNAL\nA N N É E\n\nPREMIÈRE\n\nTOME\n\nC O M P T E\n\nR E N D U\n\n1908.\n\nPARTIE.\n\nI.\n\nD E S\n\nS É A N C E S .\n\nBRUXELLES\nTYPOGRAPHIE\n\nET LITHOGRAPHIE\nRue P a c h é c o ,\n12\n\n1908\n\nE . GUYOT\n\n\x0c\x0cN° 1.\n\nC O M P T E R E N D U D E L A SÉANCE D U 2 J A N V I E R 1 9 0 8 .\n\nVILLE D E BRUXELLES\n\nBULLETIN\n\nCOMMUNAL\n\nAnnée 1 9 0 8\n\nCONSEIL\nSéance\n\nCOMMUNAL.\n\ndu 2 Janvier 1 9 0 8 .\n\nPrésidence de M . E M I L E D E M O T , Bourgmestre.\n.SOMMAIRE :\n1.\n\nPrestatio'

### Extraire uniquement les mots-clés relatifs à l'année 1908

In [44]:
# Création d'une liste de mots à ignorer
# set([]) dedouble la liste
ignored = set(["conseil communal", "conseil général", "bruxelles", "CONSEIL", "Conseil communal", "COMMUNAL", "BRUXELLES", "VILLE", "Collège", 
               "avis favorable", "Avis favorable", "Messieurs", "Section", "Avis favorable", "Bourgmestre", "question"])
ignored

{'Avis favorable',
 'BRUXELLES',
 'Bourgmestre',
 'COMMUNAL',
 'CONSEIL',
 'Collège',
 'Conseil communal',
 'Messieurs',
 'Section',
 'VILLE',
 'avis favorable',
 'bruxelles',
 'conseil communal',
 'conseil général',
 'question'}

In [45]:
# Instantier l'extracteur de mots clés
# KeyWord Extractor contiens une fonction
# top = 50 est arbritraire
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x7f2565a42a30>

In [46]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)

In [47]:
keywords

[('Collège', 0.0006597551929763165),
 ('EMILE Collège', 0.0007097015598415391),
 ('Ville', 0.0008134981495386114),
 ('Bourgmestre et Echevins', 0.0010115032690979516),
 ('heures', 0.0010637128305385232),
 ("l'Hôtel de Ville", 0.0011584553718898384),
 ('Bruxelles', 0.0014887617652665957),
 ("Ville jusqu'au jour", 0.0015454577990900353),
 ('Bourgmestre', 0.001563953674511315),
 ('Collège des Bourgmestre', 0.001575308541163808),
 ('lot', 0.0016154022827131436),
 ('rue', 0.0017304424683390086),
 ('cahier des charges', 0.0019300477683757593),
 ('Avis', 0.001968523108841512),
 ('EMILE', 0.0022537926268731364),
 ('MOT', 0.0030369213239870847),
 ('Secrétaire', 0.0030540422641168654),
 ('fourniture', 0.0031267620483421735),
 ("l'adjudication", 0.003802770326401962),
 ('Service', 0.003836086397974326),
 ("Ville jusqu'au", 0.0038987563230242998),
 ('Echevins', 0.0040642820068166625),
 ('Musée commercial', 0.004452406026053734),
 ('heure', 0.004597984493295552),
 ('Art', 0.00485079112245346),
 ("S

In [48]:
# Ne garder que les bigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 2 and kw.lower() not in ignored:
        kept.append(kw)
kept

['EMILE Collège',
 "Ville jusqu'au",
 'Musée commercial',
 'jours ouvrables',
 'écoles primaires']

### Faire la même opération sur tous les documents

In [49]:
for f in sorted(bxl_files)[:16]:
    print(f)
    text = open(os.path.join(data_path, f), 'r').read()
    keywords = kw_extractor.extract_keywords(text.lower())
    kept = []
    for kw, score in keywords:
        words = kw.split()
        # condition pour pouvoir les ajouter dans la liste
        if len(words) == 2 and kw.lower() not in ignored:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

Bxl_1908_Tome_I1_Part_1.txt
Bxl_1908_Tome_I1_Part_1.txt mentions these keywords: d'un crédit, vote d'un, d'un service...
Bxl_1908_Tome_I1_Part_10.txt
Bxl_1908_Tome_I1_Part_10.txt mentions these keywords: ...
Bxl_1908_Tome_I1_Part_11.txt
Bxl_1908_Tome_I1_Part_11.txt mentions these keywords: tramways bruxellois, d'une ligne, travaux publics...
Bxl_1908_Tome_I1_Part_12.txt
Bxl_1908_Tome_I1_Part_12.txt mentions these keywords: tramways bruxellois, d'une école, d'une ligne, dépenses extraordinaires, tarifs ligne, construction d'une...
Bxl_1908_Tome_I1_Part_13.txt
Bxl_1908_Tome_I1_Part_13.txt mentions these keywords: frais d'administration, sous-institutrice primaire, conseiller communal, fonds intercommunal, sous-instituteur primaire, d'autres communes, recettes. dépenses...
Bxl_1908_Tome_I1_Part_2.txt
Bxl_1908_Tome_I1_Part_2.txt mentions these keywords: dépenses ordinaires, suffrage universel, dépenses extraordinaires, recettes ordinaires, loi communale, vote d'un, rue nouvelle...
Bxl_1908