# Extraction de Keywords

## Imports

In [1]:
import os
import yake

## Extraire les mots clés d'un document avec Yake

https://github.com/LIAAD/yake

In [3]:
# Création d'une liste de mots à ignorer
ignored = set(["conseil communal", "conseil général", "bruxelles"])
ignored

{'bruxelles', 'conseil communal', 'conseil général'}

In [4]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x7f882ad879a0>

In [5]:
# Lister les Fichiers
data_path = "../data/txt/"
files = os.listdir(data_path)

In [6]:
# Imprimer le nombre de fichiers identifiés
len(files)

2828

In [7]:
# Les dix premiers fichiers
files[:20]

['Bxl_1847_Tome_I1_Part_1.txt',
 'Bxl_1847_Tome_I1_Part_2.txt',
 'Bxl_1847_Tome_I1_Part_3.txt',
 'Bxl_1847_Tome_I1_Part_4.txt',
 'Bxl_1847_Tome_I1_Part_5.txt',
 'Bxl_1848_Tome_I1_Part_1.txt',
 'Bxl_1848_Tome_I1_Part_2.txt',
 'Bxl_1848_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_1.txt',
 'Bxl_1849_Tome_I1_Part_2.txt',
 'Bxl_1849_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_4.txt',
 'Bxl_1849_Tome_I1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_1.txt',
 'Bxl_1849_Tome_II1_Part_2.txt',
 'Bxl_1849_Tome_II1_Part_3.txt',
 'Bxl_1849_Tome_II1_Part_4.txt',
 'Bxl_1849_Tome_II1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_6.txt',
 'Bxl_1849_Tome_II1_Part_7.txt']

In [8]:
# Enlever les fichiers qui ne commencent pas par Bxl_
bxl_files = [f for f in files if f.startswith('Bxl_')]
len(bxl_files)

2677

In [10]:
# Choisir un fichier
this_file = bxl_files[546]
this_file

'Bxl_1892_Tome_I1_Part_6.txt'

In [11]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r').read()
text[:500]

"—\n\n501\n\n(9 Mai\n\n—\n\n1892)\n\nArt. 1 5 . Toutes les notifications relatives à la concession seront\nfaites au domicile réel ou au domicile élu du concessionnaire. Elles\nauront lieu soit par lettre recommandée à la poste, soit par\nexploit d'huissier.\nArt. 1G. Le concessionnaire devra déposer à la Caisse communale, au plus tard le troisième jour après le prononcé de l'adjudication, a peine de déchéance, s'il plaît, ainsi à la Ville, une somme\nde 5,000 francs à titre de cautionnement.\nArt. 1 7 . Le caut"

In [12]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)

In [13]:
keywords

[('Conseil', 0.00025812521330695863),
 ('Conseil communal', 0.0003649872948046745),
 ('Section', 0.00044947169983378425),
 ('Sections', 0.0005974684790473475),
 ('Heyvaert', 0.0006855585556562522),
 ('Mais', 0.0011083767937677185),
 ('Mai', 0.0011667124144923355),
 ('Lemonnier', 0.0012510008182504717),
 ('publicité', 0.0013004999521843677),
 ('francs', 0.0013520749957759688),
 ('proposition', 0.0015612967677478512),
 ("c'est", 0.0016794149138580703),
 ("qu'il", 0.0018380442184661387),
 ('comité secret', 0.0021087651129459923),
 ('conseils communaux', 0.0022282294361662394),
 ('mot', 0.002264565001256188),
 ('séance', 0.0022801341249759945),
 ('Conseils', 0.002426377005085411),
 ('Lepage', 0.0025792658943875105),
 ('Ville', 0.003148218454227254),
 ('séance publique', 0.0031565971201041624),
 ('Martiny', 0.0032235288840171783),
 ("l'Echevin De Mot", 0.0032783876730924856),
 ('membres du Conseil', 0.003436729819141058),
 ('Collège', 0.003588296825149634),
 ('public', 0.0037179861302391462

In [14]:
# Ne garder que les bigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 2 and kw.lower() not in ignored:
        kept.append(kw)
kept

['comité secret',
 'conseils communaux',
 'séance publique',
 'Section centrale',
 "d'une Section"]

## Faire la même opération sur tous les documents

In [18]:
for f in sorted(bxl_files)[230:240]:
    text = open(os.path.join(data_path, f), 'r').read()
    keywords = kw_extractor.extract_keywords(text.lower())
    kept = []
    for kw, score in keywords:
        words = kw.split()
        if len(words) == 2 and kw.lower() not in ignored:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

Bxl_1871_Tome_II1_Part_2.txt mentions these keywords: rue haute, théâtre royal, travaux publics, représentation gratuite, rue terre-neuve, travaux d'assainissement, voie publique...
Bxl_1871_Tome_II1_Part_3.txt mentions these keywords: d'une somme, travaux publics, nombre nombre, don d'une, l'adjudication publique, enfants trouvés, fonds communal...
Bxl_1871_Tome_II1_Part_4.txt mentions these keywords: ...
Bxl_1871_Tome_II1_Part_5.txt mentions these keywords: travaux publics, crois qu'il, l'echevin lemaieur, rue haute...
Bxl_1871_Tome_II1_Part_6.txt mentions these keywords: l'echevin funck, l'echevin lemaieur, qu'il faut, l'administration communale, d'un subside...
Bxl_1871_Tome_II1_Part_7.txt mentions these keywords: compagnie anglaise, travaux publics, l'echevin orts, l'echevin fontainas, l'administration communale...
Bxl_1871_Tome_II1_Part_8.txt mentions these keywords: conseiller communal, voir terrains, d'un crédit, d'un terrain...
Bxl_1872_Tome_I1_Part_1.txt mentions these keywor