# Extraction de Keywords

## Imports

In [1]:
import os
import yake

## Extraire les mots clés d'un document avec Yake

https://github.com/LIAAD/yake

In [2]:
# Création d'une liste de mots à ignorer
ignored = set(["conseil communal", "conseil général"])
ignored

{'conseil communal', 'conseil général'}

In [3]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x7f19edfc58b0>

In [4]:
# Lister les Fichiers
data_path = "../data/txt/"
files = os.listdir(data_path)

In [5]:
# Imprimer le nombre de fichiers identifiés
len(files)

2829

In [6]:
# Les dix premiers fichiers
files[:20]

['.ipynb_checkpoints',
 'Bxl_1847_Tome_I1_Part_1.txt',
 'Bxl_1847_Tome_I1_Part_2.txt',
 'Bxl_1847_Tome_I1_Part_3.txt',
 'Bxl_1847_Tome_I1_Part_4.txt',
 'Bxl_1847_Tome_I1_Part_5.txt',
 'Bxl_1848_Tome_I1_Part_1.txt',
 'Bxl_1848_Tome_I1_Part_2.txt',
 'Bxl_1848_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_1.txt',
 'Bxl_1849_Tome_I1_Part_2.txt',
 'Bxl_1849_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_4.txt',
 'Bxl_1849_Tome_I1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_1.txt',
 'Bxl_1849_Tome_II1_Part_2.txt',
 'Bxl_1849_Tome_II1_Part_3.txt',
 'Bxl_1849_Tome_II1_Part_4.txt',
 'Bxl_1849_Tome_II1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_6.txt']

In [7]:
# Enlever les fichiers qui ne commencent pas par Bxl_
bxl_files = [f for f in files if f.startswith('Bxl_')]
len(bxl_files)

2677

In [8]:
# Choisir un fichier
this_file = bxl_files[18]
this_file

'Bxl_1849_Tome_II1_Part_6.txt'

In [13]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r').read()
text[:500]


"—\n\n489\n\n—\n\nqu'en effet, nous étions tous d'avis que ee n'aurait été qu'à titre\nCessai qu'on aurait exécuté la résolution que nous allions prendre.\nDans la séance du 40 novembre, lorsque le Conseil a été saisi\nd<> la pétition imprimée de M . Dansaert et C'% de nouvelles observations vous ont encore été présentées par M . De Doncker, qui\ndémontrent quel est le caractère de notre résolution du 27 octobre :\n, C'est moi, dit M . De Doncker, qui le premier ai demandé qu'on\nfixe l'essai du placement ac"

In [15]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text.lower())

In [16]:
keywords

[('conseil', 0.0019224068565419515),
 ('fabriques', 0.0023395642069664576),
 ("c'est", 0.0035335539580177333),
 ('collège', 0.003923985897513517),
 ('hospices', 0.004407835089036468),
 ('chaux', 0.005113862651768006),
 ('dépenses', 0.005320542025633694),
 ("d'une", 0.005335740313808102),
 ('faire', 0.0057577065208969614),
 ('place', 0.005804572736094979),
 ('marché', 0.005936088667906296),
 ('proposition', 0.006446220195218301),
 ('frais', 0.006893835886698513),
 ('section', 0.007257761518058471),
 ('ville', 0.007429777724906736),
 ('bourgmestre', 0.007641843506108994),
 ('bruxelles', 0.008496875082141123),
 ('places', 0.008706859104142468),
 ('heures', 0.008760672234304023),
 ('service', 0.008959878451710031),
 ('fabrique', 0.009083013979987424),
 ('déchargement', 0.009325420789853798),
 ('marchés', 0.00971359963839212),
 ('budget', 0.01010695627961682),
 ('ateliers', 0.01016794995501495),
 ('francs', 0.01017296755468101),
 ('droit', 0.01022714436612824),
 ('police', 0.010440400574506

In [17]:
# Ne garder que les bigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 2 and kw.lower() not in ignored:
        kept.append(kw)
kept

['service courant']

## Faire la même opération sur tous les documents

In [19]:
for f in sorted(bxl_files)[:10]:
    text = open(os.path.join(data_path, f), 'r').read()
    keywords = kw_extractor.extract_keywords(text.lower())
    kept = []
    for kw, score in keywords:
        words = kw.split()
        if len(words) == 2 and kw.lower() not in ignored:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

Bxl_1847_Tome_I1_Part_1.txt mentions these keywords: marchés couverts, d'un marché, marché couvert, nouveau marché, marché dans, marché saint-jean, marché projeté, marchés actuels, marchés marché...
Bxl_1847_Tome_I1_Part_2.txt mentions these keywords: belgique communale, l'administration communale...
Bxl_1847_Tome_I1_Part_3.txt mentions these keywords: rue royale, bons communaux, d'un marché, d'une place, qu'il faut...
Bxl_1847_Tome_I1_Part_4.txt mentions these keywords: rue royale, l'instruction primaire, qu'il faut, loi communale, rue duquesnoy, conseil provincial...
Bxl_1847_Tome_I1_Part_5.txt mentions these keywords: parce qu'il, qu'il faut...
Bxl_1848_Tome_I1_Part_1.txt mentions these keywords: d'un conseil, ouvriers patentés, qu'il faut...
Bxl_1848_Tome_I1_Part_2.txt mentions these keywords: qu'il serait, hectolitres d'eau, travaux publics, mètre cube, société civile...
Bxl_1848_Tome_I1_Part_3.txt mentions these keywords: distribution d'eau, qu'il serait, travaux publics, quantit