# Extraction de Keywords

## Imports

In [1]:
import os
import yake

## Extraire les mots clés d'un document avec Yake

https://github.com/LIAAD/yake

In [2]:
# Création d'une liste de mots à ignorer
ignored = set(["conseil communal", "conseil général"])
ignored

{'conseil communal', 'conseil général'}

In [3]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x7f3a68708a00>

In [4]:
# Lister les Fichiers
data_path = "../data/txt/"
files = os.listdir(data_path)

In [5]:
# Imprimer le nombre de fichiers identifiés
len(files)

2829

In [6]:
# Les dix premiers fichiers
files[:20]

['Bxl_1882_Tome_I2_Part_12.txt',
 'Bxl_1871_Tome_I1_Part_3.txt',
 'Lkn_1891_Tome_I_Part_5.txt',
 'Bxl_1854_Tome_I1_Part_1.txt',
 'Bxl_1891_Tome_I1_Part_1.txt',
 'Bxl_1972_Tome_I2_Part_7.txt',
 'Bxl_1961_Tome_RptAn_Part_4.txt',
 'Bxl_1935_Tome_II_Part_6.txt',
 'Bxl_1889_Tome_I2_Part_3.txt',
 'Bxl_1930_Tome_II2_Part_4.txt',
 'Bxl_1861_Tome_II1_Part_5.txt',
 'Bxl_1975_Tome_II2_Part_3.txt',
 'Bxl_1976_Tome_RptAn_Part_3.txt',
 'Bxl_1896_Tome_I2_1_Part_1.txt',
 'Bxl_1963_Tome_RptAn_Part_5.txt',
 'Bxl_1910_Tome_I1_Part_2.txt',
 'Bxl_1856_Tome_II1_Part_3.txt',
 'Bxl_1966_Tome_I2_Part_5.txt',
 'Bxl_1869_Tome_II1_Part_2.txt',
 'Bxl_1967_Tome_II2_Part_10.txt']

In [7]:
# Enlever les fichiers qui ne commencent pas par Bxl_
bxl_files = [f for f in files if f.startswith('Bxl_')]
len(bxl_files)

2677

In [8]:
# Choisir un fichier
this_file = bxl_files[0]
this_file

'Bxl_1882_Tome_I2_Part_12.txt'

In [9]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r').read()
text[:500]

"Art. 74. — Subside à VAthénée royal : 82,000 francs.\nCette somme représente la part incombant à ia Ville dans\nle traitement des professeurs, ainsi que le montant des\nmenues dépenses.\nLe budget présenté par la Commission administrative\nainsi que le compte justifiant l'emploi de ces fonds, sont\nannuellement soumis à l'approbation du Conseil communal.\nArt. 75. — loyer de locaux, entretien, contributions et assurance :\n29,750 francs.\nLoyer des locaux de la section professionnelle de 1 Athénée, rue d"

In [10]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)

In [11]:
keywords

[('francs', 0.00027625653101697497),
 ('Art', 0.0003815335051750673),
 ('Ville', 0.0005295704763731488),
 ('Conseil communal', 0.0009179845375043574),
 ('rue', 0.0011919462376177826),
 ('Conseil', 0.0014790144795515324),
 ('Total', 0.0018393346024267042),
 ('Travaux', 0.0019357326420686063),
 ('Sommes Nombre Sommes', 0.002997889231734249),
 ('Frais', 0.0036048018999207377),
 ('somme', 0.0036480115930911123),
 ('budget', 0.00407431935064164),
 ('dépenses', 0.004078960320752048),
 ('Voir art', 0.004351002203096285),
 ('terrains', 0.004370945610803716),
 ('maison rue', 0.0045364837802462235),
 ('crédit', 0.004616666880728282),
 ('Collège', 0.004638201981984191),
 ('Ville rue', 0.004730509824491224),
 ('communal', 0.00474499758370958),
 ('quartier Léopold', 0.005148614780811769),
 ('quartier', 0.005357312779155798),
 ('Bruxelles', 0.005376508963018857),
 ('Subside', 0.005409798708278341),
 ('Société', 0.005499291585664313),
 ('dépense', 0.005665222667711177),
 ('Bulletin communal', 0.00570

In [12]:
# Ne garder que les bigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 2 and kw.lower() not in ignored:
        kept.append(kw)
kept

['Voir art',
 'maison rue',
 'Ville rue',
 'quartier Léopold',
 'Bulletin communal',
 'Travaux publics',
 "Ville s'est",
 'dépenses ordinaires',
 'Nombre Sommes',
 'terrains rue']

## Faire la même opération sur tous les documents

In [13]:
for f in sorted(bxl_files)[:10]:
    text = open(os.path.join(data_path, f), 'r').read()
    keywords = kw_extractor.extract_keywords(text)
    kept = []
    for kw, score in keywords:
        words = kw.split()
        if len(words) == 2 and kw.lower() not in ignored:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

Bxl_1847_Tome_I1_Part_1.txt mentions these keywords: marchés couverts, d'un marché, marché couvert, nouveau marché, marché dans, marché Saint-Jean, marché projeté, Conseil central, rue Royale, Société Philanthropique...
Bxl_1847_Tome_I1_Part_2.txt mentions these keywords: Belgique communale, l'administration communale, Conseils communaux...
Bxl_1847_Tome_I1_Part_3.txt mentions these keywords: rue Royale, bons communaux, d'un marché...
Bxl_1847_Tome_I1_Part_4.txt mentions these keywords: rue Royale, Conseil provincial, rue Duquesnoy, quartier Léopold, l'instruction primaire, loi communale, qu'il faut...
Bxl_1847_Tome_I1_Part_5.txt mentions these keywords: parce qu'il, qu'il faut, Bruxelles n'est...
Bxl_1848_Tome_I1_Part_1.txt mentions these keywords: d'un conseil, ouvriers patentés, Conseil serait...
Bxl_1848_Tome_I1_Part_2.txt mentions these keywords: Société civile, qu'il serait, travaux publics, hectolitres d'eau, mètre cube, basse ville...
Bxl_1848_Tome_I1_Part_3.txt mentions these 