# Extraction de Keywords

## Imports

In [2]:
import os
import yake

## Extraire les mots clés d'un document avec Yake

https://github.com/LIAAD/yake

In [3]:
# Création d'une liste de mots à ignorer
ignored = set(["conseil communal", "conseil général"])
ignored

{'conseil communal', 'conseil général'}

In [4]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x11295a430>

In [10]:
# Lister les Fichiers
data_path = "../data/txt/"
files = os.listdir(data_path)

In [11]:
# Imprimer le nombre de fichiers identifiés
len(files)

2829

In [7]:
# Les dix premiers fichiers
files[:20]

['Bxl_1954_Tome_II_Part_10.txt',
 'Bxl_1929_Tome_I_Part_2.txt',
 'Bxl_1950_Tome_II_Part_7.txt',
 'Bxl_1956_Tome_I_Part_13.txt',
 'Bxl_1898_Tome_I1_Part_11.txt',
 'Bxl_1890_Tome_I2_Part_4.txt',
 'Bxl_1976_Tome_II1_Part_7.txt',
 'Bxl_1971_Tome_II1_Part_2.txt',
 'Bxl_1966_Tome_II2_Part_11.txt',
 'Bxl_1926_Tome_II1_Part_16.txt',
 'Bxl_1857_Tome_II1_Part_2.txt',
 'Lkn_1881_Tome_I_Part_1.txt',
 'Bxl_1912_Tome_I2_1_Part_8.txt',
 'Bxl_1883_Tome_I2_Part_1.txt',
 'Bxl_1864_Tome_I1_Part_2.txt',
 'Bxl_1850_Tome_II1_Part_7.txt',
 'Bxl_1935_Tome_I_Part_3.txt',
 'Bxl_1920_Tome_I2_Part_7.txt',
 'Bxl_1881_Tome_I1_Part_5.txt',
 'Bxl_1934_Tome_I_Part_5.txt']

In [13]:
# Enlever les fichiers qui ne commencent pas par Bxl_
bxl_files = [f for f in files if f.startswith('Bxl_')]
len(bxl_files)

2677

In [15]:
# Choisir un fichier
this_file = bxl_files[0]
this_file

'Bxl_1954_Tome_II_Part_10.txt'

In [16]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r').read()
text[:500]

'— 887 —\n\n(4 octobre 1954)\n\n§ VII. — Fêtes de quartier\nLes Comités de quartier ont fait preuve de leur habituelle\nactivité tout au long de Tannée.\nDes manifestations, telles que cortèges, bals populaires,\nattractions foraines, jeux populaires, concerts-promenades et\nconcerts sur kiosques, ont contribué largement au succès de ces\nfêtes, qui ont remporté les suffrages mérités de la population.\nLa Ville a mis gracieusement des kiosques à la disposition\ndes Comités. Elle a, en outre, réparti, pour la'

In [21]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)

In [22]:
keywords

[('conseil', 0.0011232164665953856),
 ('BRUXELLES', 0.0016359494155306908),
 ('ville', 0.0018541726604765477),
 ('section', 0.0018549872790184193),
 ('collège', 0.0019084139381989257),
 ('mais', 0.0021279981953971757),
 ('Parc', 0.002360595950570377),
 ('voie publique', 0.0024127446793648353),
 ('rue', 0.0024646778678152387),
 ('grillage', 0.0026079102493381558),
 ('marché', 0.0027425205878500334),
 ("d'une", 0.002843729810534994),
 ('règlement', 0.003006551989215122),
 ('section des travaux', 0.0032083031451141516),
 ('faire', 0.003387930195889298),
 ('conseil communal', 0.0034409629715803146),
 ('projet', 0.0035363491086325563),
 ("c'est", 0.0036960808218154265),
 ('Messieurs', 0.003750067460882675),
 ('place', 0.004035506587512552),
 ('ville de Bruxelles', 0.004333629661169536),
 ('bourgmestre', 0.004441289662150076),
 ('voie', 0.004480387504330477),
 ('police', 0.004768314917769504),
 ('avons', 0.004886578699812625),
 ('Rapport', 0.005089798952598183),
 ('travaux publics', 0.005149

In [24]:
# Ne garder que les bigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 2 and kw.lower() not in ignored:
        kept.append(kw)
kept

['voie publique',
 'travaux publics',
 'présent règlement',
 'rue Royale',
 'conseil central']

## Faire la même opération sur tous les documents

In [27]:
for f in sorted(bxl_files)[:10]:
    text = open(os.path.join(data_path, f), 'r').read()
    keywords = kw_extractor.extract_keywords(text.lower())  ##.lower() ==> permet de mettre le texte en miniscule
    kept = []
    for kw, score in keywords:
        words = kw.split()
        if len(words) == 2 and kw.lower() not in ignored:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

Bxl_1847_Tome_I1_Part_1.txt mentions these keywords: marchés couverts, d'un marché, marché couvert, nouveau marché, marché dans, marché saint-jean, marché projeté, marchés actuels, marchés marché...
Bxl_1847_Tome_I1_Part_2.txt mentions these keywords: belgique communale, l'administration communale...
Bxl_1847_Tome_I1_Part_3.txt mentions these keywords: rue royale, bons communaux, d'un marché, d'une place, qu'il faut...
Bxl_1847_Tome_I1_Part_4.txt mentions these keywords: rue royale, l'instruction primaire, qu'il faut, loi communale, rue duquesnoy, conseil provincial...
Bxl_1847_Tome_I1_Part_5.txt mentions these keywords: parce qu'il, qu'il faut...
Bxl_1848_Tome_I1_Part_1.txt mentions these keywords: d'un conseil, ouvriers patentés, qu'il faut...
Bxl_1848_Tome_I1_Part_2.txt mentions these keywords: qu'il serait, hectolitres d'eau, travaux publics, mètre cube, société civile...
Bxl_1848_Tome_I1_Part_3.txt mentions these keywords: distribution d'eau, qu'il serait, travaux publics, quantit