# Extraction de Keywords

## Imports

In [17]:
import os
import yake

## Extraire les mots clés d'un document avec Yake

https://github.com/LIAAD/yake

In [18]:
# Création d'une liste de mots à ignorer
ignored = set(["conseil communal", "conseil général"])
ignored

{'conseil communal', 'conseil général'}

In [19]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x7f2647e8b7f0>

In [20]:
# Lister les Fichiers
data_path = "../data/txt/"
files = os.listdir(data_path)

In [21]:
# Imprimer le nombre de fichiers identifiés
len(files)

2213

In [22]:
# Les dix premiers fichiers
files[:20]

['.ipynb_checkpoints',
 'Bxl_1847_Tome_I1_Part_2.txt',
 'Bxl_1847_Tome_I1_Part_3.txt',
 'Bxl_1847_Tome_I1_Part_4.txt',
 'Bxl_1847_Tome_I1_Part_5.txt',
 'Bxl_1848_Tome_I1_Part_1.txt',
 'Bxl_1848_Tome_I1_Part_2.txt',
 'Bxl_1848_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_1.txt',
 'Bxl_1849_Tome_I1_Part_2.txt',
 'Bxl_1849_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_4.txt',
 'Bxl_1849_Tome_I1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_1.txt',
 'Bxl_1849_Tome_II1_Part_2.txt',
 'Bxl_1849_Tome_II1_Part_3.txt',
 'Bxl_1849_Tome_II1_Part_4.txt',
 'Bxl_1849_Tome_II1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_6.txt',
 'Bxl_1849_Tome_II1_Part_7.txt']

In [23]:
# Enlever les fichiers qui ne commencent pas par Bxl_
bxl_files = [f for f in files if f.startswith('Bxl_1861')]
bxl_files

['Bxl_1861_Tome_II1_Part_1.txt',
 'Bxl_1861_Tome_II1_Part_2.txt',
 'Bxl_1861_Tome_II1_Part_3.txt',
 'Bxl_1861_Tome_II1_Part_4.txt',
 'Bxl_1861_Tome_II1_Part_5.txt']

In [24]:
# Choisir un fichier
this_file = bxl_files[0]
this_file

'Bxl_1861_Tome_II1_Part_1.txt'

In [25]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r').read()
text[:500]

"V I L L E DE B R U X E L L E S\n\nB U L L E T I N COMMUNAL.\nAnnée\n\n1861.\n\nDEUXIEME SEMESTRE.\n\nBRUXELLES,\n\n\x0c\x0cVILLi:\n\nDE\n\nBRUXELLES.\n\nBULLETIN COMMUNAL\nANJVÉË\n\ni86i.\n\nNLAILHO 18.\nSAMEDI 6 JUILLET.\n\ni^rix d u\n\nPain.\n\nLe JJourgmeslrc de la ville de Bruxelles\nTi ï I * t u\n\nI\n\n.\n\nI I *\n\n. . .\n\nInforme le public qu'il résulte des rapports des officiers de\npolice (pie le |)uiii de ménage se vend à :\n7)H cenl. par k i l . chez :\n\n35 cent, par kil. chez :\nDelaet, rue Haute, G3.\nAnlhonissen, r. Remp.-des-Moi"

In [26]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)

In [27]:
keywords

[('rue', 0.0005747748675026017),
 ('Conseil', 0.0006796531942227096),
 ('CONSEIL COMMUNAL', 0.0009614693465730752),
 ('ville', 0.0010461936428589266),
 ('BRUXELLES', 0.001116502772043547),
 ('Bourgmestre', 0.0011543372245746528),
 ("qu'il", 0.0014648408620888485),
 ('Collège', 0.001582188536241815),
 ('section', 0.0017516685802397706),
 ('primes', 0.001799934916591649),
 ('conseil général', 0.0019150043165701526),
 ('Monsieur le Ministre', 0.00191523787377298),
 ('ville de Bruxelles', 0.0019355618572963957),
 ('ministre', 0.0022782733327571343),
 ('place', 0.0023716011203298868),
 ('francs', 0.002609041415947049),
 ('monument', 0.002953718873090853),
 ("c'est", 0.0029641608337396693),
 ('Société Civile', 0.0033826386541310916),
 ('concours', 0.0036956695344017186),
 ('faire', 0.0040110540539281155),
 ("d'un", 0.004725286271368172),
 ('Messieurs', 0.00487522747136018),
 ('artistes', 0.005347576966136439),
 ('rue de Schaerbeék', 0.005632520097399922),
 ("place d'un bourgmestre", 0.005729

In [28]:
# Ne garder que les bigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 2 and kw.lower() not in ignored:
        kept.append(kw)
kept

['Société Civile', "public qu'il", "l'Echevin Vanderlinden"]

## Faire la même opération sur tous les documents

In [29]:
for f in sorted(bxl_files):
    text = open(os.path.join(data_path, f), 'r').read()
    keywords = kw_extractor.extract_keywords(text)
    kept = []
    for kw, score in keywords:
        words = kw.split()
        if len(words) == 2 and kw.lower() not in ignored:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

Bxl_1861_Tome_II1_Part_1.txt mentions these keywords: Société Civile, public qu'il, l'Echevin Vanderlinden...
Bxl_1861_Tome_II1_Part_2.txt mentions these keywords: rue Haute, enfants trouvés, grand nombre, conseil provincial, enfants pauvres, Compte moral...
Bxl_1861_Tome_II1_Part_3.txt mentions these keywords: l'année dernière, travaux publics, grande voirie, voie publique, recettes ordinaires, d'une somme...
Bxl_1861_Tome_II1_Part_4.txt mentions these keywords: rue Haute, travaux publics, l'Echevin Vanderlinden, rue Granvelle, rue d'Anderlecht, l'Echevin Watteeu, Conseil adopte...
Bxl_1861_Tome_II1_Part_5.txt mentions these keywords: d'un rapport, l'administration communale, Avis favorable, droit d'écluse...
