# Extraction de Keywords

## Imports

In [62]:
import os
import yake

## Extraire les mots clés d'un document avec Yake

https://github.com/LIAAD/yake

In [63]:
# Création d'une liste de mots à ignorer
ignored = set(["conseil communal", "conseil général","bruxelles"])
ignored

{'bruxelles', 'conseil communal', 'conseil général'}

In [64]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x7f031d9a4850>

In [65]:
# Lister les Fichiers
data_path = "../data/txt/"
files = os.listdir(data_path)

In [66]:
# Imprimer le nombre de fichiers identifiés
len(files)

2828

In [67]:
# Les dix premiers fichiers
files[:20]

['Bxl_1847_Tome_I1_Part_1.txt',
 'Bxl_1847_Tome_I1_Part_2.txt',
 'Bxl_1847_Tome_I1_Part_3.txt',
 'Bxl_1847_Tome_I1_Part_4.txt',
 'Bxl_1847_Tome_I1_Part_5.txt',
 'Bxl_1848_Tome_I1_Part_1.txt',
 'Bxl_1848_Tome_I1_Part_2.txt',
 'Bxl_1848_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_1.txt',
 'Bxl_1849_Tome_I1_Part_2.txt',
 'Bxl_1849_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_4.txt',
 'Bxl_1849_Tome_I1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_1.txt',
 'Bxl_1849_Tome_II1_Part_2.txt',
 'Bxl_1849_Tome_II1_Part_3.txt',
 'Bxl_1849_Tome_II1_Part_4.txt',
 'Bxl_1849_Tome_II1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_6.txt',
 'Bxl_1849_Tome_II1_Part_7.txt']

In [68]:
# Enlever les fichiers qui ne commencent pas par Bxl_
bxl_files = [f for f in files if f.startswith('Bxl_')]
len(bxl_files)

2677

In [69]:
# Choisir un fichier
this_file = bxl_files[2655]
this_file

'Bxl_1978_Tome_II1_Part_10.txt'

In [70]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r').read()
#text[:500]
text.lower()[:500]

"—\n\n893 —\n\n(20 novembre\n\n1978)\n\nje pense avoir été bien clair. j'ai déclaré en effet qu'il\nfallait souhaiter une approbation unanime du principe d'une\nrénovation urbaine, et jamais qu'il ne fallait rien faire.\npar contre, les déclarations de m\nl'echevin me confirment\ndans le sentiment qu'on continue à jouer avec des bouts de\nficelles, si j'ose m'exprimer ainsi, alors qu'il aurait été beaucoup plus facile et possible d'élaborer un projet de p . p . a . et\nun plan financier global pour cette opérat"

In [71]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)

In [73]:
keywords
text.lower()[:500]

"—\n\n893 —\n\n(20 novembre\n\n1978)\n\nje pense avoir été bien clair. j'ai déclaré en effet qu'il\nfallait souhaiter une approbation unanime du principe d'une\nrénovation urbaine, et jamais qu'il ne fallait rien faire.\npar contre, les déclarations de m\nl'echevin me confirment\ndans le sentiment qu'on continue à jouer avec des bouts de\nficelles, si j'ose m'exprimer ainsi, alors qu'il aurait été beaucoup plus facile et possible d'élaborer un projet de p . p . a . et\nun plan financier global pour cette opérat"

In [74]:
# Ne garder que les bigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 2 and kw.lower() not in ignored:
        kept.append(kw)
kept

['école maternelle',
 'école primaire',
 "d'une école",
 'écoles maternelles',
 "Construction d'une",
 "l'Echevin Klein",
 'séance publique']

## Faire la même opération sur tous les documents

In [75]:
for f in sorted(bxl_files)[230:240]:
    text = open(os.path.join(data_path, f), 'r').read()
    keywords = kw_extractor.extract_keywords(text)
    kept = []
    for kw, score in keywords:
        words = kw.split()
        if len(words) == 2 and kw.lower() not in ignored:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

Bxl_1871_Tome_II1_Part_2.txt mentions these keywords: THÉÂTRE ROYAL, rue Haute, REPRÉSENTATION GRATUITE, travaux publics, Travaux d'assainissement, voie publique, Société royale, rue Terre-Neuve...
Bxl_1871_Tome_II1_Part_3.txt mentions these keywords: d'une somme, travaux publics, Nombre Nombre, l'Echevin Lemaieur, don d'une, l'adjudication publique...
Bxl_1871_Tome_II1_Part_4.txt mentions these keywords: l'Echevin Fontainas, l'Echevin Lemaieur, l'Echevin Orts, BULLETIN COMMUNAL, Bochart qu'il...
Bxl_1871_Tome_II1_Part_5.txt mentions these keywords: travaux publics, l'Echevin Lemaieur, rue Haute, l'Echevin Funck, crois qu'il, Bourgmestre C'est...
Bxl_1871_Tome_II1_Part_6.txt mentions these keywords: l'Echevin Funck, l'Echevin Lemaieur, l'Echevin Fontainas, qu'il faut...
Bxl_1871_Tome_II1_Part_7.txt mentions these keywords: Compagnie anglaise, l'Echevin Orts, travaux publics, l'Echevin Fontainas, Compagnie concessionnaire, Collège pourra, L'Administration communale...
Bxl_1871_Tome_II1_