# Extraction de Keywords

## Imports

In [1]:
import os
import yake

## Extraire les mots clés d'un document avec Yake

https://github.com/LIAAD/yake

In [2]:
# Création d'une liste de mots à ignorer
ignored = set(["conseil communal", "conseil général"])
ignored

{'conseil communal', 'conseil général'}

In [3]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x10a561550>

In [16]:
# Lister les Fichiers
data_path = "/Users/julienvanbelle/Documents/GitHub/tac/data/txt"
files = os.listdir(data_path)

In [17]:
# Imprimer le nombre de fichiers identifiés
len(files)

2829

In [18]:
# Les dix premiers fichiers
files[:20]

['Bxl_1954_Tome_II_Part_10.txt',
 'Bxl_1929_Tome_I_Part_2.txt',
 'Bxl_1950_Tome_II_Part_7.txt',
 'Bxl_1956_Tome_I_Part_13.txt',
 'Bxl_1898_Tome_I1_Part_11.txt',
 'Bxl_1890_Tome_I2_Part_4.txt',
 'Bxl_1976_Tome_II1_Part_7.txt',
 'Bxl_1971_Tome_II1_Part_2.txt',
 'Bxl_1966_Tome_II2_Part_11.txt',
 'Bxl_1926_Tome_II1_Part_16.txt',
 'Bxl_1857_Tome_II1_Part_2.txt',
 'Lkn_1881_Tome_I_Part_1.txt',
 'Bxl_1912_Tome_I2_1_Part_8.txt',
 'Bxl_1883_Tome_I2_Part_1.txt',
 'Bxl_1864_Tome_I1_Part_2.txt',
 'Bxl_1850_Tome_II1_Part_7.txt',
 'Bxl_1935_Tome_I_Part_3.txt',
 'Bxl_1920_Tome_I2_Part_7.txt',
 'Bxl_1881_Tome_I1_Part_5.txt',
 'Bxl_1934_Tome_I_Part_5.txt']

In [27]:
# Enlever les fichiers qui ne commencent pas par Bxl_
bxl_files = [f for f in files if f.startswith('Bxl_1890')]
len(bxl_files)

22

In [28]:
# Choisir un fichier
this_file = bxl_files[0]
this_file

'Bxl_1890_Tome_I2_Part_4.txt'

In [29]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r').read()
text[:500]

"—\n\n307 —\n\nD. — Canal de Bruxelles au Rupel.\n\nRelevé des diverses recettes effectuées pendant les années 1 8 8 0\nà 1889 et les six premiers mois de l'armée 1890.\n\nPRODUIT\n\nDROIT\n\nA DU CCS.\n\nTOTAL GENERAL.\n\ndes\nDE\n\nNAVIGATION.\n\nd r o i t s de q n i l t a B c e .\n\n1880\n\n535,968\n\n65\n\n1,765\n\n60\n\n357,754\n\n25\n\n1881\n\n3 1 8 , 9 8 8 47\n\n2,080\n\n»\n\n321,068\n\n47\n\n1882\n\n5 1 1 , 7 4 9 34\n\n2,065\n\n10\n\n315,814\n\n44\n\n1883\n\n279,778\n\n03\n\n1,863\n\n60\n\n281,645\n\n65\n\n1884\n\n281,616\n\n46\n\n1,882\n\n80\n\n285,499\n\n26\n\n1885\n\n277,147\n"

In [30]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)

In [31]:
keywords

[('rue', 0.00017731027214735613),
 ('Rues', 0.001957232619472739),
 ('TOTAL', 0.0023184547105905944),
 ('Bruxelles', 0.002402418157979705),
 ('Place', 0.0026478207213482944),
 ('travaux', 0.003594054177987871),
 ('Rue Haute', 0.0035997223545699212),
 ('division', 0.003613418998682365),
 ('Société', 0.0037275538080247216),
 ('nombre', 0.0038306949999836024),
 ('Décès', 0.003923658534523346),
 ('service', 0.004324296310104301),
 ('Rue Van', 0.004735639203750426),
 ('chemins de fer', 0.004802919166130626),
 ('rue Blaes', 0.0058225705030010315),
 ('Conseil', 0.005844899736954461),
 ('classe', 0.005851717455154898),
 ('rue Royale', 0.00586527917998525),
 ('ville', 0.006045864927439698),
 ('rue Ducale', 0.006120980143466294),
 ('Rue Joseph', 0.006444705600190998),
 ('fer', 0.006676380238299841),
 ('Rue Van Artevelde', 0.00685905880132735),
 ('cours', 0.006870153312998982),
 ('rue Auguste Orts', 0.006929762823951592),
 ("l'année", 0.007025433124833065),
 ('voies rue', 0.007129921867892175),
 

In [32]:
# Ne garder que les bigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 2 and kw.lower() not in ignored:
        kept.append(kw)
kept

['Rue Haute',
 'Rue Van',
 'rue Blaes',
 'rue Royale',
 'rue Ducale',
 'Rue Joseph',
 'voies rue',
 'rues suivantes',
 'rue Auguste',
 'rue Souveraine',
 'Section moyenne']

## Faire la même opération sur tous les documents

In [33]:
for f in sorted(bxl_files)[:10]:
    text = open(os.path.join(data_path, f), 'r').read()
    keywords = kw_extractor.extract_keywords(text.lower())  ##.lower() ==> permet de mettre le texte en miniscule
    kept = []
    for kw, score in keywords:
        words = kw.split()
        if len(words) == 2 and kw.lower() not in ignored:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

Bxl_1890_Tome_I1_Part_1.txt mentions these keywords: conseil supérieur, l'administration communale...
Bxl_1890_Tome_I1_Part_2.txt mentions these keywords: travaux manuels, droits acquis, qu'il serait, nouvelle caisse, l'echevin andré...
Bxl_1890_Tome_I1_Part_3.txt mentions these keywords: dépenses ordinaires, tramways bruxellois, conseil académique, arts décoratifs, dépenses extraordinaires...
Bxl_1890_Tome_I1_Part_4.txt mentions these keywords: voie publique, tramways bruxellois...
Bxl_1890_Tome_I1_Part_5.txt mentions these keywords: mètres cubes, mètre cube, d'un terrain, rue nouvelle, mètre carré...
Bxl_1890_Tome_I1_Part_6.txt mentions these keywords: élèves internes, rue neuve, service médical, l'honorable bourgmestre, rue nouvelle...
Bxl_1890_Tome_I1_Part_7.txt mentions these keywords: place rouppe, grande distinction, l'echevin janssen...
Bxl_1890_Tome_I1_Part_8.txt mentions these keywords: élèves internes, service médical, service. art, élèves externes, nommé membre...
Bxl_1890_