# Extraction de Keywords

## Imports

In [26]:
import os
import yake

## Extraire les mots clés d'un document avec Yake

https://github.com/LIAAD/yake

In [27]:
# Création d'une liste de mots à ignorer
ignored = set(["conseil communal", "conseil général", "bruxelles"]) # set = liste avec une occurrence
ignored.lower()

{'bruxelles', 'conseil communal', 'conseil général'}

In [16]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x7ff68f6f0a60>

In [17]:
# Lister les Fichiers
data_path = "../data/txt/"
files = os.listdir(data_path)

In [18]:
# Imprimer le nombre de fichiers identifiés
len(files)

2827

In [19]:
# Les vingt premiers fichiers
files[:20]

['Bxl_1847_Tome_I1_Part_1.txt',
 'Bxl_1847_Tome_I1_Part_2.txt',
 'Bxl_1847_Tome_I1_Part_3.txt',
 'Bxl_1847_Tome_I1_Part_4.txt',
 'Bxl_1847_Tome_I1_Part_5.txt',
 'Bxl_1848_Tome_I1_Part_1.txt',
 'Bxl_1848_Tome_I1_Part_2.txt',
 'Bxl_1848_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_1.txt',
 'Bxl_1849_Tome_I1_Part_2.txt',
 'Bxl_1849_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_4.txt',
 'Bxl_1849_Tome_I1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_1.txt',
 'Bxl_1849_Tome_II1_Part_2.txt',
 'Bxl_1849_Tome_II1_Part_3.txt',
 'Bxl_1849_Tome_II1_Part_4.txt',
 'Bxl_1849_Tome_II1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_6.txt',
 'Bxl_1849_Tome_II1_Part_7.txt']

In [20]:
# Enlever les fichiers qui ne commencent pas par Bxl_
bxl_files = [f for f in files if f.startswith('Bxl_')]
len(bxl_files)

2676

In [21]:
# Choisir un fichier
this_file = bxl_files[0]
this_file

'Bxl_1847_Tome_I1_Part_1.txt'

In [22]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r').read()
text[:500]

"V I L L E DE\n\nBRUXELLES\n\nbulletin ires 8éanas\nDl!\n\nCONSEIL\n\nCOMMUNAL\n\nANNÉE\n\n1847.\n\n\x0cAU\n\n\x0cVILLE DE B R U X E L L E S .\n\nbulletin\n\nCONSEIL\n\nàes\n\nSéances\n\nCOMMUNAL.\n\nANNÉE\n\n1847.\n\nBRUXELLES,\nIMPRIMERIE\n\nD E J . H. B R I A R D ,\n\nRITE N E U V E , 3 1 , FAUBOURG DE N A M U R ,\n\n1 84 8\n\n\x0cDE!\n\nDU CONSEI\nDîBÏ\n\nE. - Communication\nconclusions de la section des\ndu nouvel hospice pour les av\n\nEnraisonde l'absence &\nmaladie.le Conseil ajourne\nleurs de pierre el marchai\ncles des taxes communale'\nbieniàance e"

In [23]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text.lower()) # rajouter lower pour enlever la casse 

In [24]:
keywords

[('marché', 0.00015029560074715333),
 ('dans', 0.00025307923380123577),
 ('CONSEIL', 0.0002896026299095025),
 ("d'un marché couvert", 0.00038300149546329404),
 ('marchés couverts', 0.0004276960207809479),
 ('marchés', 0.0004407998491711812),
 ("d'un marché dans", 0.00047380845640108494),
 ("d'un marché", 0.0005054375296920362),
 ('VILLE', 0.0005449628477985323),
 ('marché couvert', 0.0005583809160195709),
 ('nouveau marché', 0.0006935528782713473),
 ("l'établissement d'un marché", 0.0007124503616443153),
 ('marché dans', 0.0009249108286977143),
 ('Bortier', 0.0009602384499736716),
 ("qu'il", 0.0010280312600004049),
 ('rue', 0.0011547164914727408),
 ('BRUXELLES', 0.0012658247679985801),
 ("d'un", 0.0014453642815040189),
 ("construction d'un marché", 0.00152548007392674),
 ('Conseil général', 0.0015984204266513492),
 ('marché Saint-Jean', 0.0016222814416333386),
 ('CONSEIL COMMUNAL', 0.0017261255673432948),
 ("c'est", 0.0019181549803940444),
 ("ville d'un marché", 0.0019310426378027572),

In [25]:
# Ne garder que les bigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 2 and kw.lower() not in ignored:
        kept.append(kw)
kept

['marchés couverts',
 "d'un marché",
 'marché couvert',
 'nouveau marché',
 'marché dans',
 'marché Saint-Jean',
 'marché projeté',
 'Conseil central',
 'rue Royale',
 'Société Philanthropique']

## Faire la même opération sur tous les documents

In [13]:
for f in sorted(bxl_files)[:10]:
    text = open(os.path.join(data_path, f), 'r').read()
    keywords = kw_extractor.extract_keywords(text.lower()) # rajouter le lower 
    kept = []
    for kw, score in keywords:
        words = kw.split()
        if len(words) == 2 and kw.lower() not in ignored:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

Bxl_1847_Tome_I1_Part_1.txt mentions these keywords: marchés couverts, d'un marché, marché couvert, nouveau marché, marché dans, marché saint-jean, marché projeté, marchés actuels, marchés marché...
Bxl_1847_Tome_I1_Part_2.txt mentions these keywords: belgique communale, l'administration communale...
Bxl_1847_Tome_I1_Part_3.txt mentions these keywords: rue royale, bons communaux, d'un marché, d'une place, qu'il faut...
Bxl_1847_Tome_I1_Part_4.txt mentions these keywords: rue royale, l'instruction primaire, qu'il faut, loi communale, rue duquesnoy, conseil provincial...
Bxl_1847_Tome_I1_Part_5.txt mentions these keywords: parce qu'il, qu'il faut...
Bxl_1848_Tome_I1_Part_1.txt mentions these keywords: d'un conseil, ouvriers patentés, qu'il faut...
Bxl_1848_Tome_I1_Part_2.txt mentions these keywords: qu'il serait, hectolitres d'eau, travaux publics, mètre cube, société civile...
Bxl_1848_Tome_I1_Part_3.txt mentions these keywords: distribution d'eau, qu'il serait, travaux publics, quantit