# Extraction de Keywords

## Imports

In [1]:
import os
import yake

## Extraire les mots clés d'un document avec Yake

https://github.com/LIAAD/yake

In [2]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x7f746c915810>

In [3]:
# Lister les Fichiers
data_path = "../data/txt/"
files = [f for f in os.listdir(data_path) if f.endswith('.txt')]

In [4]:
# Imprimer le nombre de fichiers identifiés
len(files)

51

In [5]:
# Les dix premiers fichiers
files[:10]

['KB_JB773_1933-10-07_01-00007.txt',
 'KB_JB773_1950-07-22_01-00010.txt',
 'KB_JB638_1902-12-20_01-00002.txt',
 'KB_JB92_1860-02-09_01-00003.txt',
 'KB_JB421_1899-05-15_01-00003.txt',
 'KB_JB685_1903-01-18_01-0002.txt',
 'KB_JB638_1946-07-18_01-00003.txt',
 'KB_JB494_1922-09-28_01-0005.txt',
 'KB_JB685_1894-05-14_01-0003.txt',
 'KB_JB230_1892-08-07_01-0003.txt']

In [6]:
# Choisir un fichier
this_file = files[0]
this_file

'KB_JB773_1933-10-07_01-00007.txt'

In [7]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r', encoding='utf-8').read()
text[:500]

"H VER8 L'AVENIR — 7-8 OCTOBRE\n\nChronique mdiciaire\n\nLes duels d'fleidelberg\n\nCOUR D'ASSISES DU BRABANT\nL a Cour d'Assises du B r a b a n t a cond a m n é à 20 a n s de t r a v a u x forcés,\nJ . - B . D u p r i x , q u i , à Lembecq, t i r a s u r\nd e u x g e n d a r m e s qui v e n a i e n t l ' a r r ê t e r .\nF a i s a n t a p p l i c a t i o n de la loi de déf e n s e sociale, la C o u r a décidé qu'à\nl ' e x p i a t i o n d e sa p e i n e , le c o n d a m n é\ns e r a placé p e n d a n t d i "

In [8]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)
keywords

[('OCTOBRE Chronique mdiciaire', 0.0025400771374659583),
 ("d'fleidelberg COUR D'ASSISES", 0.003502724334575176),
 ("duels d'fleidelberg COUR", 0.004201851505897567),
 ('Chronique mdiciaire', 0.008362674121781549),
 ("D'ASSISES DU BRABANT", 0.009716193400320679),
 ("COUR D'ASSISES", 0.011624276563178814),
 ('OCTOBRE Chronique', 0.016724551442257266),
 ('COUR', 0.016828997471073557),
 ("d'fleidelberg COUR", 0.01989656959245708),
 ('Liège', 0.01997883991011739),
 ("Cour d'Appel", 0.027811531659030827),
 ("duels d'fleidelberg", 0.029965685960921487),
 ('brux', 0.04420234775853977),
 ('Charl', 0.05256981305016391),
 ('station', 0.05399581342219808),
 ('COL', 0.054580977281272834),
 ('Nord', 0.05543149753596268),
 ('BRABANT', 0.057020401514913464),
 ('Chronique', 0.05723406205548251),
 ('OCTOBRE', 0.05748130156820232),
 ('puissance', 0.06028115211824878),
 ('Conférence de Lucerne', 0.06440094495125616),
 ('duels', 0.06692777248647229),
 ("qu'il", 0.06708879177861117),
 ('cours', 0.067315989

In [11]:
# Ne garder que les bigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 2:
        kept.append(kw)
kept

['Chronique mdiciaire',
 "COUR D'ASSISES",
 'OCTOBRE Chronique',
 "d'fleidelberg COUR",
 "Cour d'Appel",
 "duels d'fleidelberg",
 "cours d'une",
 'prochain cours',
 'Los duels',
 'Bougies Cour',
 'Nord Charl',
 'nouvelle station',
 'Gax Nord']

## Faire la même opération sur tous les documents

In [13]:
for f in sorted(files)[:10]:
    text = open(os.path.join(data_path, f), 'r', encoding="utf-8").read()
    keywords = kw_extractor.extract_keywords(text)
    kept = []
    for kw, score in keywords:
        words = kw.split()
        if len(words) == 2:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

KB_JB230_1892-08-07_01-0003.txt mentions these keywords: notaire Verhaegen, d’une contenance, Verhaegen adjugera, située rue, bénéfice d'enchères, rue Van...
KB_JB230_1903-10-16_01-0002.txt mentions these keywords: Ban Exe, Mme Loubet, roi d’Italie, Mme liste, liste libérale, Lentete reine, Liste catholique, affaires étrangères...
KB_JB230_1913-07-05_01-0001.txt mentions these keywords: compte rendu, budget belge, grande duchesse, libéral socialiste, parti libérai, projet scolaire, TRAIN ROYAL...
KB_JB258_1884-09-03_01-0003.txt mentions these keywords: aocuteof viem, loi loi, loi eet, amendement tendant...
KB_JB258_1894-12-09_01-0003.txt mentions these keywords: Aujourd’hui dimanche, Camille Dreyfus, plus tard, rue D-ipout, rue Rogier, Marché soutenu...
KB_JB258_1906-01-09_01-0002.txt mentions these keywords: faiiit Joese, Lire demain, Ciit.it dan, Pauline dans, Maître d’Ecole, provoquer dans, ne-t dan, isVvé dans, mieruetneni dans, Mme Krauss...
KB_JB421_1899-05-15_01-00003.txt mentio