In [None]:
# Paramètres pour exécution année spécifique
YEAR = 1955
DATA_TXT_DIR = '../../data/txt'  # chemin depuis module3
OUT_DIR = '../../tps/tp2'
KEYWORDS_CSV = f'{OUT_DIR}/keywords_{YEAR}.csv'
N_TOP_WORDS = 200
print(f'Set YEAR={YEAR}, outputs -> {OUT_DIR}')


# Extraction de Keywords

## Imports

In [8]:
import os
import yake

## Extraire les mots clés d'un document avec Yake

https://github.com/LIAAD/yake

In [9]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x2747efc7f10>

In [None]:
# Lister les fichiers pour l'année spécifiée (YEAR)
data_path = f'../data/txt/'
files = [f for f in os.listdir(data_path) if f.endswith('.txt') and str(YEAR) in f]
print(f'Found {len(files)} files for YEAR={YEAR}')

In [11]:
# Imprimer le nombre de fichiers identifiés
len(files)

7936

In [12]:
# Les dix premiers fichiers
files[:10]

['KB_JB838_1887-12-22_01-00001.txt',
 'KB_JB838_1887-12-22_01-00002.txt',
 'KB_JB838_1887-12-22_01-00003.txt',
 'KB_JB838_1887-12-22_01-00004.txt',
 'KB_JB838_1887-12-22_01-00005.txt',
 'KB_JB838_1887-12-22_01-00006.txt',
 'KB_JB838_1887-12-23_01-00001.txt',
 'KB_JB838_1887-12-23_01-00002.txt',
 'KB_JB838_1887-12-24_01-00001.txt',
 'KB_JB838_1887-12-24_01-00002.txt']

In [13]:
# Choisir un fichier
this_file = files[0]
this_file

'KB_JB838_1887-12-22_01-00001.txt'

In [14]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r', encoding='utf-8').read()
text[:500]

'ræge quotidien J00 EXEMPLAIRES distribués gratuitement ■ k . ‘ dans ilàgg;lomération bruxelloise et.en province. ï personnes habitant aux étages fenile journal contre 60 c“« par mois. fSpir est expédié en proyinôe contre t*»"par mois, payables par trimestre. annonces, faits divers et réclames sjont reçu frie d’Isabelle ; à l’AGENCE ROSSFJl. 44. -v , et do l’Enseignement, à BraxelL annonces remises avant midi sont ; -a ;\'% >1 v»^.:Vv* *\'• hv/f ■- v 1 v ; \' y > fif \'ji l\'H-et. Jeudi 22 Décembre i8'

In [None]:
# Extraire les mots clés de ce texte (exemple)
keywords = kw_extractor.extract_keywords(text)
keywords

[('EXEMPLAIRES distribués gratuitement', 0.0017848580261551092),
 ('lomération bruxelloise et.en', 0.005155299816540558),
 ('EXEMPLAIRES distribués', 0.01032598116126104),
 ('bruxelloise et.en province', 0.0217728194968606),
 ('assassins politiques', 0.025372781929452606),
 ('distribués gratuitement', 0.02901112747485758),
 ('lomération bruxelloise', 0.02901112747485758),
 ('bruxelloise et.en', 0.029422999711739103),
 ('QUOTIDIEN GRATUIT Température', 0.030648777502273662),
 ('qu’il', 0.03653509748641892),
 ('ASSASSINS', 0.04361721127037355),
 ('Température Baromètre Humidité', 0.04454901112965941),
 ('midi Température Baromètre', 0.045927628989632464),
 ('ræge quotidien', 0.04655000901040904),
 ('commis', 0.048058141007095885),
 ('fut', 0.04882392397365301),
 ('chemin de fer', 0.050194801488827295),
 ('Louvel', 0.053759999074197734),
 ('d’une', 0.05450795849251973),
 ('uno', 0.05452583448200533),
 ('chemin', 0.05671202509167882),
 ('fer', 0.058028910575572766),
 ('société', 0.05807892

In [None]:
# Ne garder que les bigrammes (exemple)
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 2:
        kept.append(kw)
kept

['EXEMPLAIRES distribués',
 'assassins politiques',
 'distribués gratuitement',
 'lomération bruxelloise',
 'bruxelloise et.en',
 'ræge quotidien',
 'QUOTIDIEN GRATUIT',
 'GRATUIT Température',
 'facteur rural',
 'Température Baromètre']

## Faire la même opération sur tous les documents

In [None]:
# Parcourir tous les fichiers de l'année, extraire keywords et agréger
from collections import Counter
agg = Counter()
for f in sorted(files):
    path = os.path.join(data_path, f)
    try:
        text = open(path, 'r', encoding="utf-8").read()
    except Exception:
        text = open(path, 'r', encoding="latin-1").read()
    kws = kw_extractor.extract_keywords(text)
    for kw, score in kws:
        # normaliser en minuscules et garder bigrammes
        if len(kw.split()) == 2:
            agg[kw.lower()] += 1
# Obtenir les N_TOP_WORDS les plus fréquents
top = agg.most_common(N_TOP_WORDS)
import pandas as pd
df = pd.DataFrame(top, columns=['keyword','count'])
out_path = os.path.join(OUT_DIR, f'keywords_{YEAR}.csv')
os.makedirs(OUT_DIR, exist_ok=True)
df.to_csv(out_path, index=False, encoding='utf-8')
print(f'Saved aggregated keywords to {out_path}')

KB_JB838_1887-12-22_01-00001.txt mentions these keywords: EXEMPLAIRES distribués, assassins politiques, distribués gratuitement, lomération bruxelloise, bruxelloise et.en, ræge quotidien, QUOTIDIEN GRATUIT, GRATUIT Température, facteur rural, Température Baromètre...
KB_JB838_1887-12-22_01-00002.txt mentions these keywords: Ligue nalio, rester fidèle, Van Ophem...
KB_JB838_1887-12-22_01-00003.txt mentions these keywords: prince Guillaume, Finet critique, Pierrot Macabre, HEURE Vienne...
KB_JB838_1887-12-22_01-00004.txt mentions these keywords: demande place, fiVS ÉPICERIES, ÉPICERIES t'Tu, lie Cologne, Fille val., place Madou, Bon Marché, rue Scailquin, rue Plantin, sci rue, bon certifie, rue lie, rue Bines, exposition Bruxelles, place sach, Bruxelles Centre, BRUXELLES Rideauœ...
KB_JB838_1887-12-22_01-00005.txt mentions these keywords: rue Plantin, OBJETS PERDUS, PERDUS gravure, LOUER DEMANDES, grande rue, rue Blaes, rue Hôtel, prix Bruxelles, rue Goflhrl, wôporler rue, rue St-Micliel