# Extraction de Keywords

## Imports

In [10]:
import os
import yake
from collections import defaultdict

## Sélectionner les fichiers de l'année 1965

### Chemin du dossier où se trouvent les fichiers

In [3]:
folder_path = r"C:\Users\tommy\TAC2\TAC\data\txt"

### Année sélectionnée

In [6]:
annee_choisie = "1965"

### Liste dans laquelle stocker les fichiers de l'année 1965

In [5]:
fichiers_1965 = []

### Rechercher les fichiers de l'année 1965

In [7]:
for filename in os.listdir(folder_path):
    if filename.endswith(".txt"):
        # Extraire l'année à partir du nom du fichier
        try:
            year = filename.split('_')[2].split('-')[0]
        except IndexError:
            # Si le nom du fichier ne suit pas la structure prévue, on l'ignore
            continue
        
        # Vérifier si l'année correspond à celle recherchée
        if year == annee_choisie:
            fichiers_1965.append(os.path.join(folder_path, filename))

### Afficher les fichiers de 1965

In [9]:
print(f"Fichiers trouvés pour {annee_choisie} :")
for f in fichiers_1965:
    print(f)

Fichiers trouvés pour 1965 :
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-01-06_01-00014.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-01-10_01-00020.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-01-15_01-00009.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-01-22_01-00017.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-01-31_01-00014.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-02-07_01-00003.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-02-09_01-00009.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-02-11_01-00005.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-02-11_01-00009.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-02-19_01-00014.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-02-20_01-00002.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-03-05_01-00002.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-03-05_01-00004.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-04-02_01-00014.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-

### Compter les fichiers existant par mois

In [12]:
from collections import defaultdict

count_month = defaultdict(int)

for f in fichiers_1965:
    # On ne garde que les fichiers texte au bon format
    if "_" in f and f.endswith(".txt"):
        elems = f.split("_")
        try:
            # On extrait le mois à partir de la date (3e élément du nom)
            month = int(elems[2].split("-")[1])
            count_month[month] += 1
        except (IndexError, ValueError):
            print(f"Nom de fichier inattendu : {f}")
    else:
        print(f"Fichier ignoré (format non conforme) : {f}")

# Affichage des résultats triés par mois
print("\nNombre de fichiers par mois (année 1965) :")
for month in sorted(count_month):
    print(f"Mois {month:02d} : {count_month[month]} fichiers")

# Optionnel : total
print(f"\nTotal : {sum(count_month.values())} fichiers analysés")


Nombre de fichiers par mois (année 1965) :
Mois 01 : 5 fichiers
Mois 02 : 6 fichiers
Mois 03 : 2 fichiers
Mois 04 : 9 fichiers
Mois 05 : 13 fichiers
Mois 06 : 12 fichiers
Mois 07 : 8 fichiers
Mois 08 : 6 fichiers
Mois 09 : 6 fichiers
Mois 10 : 15 fichiers
Mois 11 : 9 fichiers
Mois 12 : 9 fichiers

Total : 100 fichiers analysés


## Extraire les mots clés d'un document avec Yake

https://github.com/LIAAD/yake

In [2]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x25a7f008e50>

In [26]:
# Choisir un fichier
this_file = files[7000]
this_file

'KB_JB838_1961-09-10_01-00001.txt'

In [27]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r', encoding='utf-8').read()
text[:500]

"! t ! SÜAsL 75* ANNEE-N» 218 JOURNAL QUOTIDIEN ■ 24 Pages - 2 Ir. franc* : N. F, 0 fr. 30 — Suis** : 0 Jr, 40 svisisi Congo s 4 lr. CHEQUES POSTAUX PUBLICITE J Compte n« 5675 ROSSEL <5 C<» VENTE : Soir ml Soir Illustré s 14686 Rouai 6 C<« DONS auX'CEuvrt* du Soir: 14232 Ronol 6 C'» Les nianuscrlts non inséré» ho sont pas rendus I 1 ■ : . ■•! ' r « • 'AU t 1 I ' ’ »... t; . ./M J.V-'* r»ji ' r Tif!^ s r. ■ ■ A’- 1 . M. ? ? r AGENCE ROSSEL - Annonce» et Publicité LE SOIR - Vente et Abonnements s B"

In [28]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)
keywords

[('général de Gaulle', 0.011297006654504622),
 ('Gaulle', 0.014949715070102048),
 ('général', 0.01633359191001741),
 ('ministre', 0.02807912524670576),
 ('BRUXELLES', 0.030611003617530882),
 ('JOURNAL QUOTIDIEN', 0.030721898033899426),
 ('France', 0.03365290587834695),
 ('guerre', 0.03435542979329306),
 ('CHEQUES POSTAUX PUBLICITE', 0.0344145421091417),
 ('suite d’une guerre', 0.03566392306923609),
 ('Soir', 0.03774161712018079),
 ('suite', 0.03809024319152435),
 ('PAGE', 0.041512135450110156),
 ('septembre', 0.0426273610346036),
 ('PARIS', 0.045162026970554686),
 ('Marguerite Bervoets', 0.046041783794009306),
 ('Fontainas', 0.04695917225296722),
 ('d’une', 0.048145249697456725),
 ('ministres', 0.05054242544407037),
 ('Belgique', 0.05323461719080895),
 ('rue', 0.05390272924572472),
 ('politique', 0.05987450200477541),
 ('C’est', 0.06045784709674321),
 ('VOIR LA SUITE', 0.060955920245095344),
 ('SUITE EN PAGE', 0.06176163928772074),
 ('Thyl', 0.06270941794840985),
 ('française', 0.06285

In [30]:
# Ne garder que les bigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 2:
        kept.append(kw)
kept

['JOURNAL QUOTIDIEN',
 'Marguerite Bervoets',
 'Soir Illustré',
 'd’André Fontainas',
 'politique algérienne',
 'secrétaire général']

## Faire la même opération sur tous les documents

In [25]:
for f in sorted(files)[:10]:
    text = open(os.path.join(data_path, f), 'r', encoding="utf-8").read()
    keywords = kw_extractor.extract_keywords(text)
    kept = []
    for kw, score in keywords:
        words = kw.split()
        if len(words) == 3:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

KB_JB838_1887-12-22_01-00001.txt mentions these keywords: EXEMPLAIRES distribués gratuitement, lomération bruxelloise et.en, bruxelloise et.en province, QUOTIDIEN GRATUIT Température, Température Baromètre Humidité, midi Température Baromètre, chemin de fer, GRATUIT Température maximum, commis au chemin, Morey et Pépin...
KB_JB838_1887-12-22_01-00002.txt mentions these keywords: ance à rester, fidèle aux priacipes, Northern Pacific Rail, directeur s’est alors, alors mémo quo...
KB_JB838_1887-12-22_01-00003.txt mentions these keywords: rue dos Palais, DERNIÈRE HEURE Vienne, Conseil Communal Séance, terrains occupés rue...
KB_JB838_1887-12-22_01-00004.txt mentions these keywords: fiVS ÉPICERIES t'Tu, rue lie Cologne, ÉPICERIES t'Tu courant, Fille val. detn, bourgeoise demande place, demande place d’apprent, sci rue lie, t'Tu courant franc, bureau du journal, demande paj-tie maison, COMMERCE EXCELLENTE BIÈRE, DEMANDES ET OFFRES...
KB_JB838_1887-12-22_01-00005.txt mentions these keywords: 