# Extraction de Keywords

## Imports

In [1]:
import os
import yake
from collections import defaultdict

## Sélectionner les fichiers de la décennie 1960

### Chemin du dossier où se trouvent les fichiers

In [10]:
data_path =  "../../data/txt/"

### Décennie sélectionnée

In [11]:
DECADE = '1960'

### Lister tous les fichiers de la décennie 1960

In [12]:
fichiers_decade = [
    f for f in sorted(os.listdir(data_path)) 
    if f"_{DECADE[:-1]}" in f
    and not (f.startswith("corpus") or f.startswith("entities"))
    ]

### Afficher les fichiers de la décennie

In [13]:
print(f"Fichiers trouvés pour {DECADE} :")
for f in fichiers_decade:
    print(f)

Fichiers trouvés pour 1960 :
KB_JB838_1960-01-10_01-00018.txt
KB_JB838_1960-01-12_01-00011.txt
KB_JB838_1960-01-13_01-00009.txt
KB_JB838_1960-01-21_01-00014.txt
KB_JB838_1960-01-22_01-00015.txt
KB_JB838_1960-01-27_01-00006.txt
KB_JB838_1960-01-28_01-00011.txt
KB_JB838_1960-01-28_01-00021.txt
KB_JB838_1960-01-30_01-00007.txt
KB_JB838_1960-01-31_01-00024.txt
KB_JB838_1960-02-03_01-00019.txt
KB_JB838_1960-02-13_01-00020.txt
KB_JB838_1960-02-19_01-00011.txt
KB_JB838_1960-02-20_01-00006.txt
KB_JB838_1960-02-24_01-00020.txt
KB_JB838_1960-02-26_01-00001.txt
KB_JB838_1960-02-26_01-00011.txt
KB_JB838_1960-03-04_01-00010.txt
KB_JB838_1960-03-06_01-00004.txt
KB_JB838_1960-03-08_01-00008.txt
KB_JB838_1960-03-09_01-00001.txt
KB_JB838_1960-03-11_01-00020.txt
KB_JB838_1960-03-11_01-00022.txt
KB_JB838_1960-03-12_01-00007.txt
KB_JB838_1960-03-13_01-00009.txt
KB_JB838_1960-03-16_01-00007.txt
KB_JB838_1960-03-18_01-00009.txt
KB_JB838_1960-03-20_01-00014.txt
KB_JB838_1960-03-25_01-00020.txt
KB_JB838_1960-

## Extraire les mots clés des fichiers de la décennie avec Yake

In [14]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x1c132268ad0>

### Concaténer les textes des fichiers de la décennie

In [16]:
# Fichier de sortie
output_txt = os.path.join(data_path, f"corpus_{DECADE}.txt")

nb_docs = 0
with open(output_txt, "w", encoding="utf-8") as out:
    for f in sorted(fichiers_decade):
        if f.endswith(".txt"):
            # Construire le chemin complet vers le fichier
            full_path = os.path.join(data_path, f)

            try:
                with open(full_path, "r", encoding="utf-8") as fh:
                    text = fh.read()

                # Séparer les textes selon leur fichier d'origine
                out.write(f"\n\n==== {os.path.basename(f)} ====\n")
                out.write(text.strip())
                nb_docs += 1

            except Exception as e:
                print(f"Impossible de lire {full_path} : {e}")

print(f"OK ✅  {nb_docs} fichiers concaténés dans : {output_txt}")

OK ✅  1000 fichiers concaténés dans : ../../data/txt/corpus_1960.txt


### En extraire les mots-clés

In [18]:
# Récupérer le texte du fichier
corpus_file = os.path.join(data_path, f"corpus_{DECADE}.txt")

# Lecture du texte complet
with open(corpus_file, 'r', encoding='utf-8') as f:
    text = f.read()

# Affiche les 500 premiers caractères (aperçu)
print(text[:500])



==== KB_JB838_1960-01-10_01-00018.txt ====
ia« le som ÏJsIne MéuhMrïiqii S.AT'BBirîï^^ J00, r. Merlu» Duché, Vllvorde ch. STENO-DACTYLO élément de let ordre, bilingue, bon- i ne rémunération. Situation d’avenir, i Candidat, A soumet par écrit 130221H PORTANTE 80C.BRUXELL0I8I cherche pour entrée Immédiate Secrétaire Sténo-Dactylo 3 françalee - 1 an d'expérience, al tuât h «table - semaine de 5 Jours. Ecrire é cur. vit et prêt Ag. Rossel 02983 H "âociËTS'Importante de sa pi* demande 1 Sténo-Dact


In [19]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)
keywords

[('Ecrire Agence Rossel', 4.491459544516636e-09),
 ('Liège Liège Liège', 4.7246474599351246e-08),
 ('Brux Brux Brux', 8.808879225001755e-08),
 ('Agence Rossel', 1.4338101563505584e-07),
 ('CENTRE BRUXELLES Tél', 1.5382963527304186e-07),
 ('Bruxelles Tél', 1.5560181145666764e-07),
 ('AGENCE ROSSEL BRUXELLES', 1.750280845645898e-07),
 ('WATERLOO Bruxelles tél', 1.8350905340073935e-07),
 ('Louise BRUXELLES tél', 1.9496579630412493e-07),
 ('Bruxelles', 2.3667544133612936e-07),
 ('Tél', 2.676749964612187e-07),
 ('rue Royale Bruxelles', 2.7315439132274843e-07),
 ('avenue Louise BRUXELLES', 2.9318784369960083e-07),
 ('Agence Rossel num', 2.955564190863343e-07),
 ('Gand Gand Gand', 2.98508904007659e-07),
 ('Bruxelles cherche jeune', 3.00053931837578e-07),
 ('Bruxelles demande EMPLOYE', 3.15957337738504e-07),
 ('rue Royale Tél', 3.4934750552398924e-07),
 ('CENTRE BRUXELLES DEMANDE', 3.500532846261537e-07),
 ('Bruxelles demande Bonne', 3.509627079943508e-07),
 ('Madame Jean van', 3.7693291754165

In [20]:
# Ne garder que les trigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 3:
        kept.append(kw)
kept

['Ecrire Agence Rossel',
 'Liège Liège Liège',
 'Brux Brux Brux',
 'CENTRE BRUXELLES Tél',
 'AGENCE ROSSEL BRUXELLES',
 'WATERLOO Bruxelles tél',
 'Louise BRUXELLES tél',
 'rue Royale Bruxelles',
 'avenue Louise BRUXELLES',
 'Agence Rossel num',
 'Gand Gand Gand',
 'Bruxelles cherche jeune',
 'Bruxelles demande EMPLOYE',
 'rue Royale Tél',
 'CENTRE BRUXELLES DEMANDE',
 'Bruxelles demande Bonne',
 'Madame Jean van',
 'offre Agence Rossel',
 'MONSIEUR Jean van',
 'prix Agence Rossel',
 'rue Jean Van',
 'Bruxelles Anvers Liège',
 'Bruxelles Ecrire Agence',
 'charbon BRUXELLES tél',
 'MADAME Georges VAN',
 'Gand Liège Liège',
 'Dames CENTRE BRUXELLES',
 'Monsieur Louis VAN',
 'voir Bruxelles français',
 'FIRME IMPORTANTE BRUXELLES',
 'Bruxelles dem bon',
 'Importante Société Bruxelles',
 'RUE ROYALE BRUX',
 'Madame Jacques van',
 'Bruxelles Waterloo Téléph',
 'rue Pierre Van',
 'DIVISION III SERIE',
 'van Agence Rossel',
 'Monsieur François VAN',
 'bas prix Tél',
 'plan Bruxelles Tél']