# Extraction de Keywords

## Imports

In [10]:
import os
import yake
from collections import defaultdict

## Sélectionner les fichiers de l'année 1965

### Chemin du dossier où se trouvent les fichiers

In [3]:
folder_path = r"C:\Users\tommy\TAC2\TAC\data\txt"

### Année sélectionnée

In [6]:
annee_choisie = "1965"

### Liste dans laquelle stocker les fichiers de l'année 1965

In [5]:
fichiers_1965 = []

### Rechercher les fichiers de l'année 1965

In [7]:
for filename in os.listdir(folder_path):
    if filename.endswith(".txt"):
        # Extraire l'année à partir du nom du fichier
        try:
            year = filename.split('_')[2].split('-')[0]
        except IndexError:
            # Si le nom du fichier ne suit pas la structure prévue, on l'ignore
            continue
        
        # Vérifier si l'année correspond à celle recherchée
        if year == annee_choisie:
            fichiers_1965.append(os.path.join(folder_path, filename))

### Afficher les fichiers de 1965

In [9]:
print(f"Fichiers trouvés pour {annee_choisie} :")
for f in fichiers_1965:
    print(f)

Fichiers trouvés pour 1965 :
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-01-06_01-00014.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-01-10_01-00020.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-01-15_01-00009.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-01-22_01-00017.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-01-31_01-00014.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-02-07_01-00003.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-02-09_01-00009.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-02-11_01-00005.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-02-11_01-00009.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-02-19_01-00014.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-02-20_01-00002.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-03-05_01-00002.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-03-05_01-00004.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-04-02_01-00014.txt
C:\Users\tommy\TAC2\TAC\data\txt\KB_JB838_1965-

### Compter les fichiers existant par mois

In [12]:
from collections import defaultdict

count_month = defaultdict(int)

for f in fichiers_1965:
    # On ne garde que les fichiers texte au bon format
    if "_" in f and f.endswith(".txt"):
        elems = f.split("_")
        try:
            # On extrait le mois à partir de la date (3e élément du nom)
            month = int(elems[2].split("-")[1])
            count_month[month] += 1
        except (IndexError, ValueError):
            print(f"Nom de fichier inattendu : {f}")
    else:
        print(f"Fichier ignoré (format non conforme) : {f}")

# Affichage des résultats triés par mois
print("\nNombre de fichiers par mois (année 1965) :")
for month in sorted(count_month):
    print(f"Mois {month:02d} : {count_month[month]} fichiers")

# Optionnel : total
print(f"\nTotal : {sum(count_month.values())} fichiers analysés")


Nombre de fichiers par mois (année 1965) :
Mois 01 : 5 fichiers
Mois 02 : 6 fichiers
Mois 03 : 2 fichiers
Mois 04 : 9 fichiers
Mois 05 : 13 fichiers
Mois 06 : 12 fichiers
Mois 07 : 8 fichiers
Mois 08 : 6 fichiers
Mois 09 : 6 fichiers
Mois 10 : 15 fichiers
Mois 11 : 9 fichiers
Mois 12 : 9 fichiers

Total : 100 fichiers analysés


## Extraire les mots clés des fichiers de 1965 avec Yake

In [None]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x25a7f008e50>

### Concaténer les textes des fichiers de 1965

In [None]:
# Fichier de sortie
output_txt = os.path.join(folder_path, f"corpus_{annee_choisie}.txt")

nb_docs = 0
with open(output_txt, "w", encoding="utf-8") as out:
    for f in sorted(fichiers_1965):
        if f.endswith(".txt"):
            try:
                with open(f, "r", encoding="utf-8") as fh:
                    text = fh.read()
                # Séparer les textes selon leur fichier d'origine
                out.write(f"\n\n==== {os.path.basename(f)} ====\n")
                out.write(text.strip())
                nb_docs += 1
            except Exception as e:
                print(f"Impossible de lire {f} : {e}")

print(f"OK ✅  {nb_docs} fichiers concaténés dans : {output_txt}")

OK ✅  100 fichiers concaténés dans : C:\Users\tommy\TAC2\TAC\data\txt\corpus_1965.txt


### En extraire les mots-clés

In [14]:
# Récupérer le texte du fichier
corpus_file = os.path.join(folder_path, f"corpus_{annee_choisie}.txt")

# Lecture du texte complet
with open(corpus_file, 'r', encoding='utf-8') as f:
    text = f.read()

# Affiche les 500 premiers caractères (aperçu)
print(text[:500])



==== KB_JB838_1965-01-06_01-00014.txt ====
14 LE SOIR MERCREDI 6 JANVIER 1965 - NOS MOTS-CROISÉS Solution du problème n° 5812 sociétés BOURSES ETRANGERES Belge 5 1/2 % 57-62 $ ; 101 1/2 - 102 1/2 ; Belge 5 1/2 fi 61-76 5 : 101 3/4- 102 3/4 ; Belge 5 1/4 % 62-77 S ; 100 1/2- 101 1/2 ; Fonds Routes 5 3/4 % 60-75 $/DM : 105 1/2 - 106 1/2 : Idem DM/5 : 102 1/4 - 103 1/4 ; Sabena 3/4 % 59-74 DM/S : 102 1/4 - 103 1/;» ; R. T. T. 5 1/2 % 58-73 Ire et 2e série S : 102 A. ; S. N. C. B. 61-76 5 1/4 % $/


In [15]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)
keywords

[('Ecrire Agence Rossel', 5.513230055437844e-06),
 ('Bruxelles', 1.4185481533090744e-05),
 ('Tél', 1.971718981945409e-05),
 ('rue', 2.6971735258208104e-05),
 ('Agence Rossel', 3.133436094393016e-05),
 ('Mais', 3.4145288913603774e-05),
 ('l’AGENCE ROSSEL', 3.927157773871689e-05),
 ('Rossel', 3.970543944398424e-05),
 ('AGENCE ROSSEL BRUXELLES', 4.208650782587149e-05),
 ('Bruxelles Tél', 4.520032082355963e-05),
 ('Van', 5.113276475462831e-05),
 ('BROGNIEZ Bruxelles Tél', 6.81297707245007e-05),
 ('MONSIEUR JEAN VAN', 7.212947934838766e-05),
 ('rue Royale', 8.226237726399562e-05),
 ('Brux', 8.833700052422777e-05),
 ('Prix', 9.443376808983885e-05),
 ('ans', 9.72877221392352e-05),
 ('rue Van', 0.0001022763847481781),
 ('Bruxelles JEUNE EMPLOYE', 0.00010426961744027533),
 ('FIRME IMPORTANTE Bruxelles', 0.00011110109009517673),
 ('MODERNE Grand Bruxelles', 0.00011932289058342368),
 ('offre Agence Rossel', 0.00012223420387332383),
 ('Ecrire', 0.00012447309243410778),
 ('dem', 0.00012493701032570

In [17]:
# Ne garder que les trigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 3:
        kept.append(kw)
kept

['Ecrire Agence Rossel',
 'AGENCE ROSSEL BRUXELLES',
 'BROGNIEZ Bruxelles Tél',
 'MONSIEUR JEAN VAN',
 'Bruxelles JEUNE EMPLOYE',
 'FIRME IMPORTANTE Bruxelles',
 'MODERNE Grand Bruxelles',
 'offre Agence Rossel',
 'rue André Van',
 'RUE ROYALE BRUX',
 'Agence HAVAS Bruxelles',
 'BRUXELLES engage JEUNE',
 'BRUXELLES JEUNES FILLES',
 'Brux Centre dem',
 'Agence Rossel numéro',
 'rue Jean Jean',
 'BUREAU ETUDES BRUXELLES',
 'Bruxelles BELLE MAISON',
 'avis tient lieu',
 'Jacqmain BRUXELLES Tél',
 'rue del Bruxelles',
 'CENTRE BRUXELLES cherche',
 'avenue Louise Bruxelles']