### EXPLORATION DU SOUS CORPUS CAMILLE DE 998 FICHIERS 

 ## 1)Imports 

In [1]:
import os
import re
from collections import Counter
from pathlib import Path

DATA_DIR = Path("./data/txt")   # dossier du sous-corpus
assert DATA_DIR.is_dir(), f"Dossier introuvable : {DATA_DIR.resolve()}"

## 2) Chargement du sous-corpus (dossier data/txt) et vérification du nombre de documents

In [8]:
files = sorted([p.name for p in DATA_DIR.iterdir() if p.suffix == ".txt"])

print("Nombre de fichiers :", len(files))
print("Exemples :", files[:5])

assert 500 <= len(files) <= 999, "Le sous-corpus doit contenir entre 500 et 999 documents."

Nombre de fichiers : 999
Exemples : ['KB_JB421_1920-01-07_01-00001.txt', 'KB_JB421_1920-01-07_01-00002.txt', 'KB_JB421_1920-01-07_01-00003.txt', 'KB_JB421_1920-01-07_01-00004.txt', 'KB_JB421_1920-03-03_01-00001.txt']


## 3)Contrôle rapide : lire un extrait d’un fichier

In [9]:
# j'ouvre un fichier pour vérifier l'encodage et le contenu
sample = files[0]
with (DATA_DIR / sample).open(encoding="utf-8", errors="replace") as f:
    txt = f.read()

print("Fichier :", sample)
print(txt[:1200])   # extrait ~1200 caractères

Fichier : KB_JB421_1920-01-07_01-00001.txt
24' ANNEE, N* S. Le N* 15 centimes. Vendredi 77777g 7 .Janvier 1920.. ■5/» L'AVENIR DU PUBLICITÉ : «WKON'CBS : la. ligne. 1 fr.; RECLAMES : la ligne, 2 fr.; FAITS DIVERS, AVIS JUDICIAIRES, * FINANCIERS, NECROLOGIQUES ; la ligne, 2, 3 et 4 fr. — On traite à forfait pour les : annonc-- périodiques. — Les annonces pour la province de Luxembourg, les cantons limitrophes et le Grand-Duché sont reçues au bureau du lournal. Pour le reste du pays • et l'étranger, s'adresser exclusivement à l'administration de la Nation Belge, boulevard ! Anspach, 2-4, Bruxelles. QUOTIDIEN Rue de Luxembourg, 42, ARLON ABONNEMENTS : Belgique ; Un an, 34 francs; six mois, 17 fr. 50; trois mois 9 francs; un mois 3 francs. -- Etranger : le port en plus. On s'abonne à tous les bureaux de poste. -• Téléphone, Arlon 23 Compte chèques postaux n° 361.69. LA MORALE A L'ÉCOLE ♦u n » Ce sujet est revenu sur le . lapis de l'actualité, grâce à certaines projets, ou plutôt à certaine

## 4) Nettoyage simple : extraire des mots (lettres uniquement, longueur ≥ 3)

In [10]:
# j'extrai des mots (lettres uniquement, longueur ≥ 3)
def tokenize(text: str):
    # minuscules + lettres FR (accents) + œ/æ, longueur ≥3
    return re.findall(r"[a-zàâçéèêëîïôûùüÿñœæ]{3,}", text.lower())

tokens = tokenize(txt)
print("Nb tokens (extrait) :", len(tokens))
print(tokens[:30])

Nb tokens (extrait) : 3854
['annee', 'centimes', 'vendredi', 'janvier', 'avenir', 'publicité', 'wkon', 'cbs', 'ligne', 'reclames', 'ligne', 'faits', 'divers', 'avis', 'judiciaires', 'financiers', 'necrologiques', 'ligne', 'traite', 'forfait', 'pour', 'les', 'annonc', 'périodiques', 'les', 'annonces', 'pour', 'province', 'luxembourg', 'les']
