### EXPLORATION DU SOUS CORPUS CAMILLE DE 998 FICHIERS 

 ## 1)Imports 

In [8]:
import os
import re
from collections import Counter

## 2) Chargement du sous-corpus (dossier data/txt) et vérification du nombre de documents

In [9]:
data_path = "./data/txt"
files = sorted([f for f in os.listdir(data_path) if f.endswith(".txt")])

print("Nombre de fichiers :", len(files))
print("Exemples :", files[:5])

assert 500 <= len(files) <= 999, "Le sous-corpus doit contenir entre 500 et 999 documents."

Nombre de fichiers : 999
Exemples : ['KB_JB421_1920-01-07_01-00001.txt', 'KB_JB421_1920-01-07_01-00002.txt', 'KB_JB421_1920-01-07_01-00003.txt', 'KB_JB421_1920-01-07_01-00004.txt', 'KB_JB421_1920-03-03_01-00001.txt']


## 3)Contrôle rapide : lire un extrait d’un fichier

In [10]:
sample = files[0]
with open(os.path.join(data_path, sample), encoding="utf-8", errors="replace") as f:
    txt = f.read()

print("Fichier :", sample)
print(txt[:1200])

Fichier : KB_JB421_1920-01-07_01-00001.txt
24' ANNEE, N* S. Le N* 15 centimes. Vendredi 77777g 7 .Janvier 1920.. ■5/» L'AVENIR DU PUBLICITÉ : «WKON'CBS : la. ligne. 1 fr.; RECLAMES : la ligne, 2 fr.; FAITS DIVERS, AVIS JUDICIAIRES, * FINANCIERS, NECROLOGIQUES ; la ligne, 2, 3 et 4 fr. — On traite à forfait pour les : annonc-- périodiques. — Les annonces pour la province de Luxembourg, les cantons limitrophes et le Grand-Duché sont reçues au bureau du lournal. Pour le reste du pays • et l'étranger, s'adresser exclusivement à l'administration de la Nation Belge, boulevard ! Anspach, 2-4, Bruxelles. QUOTIDIEN Rue de Luxembourg, 42, ARLON ABONNEMENTS : Belgique ; Un an, 34 francs; six mois, 17 fr. 50; trois mois 9 francs; un mois 3 francs. -- Etranger : le port en plus. On s'abonne à tous les bureaux de poste. -• Téléphone, Arlon 23 Compte chèques postaux n° 361.69. LA MORALE A L'ÉCOLE ♦u n » Ce sujet est revenu sur le . lapis de l'actualité, grâce à certaines projets, ou plutôt à certaine

## 4) Nettoyage simple : extraire des mots (lettres uniquement, longueur ≥ 3)

In [11]:
def tokenize(text):
    return re.findall(r"[a-zàâçéèêëîïôûùüÿñæœ]{3,}", text.lower())

tokens = tokenize(txt)
print("Nb tokens (extrait) :", len(tokens))
print(tokens[:30])

Nb tokens (extrait) : 3854
['annee', 'centimes', 'vendredi', 'janvier', 'avenir', 'publicité', 'wkon', 'cbs', 'ligne', 'reclames', 'ligne', 'faits', 'divers', 'avis', 'judiciaires', 'financiers', 'necrologiques', 'ligne', 'traite', 'forfait', 'pour', 'les', 'annonc', 'périodiques', 'les', 'annonces', 'pour', 'province', 'luxembourg', 'les']


## 5) Fréquences globales sur tout le sous-corpus (Top 20)

In [12]:
all_tokens = []

for f in files:
    with open(os.path.join(data_path, f), encoding="utf-8", errors="replace") as fh:
        all_tokens.extend(tokenize(fh.read()))

freq = Counter(all_tokens)
print("Top 20 termes :", freq.most_common(20))

Top 20 termes : [('les', 78247), ('des', 64334), ('que', 38140), ('est', 36706), ('une', 35205), ('pour', 33573), ('qui', 30203), ('par', 28233), ('dans', 26891), ('pas', 18670), ('rue', 18396), ('sur', 16630), ('nous', 14871), ('plus', 14411), ('aux', 14142), ('avec', 12732), ('son', 12177), ('sont', 12045), ('ont', 11677), ('été', 10954)]


## 6) Mots-clés simples liés à l’immigration 

In [13]:
keywords = [
    "immigration", "immigrant", "immigrants",
    "étranger", "étrangers",
    "réfugié", "réfugiés",
    "asile", "naturalisation"
]

keyword_counts = {k: freq[k] for k in keywords}

keyword_counts

{'immigration': 9,
 'immigrant': 0,
 'immigrants': 3,
 'étranger': 726,
 'étrangers': 344,
 'réfugié': 33,
 'réfugiés': 66,
 'asile': 73,
 'naturalisation': 6}