In [1]:
import os
import nltk
from nltk.corpus import stopwords
from gensim.utils import simple_preprocess
from gensim.corpora import Dictionary
from gensim.models import LdaModel

# -------------------------------
# 1️⃣ Paramètres
# -------------------------------
data_path = "../../data/txt/"  # chemin vers ton corpus
n_topics = 3  # nombre de thèmes à extraire
n_top_words = 10  # nombre de mots par thème
passes = 10  # nombre de passes d'apprentissage sur le corpus

# -------------------------------
# 2️⃣ Chargement du corpus
# -------------------------------
files = [f for f in sorted(os.listdir(data_path)) if f.endswith(".txt")]
texts = [open(os.path.join(data_path, f), "r", encoding="utf-8").read() for f in files]
print(f"{len(files)} fichiers chargés dans le corpus")

# -------------------------------
# 3️⃣ Prétraitement : tokenisation + suppression stopwords
# -------------------------------
nltk.download('stopwords')
sw = stopwords.words("french")
sw += ["plus", "cette", "être", "tout", "fait", "comme", "leurs", "deux",
"bien", "après", "sans", "dont", "tous", "encore", "faire", "peut",
"aussi", "ceux", "elles", "alors", "toujours", "devant",
"également", "aujourd", "dernier", "première", "nouvelle", "certains",
"quatre", "trop", "dès", "quand", "notamment", "cependant", "jamais",
"ici", "beaucoup", "ensuite", "assez", "puis", "laquelle", "chaque",
"seulement", "entre", "sous", "dit", "autres", "très", "autre",
"ans", "ainsi", "peu", "non", "depuis", "avoir", "moins", "toute",
"trois", "toutes", "quelques", "faut", "cet", "celui", "doit", "jusqu",
"vie", "déjà", "celle", "vers", "dire", "cela", "fois", "donc",
"pendant", "année", "cours", "grande", "grand", "part", "rue", "avant", 
"mois", "van", "jour", "heures", "point", "situation", "question", "soir", 
"nouveau", "fin", "hui", "jours", "suite", "vue", "ville", "car", "moment", 
"place", "compte", "voir", "cas", "rien", "effet", "matin", "ailleurs", 
"plusieurs", "vient", "partie", "saint", "chez", "janvier", "près", 
"générale", "mardi", "dimanche", "lundi", "mars", "décembre", "octobre", 
"tant", "reste", "ment", "bon", "fort", "pris", "maison", "jeudi", "nom", 
"temps", "lieu", "homme", "problème", "hommes", "midi", "heure", "parce",
"raison", "cinq", "nord", "œuvre", "années", "avril", "semaine",
"pourrait", "juin", "selon", "novembre", "donné", "bas", "porte", "prendre", 
"quelque", "enfin",  "nombre","actuellement", "dernière", "enfants", 
"vendredi", "mis","aucun","bonne", "presse", "mercredi", "parmi","enfin",  
"juillet", "samedi", "journal","quelque", "dun", "dune", "c'est", "cest", 
"qu'il", "quil", "faire", "ans", "heures", "grands", "pays", "plus", "quils", 
"grande","fut", "fin", "faire", "part", "ministres", "ministre", "gouvernement", 
"belgique", "bruxelles", "France", "Paris", "général", "prix", "politique", "économique"]
sw = sw = list(set(sw))

def preprocess(text):
    return [token for token in simple_preprocess(text) if token not in sw]

processed_texts = [preprocess(t) for t in texts]

# -------------------------------
# 4️⃣ Création du dictionnaire et du corpus
# -------------------------------
dictionary = Dictionary(processed_texts)
dictionary.filter_extremes(no_below=5, no_above=0.5)  # filtre mots trop rares ou trop fréquents
corpus = [dictionary.doc2bow(text) for text in processed_texts]

# -------------------------------
# 5️⃣ LDA avec LdaModel
# -------------------------------
lda = LdaModel(corpus=corpus,
               num_topics=n_topics,
               id2word=dictionary,
               passes=passes,
               random_state=42)

# -------------------------------
# 6️⃣ Affichage des thèmes
# -------------------------------
for topic_idx, topic in lda.show_topics(formatted=False, num_words=n_top_words):
    top_words = [word for word, prob in topic]
    print(f"\nThème {topic_idx + 1}: {', '.join(top_words)}")


987 fichiers chargés dans le corpus


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!



Thème 1: britannique, congo, nations, congrès, bretagne, cabinet, budget, art, prince, soviétique

Thème 2: dc, el, lo, ct, da, mme, id, no, musique, ch

Thème 3: milliards, travailleurs, dollars, banque, congo, augmentation, grève, entreprises, bretagne, salaires


In [2]:
import os
import nltk
from nltk.corpus import stopwords
from gensim.utils import simple_preprocess
from gensim.corpora import Dictionary
from gensim.models import LdaModel # Utilisation du modèle natif plus stable

# -------------------------------
# 1️⃣ Paramètres (Ajustés selon les sources)
# -------------------------------
data_path = "../../data/txt/" 
# Les sources recommandent 280 thèmes pour une analyse fine [3]
n_topics = 20 # Augmentez à 280 si vous avez un gros corpus
n_top_words = 20 # Standard utilisé par les auteurs [6]

# -------------------------------
# 2️⃣ Chargement et Prétraitement
# -------------------------------
# Téléchargement des ressources françaises
nltk.download('stopwords')
# CRUCIAL : Utiliser le français pour l'Encyclopédie [1]
sw = stopwords.words("french")
sw += ["plus", "cette", "être", "tout", "fait", "comme", "leurs", "deux",
"bien", "après", "sans", "dont", "tous", "encore", "faire", "peut",
"aussi", "ceux", "elles", "alors", "toujours", "devant",
"également", "aujourd", "dernier", "première", "nouvelle", "certains",
"quatre", "trop", "dès", "quand", "notamment", "cependant", "jamais",
"ici", "beaucoup", "ensuite", "assez", "puis", "laquelle", "chaque",
"seulement", "entre", "sous", "dit", "autres", "très", "autre",
"ans", "ainsi", "peu", "non", "depuis", "avoir", "moins", "toute",
"trois", "toutes", "quelques", "faut", "cet", "celui", "doit", "jusqu",
"vie", "déjà", "celle", "vers", "dire", "cela", "fois", "donc",
"pendant", "année", "cours", "grande", "grand", "part", "rue", "avant", 
"mois", "van", "jour", "heures", "point", "situation", "question", "soir", 
"nouveau", "fin", "hui", "jours", "suite", "vue", "ville", "car", "moment", 
"place", "compte", "voir", "cas", "rien", "effet", "matin", "ailleurs", 
"plusieurs", "vient", "partie", "saint", "chez", "janvier", "près", 
"générale", "mardi", "dimanche", "lundi", "mars", "décembre", "octobre", 
"tant", "reste", "ment", "bon", "fort", "pris", "maison", "jeudi", "nom", 
"temps", "lieu", "homme", "problème", "hommes", "midi", "heure", "parce",
"raison", "cinq", "nord", "œuvre", "années", "avril", "semaine",
"pourrait", "juin", "selon", "novembre", "donné", "bas", "porte", "prendre", 
"quelque", "enfin",  "nombre","actuellement", "dernière", "enfants", 
"vendredi", "mis","aucun","bonne", "presse", "mercredi", "parmi","enfin",  
"juillet", "samedi", "journal","quelque", "dun", "dune", "c'est", "cest", 
"qu'il", "quil", "faire", "ans", "heures", "grands", "pays", "plus", "quils", 
"grande","fut", "fin", "faire", "part", "ministres", "ministre", "gouvernement", 
"belgique", "bruxelles", "France", "Paris", "général", "prix", "politique", "économique"]
sw = sw = list(set(sw))

def preprocess(text):
    # Les auteurs recommandent de filtrer les mots fonctionnels [3]
    return [token for token in simple_preprocess(text) if token not in sw and len(token) > 2]

# Chargement (gestion des erreurs d'encodage fréquente sur les textes anciens)
texts = []
for f in sorted(os.listdir(data_path)):
    if f.endswith(".txt"):
        with open(os.path.join(data_path, f), "r", encoding="utf-8", errors='ignore') as file:
            texts.append(preprocess(file.read()))

# -------------------------------
# 3️⃣ Création du dictionnaire et du modèle
# -------------------------------
dictionary = Dictionary(texts)
# Filtrage : les auteurs excluent les mots trop fréquents ou rares [9]
dictionary.filter_extremes(no_below=5, no_above=0.5)
corpus = [dictionary.doc2bow(text) for text in texts]

# Entraînement du modèle LDA
lda = LdaModel(corpus=corpus, num_topics=n_topics, id2word=dictionary, passes=10)

# -------------------------------
# 4️⃣ Affichage (comparable aux Tables 1 & 2 des sources)
# -------------------------------
for topic_idx in range(n_topics):
    # Récupération des 20 mots-clés [6]
    words = lda.show_topic(topic_idx, topn=n_top_words)
    topic_words = [word for word, prob in words]
    print(f"\nThème {topic_idx + 1} (Disours potentiel) : {', '.join(topic_words)}")

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!



Thème 1 (Disours potentiel) : exposition, britannique, allemands, février, cabinet, prince, berlin, bretagne, office, allemande, reine, sécurité, nations, famille, gauche, espagne, italie, américaine, sir, droits

Thème 2 (Disours potentiel) : bretagne, salaires, travailleurs, congo, britannique, dollars, chômage, américain, février, charbon, américaine, tonnes, socialistes, exportations, troupes, marshall, américains, communistes, région, dépenses

Thème 3 (Disours potentiel) : art, père, mme, prince, œuvres, exposition, théâtre, famille, comte, concours, cœur, province, mère, fils, siècle, auteur, fille, belle, beau, air

Thème 4 (Disours potentiel) : travailleurs, lutte, actions, chômage, capitalistes, congo, milliards, commun, socialiste, fonds, socialistes, budget, gagné, capital, bretagne, ouvrière, construction, victoire, maladie, dette

Thème 5 (Disours potentiel) : congo, liste, lot, témoin, mission, albert, revenus, budget, développement, augmentation, publics, prince, entre

In [3]:
import os
import nltk
from nltk.corpus import stopwords
from gensim.corpora import Dictionary
from gensim.models import LdaModel
from gensim.utils import simple_preprocess

# -------------------------------
# 1️⃣ Paramètres basés sur les sources
# -------------------------------
# Les auteurs ont testé 280, 300, 330 et 360 thèmes [1].
# Ils ont conclu que le modèle à 280 thèmes était le plus cohérent [2].
n_topics = 10
# L'analyse repose sur les 20 mots les plus significatifs par thème [2].
n_top_words = 20 

# -------------------------------
# 2️⃣ Chargement et Prétraitement
# -------------------------------
# Chemin vers votre fichier spécifique
file_path = "../../data/tmp/corpus_clean2.txt"

# Les sources soulignent l'importance des noms (substantifs) [3].
# Pour simplifier, nous utilisons ici une suppression rigoureuse des stopwords.
nltk.download('stopwords')
sw = stopwords.words("french")
sw += ["plus", "cette", "être", "tout", "fait", "comme", "leurs", "deux",
"bien", "après", "sans", "dont", "tous", "encore", "faire", "peut",
"aussi", "ceux", "elles", "alors", "toujours", "devant",
"également", "aujourd", "dernier", "première", "nouvelle", "certains",
"quatre", "trop", "dès", "quand", "notamment", "cependant", "jamais",
"ici", "beaucoup", "ensuite", "assez", "puis", "laquelle", "chaque",
"seulement", "entre", "sous", "dit", "autres", "très", "autre",
"ans", "ainsi", "peu", "non", "depuis", "avoir", "moins", "toute",
"trois", "toutes", "quelques", "faut", "cet", "celui", "doit", "jusqu",
"vie", "déjà", "celle", "vers", "dire", "cela", "fois", "donc",
"pendant", "année", "cours", "grande", "grand", "part", "rue", "avant", 
"mois", "van", "jour", "heures", "point", "situation", "question", "soir", 
"nouveau", "fin", "hui", "jours", "suite", "vue", "ville", "car", "moment", 
"place", "compte", "voir", "cas", "rien", "effet", "matin", "ailleurs", 
"plusieurs", "vient", "partie", "saint", "chez", "janvier", "près", 
"générale", "mardi", "dimanche", "lundi", "mars", "décembre", "octobre", 
"tant", "reste", "ment", "bon", "fort", "pris", "maison", "jeudi", "nom", 
"temps", "lieu", "homme", "problème", "hommes", "midi", "heure", "parce",
"raison", "cinq", "nord", "œuvre", "années", "avril", "semaine",
"pourrait", "juin", "selon", "novembre", "donné", "bas", "porte", "prendre", 
"quelque", "enfin",  "nombre","actuellement", "dernière", "enfants", 
"vendredi", "mis","aucun","bonne", "presse", "mercredi", "parmi","enfin",  
"juillet", "samedi", "journal","quelque", "dun", "dune", "c'est", "cest", 
"qu'il", "quil", "faire", "ans", "heures", "grands", "pays", "plus", "quils", 
"grande","fut", "fin", "faire", "part", "ministres", "ministre", "gouvernement", 
"belgique", "bruxelles", "France", "Paris", "général", "prix", "politique", "économique"]
sw = sw = list(set(sw))

def preprocess(text):
    # Les auteurs filtrent les mots fonctionnels (stopwords) [1].
    # Ils suggèrent de ne garder que les noms et noms propres [5].
    tokens = simple_preprocess(text)
    return [t for t in tokens if t not in sw and len(t) > 2]

print("Chargement du corpus...")
with open(file_path, "r", encoding="utf-8") as f:
    # On traite chaque ligne comme un article/document indépendant [6, 7].
    processed_texts = [preprocess(line) for line in f]

# -------------------------------
# 3️⃣ Création du modèle (LDA)
# -------------------------------
# Création du dictionnaire et du format "Bag of Words" (sac de mots) [8].
dictionary = Dictionary(processed_texts)
# Filtrage des mots trop rares ou trop fréquents comme dans PhiloMine [7].
#dictionary.filter_extremes(no_below=2, no_above=0.8)
corpus = [dictionary.doc2bow(text) for text in processed_texts]

print(f"Entraînement du modèle avec {n_topics} thèmes...")
# Bien que les auteurs utilisent MALLET [1], le modèle LdaModel 
# de Gensim est une alternative moderne produisant des résultats comparables.
lda = LdaModel(corpus=corpus, num_topics=n_topics, id2word=dictionary, passes=10)

# -------------------------------
# 4️⃣ Analyse des résultats
# -------------------------------
# Affichage des thèmes pour identifier les "discours" [2, 8].
for topic_idx in range(n_topics):
    words = lda.show_topic(topic_idx, topn=n_top_words)
    topic_words = [word for word, prob in words]
    print(f"\nThème {topic_idx + 1} : {', '.join(topic_words)}")

Chargement du corpus...


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Entraînement du modèle avec 10 thèmes...

Thème 1 : seul, autant, con, hier, nombreux, semble, mouvement, petit, services, succès, réunion, nouveaux, dix, abord, milieux, occasion, début, ouvriers, six, doute

Thème 2 : doute, dix, aucune, donner, semble, cent, sud, etc, banque, occasion, seul, six, côté, mai, août, sait, réunion, agit, doivent, nombreux

Thème 3 : britannique, aucune, dix, août, mal, sait, mouvement, septembre, reçu, sud, force, austérité, mettre, semble, agit, con, coup, ouvriers, bureau, économiques

Thème 4 : six, banque, donner, aucune, administration, certaines, directeur, britannique, jean, congrès, pourquoi, conditions, dollars, jeune, force, hier, cour, coup, doute, française

Thème 5 : seul, semble, août, etc, voici, ministère, tour, bureau, jeune, surtout, mal, présence, sud, groupe, réunion, voix, mouvement, aide, façon, sens

Thème 6 : banque, esprit, donner, occasion, hier, congrès, septembre, possible, sécurité, etc, avis, services, mme, aucune, nombreux