In [2]:
# 🧠 TF-IDF + NMF
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import NMF
import glob, os

In [5]:
cleaned_docs = "../../data/clean"

# Charger tous les fichiers .txt dans une liste
file_paths = glob.glob(os.path.join(cleaned_docs, "*.txt"))
documents = []
for path in file_paths:
    with open(path, encoding='utf-8') as f:
        documents.append(f.read())

# Vectorisation TF-IDF
tfidf_vectorizer = TfidfVectorizer(max_df=0.9, min_df=2)
tfidf = tfidf_vectorizer.fit_transform(documents)

# Modélisation de NMF
nmf = NMF(n_components=10, random_state=42)
nmf_topics = nmf.fit_transform(tfidf)
feature_names = tfidf_vectorizer.get_feature_names_out()

# Affichage des thèmes
def display_and_save_topics(model, feature_names, n_top_words, output_file):
    with open(output_file, 'w', encoding='utf-8') as f:
        for i, topic in enumerate(model.components_):
            top_words = " | ".join([feature_names[j] for j in topic.argsort()[:-n_top_words - 1:-1]])
            output = f"Thème {i+1} :\n{top_words}\n\n"
            print(output)
            f.write(output)

# Appel de la fonction
output_path = "../../figures/nmf_topics.txt"
display_and_save_topics(nmf, feature_names, 10, output_path)

Thème 1 :
min | cannes | festival | film | cinéma | genre | croisette | réalisateur | acteur | compétition


Thème 2 :
candidat | droite | sondage | extrême | élection | pologne | scrutin | tour | sortie | urne


Thème 3 :
drone | fibre | filaire | optique | russe | ukraine | anton | ukrainien | appareil | vite


Thème 4 :
israélien | gaza | israël | espoir | bande | hamas | offensive | palestinien | trêve | humanitaire


Thème 5 :
nestlé | eau | rapport | santé | alexandre | sanitaire | enquête | waters | agence | ouizill


Thème 6 :
vol | aérien | passager | compagnie | heure | paris | retard | dimanche | européen | consommateur


Thème 7 :
bruno | retailleau | wauquiez | lr | laurent | parti | député | républicains | élu | républicain


Thème 8 :
personne | mourir | rue | collectif | mort | eau | chiffre | euthanasie | rapport | décéder


Thème 9 :
malade | euro | million | siège | sécurité | milliard | emploi | patient | paris | réduire


Thème 10 :
ufc | association | choisir | at