Skip to content

TopicMap est un moteur d’exploration thématique neuronale basé sur BERTopic pour transformer de grands volumes de textes non structurés en insights stratégiques. Il combine embeddings sémantiques, clustering non supervisé et un dashboard Streamlit interactif pour détecter tendances et signaux faibles à grande échelle.

Notifications You must be signed in to change notification settings

nathanedr/Topicmap

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

🛰️ TopicMap | Neural Explorer

Python BERTopic PyTorch Streamlit Status



📋 Executive Summary

TopicMap est une solution d'intelligence artificielle conçue pour transformer des flux de données textuelles non structurées (Avis clients, Tickets support, News) en insights stratégiques actionnables.

Contrairement aux approches classiques (mots-clés, Regex), ce moteur utilise des Transformers (Deep Learning) pour comprendre le contexte sémantique et la nuance, permettant de détecter des signaux faibles et des tendances de fond sans supervision humaine préalable.

🏗️ Technical Architecture

Le système repose sur une architecture découplée Compute / Serving pour garantir performance et scalabilité.

  • Core Engine : BERTopic (State-of-the-Art Topic Modeling).
  • Embeddings : paraphrase-multilingual-MiniLM-L12-v2 (Dense Vectorization).
  • Clustering : UMAP (Dimensionality Reduction) + HDBSCAN (Density-based Clustering).
  • Visualization : Streamlit + Plotly WebGL (GPU-accelerated rendering).
  • Pipeline : CLI pour l'entraînement (Batch) -> Artifacts -> Dashboard pour l'inférence.

⚙️ Installation

Environnement recommandé : Python 3.9+ (Support GPU/MPS activé).

pip install -r requirements.txt

🚀 Operations Manual

Le système fonctionne en deux phases distinctes.

Phase 1 : Training Pipeline (Compute) Exécutez le moteur d'ingestion et d'entraînement. Ce processus génère les embeddings et les clusters, puis sérialise les artefacts.

# Lancement sur GPU (Recommandé pour >10k docs)
python main.py --data_dir data --run_name modele_v1_gpu --sample_size 20000 --min_cluster_size 40
Argument Description
--data_dir Répertoire source des fichiers .jsonl.
--run_name Identifiant unique pour la version du modèle (dossier artifacts/).
--sample_size Limite d'échantillonnage pour optimisation mémoire.
--openai_key (Optionnel) Clé API pour le labeling génératif par GPT.

Phase 2 : Mission Control (Visualization) Lancez l'interface d'exploration neurale. Cette interface est "Stateless" et charge instantanément les artefacts générés.

streamlit run app.py
Nathan Edery

About

TopicMap est un moteur d’exploration thématique neuronale basé sur BERTopic pour transformer de grands volumes de textes non structurés en insights stratégiques. Il combine embeddings sémantiques, clustering non supervisé et un dashboard Streamlit interactif pour détecter tendances et signaux faibles à grande échelle.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages