TopicMap est une solution d'intelligence artificielle conçue pour transformer des flux de données textuelles non structurées (Avis clients, Tickets support, News) en insights stratégiques actionnables.
Contrairement aux approches classiques (mots-clés, Regex), ce moteur utilise des Transformers (Deep Learning) pour comprendre le contexte sémantique et la nuance, permettant de détecter des signaux faibles et des tendances de fond sans supervision humaine préalable.
Le système repose sur une architecture découplée Compute / Serving pour garantir performance et scalabilité.
- Core Engine : BERTopic (State-of-the-Art Topic Modeling).
- Embeddings :
paraphrase-multilingual-MiniLM-L12-v2(Dense Vectorization). - Clustering : UMAP (Dimensionality Reduction) + HDBSCAN (Density-based Clustering).
- Visualization : Streamlit + Plotly WebGL (GPU-accelerated rendering).
- Pipeline : CLI pour l'entraînement (Batch) -> Artifacts -> Dashboard pour l'inférence.
Environnement recommandé : Python 3.9+ (Support GPU/MPS activé).
pip install -r requirements.txtLe système fonctionne en deux phases distinctes.
Phase 1 : Training Pipeline (Compute) Exécutez le moteur d'ingestion et d'entraînement. Ce processus génère les embeddings et les clusters, puis sérialise les artefacts.
# Lancement sur GPU (Recommandé pour >10k docs)
python main.py --data_dir data --run_name modele_v1_gpu --sample_size 20000 --min_cluster_size 40| Argument | Description |
|---|---|
--data_dir |
Répertoire source des fichiers .jsonl. |
--run_name |
Identifiant unique pour la version du modèle (dossier artifacts/). |
--sample_size |
Limite d'échantillonnage pour optimisation mémoire. |
--openai_key |
(Optionnel) Clé API pour le labeling génératif par GPT. |
Phase 2 : Mission Control (Visualization) Lancez l'interface d'exploration neurale. Cette interface est "Stateless" et charge instantanément les artefacts générés.
streamlit run app.py