# Bunka

- https://charlesdedampierre.github.io/BunkaTopics/index.html
- https://github.com/charlesdedampierre/BunkaTopics?tab=readme-ov-file

In [1]:
import pandas as pd
from bunkatopics import Bunka
from langchain_community.embeddings import HuggingFaceEmbeddings

In [2]:
df = pd.read_csv("../data/df_repu.csv")

In [3]:
# nettoyage moche du texte
# sinon à gérer avant !

import re


def nettoyer_texte(texte):
    if not isinstance(texte, str):
        return texte
    # Supprimer les balises HTML/XML
    texte = re.sub(r"<[^>]+>", "", texte)
    # Supprimer contenu entre parenthèses ou crochets
    texte = re.sub(r"\([^)]*\)", "", texte)  # (...)
    # texte = re.sub(r"\[[^\]]*\]", "", texte)     # [...] # TODO: vérif avant
    # Supprimer les espaces multiples
    texte = re.sub(r"\s+", " ", texte).strip()
    return texte


df["Texte_clean"] = df["Texte"].apply(nettoyer_texte)

In [4]:
docs = df[
    "Texte_clean"
].to_list()  # 'docs' is a list of text [text1, text2, ..., textN]

In [5]:
# depuis leur ancienne doc en version basique
# aviser avec leurs nouveaux éléments ?

model_name = "all-MiniLM-L6-v2"
embedding_model = HuggingFaceEmbeddings(
    model_name=model_name
)  # We recommend starting with a small model

# Initialize Bunka with your chosen model and language preference
bunka = Bunka(
    embedding_model=embedding_model,
    language="french",  # aviser pour français
)  # You can choose any language you prefer

# Fit Bunka to your text data
bunka.fit(docs)

[32m2025-06-29 23:16:09 - [94mBunka[0m - INFO - [1mProcessing 1963865 tokens[0m
[32m2025-06-29 23:16:09 - [94mBunka[0m - INFO - [1mDetected language: French[0m
[32m2025-06-29 23:16:09 - [94mBunka[0m - INFO - [1mEmbedding documents... (can take varying amounts of time depending on their size)[0m
[32m2025-06-29 23:16:34 - [94mBunka[0m - INFO - [1mReducing the dimensions of embeddings...[0m
[32m2025-06-29 23:16:46 - [94mBunka[0m - INFO - [1mExtracting meaningful terms from documents...[0m
[32m2025-06-29 23:16:46 - [94mBunka[0m - INFO - [1mSampling 1000 documents for term extraction[0m
100%|██████████| 1000/1000 [00:45<00:00, 22.02it/s]


In [None]:
df_topics_bunka = bunka.get_topics(n_clusters=50, name_length=5, min_count_terms=2)
df_topics_bunka

[32m2025-06-29 23:17:35 - [94mBunka[0m - INFO - [1mComputing the topics[0m


Unnamed: 0,topic_id,topic_name,size,percent
0,bt-13,violences | menaces | maire | crime | violence,131,2.85
1,bt-0,nationalité | Calédonie | Calédoniens | électi...,128,2.79
2,bt-21,motions | censure | motion | parlement | copro...,128,2.79
3,bt-40,bénévolat | simplification | prérogatives | tr...,126,2.74
4,bt-17,attitude | déni | ordonnances | affaiblissemen...,119,2.59
5,bt-35,élèves | éducation | école | enseignants | par...,118,2.57
6,bt-11,enquêteurs | juge | police | procureur | explo...,117,2.55
7,bt-33,combattants | inflation | enveloppe | euros | ...,117,2.55
8,bt-34,lucidité | plateformes | documents | compromis...,116,2.53
9,bt-6,brutalité | injustices | faut | euro | meurtre,114,2.48


In [7]:
# Check the top documents for every topic
bunka.df_top_docs_per_topic_

Unnamed: 0,doc_id,content,ranking_per_topic,topic_id,topic_name
0,c4848011-dddb-409a-9,La nécessaire ouverture du corps électoral pro...,1,bt-0,nationalité | Calédonie | Calédoniens | électi...
1,5b4e7325-f41f-4d3d-9,La Nouvelle-Calédonie est un territoire frança...,2,bt-0,nationalité | Calédonie | Calédoniens | électi...
2,0757260a-1743-495c-a,"Lorsqu’il a eu lieu, à une heure tardive de la...",3,bt-0,nationalité | Calédonie | Calédoniens | électi...
3,d13e0e48-69a4-47fa-8,Pour les députés communistes et ultramarins du...,4,bt-0,nationalité | Calédonie | Calédoniens | électi...
4,1d846ae9-5937-444d-9,De telles postures attestent d’une méconnaissa...,5,bt-0,nationalité | Calédonie | Calédoniens | électi...
...,...,...,...,...,...
794,7fc20300-9530-4018-b,Voici ses mots – ce ne sont pas les miens : « ...,14,bt-9,Votons | arc | VIe | marche | esclavage
795,951504dc-b8a6-4cc6-b,Il s’inscrit dans une course mortifère dont le...,15,bt-9,Votons | arc | VIe | marche | esclavage
796,f9e2a1e0-d115-4682-a,"…– cinquante-quatre textes sur cinquante-huit,...",16,bt-9,Votons | arc | VIe | marche | esclavage
797,fac3d063-db93-4092-a,Je ne sais pas si le collègue Gosselin accepte...,17,bt-9,Votons | arc | VIe | marche | esclavage


In [8]:
bunka.visualize_topics(
    width=800,
    height=800,
    colorscale="Blues",
    density=True,
    label_size_ratio=60,
    convex_hull=True,
    show_text=True,
)

[32m2025-06-29 23:17:36 - [94mBunka[0m - INFO - [1mCreating the Bunka Map[0m


In [9]:
bunka.save_bunka("../models/bunka/bunka_dump")


In [None]:
# from bunkatopics import Bunka
# bunka = Bunka().load_bunka("../models/bunka/bunka_dump") # change path
# >>> bunka.get_topics(n_clusters = 15)