In [None]:
from bertopic import BERTopic
import pandas as pd
from sentence_transformers import SentenceTransformer

In [None]:
# Define topic model
sentence_model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
topic_model = BERTopic(embedding_model=sentence_model)

In [None]:
### Read data
queries = pd.read_csv('queries.csv')

In [None]:
# Fit the model to user queries
topics, probs = topic_model.fit_transform(queries)

In [None]:
# Automatically reduce the number of topic cluster by merging them 
topic_model._auto_reduce_topics(topic_model.get_document_info(queries))

In [None]:
# save the model for later use
topic_model.save("topic_model", serialization="safetensors")

In [None]:
topic_model.get_topics()                 # topic list

In [32]:
topic_model.get_topic(5)

[('flüchtlinge', 0.01306897705826551),
 ('migration', 0.011834912086884038),
 ('flüchtling', 0.010966136460623888),
 ('migrationshintergrund', 0.010663889851631903),
 ('refugee', 0.010518853206048558),
 ('immigration', 0.010147515029991921),
 ('migranten', 0.009167902835301433),
 ('migrant', 0.008472660645169779),
 ('flüchtlingskrise', 0.007349296557072976),
 ('zuwanderung', 0.007017138354918533)]

In [29]:
topic_model.get_topic_freq().head(10)             # topic frequencies

Unnamed: 0,Topic,Count
9,-1,36156
16,0,26682
26,1,22228
3,2,10673
10,3,7615
46,4,5841
99,5,5689
76,6,4828
18,7,4470
179,8,4312


In [27]:
topic_model.get_topic_info().head(10)

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,36156,-1_second_geflüchteten_den_die,"[second, geflüchteten, den, die, spitzenkandid...",[deutsche version des penn state worry questio...
1,0,26682,0_eurobarometer_standard_91_95,"[eurobarometer, standard, 91, 95, special, fla...","[eurobarometer, eurobarometer, eb - standard a..."
2,1,22228,1_za7500_za3950_za5270_za5999,"[za7500, za3950, za5270, za5999, za5250, za480...","[za7500, za7500, za7500 ]"
3,2,10673,2_piaac_umwelt_asku_isei,"[piaac, umwelt, asku, isei, esa, rauchen, eink...","[piaac, piaac, piaac]"
4,3,7615,3_arbeitszufriedenheit_arbeitszeit_mitarbeiter...,"[arbeitszufriedenheit, arbeitszeit, mitarbeite...","[arbeitszufriedenheit, arbeitszufriedenheit , ..."
5,4,5841,4_rechtsextremismus_politikverdrossenheit_link...,"[rechtsextremismus, politikverdrossenheit, lin...","[rechts links, links-rechts, rechts links]"
6,5,5689,5_flüchtlinge_migration_flüchtling_migrationsh...,"[flüchtlinge, migration, flüchtling, migration...","[flüchtlinge, flüchtlinge, flüchtlinge]"
7,6,4828,6_umweltbewusstsein_nachhaltigkeit_umweltverha...,"[umweltbewusstsein, nachhaltigkeit, umweltverh...","[umweltbewusstsein, umweltbewusstsein, umweltb..."
8,7,4470,7_allbus_nutzt_cumulation_gesellschaftsform,"[allbus, nutzt, cumulation, gesellschaftsform,...","[allbus, allbus , allbus]"
9,8,4312,8_mediennutzung_medien_medienkompetenz_medienk...,"[mediennutzung, medien, medienkompetenz, medie...","[mediennutzung, mediennutzung, medienkompetenz..."


In [28]:
topic_model.get_document_info(queries).head(10)   # query information

Unnamed: 0,Document,Topic,Name,Representation,Representative_Docs,Top_n_words,Representative_document
0,zufriedenheit,24,24_lebenszufriedenheit_zufriedenheit_happiness...,"[lebenszufriedenheit, zufriedenheit, happiness...","[lebenszufriedenheit , lebenszufriedenheit, le...",lebenszufriedenheit - zufriedenheit - happines...,False
1,aes,163,163_aes_missy__,"[aes, missy, , , , , , , , ]","[aes, aes, aes]",aes - missy - - - - - - - -,True
2,aes,163,163_aes_missy__,"[aes, missy, , , , , , , , ]","[aes, aes, aes]",aes - missy - - - - - - - -,True
3,leo,675,675_leo_lern_lese_lerntyp,"[leo, lern, lese, lerntyp, leseliste, , , , , ]","[leo, leo, leo]",leo - lern - lese - lerntyp - leseliste - - ...,True
4,piaac,2,2_piaac_umwelt_asku_isei,"[piaac, umwelt, asku, isei, esa, rauchen, eink...","[piaac, piaac, piaac]",piaac - umwelt - asku - isei - esa - rauchen -...,True
5,leistung,129,129_vermögen_leistung_leistungsmotiv_leistungs...,"[vermögen, leistung, leistungsmotiv, leistungs...","[vermögen, vermögen, vermögen]",vermögen - leistung - leistungsmotiv - leistun...,False
6,skalen,191,191_skalen_bergbau_berg_steinkohle,"[skalen, bergbau, berg, steinkohle, pyramid, e...","[skalen, skalen, skalen]",skalen - bergbau - berg - steinkohle - pyramid...,True
7,skalen,191,191_skalen_bergbau_berg_steinkohle,"[skalen, bergbau, berg, steinkohle, pyramid, e...","[skalen, skalen, skalen]",skalen - bergbau - berg - steinkohle - pyramid...,True
8,fragebogen,73,73_fragebogen_fragebogengestaltung_fragebogene...,"[fragebogen, fragebogengestaltung, fragebogene...","[fragebogen, fragebogen, fragebogen]",fragebogen - fragebogengestaltung - fragebogen...,False
9,einkommen,2,2_piaac_umwelt_asku_isei,"[piaac, umwelt, asku, isei, esa, rauchen, eink...","[piaac, piaac, piaac]",piaac - umwelt - asku - isei - esa - rauchen -...,False
