# BERTopic Evaluation

In [1]:
from bertopic import BERTopic
from bertopic.vectorizers import ClassTfidfTransformer
from sentence_transformers import SentenceTransformer

from sklearn.feature_extraction.text import CountVectorizer

from models.bertopic.utils.data_loader import DataLoader


from models.bertopic.config.model import (NUM_TOPICS, TOP_K, EMBEDDING_MODEL, NUM_TOPICS, TOP_K, 
                                          EMBEDDING_MODEL, 
                                          vectorizer_params, c_tfidf_params,
                                          hdbscan_params_doc, umap_params_doc)
                                          

from umap import UMAP
from hdbscan import HDBSCAN

## 1. Load Data

In [2]:
loader = DataLoader('data/data_speeches.csv', 'data/data_statements.csv', split_data=False)
loader.process()

train_docs, train_sentences = loader.get_train_data()

## 2. Initialize Optimal Sub-Models 

### Global sub-models:

In [3]:
vectorizer_model = CountVectorizer(**vectorizer_params)
ctfidf_model = ClassTfidfTransformer(**c_tfidf_params)
st_model = SentenceTransformer(EMBEDDING_MODEL)

### Document Submodels

In [4]:
umap_model_docs = UMAP(**umap_params_doc)
hdbscan_model_docs = HDBSCAN(**hdbscan_params_doc)

#### Sentence Submodels

In [4]:
# umap_model_sentences = UMAP(**umap_sentences_config)
# hdbscan_model_sentences = HDBSCAN(**hdbscan_sentences_config)

## 3. Initialize BERTopic Models

### Document Model

In [8]:
model_docs = BERTopic(embedding_model = EMBEDDING_MODEL,
                      vectorizer_model=vectorizer_model,
                      ctfidf_model=ctfidf_model,
                      umap_model=umap_model_docs,
                      hdbscan_model=hdbscan_model_docs,
                      nr_topics=NUM_TOPICS + 1, # +1 for the outlier topic
                      top_n_words=TOP_K
                      )

In [None]:
# model_sentences = BERTopic(embedding_model = EMBEDDING_MODEL,
#                       vectorizer_model=vectorizer_model,
#                       ctfidf_model=ctfidf_model,
#                       umap_model=umap_model_sentences,
#                       hdbscan_model=hdbscan_model_sentences,
#                       nr_topics=NUM_TOPICS + 1,
#                       top_n_words=TOP_K
#                       )

## 4. Evaluate BERTopic Models

In [9]:
topics_docs, _ = model_docs.fit_transform(train_docs)

In [10]:
model_docs.get_topic_info()

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,875,-1_democracy_ευρωπαϊκή_reforms_ανάπτυξης,"[democracy, ευρωπαϊκή, reforms, ανάπτυξης, ευρ...",[Κύριε Πρόεδρε κυρίες και κύριοι Βουλευτές εύχ...
1,0,349,0_τσίπρα_εκλογές_οικονομία_ευρώ,"[τσίπρα, εκλογές, οικονομία, ευρώ, κυρίες κύρι...",[Κυρία Πρόεδρε κυρίες και κύριοι Βουλευτές η α...
2,1,108,1_υγείας_νοσοκομείο_σύστημα υγείας_νοσοκομεία,"[υγείας, νοσοκομείο, σύστημα υγείας, νοσοκομεί...",[Το Σχέδιο Δίκαιης Αναπτυξιακής Μετάβασης το ο...
3,2,51,2_πολιτικής προστασίας_προστασίας_εκαβ_πολιτικ...,"[πολιτικής προστασίας, προστασίας, εκαβ, πολιτ...",[Κυρίες και κύριοι βουλευτές Ξεκινώντας θα ήθε...
4,3,49,3_αγρότες_αγροτική_αγροτικής_αναπηρία,"[αγρότες, αγροτική, αγροτικής, αναπηρία, προϊό...",[ΓΡΑΦΕΙΟ ΤΥΠΟΥ ΠΡΩΘΥΠΟΥΡΓΟΥ Τρίτη 26 Φεβρουαρί...
5,4,48,4_αντώνης σαμαράς_σαμαράς_αντώνης_european,"[αντώνης σαμαράς, σαμαράς, αντώνης, european, ...",[ΓΡΑΦΕΙΟ ΤΥΠΟΥ ΠΡΩΘΥΠΟΥΡΓΟΥ Παρασκευή 28 Φεβρο...
6,5,47,5_αερίου_φυσικού αερίου_φυσικού_ενέργειας,"[αερίου, φυσικού αερίου, φυσικού, ενέργειας, α...",[«Ο ΒΟΑΚ σήμερα είναι ο μεγαλύτερος νέος αυτοκ...
7,6,47,6_ροές_τουρκία_σύνορα_ασύλου,"[ροές, τουρκία, σύνορα, ασύλου, πρόσφυγες, fro...",[Ο Πρωθυπουργός Κυριάκος Μητσοτάκης συμμετείχε...
8,7,31,7_greece_european_europe_believe,"[greece, european, europe, believe, growth, pe...",[ΓΡΑΦΕΙΟ ΤΥΠΟΥ ΠΡΩΘΥΠΟΥΡΓΟΥ Τετάρτη 2 Οκτωβρίο...
9,8,31,8_περιφέρεια_εκατ_εκατ ευρώ_έργα,"[περιφέρεια, εκατ, εκατ ευρώ, έργα, ευρώ, περι...",[Η Ελλάδα μπορεί να σταθεί στα πόδια της και ν...


In [12]:
model_docs.visualize_hierarchy()

In [13]:
model_docs.visualize_heatmap()

sentences

In [None]:
# topics_sentences, _ = model_sentences.fit_transform(train_sentences)