In [1]:
import pandas as pd
from bertopic import BERTopic
from sentence_transformers import SentenceTransformer
from nltk.tokenize import sent_tokenize
import itertools
from utils.data_loader import DataLoader

In [None]:
loader = DataLoader('../data/data_speeches.csv', '../data/data_statements.csv')
loader.process()

docs = loader.get_docs()
sentences = loader.get_sentences()

embeddings_gr = loader.load_embeddings("../data/embeddings/embeddings_gr.pkl")
embeddings_gr_media = loader.load_embeddings("../data/embeddings/embeddings_gr_media.pkl")
embeddings_gr_sentences = loader.load_embeddings("../data/embeddings/embeddings_gr_sentences.pkl")
embeddings_gr_media_sentences = loader.load_embeddings("../data/embeddings/embeddings_gr_media_sentences.pkl")

In [40]:
st_greek = SentenceTransformer('lighteternal/stsb-xlm-r-greek-transfer')
st_greek_media = SentenceTransformer('dimitriz/st-greek-media-bert-base-uncased')

2024-04-04 16:02:01,509 | INFO | SentenceTransformer.py:107 | __init__ | Load pretrained SentenceTransformer: lighteternal/stsb-xlm-r-greek-transfer
2024-04-04 16:02:07,647 | INFO | SentenceTransformer.py:213 | __init__ | Use pytorch device_name: cpu
2024-04-04 16:02:07,647 | INFO | SentenceTransformer.py:107 | __init__ | Load pretrained SentenceTransformer: dimitriz/st-greek-media-bert-base-uncased
2024-04-04 16:02:10,168 | INFO | SentenceTransformer.py:213 | __init__ | Use pytorch device_name: cpu


In [38]:
print(f"Number of all docs: {len(docs)}")
print(f"Number of all sentences: {len(sentences)}")

Number of all docs: 2012
Number of all sentences: 212471


In [17]:
from sklearn.feature_extraction.text import CountVectorizer
import advertools as adv

In [39]:
stopwords = adv.stopwords['greek']
stopwords = list(stopwords) +  ['χώρα', 'ελλάδα', 'κύριοι', 'κυρία', 'κυρίες', 'κύριο', 'συμπολίτες']
vectorizer_model = CountVectorizer(stop_words=stopwords, min_df=2, ngram_range=(1, 2))

In [41]:
topic_model = BERTopic(embedding_model=st_greek_media, vectorizer_model=vectorizer_model)
topics, _ = topic_model.fit_transform(docs, embeddings_gr_media)

In [42]:
topic_model.get_topic_info()

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,725,-1_the_and_of_to,"[the, and, of, to, σήμερα, ευρώπη, χρόνια, in,...",[«Στόχος μας σε ένα χρόνο από τώρα η χώρα να β...
1,0,245,0_κι_σήμερα_χρόνια_κυβέρνηση,"[κι, σήμερα, χρόνια, κυβέρνηση, χώρας, νέα, δι...",[ΓΡΑΦΕΙΟ ΤΥΠΟΥ ΠΡΩΘΥΠΟΥΡΓΟΥ Πέμπτη 30 Ιανουαρί...
2,1,113,1_υγείας_σήμερα_σύστημα_σύστημα υγείας,"[υγείας, σήμερα, σύστημα, σύστημα υγείας, νοσο...",[Φίλες και φίλοι είναι η δεύτερη φορά που επισ...
3,2,62,2_ευρωπαϊκής_ευρωπαϊκή_χώρες_ένωσης,"[ευρωπαϊκής, ευρωπαϊκή, χώρες, ένωσης, σήμερα,...",[Κύριοι Πρόεδροι κυρίες και κύριοι Ολοκληρώσαμ...
4,3,61,3_προστασίας_πολιτικής προστασίας_θέλω_κάνουμε,"[προστασίας, πολιτικής προστασίας, θέλω, κάνου...",[Δεν νομίζω ότι χρειάστηκε κα Κωνσταντοπούλου ...
5,4,55,4_ευρώ_αγρότες_τομέα_προϊόντα,"[ευρώ, αγρότες, τομέα, προϊόντα, θέλω, σήμερα,...",[Γεια σας! Σας ευχαριστώ θερμά γι αυτή την υπο...
6,5,53,5_τουρκία_χώρες_ροές_ασύλου,"[τουρκία, χώρες, ροές, ασύλου, σύνορα, ευρωπαϊ...",[Οι κοινές δηλώσεις του Πρωθυπουργού Κυριάκου ...
7,6,50,6_ευρώπη_σήμερα_βίας_γυναίκες,"[ευρώπη, σήμερα, βίας, γυναίκες, γυναικών, χώρ...",[Κυρίες και κύριοι Είναι πολύ σημαντικό ότι η ...
8,7,49,7_the_and_to_of,"[the, and, to, of, is, in, we, that, it, for]",[ΓΡΑΦΕΙΟ ΤΥΠΟΥ ΠΡΩΘΥΠΟΥΡΓΟΥ Τετάρτη 2 Οκτωβρίο...
9,8,45,8_ευρώπη_γερμανία_πιστεύω_ζήτημα,"[ευρώπη, γερμανία, πιστεύω, ζήτημα, θέλω, σήμε...",[Κυριάκος Μητσοτάκης: Αγαπητέ Καγκελάριε της Ο...


In [43]:
topic_model = BERTopic(embedding_model=st_greek, vectorizer_model=vectorizer_model)
topics, _ = topic_model.fit_transform(docs, embeddings_gr)

In [44]:
topic_model.get_topic_info()

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,634,-1_the_and_of_to,"[the, and, of, to, in, is, we, for, our, are]",[ΓΡΑΦΕΙΟ ΤΥΠΟΥ ΠΡΩΘΥΠΟΥΡΓΟΥ Δευτέρα 16 Σεπτεμβ...
1,0,166,0_υγείας_εμβολιασμού_σύστημα υγείας_σύστημα,"[υγείας, εμβολιασμού, σύστημα υγείας, σύστημα,...",[Ο Πρωθυπουργός Κυριάκος Μητσοτάκης έλαβε μέρο...
2,1,121,1_τσίπρα_κι_σήμερα_κύριε,"[τσίπρα, κι, σήμερα, κύριε, διότι, κυβέρνηση, ...",[Ομιλία στη συζήτηση στη Βουλή του σχεδίου νόμ...
3,2,75,2_χώρες_ευρώπη_ευρωπαϊκή_πρόβλημα,"[χώρες, ευρώπη, ευρωπαϊκή, πρόβλημα, πρόσφυγες...",[Σας ευχαριστώ κυρία Γεννηματά για την ερώτηση...
4,3,74,3_κι_χρόνια_δημοκρατία_νέα,"[κι, χρόνια, δημοκρατία, νέα, σήμερα, έλληνες,...",[ΓΡΑΦΕΙΟ ΤΥΠΟΥ ΠΡΩΘΥΠΟΥΡΓΟΥ Παρασκευή 11 Οκτωβ...
5,4,67,4_ενέργειας_αερίου_φυσικού αερίου_φυσικού,"[ενέργειας, αερίου, φυσικού αερίου, φυσικού, ε...",[«Αποτελεί υποχρέωσή μας όχι απλά εθνική όχι α...
6,5,66,5_προστασίας_πολιτικής προστασίας_φωτιά_πολιτικής,"[προστασίας, πολιτικής προστασίας, φωτιά, πολι...",[Ευχαριστώ κ. Πρόεδρε. Επιτρέψτε μου να ξεκινή...
7,6,61,6_συλλυπητήρια_υπήρξε_εκφράζω_υπηρέτησε,"[συλλυπητήρια, υπήρξε, εκφράζω, υπηρέτησε, θλί...",[ΓΡΑΦΕΙΟ ΤΥΠΟΥ ΠΡΩΘΥΠΟΥΡΓΟΥ Τετάρτη 6 Μαρτίου ...
8,7,51,7_σχολείο_παιδιά_αναπηρία_εκπαίδευσης,"[σχολείο, παιδιά, αναπηρία, εκπαίδευσης, εκπαί...",[Κυρίες και κύριοι συνάδελφοι συνηθίζουμε να λ...
9,8,44,8_ευρώπη_συμφωνία_ελληνική_μάχη,"[ευρώπη, συμφωνία, ελληνική, μάχη, κυβέρνηση, ...",[Κυρίες και κύριοι συνάδελφοι Σήμερα μετά και ...


In [46]:
topic_model = BERTopic(embedding_model=st_greek, vectorizer_model=vectorizer_model)
topics, _ = topic_model.fit_transform(sentences, embeddings_gr_sentences)

KeyboardInterrupt: 