# Comparison of topics in two BERTopic models
based on cosine similarity

### Import packages

In [1]:
from bertopic import BERTopic
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
import pandas as pd

### Load serialized models

In [2]:
# Load model from file
bertopic_opt = BERTopic.load("Modellek/bertopic_opt")

In [3]:
# Load model from file
bertopic_lda = BERTopic.load("Modellek/bertopic_lda")

### Custom labels

In [4]:
bertopic_lda.set_topic_labels(
    {-1: "Outlier topik",
     0: "Sikeres fejlődés", 
     1: "Európa", 
     2: "Orosz-ukrán háború",
     3: "Hazafiság",
     4: "Covid",
     5: "Egyház",
     6: "Sport",
     7: "Kína",
     8: "Ipar",
    }
)
bertopic_lda.custom_labels_ #to pass these names to the model

['Outlier topik',
 'Sikeres fejlődés',
 'Európa',
 'Orosz-ukrán háború',
 'Hazafiság',
 'Covid',
 'Egyház',
 'Sport',
 'Kína',
 'Ipar']

In [5]:
bertopic_opt.set_topic_labels(
    {-1: "Outlier topik",
     0: "Általános", 
     1: "Covid", 
     2: "Törökország & Egyiptom",
     3: "Egyház",
     4: "Igazságszolgáltatás",
     5: "Választás",
     6: "Kína",
     7: "Európa",
     8: "Ukrajna",
     9: "Olimpia",
     10: "Orosz-ukrán háború",
     11: "Orosz együttműködés",
     12: "Sport & egyetem",
     13: "Általános lakossági",
     14: "Nyugdíj",
     15: "Településfejlesztés"
    }
)

bertopic_lda.custom_labels_ #to pass these names to the model

['Outlier topik',
 'Sikeres fejlődés',
 'Európa',
 'Orosz-ukrán háború',
 'Hazafiság',
 'Covid',
 'Egyház',
 'Sport',
 'Kína',
 'Ipar']

--------------------------------

## Calculate most similar topics

Sources of the method: 
- https://maartengr.github.io/BERTopic/getting_started/tips_and_tricks/tips_and_tricks.html#finding-similar-topics-between-models
- https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.cosine_similarity.html

### Based on BERT_Opt topics

In [6]:
sim_matrix = cosine_similarity(bertopic_opt.topic_embeddings_, bertopic_lda.topic_embeddings_)

opt_lda_compare = []

for topic in range(-1,16,1):
    # the "+1" and "-1" below are needed because the topic numbering starts from -1
    most_similar_topic = np.argmax(sim_matrix[topic + 1])-1
    
    opt_lda_compare.append(
        {'BERT_Opt topic': bertopic_opt.get_topic_info(topic)['CustomName'][0],
         'Most similar BERT_LDA topic': bertopic_lda.get_topic_info(most_similar_topic)['CustomName'][0],
         'Cosine similarity': round(sim_matrix[topic + 1][most_similar_topic+1],3)
        }
    )

pd.DataFrame(opt_lda_compare)

Unnamed: 0,BERT_Opt topic,Most similar BERT_LDA topic,Cosine similarity
0,Outlier topik,Outlier topik,0.997
1,Általános,Sikeres fejlődés,0.991
2,Covid,Covid,1.0
3,Törökország & Egyiptom,Sikeres fejlődés,0.884
4,Egyház,Egyház,1.0
5,Igazságszolgáltatás,Sikeres fejlődés,0.836
6,Választás,Sikeres fejlődés,0.87
7,Kína,Kína,0.999
8,Európa,Outlier topik,0.834
9,Ukrajna,Orosz-ukrán háború,0.91


### Based on BERT_LDA topics

In [7]:
sim_matrix = cosine_similarity(bertopic_lda.topic_embeddings_, bertopic_opt.topic_embeddings_)

lda_opt_compare = []

for topic in range(-1,9,1):
    
    most_similar_topic = np.argmax(sim_matrix[topic + 1])-1
    
    lda_opt_compare.append(
        {'BERT_LDA topic': bertopic_lda.get_topic_info(topic)['CustomName'][0],
         'Most similar BERT_Opt topic': bertopic_opt.get_topic_info(most_similar_topic)['CustomName'][0],
         'Cosine similarity': round(sim_matrix[topic + 1][most_similar_topic+1],3)
        }
    )

pd.DataFrame(lda_opt_compare)
                       

Unnamed: 0,BERT_LDA topic,Most similar BERT_Opt topic,Cosine similarity
0,Outlier topik,Outlier topik,0.997
1,Sikeres fejlődés,Általános,0.991
2,Európa,Outlier topik,0.938
3,Orosz-ukrán háború,Orosz együttműködés,0.917
4,Hazafiság,Általános,0.859
5,Covid,Covid,1.0
6,Egyház,Egyház,1.0
7,Sport,Olimpia,0.959
8,Kína,Kína,0.999
9,Ipar,Általános,0.789
