In [3]:
import pickle
from bertopic import BERTopic
from gensim.models.ldamodel import LdaModel
from gensim.corpora.dictionary import Dictionary
import pyLDAvis
import pyLDAvis.gensim_models

# BERTopic Analysis

In [5]:
# Load the model
with open("data/topic_model.pkl", "rb") as f:
    topic_model = pickle.load(f)

In the topics below we can see a result of missing lemmatization/stemming - Topics 5 or 6 are just different forms of the same word. Unfortunately I could not lemmatize the words since one package was 

In [4]:
# Print the top 15 topics
topic_info = topic_model.get_topic_info()
topic_info[:15]

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,62600,-1_ישראל_שלא_אין_אנשים,"[ישראל, שלא, אין, אנשים, לך, אתם, להם, ולא, המ...",[הייתי מציע להשאר לעבור למקום בארץ מקום בטוח א...
1,0,3580,0_יסוד_חוק_שופטים_לפסול,"[יסוד, חוק, שופטים, לפסול, השופטים, החוק, חוקי...","[חוק יסוד החקיקה, 12 15 שופטים קבעו נתונה לביה..."
2,1,1129,1_החיילים_בצבא_צבא_חייל,"[החיילים, בצבא, צבא, חייל, הצבא, חיילים, לחייל...","[החיילים בן גביר, בצבא, בצבא היית]"
3,2,1115,2_וואלה_חיפה_יאיר_הפועל,"[וואלה, חיפה, יאיר, הפועל, נתניה, רבי, פליק, מ...","[וואלה ידעתי מזה, וואלה ידעתי, וואלה מאמין שזה..."
4,3,1060,3_שחקן_משחק_המשחק_כדורגל,"[שחקן, משחק, המשחק, כדורגל, מאמן, משחקים, שחקנ...","[קל קשה לשחק מאמן, המשחק הכי חשוב העונה, משחק ..."
5,4,1057,4_ממשלת_ממשלה_הממשלה_שהממשלה,"[ממשלת, ממשלה, הממשלה, שהממשלה, בממשלה, לממשלה...","[בושה ממשלה, פה ממשלה ימין מלא מלא, ממשלת ימין]"
6,5,1041,5_נתניהו_בנימין_הליכוד_מהמרד,"[נתניהו, בנימין, הליכוד, מהמרד, לבנימין, גנץ, ...","[נתניהו הבעיה, איש נתניהו, אולי נתניהו]"
7,6,1033,6_יהודי_יהודים_יהודית_היהודי,"[יהודי, יהודים, יהודית, היהודי, היהודים, היהדו...","[אז יהודי מאמין, יהודי פה, יהודים]"
8,7,865,7_2024_2023_ב2024_ל2024,"[2024, 2023, ב2024, ל2024, שנת, לשנת, ב2023, 2...","[מזל 2024, שיהיה לך 2024 טובה, אולי 2024 תהיה ..."
9,8,864,8_חשבתי_הייתי_עשיתי_הלכתי,"[חשבתי, הייתי, עשיתי, הלכתי, ניסיתי, חסמתי, שא...","[חשבתי עכשיו, חשבתי, חשבתי שזה]"


In [5]:
topic_model.visualize_barchart()

In [6]:
def calculate_topic_diversity(topic_model, top_n_words=10):
    # Extract top n words for each topic
    topics = topic_model.get_topics()
    
    topic_words = []
    for topic_id in topics.keys():
        topic = topic_model.get_topic(topic_id)
        if topic:
            topic_words.append(topic[:top_n_words])
    
    # Flatten list of words in all topics
    all_words = [word for topic in topic_words for word, _ in topic]

    # Calculate unique words
    unique_words = set(all_words)
    total_words = len(all_words)

    # Topic Diversity Score
    if total_words == 0:
        return 0
    topic_diversity_score = len(unique_words) / total_words
    return topic_diversity_score

# Calculate and print the Topic Diversity Score
topic_diversity_score = calculate_topic_diversity(topic_model, top_n_words=10)
print(f"Topic Diversity Score: {topic_diversity_score:.4f}")


Topic Diversity Score: 0.8218


# LDA Analysis

This analysis returns a collection of words for a topic instead of a readable topic. Summarizing it using a generative LLM would make it readable. I only implemented gpt-2, which is the only open-source model that I could run on my laptop (too big otherwise). However gpt-2 does not support hebrew and the results are accordingly bad.

In [18]:
# Load the model
with open("data/lda_model.pkl", "rb") as f:
    tweets_lda = pickle.load(f)

# Load necessary data from the modeling
with open("data/token_per_tweet.pkl", "rb") as f:
    token_per_tweet = pickle.load(f)

with open("data/tweets_bow.pkl", "rb") as f:
    tweets_bow = pickle.load(f)

with open("data/dictionary.pkl", "rb") as f:
    dictionary = pickle.load(f)

In [20]:
tweets_lda.show_topics()

[(0,
  '0.026*"אתם" + 0.023*"תודה" + 0.019*"לכם" + 0.010*"ביטול" + 0.009*"רואה" + 0.007*"הרוב" + 0.007*"הכל" + 0.007*"אין" + 0.007*"החלטת" + 0.007*"ניתן"'),
 (1,
  '0.021*"לך" + 0.016*"שנה" + 0.015*"שופטים" + 0.014*"ח" + 0.013*"ישראל" + 0.012*"ביבי" + 0.009*"יום" + 0.009*"טובה" + 0.008*"סגל" + 0.008*"שרה"'),
 (2,
  '0.013*"הזמן" + 0.012*"משפט" + 0.012*"חמאס" + 0.009*"חיות" + 0.009*"החיילים" + 0.009*"הרפורמה" + 0.008*"כהן" + 0.007*"מעניין" + 0.007*"אפס" + 0.007*"דיסטל"'),
 (3,
  '0.017*"ממשלה" + 0.016*"ראש" + 0.014*"2" + 0.010*"3" + 0.010*"הממשלה" + 0.009*"מנדטים" + 0.009*"1" + 0.009*"64" + 0.008*"ישראל" + 0.008*"שלטון"'),
 (4,
  '0.024*"ישראל" + 0.010*"מלא" + 0.009*"בג"צ" + 0.009*"הימין" + 0.008*"עזה" + 0.008*"ממשלת" + 0.008*"השופטים" + 0.007*"ימין" + 0.007*"צריך" + 0.007*"15"'),
 (5,
  '0.024*"המשפט" + 0.018*"בית" + 0.011*"המדינה" + 0.011*"בן" + 0.010*"העם" + 0.010*"הדין" + 0.009*"פסק" + 0.009*"ישראל" + 0.009*"בעזה" + 0.008*"דמוקרטיה"'),
 (6,
  '0.026*"לי" + 0.016*"למה" + 0.016*"אז" +

The topic diversity score of 0.9 is pretty good for the LDA 

In [16]:
def calculate_topic_diversity_lda(lda_model, token_per_tweet, top_n_words=10):
    # Create dictionary and corpus
    dictionary = Dictionary(token_per_tweet)
    corpus = [dictionary.doc2bow(text) for text in token_per_tweet]

    # Extract top n words for each topic
    topics = lda_model.show_topics(num_topics=lda_model.num_topics, num_words=top_n_words, formatted=False)
    
    # Collect all words from topics
    all_words = [word for topic in topics for word, _ in topic[1]]
    
    # Calculate unique words
    unique_words = set(all_words)
    total_words = len(all_words)

    # Topic Diversity Score
    if total_words == 0:
        return 0
    topic_diversity_score = len(unique_words) / total_words
    return topic_diversity_score

# Train your LDA model (example)
# lda_model = LdaModel(corpus, num_topics=10, id2word=dictionary, passes=15)

# Calculate and print the Topic Diversity Score
topic_diversity_score = calculate_topic_diversity_lda(tweets_lda, token_per_tweet, top_n_words=10)
print(f"Topic Diversity Score: {topic_diversity_score:.4f}")


Topic Diversity Score: 0.9000


The graph below shows a distance map of the topics.
There sare around 4-6 really distinct topics and the rest is more of less repeated

In [19]:
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim_models.prepare(tweets_lda, tweets_bow, dictionary)
vis