In [3]:
import gensim
import pyLDAvis
import pyLDAvis.gensim_models as gensimvis
import pandas as pd
import os

save_dir = "best_lda_tfidf_model"

# Load the saved LDA model
print("Loading saved LDA model...")
lda_model = gensim.models.LdaModel.load(os.path.join(save_dir, 'best_lda_model.model'))

# Load the dictionary and corpus
# Note: You must have the same dictionary and corpus used during training
print("Loading dictionary and corpus...")
dictionary = gensim.corpora.Dictionary.load(os.path.join(save_dir, 'dictionary.dict'))
corpus = gensim.corpora.MmCorpus(os.path.join(save_dir, 'corpus.mm'))

# Print topics from the loaded model
print("\nTop terms per topic:")
topics = lda_model.print_topics(num_words=10)  # Adjust num_words as needed
for topic in topics:
    print(f"\nTopic {topic[0]}:")
    print(topic[1])

# Prepare data for pyLDAvis visualization
print("\nPreparing data for visualization...")
vis_data = gensimvis.prepare(lda_model, corpus, dictionary)

# Save the visualization as an HTML file
print("Saving visualization to 'lda_visualization.html'...")
pyLDAvis.save_html(vis_data, 'lda_visualization_tfidf.html')

# Display the visualization in the notebook (if using Jupyter)
print("Displaying visualization...")
pyLDAvis.display(vis_data)

Loading saved LDA model...
Loading dictionary and corpus...

Top terms per topic:

Topic 19:
0.007*"เด็ก" + 0.006*"เรียน" + 0.006*"กิจกรรม" + 0.005*"พลังงาน" + 0.005*"สังคม" + 0.005*"น้ำ" + 0.004*"ชุมชน" + 0.004*"ขยะ" + 0.004*"ปลอด" + 0.004*"ยั่งยืน"

Topic 23:
0.019*"โฆษณา" + 0.015*"โทรทัศน์" + 0.014*"สื่อ" + 0.013*"ภาพยนตร์" + 0.012*"โทรคมนาคม" + 0.010*"เคลื่อน" + 0.010*"พิมพ์" + 0.009*"ซอฟต์แวร์" + 0.009*"โทรศัพท์" + 0.008*"อินเทอร์เน็ต"

Topic 28:
0.066*"พิพาท" + 0.048*"คดี" + 0.046*"เรือ" + 0.042*"หน้า" + 0.029*"ฟื้นฟู" + 0.027*"ศาล" + 0.019*"ฟ้อง" + 0.018*"จำเลย" + 0.016*"โจทก์" + 0.014*"พิพากษา"

Topic 9:
0.015*"เข็มเจาะ" + 0.013*"เอ็กโก" + 0.012*"เสาเข็มเจาะ" + 0.012*"จาระบี" + 0.010*"ดิน" + 0.009*"กำแพง" + 0.009*"ฐานราก" + 0.009*"บริษัทเนาวรัตน์พัฒนาการ" + 0.009*"เสา" + 0.009*"บริษัทไทย"

Topic 17:
0.017*"อาด" + 0.015*"โรงพยาบาลสมิติเวช" + 0.013*"ชาเขียว" + 0.013*"โออิชิ" + 0.012*"นายชำนิจันทร์ฉาย" + 0.011*"อนุญาต" + 0.010*"นางสาวสุลลิต" + 0.010*"โพลีเพล็กซ์" + 0.010*"บริษัทเอ