In [8]:
from gensim.corpora import Dictionary, MmCorpus
from gensim.models import LdaModel
import logging

lda = LdaModel.load('../data/lda_100.model')

# 1. 学習中の状況を出力するフォーマットの指定
logging.basicConfig(
    format='%(asctime)s : %(levelname)s : %(message)s',
    level=logging.INFO)

In [9]:
dictionary = Dictionary.load_from_text('../data/jawiki_wordids.txt.bz2')
tfidf_corpus = MmCorpus('../data/jawiki_tfidf.mm')

num_topics=100

# 6b. LDAモデルによって得られるトピックの抽出
top_topics = lda.top_topics(tfidf_corpus)
coherences = [coherence for topic_words, coherence in top_topics]

# 6c. 評価指標コヒーレンスを求める
avg_topic_coherence = sum(coherences) / num_topics
print(f'Average topic coherence: {avg_topic_coherence:.4f}.')

2024-10-02 12:40:43,115 : INFO : loaded corpus index from ../data/jawiki_tfidf.mm.index
2024-10-02 12:40:43,116 : INFO : initializing cython corpus reader from ../data/jawiki_tfidf.mm
2024-10-02 12:40:43,118 : INFO : accepted corpus with 1307644 documents, 100000 features, 220154677 non-zero entries
2024-10-02 12:40:43,587 : INFO : CorpusAccumulator accumulated stats from 1000 documents
2024-10-02 12:40:43,959 : INFO : CorpusAccumulator accumulated stats from 2000 documents
2024-10-02 12:40:44,319 : INFO : CorpusAccumulator accumulated stats from 3000 documents
2024-10-02 12:40:44,696 : INFO : CorpusAccumulator accumulated stats from 4000 documents
2024-10-02 12:40:44,979 : INFO : CorpusAccumulator accumulated stats from 5000 documents
2024-10-02 12:40:45,285 : INFO : CorpusAccumulator accumulated stats from 6000 documents
2024-10-02 12:40:45,594 : INFO : CorpusAccumulator accumulated stats from 7000 documents
2024-10-02 12:40:45,860 : INFO : CorpusAccumulator accumulated stats from 80

Average topic coherence: -3.3802.


In [10]:
import random

# すべてのトピックから2単語ずつサンプリングするプログラム
num_words_per_topic = 100

# LDAモデル内の全てのトピック数を取得
num_topics = lda.num_topics

for topic_id in range(num_topics):
    # トピック内の単語リスト（確率付き）を取得
    topic_words = lda.show_topic(topic_id, topn=10000)

    # トピックから2単語をランダムにサンプリング
    sampled_words = random.sample(topic_words, num_words_per_topic)

    print(f"=== Topic {topic_id} ===")
    for word, prob in sampled_words:
        print(f'{prob:.5f}\t{word}')

=== Topic 0 ===
0.00000	王手
0.00000	美原
0.00000	#『
0.00000	昇殿
0.00000	ペネロペ・クルス
0.00000	普猷
0.00000	boomer
0.00000	麟太郎
0.00000	市之
0.00000	可愛
0.00000	大慈
0.00000	ugly
0.00033	容量
0.00000	なだれ
0.00000	ビロウ
0.00000	フィルムズ
0.00000	ウェンブリー・スタジアム
0.00000	レゴブロック
0.00000	いっか
0.00000	ランキン
0.00000	miyagi
0.00000	nike
0.00000	正恵
0.00000	虫食い
0.00000	アブドラ
0.00000	ヒロミツ
0.00026	正確
0.00031	閉鎖
0.00000	強健
0.00000	固め
0.00000	卯吉
0.00000	恒文社
0.00000	ワリオ
0.00000	アーカイヴ
0.00000	飛鳥井
0.00000	スクリャービン
0.00000	brightest
0.00000	豊田通商
0.00000	サラ金
0.00000	敏信
0.00012	上限
0.00053	協力
0.00000	風花
0.00000	保阪
0.00000	養和
0.00000	タコマ
0.00000	アメンボ
0.00000	硬め
0.00045	ユニーク
0.00000	亮治
0.00000	門出
0.00000	第一製薬
0.00000	マリオット・インターナショナル
0.00000	達男
0.00000	icd
0.00000	ジム・ヘンソン
0.00000	ボルチモア・オリオールズ
0.00091	ibm
0.00000	京大
0.00000	せんげ
0.00000	フォトン
0.00000	岡嶋
0.00000	ガリマール
0.00000	西武バス
0.00000	vanderbilt
0.00000	長姉
0.00000	純孝
0.00000	篭手
0.00000	知徳
0.00000	跋文
0.00000	ぺりかん
0.00000	5010
0.00000	柴野
0.00018	パナソニック
0.00000	eo
0.00000	閉架
0.00000	三奈
0.00000	l

In [17]:
import pickle

with open('../data/jawiki_bow.mm.metadata.cpickle', 'rb') as f:
    docno2metadata = pickle.load(f)
title2docno = {tup_title[1]: int(docno) for docno, tup_title in docno2metadata.items()}

for title in ['モモ']:
    topics = lda[tfidf_corpus[title2docno[title]]]
    topic = sorted(topics, key=lambda t: t[1], reverse=True)[0][0]
    print('=== %s (topic %d) ===' % (title, topic))
    for word, p_word in lda.show_topic(topic, topn=100):
        print('%.5f\t%s' % (p_word, word))

=== モモ (topic 3) ===
0.01474	料理
0.01456	細胞
0.00864	タンパク質
0.00739	遺伝子
0.00674	生育
0.00669	結合
0.00585	作用
0.00578	品種
0.00572	花序
0.00552	活性
0.00550	栽培
0.00486	合成
0.00415	スープ
0.00410	野菜
0.00389	調理
0.00386	形成
0.00385	酵素
0.00373	阻害
0.00373	がん
0.00371	因子
0.00330	生産
0.00322	機能
0.00321	dna
0.00317	ヒト
0.00314	変異
0.00304	'''（）
0.00299	白色
0.00292	細菌
0.00290	ソース
0.00287	部位
0.00286	調節
0.00286	濃度
0.00286	食品
0.00285	楕円
0.00279	オス
0.00279	材料
0.00277	葉柄
0.00276	分子
0.00273	化学
0.00265	塩化
0.00263	伝統
0.00260	反応
0.00260	砂糖
0.00256	販売
0.00254	酸化
0.00250	物質
0.00248	var
0.00244	植物
0.00242	食材
0.00242	構造
0.00236	有機
0.00235	分解
0.00233	神経
0.00228	種類
0.00226	トマト
0.00225	発酵
0.00222	栄養
0.00217	相互
0.00216	牛肉
0.00213	特徴
0.00210	ジャガイモ
0.00208	カルシウム
0.00207	''）
0.00206	紫色
0.00202	乾燥
0.00201	鶏肉
0.00201	香り
0.00198	mg
0.00198	生物
0.00196	提供
0.00195	必要
0.00195	風味
0.00193	配列
0.00192	化合
0.00192	バター
0.00191	関与
0.00191	製造
0.00189	土壌
0.00189	草本
0.00188	複合
0.00188	タマネギ
0.00188	低下
0.00186	これら
0.00186	成分
0.00183	アミノ酸
0.00183	原産
0.00182	

In [14]:

def print_top_words_per_topic(lda_model, num_words=10):
    for idx, topic in lda_model.print_topics(num_topics=100, num_words=num_words):
        print(f"Topic {idx}:")
        print(topic)
        print("\n")

In [16]:

print_top_words_per_topic(lda, num_words=10)

2024-10-02 12:44:17,980 : INFO : topic #0 (0.010): 0.014*"ai" + 0.014*"サービス" + 0.012*"ユーザー" + 0.012*"データ" + 0.011*"システム" + 0.011*"提供" + 0.011*"機能" + 0.010*"google" + 0.010*"ソフトウェア" + 0.009*"アプリ"
2024-10-02 12:44:17,981 : INFO : topic #1 (0.010): 0.084*"豊川" + 0.048*"頭取" + 0.046*"騎手" + 0.036*"調教" + 0.036*"昇進" + 0.032*"jra" + 0.020*"キム" + 0.017*"判事" + 0.015*"栗東" + 0.014*"小牧"
2024-10-02 12:44:17,982 : INFO : topic #2 (0.010): 0.105*"ウクライナ" + 0.098*"ロシア" + 0.027*"''''''" + 0.025*"定理" + 0.019*"ソビエト" + 0.016*"モスクワ" + 0.015*"連邦" + 0.013*"''''" + 0.011*"カザフスタン" + 0.011*"管区"
2024-10-02 12:44:17,983 : INFO : topic #3 (0.010): 0.015*"料理" + 0.015*"細胞" + 0.009*"タンパク質" + 0.007*"遺伝子" + 0.007*"生育" + 0.007*"結合" + 0.006*"作用" + 0.006*"品種" + 0.006*"花序" + 0.006*"活性"
2024-10-02 12:44:17,985 : INFO : topic #4 (0.010): 0.041*"file" + 0.021*"jpg" + 0.020*"画家" + 0.014*"de" + 0.013*"van" + 0.010*"von" + 0.007*"john" + 0.006*"パリ" + 0.006*"paul" + 0.005*"william"
2024-10-02 12:44:17,986 : INFO : topic #5 (0.010): 0

Topic 0:
0.014*"ai" + 0.014*"サービス" + 0.012*"ユーザー" + 0.012*"データ" + 0.011*"システム" + 0.011*"提供" + 0.011*"機能" + 0.010*"google" + 0.010*"ソフトウェア" + 0.009*"アプリ"


Topic 1:
0.084*"豊川" + 0.048*"頭取" + 0.046*"騎手" + 0.036*"調教" + 0.036*"昇進" + 0.032*"jra" + 0.020*"キム" + 0.017*"判事" + 0.015*"栗東" + 0.014*"小牧"


Topic 2:
0.105*"ウクライナ" + 0.098*"ロシア" + 0.027*"''''''" + 0.025*"定理" + 0.019*"ソビエト" + 0.016*"モスクワ" + 0.015*"連邦" + 0.013*"''''" + 0.011*"カザフスタン" + 0.011*"管区"


Topic 3:
0.015*"料理" + 0.015*"細胞" + 0.009*"タンパク質" + 0.007*"遺伝子" + 0.007*"生育" + 0.007*"結合" + 0.006*"作用" + 0.006*"品種" + 0.006*"花序" + 0.006*"活性"


Topic 4:
0.041*"file" + 0.021*"jpg" + 0.020*"画家" + 0.014*"de" + 0.013*"van" + 0.010*"von" + 0.007*"john" + 0.006*"パリ" + 0.006*"paul" + 0.005*"william"


Topic 5:
0.183*"判定" + 0.108*"勝ち" + 0.087*"ラウンド" + 0.073*"ボクサー" + 0.071*"ko" + 0.063*"負け" + 0.049*"戦績" + 0.047*"ボクシング" + 0.042*"ウェルター" + 0.032*"アリ"


Topic 6:
0.014*"課長" + 0.008*"大臣" + 0.008*"内閣" + 0.007*"局長" + 0.007*"政策" + 0.006*"部長" + 0.006*"名簿" + 0.0