In [5]:
from gensim.corpora import Dictionary, MmCorpus
from gensim.models import LdaModel
import logging

# 1. 学習中の状況を出力するフォーマットの指定
logging.basicConfig(
    format='%(asctime)s : %(levelname)s : %(message)s',
    level=logging.INFO)

num_topics = 100

# 2. 辞書とコーパスの読み込み
dictionary = Dictionary.load_from_text('../data/jawiki_wordids.txt.bz2')
tfidf_corpus = MmCorpus('../data/jawiki_tfidf.mm')

# 3. 最初の文字が「か」の単語をフィルタリング
ka_words = {word_id: word for word, word_id in dictionary.token2id.items() if word.startswith('か')}
print(f"最初の文字が「か」の単語の数: {len(ka_words)}")
print(f"最初の文字が「か」の単語: {ka_words}")

# 4. 新しい辞書の作成（「か」で始まる単語のみ）
# 各単語をダミーの「ドキュメント」としてリスト化
ka_documents = [[word] for word in ka_words.values()]
ka_dictionary = Dictionary(ka_documents)



2024-10-02 13:58:45,120 : INFO : loaded corpus index from ../data/jawiki_tfidf.mm.index
2024-10-02 13:58:45,121 : INFO : initializing cython corpus reader from ../data/jawiki_tfidf.mm
2024-10-02 13:58:45,121 : INFO : accepted corpus with 1307644 documents, 100000 features, 220154677 non-zero entries
2024-10-02 13:58:45,138 : INFO : adding document #0 to Dictionary<0 unique tokens: []>
2024-10-02 13:58:45,139 : INFO : built Dictionary<155 unique tokens: ['かあさん', 'かい', 'かいがん', 'かいこう', 'かいしゃ']...> from 155 documents (total 155 corpus positions)
2024-10-02 13:58:45,140 : INFO : Dictionary lifecycle event {'msg': "built Dictionary<155 unique tokens: ['かあさん', 'かい', 'かいがん', 'かいこう', 'かいしゃ']...> from 155 documents (total 155 corpus positions)", 'datetime': '2024-10-02T13:58:45.140186', 'gensim': '4.3.3', 'python': '3.9.6 (default, Mar 29 2024, 10:51:09) \n[Clang 15.0.0 (clang-1500.3.9.4)]', 'platform': 'macOS-14.6.1-arm64-arm-64bit', 'event': 'created'}


最初の文字が「か」の単語の数: 155
最初の文字が「か」の単語: {37667: 'かあさん', 1095: 'かい', 58595: 'かいがん', 54059: 'かいこう', 66774: 'かいしゃ', 71723: 'かいしん', 52794: 'かいじゅう', 91808: 'かいてい', 49446: 'かいな', 70879: 'かいよう', 75522: 'かいり', 1096: 'かお', 28090: 'かおり', 19442: 'かおる', 75687: 'かかし', 56680: 'かかと', 56708: 'かかりつけ', 3080: 'かかわり', 93859: 'かかん', 31046: 'かがり火', 29080: 'かき', 68560: 'かきつばた', 93347: 'かき揚げ', 64591: 'かき氷', 18203: 'かぎ', 10636: 'かぎり', 1097: 'かく', 21270: 'かくし芸', 80914: 'かくせい', 8651: 'かくれんぼ', 25611: 'かく乱', 36526: 'かぐら', 19798: 'かけ', 63732: 'かけがえ', 8652: 'かけっこ', 261: 'かけ声', 69697: 'かけ橋', 18204: 'かげ', 59469: 'かげり', 36086: 'かげろう', 84383: 'かげん', 40712: 'かこ', 14961: 'かご', 8653: 'かごめ', 32048: 'かさ', 68493: 'かさご', 79176: 'かさぶた', 47997: 'かさん', 1098: 'かざし', 49136: 'かざり', 22545: 'かし', 1099: 'かしこ', 77600: 'かしょう', 25612: 'かしら', 32049: 'かしわ', 39333: 'かじ', 31686: 'かじき', 49158: 'かす', 58321: 'かすか', 31687: 'かすみ', 42371: 'かずえ', 21890: 'かずお', 75438: 'かずき', 56279: 'かずこ', 23054: 'かずみ', 21891: 'かずよ', 65855: 'かず子', 27086: 'かぜ', 1100: 'かた', 6

In [None]:

# 5. フィルタリングされた辞書を元に新しいコーパスを作成
ka_corpus = [[(ka_dictionary.token2id[word], freq) for word, freq in doc if word in ka_dictionary.token2id] for doc in tfidf_corpus]

In [None]:
# 6. LDAの学習
lda = LdaModel(corpus=ka_corpus, id2word=ka_dictionary, iterations=400, num_topics=num_topics, passes=20)

# 7. モデルのトピック表示
topics = lda.print_topics(num_topics=num_topics)
for topic in topics:
    print(topic)