In [None]:
import MeCab
import pyLDAvis
import pyLDAvis.lda_model
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.feature_extraction.text import CountVectorizer

# サンプル日本語文
docs = [
    "鬼滅の刃は人気のアニメです。",
    "呪術廻戦もアニメ化されました。",
    "炭治郎と禰豆子の物語が感動的です。",
    "五条悟は強力なキャラクターです。",
    "アニメ映画の興行収入が記録を更新しました。"
]

# MeCab を使った簡易形態素解析器（名詞のみ抽出）
def tokenize(text):
    tagger = MeCab.Tagger()
    node = tagger.parseToNode(text)
    words = []
    while node:
        if node.feature.startswith("名詞"):
            words.append(node.surface)
        node = node.next
    return words

# CountVectorizer に tokenizer を指定
vectorizer = CountVectorizer(tokenizer=tokenize, token_pattern=None, max_df=0.95, min_df=1)
dtm = vectorizer.fit_transform(docs)

# LDA モデル構築
lda = LatentDirichletAllocation(n_components=2, random_state=42)
lda.fit(dtm)

# 可視化
pyLDAvis.enable_notebook()
vis_data = pyLDAvis.lda_model.prepare(lda, dtm, vectorizer)
vis_data
