In [1]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
import jieba

# 假設我們有以下的文本資料，這些文本資料可能是從檔案讀取，也可能是從網路爬蟲取得
documents = [
    '這是第一個文本的內容，主要在談論科技產品如電腦、手機等等。',
    '這是第二個文本的內容，也在談論科技產品，但更偏重在智能家居。',
    '這是第三個文本的內容，主要在談論食物如披薩和漢堡等等。',
    '這是第四個文本的內容，也在談論食物，但更偏重在烘焙製品。',
    # 更多的文本資料...
]

# 使用 jieba 進行斷詞，並將斷詞的結果以空格分隔
documents = [' '.join(jieba.cut(doc)) for doc in documents]

# 使用 CountVectorizer 進行詞頻統計，並建立詞頻矩陣
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documents)

# 使用 LDA 進行主題模型訓練
lda = LatentDirichletAllocation(n_components=2, random_state=42)
lda.fit(X)

# 印出每一個主題下權重較高的詞語
feature_names = vectorizer.get_feature_names_out()
for topic_idx, topic in enumerate(lda.components_):
    print(f"Topic #{topic_idx + 1}:")
    print(" ".join([feature_names[i] for i in topic.argsort()[:-10 - 1:-1]]))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\darren\AppData\Local\Temp\jieba.cache
Loading model cost 0.624 seconds.
Prefix dict has been built successfully.


Topic #1:
食物 主要 等等 內容 這是 文本 談論 披薩和漢堡 第三 烘焙
Topic #2:
談論 文本 這是 內容 科技 產品 偏重 第二 智能家居 第一
