In [4]:
from gensim import corpora
from gensim.models import LdaModel

# 导入 gensim 模块和 LDAModel 类

documents = ["dog cat fish", "cat fish cat fish fish", "bird dog"]
# 原始文本数据，包含三个文档

texts = [[word for word in document.lower().split()] for document in documents]
# 将文本转换为列表格式，每个列表包含一个文档中的所有词语
print('test = ',texts)

dictionary = corpora.Dictionary(texts)
# 将所有的文本数据合并并创建一个词典
print('dictionary = ', dictionary)

corpus = [dictionary.doc2bow(text) for text in texts]
# 将文本转换为基于词典的词袋表示
print('corpus = ', corpus)

'''.doc2bow() 是 gensim 中 corpus 模块中的一个函数，用于将文档转换为基于词典的词袋表示（bag-of-words representation）。
函数的输入参数是一个文档，通常表示为一个字符串或单词列表。
函数的输出是一个词袋表示的元组列表，其中每个元组表示一个词语及其在文档中出现的次数。
这个元组的第一个元素是词语在词典中的编号，第二个元素是该词语在文档中出现的次数。
'''

num_topics = 2
# 设定主题数

lda_model = LdaModel(corpus, num_topics=num_topics, id2word=dictionary, passes=10)
# 训练 LDA 主题模型，使用语料库和词典，设置主题数和迭代次数

for topic_id in range(num_topics):
    print(f"Topic {topic_id}: {lda_model.print_topic(topic_id)}")
# 打印每个主题的关键词

new_doc = "cat dog"
new_doc_bow = dictionary.doc2bow(new_doc.lower().split())
# 准备新文档，将其转换为词袋表示

new_doc_lda = lda_model[new_doc_bow]
# 应用 LDA 主题模型，获取新文档的主题分布

print(f"New document topic distribution: {new_doc_lda}")
# 打印新文档的主题分布


test =  [['dog', 'cat', 'fish'], ['cat', 'fish', 'cat', 'fish', 'fish'], ['bird', 'dog']]
dictionary =  Dictionary<4 unique tokens: ['cat', 'dog', 'fish', 'bird']>
corpus =  [[(0, 1), (1, 1), (2, 1)], [(0, 2), (2, 3)], [(1, 1), (3, 1)]]
Topic 0: 0.461*"dog" + 0.304*"bird" + 0.120*"cat" + 0.115*"fish"
Topic 1: 0.487*"fish" + 0.375*"cat" + 0.082*"dog" + 0.056*"bird"
New document topic distribution: [(0, 0.5167709), (1, 0.48322907)]


LDA（Latent Dirichlet Allocation）是一种主题模型，可以从文本数据中识别潜在的主题并推断每个文档的主题分布。在 LDA 中，文档由多个主题组成，每个主题又由多个单词组成。LDA 的基本思想是认为文本中的每个词都是从若干个主题中随机生成的，因此 LDA 可以通过观察文本中的词频分布来推断主题分布。

LDA 模型的基本假设是：

每个文档都由若干个主题组成。
每个主题都由若干个单词组成。
每个单词都由某个主题生成。
每个主题的单词分布和每个文档的主题分布都服从狄利克雷分布。

具体地，LDA 模型的训练过程可以概括为以下几个步骤：

初始化：设置主题数量 K 和每个主题的单词分布。
对于每个文档，随机初始化该文档的主题分布。
对于每个单词，随机选择一个主题。
重复以下过程，直到收敛：
对于每个单词 w，计算其属于每个主题的概率 p(z|w)，根据这个概率重新分配 w 的主题。
对于每个文档，计算其包含每个主题的概率 p(z|d)，根据这个概率重新分配文档中的每个单词的主题。

![image.png](attachment:image.png)