LDA是一种文档主题生成模型，也成为三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程。文档到主题服从多项式分布，主题到词服从多项式分布。LDA的目的就是要识别主题，即把文档-词汇矩阵变成文档-主题矩阵（分布）和主题-词汇矩阵（分布）。  


In [2]:
import jieba
from gensim.models.ldamodel import LdaModel
from gensim import corpora

In [3]:
#输入文本数据
doc = ["空中命脉已被掐断 陆地运输难度加大，揭秘西方军援乌克兰通道",
       "美国总统拜登宣布向乌克兰提供8亿美元额外军事援助",
       "解放军和武警部队代表团新闻发言人：对“台独”绝不姑息 露头就打"]

In [4]:
#分词
doc = [jieba.lcut(x) for x in doc]
doc

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\80665\AppData\Local\Temp\jieba.cache
Loading model cost 0.464 seconds.
Prefix dict has been built successfully.


[['空中',
  '命脉',
  '已',
  '被',
  '掐断',
  ' ',
  '陆地',
  '运输',
  '难度',
  '加大',
  '，',
  '揭秘',
  '西方',
  '军援',
  '乌克兰',
  '通道'],
 ['美国', '总统', '拜登', '宣布', '向', '乌克兰', '提供', '8', '亿美元', '额外', '军事援助'],
 ['解放军',
  '和',
  '武警部队',
  '代表团',
  '新闻',
  '发言人',
  '：',
  '对',
  '“',
  '台独',
  '”',
  '绝不',
  '姑息',
  ' ',
  '露头',
  '就',
  '打']]

In [10]:
#去停用词
sw = "./stop_word.txt"
stop_word = []
with open(sw, 'r', encoding='utf-8') as f:
    for l in f:
        l = l.strip()
        stop_word.append(l)
new_doc = []
for sentence in doc:
    new_s = []
    for w in sentence:
        if w not in stop_word and w != ' ':
            new_s.append(w)
    new_doc.append(new_s)
print(new_doc)

[['空中', '命脉', '掐断', '陆地', '运输', '难度', '加大', '揭秘', '西方', '军援', '乌克兰', '通道'], ['美国', '总统', '拜登', '乌克兰', '提供', '亿美元', '额外', '军事援助'], ['解放军', '武警部队', '代表团', '新闻', '发言人', '台独', '姑息', '露头']]


In [11]:
#文本向量化
dictionary = corpora.Dictionary(new_doc)
DT = [dictionary.doc2bow(s) for s in new_doc]
print(DT)

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 1)], [(0, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1), (17, 1), (18, 1)], [(19, 1), (20, 1), (21, 1), (22, 1), (23, 1), (24, 1), (25, 1), (26, 1)]]


In [27]:
lda = LdaModel(DT, num_topics=2, id2word=dictionary, passes=100)

In [29]:
#输出主题结果
print(lda.print_topics(num_topics=-1, num_words=5))

[(0, '0.070*"姑息" + 0.070*"新闻" + 0.070*"发言人" + 0.070*"露头" + 0.070*"代表团"'), (1, '0.075*"乌克兰" + 0.045*"揭秘" + 0.045*"陆地" + 0.045*"通道" + 0.045*"运输"')]
