LDA是一种文档主题生成模型，也成为三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程。文档到主题服从多项式分布，主题到词服从多项式分布。LDA的目的就是要识别主题，即把文档-词汇矩阵变成文档-主题矩阵（分布）和主题-词汇矩阵（分布）。  


In [1]:
import jieba
from gensim.models.ldamodel import LdaModel
from gensim import corpora

In [2]:
#输入文本数据
doc = ["当地时间3月16日，美国总统拜登在白宫发表公开讲话，宣布向乌克兰提供8亿美元的额外军事援助，这使美国在过去一周内承诺对乌克兰的安全援助总额达到10亿美元。\
       自拜登政府成立以来，美国对乌克兰的援助总计已达20亿美元。根据白宫发布的声明，军事援助计划还包括反坦克导弹和更多美国已经开始提供的防御性武器",
       "乌克兰总理丹尼斯·什米加尔在3月16日与波兰、捷克、斯洛文尼亚三国总理联合举行的新闻发布会上说，\
       乌政府已成立专门的工作小组来评估此次战争给经济造成的损失。据初步估算，目前战争已给乌克兰造成超过5000亿美元的直接损失。",
       "过去半个月内，国际油价上演了一波“过山车”行情。业内人士认为，未来市场对地缘风险、供应预期等的忧虑情绪，将继续主导油价的高波动性。\
       而对于我国这个最大的油气进口国而言，则是喜忧参半。新一轮国内成品油调价窗口于3月17日开启，届时“六连涨”将是大概率事件，交通运输等多行业成本将进一步增加，\
       一些炼油企业也是亏损严重。不过，从经济增长的后劲和空间上看，油价上涨也给能源行业转型带来了市场机会。"]

In [3]:
#分词
doc = [jieba.lcut(x) for x in doc]
doc

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\80665\AppData\Local\Temp\jieba.cache
Loading model cost 0.487 seconds.
Prefix dict has been built successfully.


[['当地',
  '时间',
  '3',
  '月',
  '16',
  '日',
  '，',
  '美国',
  '总统',
  '拜登',
  '在',
  '白宫',
  '发表',
  '公开',
  '讲话',
  '，',
  '宣布',
  '向',
  '乌克兰',
  '提供',
  '8',
  '亿美元',
  '的',
  '额外',
  '军事援助',
  '，',
  '这使',
  '美国',
  '在',
  '过去',
  '一周',
  '内',
  '承诺',
  '对',
  '乌克兰',
  '的',
  '安全',
  '援助',
  '总额',
  '达到',
  '10',
  '亿美元',
  '。',
  ' ',
  ' ',
  ' ',
  ' ',
  ' ',
  ' ',
  ' ',
  '自',
  '拜登',
  '政府',
  '成立',
  '以来',
  '，',
  '美国',
  '对',
  '乌克兰',
  '的',
  '援助',
  '总计',
  '已达',
  '20',
  '亿美元',
  '。',
  '根据',
  '白宫',
  '发布',
  '的',
  '声明',
  '，',
  '军事援助',
  '计划',
  '还',
  '包括',
  '反坦克',
  '导弹',
  '和',
  '更',
  '多',
  '美国',
  '已经',
  '开始',
  '提供',
  '的',
  '防御性',
  '武器'],
 ['乌克兰',
  '总理',
  '丹尼斯',
  '·',
  '什',
  '米加',
  '尔',
  '在',
  '3',
  '月',
  '16',
  '日',
  '与',
  '波兰',
  '、',
  '捷克',
  '、',
  '斯洛文尼亚',
  '三国',
  '总理',
  '联合',
  '举行',
  '的',
  '新闻',
  '发布会',
  '上',
  '说',
  '，',
  ' ',
  ' ',
  ' ',
  ' ',
  ' ',
  ' ',
  ' ',
  '乌政府',
  '已',
  '成立',
  '专门',
  '的',
  '工作',
  '小组

In [4]:
#去停用词
sw = "./stop_word.txt"
stop_word = []
with open(sw, 'r', encoding='utf-8') as f:
    for l in f:
        l = l.strip()
        stop_word.append(l)
new_doc = []
for sentence in doc:
    new_s = []
    for w in sentence:
        if w not in stop_word and w != ' ':
            new_s.append(w)
    new_doc.append(new_s)
print(new_doc)

[['时间', '月', '16', '日', '美国', '总统', '拜登', '白宫', '发表', '公开', '讲话', '乌克兰', '提供', '亿美元', '额外', '军事援助', '这使', '美国', '一周', '承诺', '乌克兰', '援助', '总额', '10', '亿美元', '拜登', '政府', '成立', '美国', '乌克兰', '援助', '总计', '已达', '20', '亿美元', '白宫', '发布', '声明', '军事援助', '计划', '包括', '反坦克', '导弹', '美国', '提供', '防御性', '武器'], ['乌克兰', '总理', '丹尼斯', '什', '米加', '月', '16', '日', '波兰', '捷克', '斯洛文尼亚', '三国', '总理', '联合', '新闻', '发布会', '说', '乌政府', '成立', '工作', '小组', '评估', '战争', '经济', '损失', '初步', '估算', '战争', '乌克兰', '超过', '5000', '亿美元', '损失'], ['半个', '月', '国际', '油价', '上演', '一波', '过山车', '行情', '业内人士', '未来', '市场', '地缘', '风险', '供应', '预期', '忧虑', '情绪', '主导', '油价', '高', '波动性', '我国', '油气', '进口国', '喜忧参半', '新一轮', '国内', '成品油', '调价', '窗口', '月', '17', '日', '开启', '连涨', '概率', '事件', '交通运输', '行业', '成本', '进一步', '增加', '炼油', '企业', '亏损', '经济', '增长', '后劲', '空间', '油价', '上涨', '能源行业', '转型', '带来', '市场', '机会']]


In [5]:
#文本向量化
dictionary = corpora.Dictionary(new_doc)
DT = [dictionary.doc2bow(s) for s in new_doc]
print(DT)

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 3), (5, 3), (6, 1), (7, 2), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1), (17, 1), (18, 1), (19, 1), (20, 2), (21, 2), (22, 2), (23, 1), (24, 1), (25, 1), (26, 1), (27, 1), (28, 2), (29, 4), (30, 1), (31, 1), (32, 1), (33, 1), (34, 1)], [(1, 1), (4, 2), (5, 1), (18, 1), (24, 1), (26, 1), (35, 1), (36, 1), (37, 1), (38, 1), (39, 1), (40, 1), (41, 1), (42, 1), (43, 1), (44, 1), (45, 2), (46, 2), (47, 2), (48, 1), (49, 1), (50, 1), (51, 1), (52, 1), (53, 1), (54, 1), (55, 1), (56, 1), (57, 1)], [(24, 1), (26, 2), (53, 1), (58, 1), (59, 1), (60, 1), (61, 1), (62, 1), (63, 1), (64, 1), (65, 1), (66, 1), (67, 1), (68, 1), (69, 1), (70, 1), (71, 1), (72, 1), (73, 1), (74, 1), (75, 1), (76, 1), (77, 2), (78, 1), (79, 1), (80, 1), (81, 1), (82, 1), (83, 1), (84, 1), (85, 1), (86, 1), (87, 1), (88, 1), (89, 3), (90, 1), (91, 1), (92, 1), (93, 1), (94, 1), (95, 1), (96, 1), (97, 1), (98, 1), (99, 1), (100, 1), (101, 1), (102, 

In [8]:
lda = LdaModel(DT, num_topics=3, id2word=dictionary, passes=100)

In [9]:
#输出主题结果
print(lda.print_topics(num_topics=-1, num_words=5))

[(0, '0.036*"油价" + 0.025*"月" + 0.025*"市场" + 0.015*"经济" + 0.015*"日"'), (1, '0.009*"经济" + 0.009*"日" + 0.009*"月" + 0.009*"发布会" + 0.009*"初步"'), (2, '0.046*"乌克兰" + 0.037*"美国" + 0.037*"亿美元" + 0.020*"提供" + 0.020*"白宫"')]
