In [1]:
from gensim import corpora, models
from collections import Counter

In [2]:
import glob
fns = glob.glob("../segmented/*.txt")

docs = []
for i, fn in enumerate(fns):
    doc = []
    with open(fn) as f:
        for line in f:
            doc.append(line.strip())
    docs.append((i, doc))
    
all_docs = []
for i, doc in docs:
    all_docs.extend(doc)
    
c = Counter(all_docs)

In [3]:
texts = [list(filter(lambda w: 30 <= c[w] <= 500, doc)) for i, doc in docs]
              

In [4]:
dictionary = corpora.Dictionary(texts)

In [5]:
corpus = [dictionary.doc2bow(text) for text in texts]

In [6]:
n_topics = 25
lda = models.LdaModel(corpus, alpha=0.9, id2word=dictionary, num_topics=n_topics)


In [7]:
corpus_lda = lda[corpus]

In [8]:
keywords = []
for i, topics in lda.show_topics(n_topics, formatted=False):
    keywords.append(set([t for t, _ in topics]))
    print('topic', i, ':', ' '.join([t for t, _ in topics]))

topic 0 : 产品 业务 汽车 新能源 管理 功率 增长 新 投资 目前
topic 1 : 功率 新能源 汽车 器件 产品 IGBT 行业 全球 热 预计
topic 2 : 企业 汽车 增长 行业 预期 代工 新能源 管理 热 品牌
topic 3 : 链 汽车 管理 企业 区块 比特 新能源 产品 技术 领域
topic 4 : 区块 币 功率 比特 行业 业务 链 预计 产品 器件
topic 5 : 品牌 新能源 管理 代工 汽车 业务 增长 产品 行业 企业
topic 6 : 增长 企业 行业 自如 预期 风险 业务 管理 预计 投资
topic 7 : 新能源 管理 汽车 热 企业 空调 区块 业务 产品 增长
topic 8 : 资产 增长 区块 行业 投资 管理 业务 产品 ADR 回归
topic 9 : 品牌 企业 汽车 代工 管理 热 增长 新能源 产品 行业
topic 10 : 行业 产品 新能源 投资 预期 主要 热 汽车 预计 功率
topic 11 : 汽车 新能源 行业 管理 业务 产品 热 增长 增速 投资
topic 12 : 区块 比特 币 链 逻辑 汽车 信任 应用 共识 系统
topic 13 : 新能源 汽车 热 管理 业务 空调 行业 企业 产品 增长
topic 14 : 新能源 管理 汽车 热 业务 行业 产品 预期 预计 主要
topic 15 : 汽车 新能源 热 币 管理 业务 空调 行业 系统 比特
topic 16 : 行业 资产 区块 管理 业务 链 新能源 增长 汽车 比特
topic 17 : 行业 增长 产品 业务 汽车 预期 新能源 区块 管理 企业
topic 18 : 行业 汽车 产品 热 新能源 比特 增长 企业 管理 币
topic 19 : 汽车 新能源 热 管理 业务 企业 行业 产品 空调 国内
topic 20 : 比特 区块 链 币 投资 增长 技术 行业 价值 主要
topic 21 : 汽车 新能源 热 管理 预计 行业 产品 增长 空调 企业
topic 22 : 管理 增长 产品 资产 汽车 新能源 业务 企业 热 行业
topic 23 : 业务 增长 行业 产品 新能源 预期 管理 企业 经济 汽车
topic 24 : 增长 产品 业务 企业 行业 管理

In [9]:
lda.show_topics()

[(20,
  '0.021*"比特" + 0.017*"区块" + 0.015*"链" + 0.013*"币" + 0.010*"投资" + 0.009*"增长" + 0.009*"技术" + 0.008*"行业" + 0.008*"价值" + 0.008*"主要"'),
 (9,
  '0.021*"品牌" + 0.014*"企业" + 0.013*"汽车" + 0.013*"代工" + 0.012*"管理" + 0.011*"热" + 0.011*"增长" + 0.011*"新能源" + 0.010*"产品" + 0.009*"行业"'),
 (13,
  '0.026*"新能源" + 0.022*"汽车" + 0.021*"热" + 0.018*"管理" + 0.017*"业务" + 0.013*"空调" + 0.013*"行业" + 0.011*"企业" + 0.011*"产品" + 0.010*"增长"'),
 (8,
  '0.012*"资产" + 0.011*"增长" + 0.010*"区块" + 0.009*"行业" + 0.009*"投资" + 0.009*"管理" + 0.008*"业务" + 0.008*"产品" + 0.008*"ADR" + 0.008*"回归"'),
 (15,
  '0.019*"汽车" + 0.018*"新能源" + 0.016*"热" + 0.013*"币" + 0.012*"管理" + 0.011*"业务" + 0.010*"空调" + 0.010*"行业" + 0.009*"系统" + 0.009*"比特"'),
 (12,
  '0.034*"区块" + 0.032*"比特" + 0.028*"币" + 0.025*"链" + 0.014*"逻辑" + 0.012*"汽车" + 0.012*"信任" + 0.012*"应用" + 0.011*"共识" + 0.011*"系统"'),
 (5,
  '0.019*"品牌" + 0.015*"新能源" + 0.012*"管理" + 0.012*"代工" + 0.011*"汽车" + 0.011*"业务" + 0.011*"增长" + 0.010*"产品" + 0.010*"行业" + 0.009*"企业"'),
 (11,
  '0.017*"汽车" + 0.01

In [10]:
import pyLDAvis.gensim

pyLDAvis.enable_notebook()
pyLDAvis.gensim.prepare(lda, corpus, dictionary)