In [1]:
from gensim import corpora, models
from collections import Counter

In [2]:
import glob
fns = glob.glob("../segmented/*.txt")

docs = []
for i, fn in enumerate(fns):
    doc = []
    with open(fn) as f:
        for line in f:
            doc.append(line.strip())
    docs.append((i, doc))
    
all_docs = []
for i, doc in docs:
    all_docs.extend(doc)
    
c = Counter(all_docs)

In [3]:
texts = [list(filter(lambda w: 30 <= c[w] <= 500, doc)) for i, doc in docs]
              

In [4]:
dictionary = corpora.Dictionary(texts)

In [5]:
corpus = [dictionary.doc2bow(text) for text in texts]

In [6]:
n_topics = 25
lda = models.LdaModel(corpus, alpha=0.9, id2word=dictionary, num_topics=n_topics)


In [7]:
corpus_lda = lda[corpus]

In [8]:
keywords = []
for i, topics in lda.show_topics(n_topics, formatted=False):
    keywords.append(set([t for t, _ in topics]))
    print('topic', i, ':', ' '.join([t for t, _ in topics]))

topic 0 : 汽车 产品 管理 行业 新能源 业务 增长 功率 品牌 领域
topic 1 : 功率 汽车 产品 管理 行业 器件 新能源 增长 全球 投资
topic 2 : 新能源 汽车 管理 功率 热 行业 业务 产品 增长 预计
topic 3 : 汽车 管理 业务 新能源 热 增长 产品 行业 国内 主要
topic 4 : 增长 业务 预期 风险 行业 发展 产品 投资 管理 新
topic 5 : 新能源 区块 比特 管理 链 币 热 企业 汽车 技术
topic 6 : 区块 币 链 比特 汽车 新能源 应用 信任 逻辑 系统
topic 7 : 新能源 汽车 管理 增长 业务 行业 热 占 企业 同比
topic 8 : 区块 链 币 比特 新能源 汽车 技术 系统 热 逻辑
topic 9 : 比特 区块 新能源 行业 企业 币 管理 业务 预计 热
topic 10 : 汽车 新能源 企业 热 行业 管理 预计 产品 空调 品牌
topic 11 : 企业 汽车 行业 业务 品牌 产品 区块 代工 管理 新能源
topic 12 : 行业 汽车 产品 热 增长 企业 预期 风险 新能源 预计
topic 13 : 管理 业务 增长 汽车 产品 热 行业 新能源 投资 主要
topic 14 : 比特 币 区块 链 应用 逻辑 信任 新能源 系统 领域
topic 15 : 汽车 新能源 热 管理 行业 业务 预期 预计 增长 主要
topic 16 : 增长 行业 投资 业务 比特 预计 资产 预期 区块 基金
topic 17 : 区块 行业 币 企业 比特 业务 汽车 投资 资产 链
topic 18 : 新能源 汽车 热 行业 管理 区块 业务 空调 比特 国内
topic 19 : 新能源 汽车 品牌 热 管理 产品 企业 行业 代工 空调
topic 20 : 热 行业 管理 新能源 汽车 预期 增长 空调 风险 业务
topic 21 : 新能源 管理 汽车 热 业务 企业 增长 产品 空调 行业
topic 22 : 增长 产品 功率 占 预期 管理 规模 业务 新能源 器件
topic 23 : 品牌 企业 预期 代工 行业 经济 增长 可能 一个 产品
topic 24 : 行业 增长 预期 增速 预计 汽车 业务 经济

In [9]:
lda.show_topics()

[(21,
  '0.029*"新能源" + 0.024*"管理" + 0.022*"汽车" + 0.022*"热" + 0.014*"业务" + 0.014*"企业" + 0.012*"增长" + 0.011*"产品" + 0.011*"空调" + 0.010*"行业"'),
 (23,
  '0.013*"品牌" + 0.011*"企业" + 0.010*"预期" + 0.009*"代工" + 0.009*"行业" + 0.008*"经济" + 0.008*"增长" + 0.008*"可能" + 0.007*"一个" + 0.007*"产品"'),
 (24,
  '0.016*"行业" + 0.014*"增长" + 0.014*"预期" + 0.012*"增速" + 0.010*"预计" + 0.010*"汽车" + 0.010*"业务" + 0.009*"经济" + 0.008*"盈利" + 0.008*"新能源"'),
 (8,
  '0.032*"区块" + 0.021*"链" + 0.019*"币" + 0.018*"比特" + 0.013*"新能源" + 0.013*"汽车" + 0.012*"技术" + 0.011*"系统" + 0.010*"热" + 0.009*"逻辑"'),
 (16,
  '0.014*"增长" + 0.011*"行业" + 0.009*"投资" + 0.009*"业务" + 0.009*"比特" + 0.009*"预计" + 0.008*"资产" + 0.008*"预期" + 0.008*"区块" + 0.008*"基金"'),
 (15,
  '0.017*"汽车" + 0.015*"新能源" + 0.015*"热" + 0.012*"管理" + 0.012*"行业" + 0.011*"业务" + 0.011*"预期" + 0.010*"预计" + 0.009*"增长" + 0.009*"主要"'),
 (20,
  '0.013*"热" + 0.013*"行业" + 0.012*"管理" + 0.012*"新能源" + 0.012*"汽车" + 0.011*"预期" + 0.010*"增长" + 0.009*"空调" + 0.009*"风险" + 0.009*"业务"'),
 (4,
  '0.015*"增长" + 0

In [10]:
import pyLDAvis.gensim

pyLDAvis.enable_notebook()
pyLDAvis.gensim.prepare(lda, corpus, dictionary)

In [14]:
import numpy as np
from tqdm import tqdm

doc_weights_init = np.zeros((len(corpus_lda), n_topics))

for i in tqdm(range(len(corpus_lda))):
    topics = corpus_lda[i]
    for j, prob in topics:
        doc_weights_init[i, j] = prob

100%|██████████| 54/54 [00:00<00:00, 936.59it/s]


In [15]:
np.save('doc_weights_init.npy', doc_weights_init)