In [1]:
import re
import jieba
from gensim import corpora, models, similarities
from pprint import pprint
from collections import defaultdict
import pyLDAvis
import pyLDAvis.gensim
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

def load_stopwords(stopwords_path):
    with open(stopwords_path, 'r', encoding='utf-8') as f:
        return [line.strip() for line in f]
    
def preprocess_data(corpus_path, stopwords):
    corpus = []
    with open(corpus_path, 'r', encoding='utf-8') as f:
        for line in f:
            line = line.strip()
            line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;；:-【】+\"\']+|[+——！，;:。？、~@#￥%……&*（）]+", " ", line)
            corpus.append(' '.join([word for word in jieba.lcut(line) if word != " " and word != "\t" and word not in stopwords]))
    return corpus

In [2]:
stopwords_path = "../data/stop_words.txt"
documents_path = "../data/documents_股价上涨.txt"
stopwords = load_stopwords(stopwords_path)
documents = preprocess_data(documents_path, stopwords)

Building prefix dict from the default dictionary ...
2020-06-19 13:59:55,924 : DEBUG : Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/m3/4yh806w92fdgcn0bk16ql7nw0000gn/T/jieba.cache
2020-06-19 13:59:55,926 : DEBUG : Loading model from cache /var/folders/m3/4yh806w92fdgcn0bk16ql7nw0000gn/T/jieba.cache
Loading model cost 0.638 seconds.
2020-06-19 13:59:56,563 : DEBUG : Loading model cost 0.638 seconds.
Prefix dict has been built successfully.
2020-06-19 13:59:56,564 : DEBUG : Prefix dict has been built successfully.


In [3]:
documents[0]

'疫情 导致 停工 停产 影响 发酵 新华社 月 日 消息 联合国人口基金 日 公布 分析 报告 称 新冠 疫情 加剧 全球 超过 妇女 避孕药 具 未来 数月 妇女 意外 怀孕 报告 指出 疫情 期间 卫生系统 不堪重负 医疗 设施 关闭 或仅 提供 有限 服务 妇女 担心 感染 病毒 选择 暂时 放弃 体检 供应链 中断 导致 避孕药 具 短缺 妇女 长期 被困 家中 避孕药 具 天然 胶乳 安全套 生产 原料 橡胶 王国 马来西亚 新冠 疫情 安全套 产业链 连锁 影响 月 日 中午 马来西亚 新增 确诊 病例 例 累计 确诊 病例 例 病死率 累计 治愈 例 接近 确诊 病例 成 时间 月 日 马来西亚 卫生部 颁布 第四阶段 管制 令及 实施方案 政府 放宽 民众 一名 家人 陪伴 外出 前往 住所 十公里 购买 食物 生活必需品 药物 营养品 马来西亚 政府 遏制 新冠 肺炎 疫情 颁布 第四阶段 管制 令 有效期 是从 月 日至 月 日 疫情 影响 位于 马来西亚 全球 避孕套 生产商 康乐 公司 此前 被迫 停止 生产 恢复 月底 警告 市场供应 减少 亿个 安全套 缺口 康乐 公司 库存 足以 应付 月 需求 供应 端 承压 需求 端则 增加 电商 平台 数据 显示 疫情 期间 安全套 销量 大幅 增长 人福 医药 股价 一个月 大涨 月初 康乐 马来西亚 政府 豁免 重启 厂房 只能 成 劳动力 意味着 马来西亚 安全套 产量 短时间 内会 大幅 下降 启动 工厂 时间 难 产能 减半 情况 跟上 需求 康乐 公司 首席 执行官 预测 避孕套 全球 短缺 非洲地区 短缺 长 达 数月 久 疫情 影响 之下 行业 参与者 纷纷 采取措施 应对 乐福思 集团 全球 副总裁 杰士邦 总经理 张文耀 接受 记者 采访 时 全球 拥有 安全套 生产 基地 很强 自主 调节 能力 中国 地区 杰士邦 产品 泰国 日本 印度 工厂 供应 中国 疫情 爆发 第一 时间 乐福思 集团 杰士邦 公司 高度 关注 全球 着眼 做 应对 预案 加大 原料 成品 库存 储备 供应 短缺 疫情 影响 公司 早 一月份 调整 供应链 策略 市场策略 增加 库存 应对 变化 市场需求 泰国 日本 工厂 供应 疫情 影响 印度 工厂 受 疫情 影响 停工 中国 市场 品规 短期 

In [4]:
texts = [[word for word in document.split()] for document in documents]

frequency = defaultdict(int)
for text in texts:
    for token in text:
        frequency[token] += 1
texts = [[token for token in text if frequency[token] > 2] for text in texts]

dictionary = corpora.Dictionary(texts)
dictionary.save('../data/documents_估价上涨_doc.dict')
print(dictionary)

2020-06-19 14:00:35,066 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2020-06-19 14:00:35,683 : INFO : adding document #10000 to Dictionary(13907 unique tokens: ['一个月', '一名', '一季度', '一家', '一月']...)
2020-06-19 14:00:35,729 : INFO : built Dictionary(13982 unique tokens: ['一个月', '一名', '一季度', '一家', '一月']...) from 10763 documents (total 779833 corpus positions)
2020-06-19 14:00:35,729 : INFO : saving Dictionary object under ../data/documents_估价上涨_doc.dict, separately None
2020-06-19 14:00:35,735 : INFO : saved ../data/documents_估价上涨_doc.dict


Dictionary(13982 unique tokens: ['一个月', '一名', '一季度', '一家', '一月']...)


In [5]:
corpus = [dictionary.doc2bow(text) for text in texts]
[[(dictionary[id], freq) for id, freq in cp] for cp in corpus[:1]]

tf_idf = models.TfidfModel(corpus)
transformed_tfidf = tf_idf[corpus]
%time lda = models.LdaModel(transformed_tfidf, num_topics=8, id2word=dictionary)

2020-06-19 14:00:36,236 : INFO : collecting document frequencies
2020-06-19 14:00:36,237 : INFO : PROGRESS: processing document #0
2020-06-19 14:00:36,316 : INFO : PROGRESS: processing document #10000
2020-06-19 14:00:36,323 : INFO : calculating IDF weights for 10763 documents and 13982 features (526850 matrix non-zeros)
2020-06-19 14:00:36,353 : INFO : using symmetric alpha at 0.125
2020-06-19 14:00:36,354 : INFO : using symmetric eta at 0.125
2020-06-19 14:00:36,356 : INFO : using serial LDA version on this node
2020-06-19 14:00:36,366 : INFO : running online (single-pass) LDA training, 8 topics, 1 passes over the supplied corpus of 10763 documents, updating model once every 2000 documents, evaluating perplexity every 10763 documents, iterating 50x with a convergence threshold of 0.001000
2020-06-19 14:00:36,738 : INFO : PROGRESS: pass 0, at document #2000/10763
2020-06-19 14:00:37,279 : INFO : merging changes from 2000 documents into a model of 10763 documents
2020-06-19 14:00:37,28

CPU times: user 5.06 s, sys: 59.8 ms, total: 5.12 s
Wall time: 5.13 s


In [6]:
lda.show_topics()

[(0,
  '0.006*"公司" + 0.005*"筹码" + 0.005*"同比" + 0.005*"食品" + 0.004*"下降" + 0.004*"惠发" + 0.004*"户数" + 0.004*"电机" + 0.004*"增长" + 0.004*"国脉"'),
 (1,
  '0.013*"东方" + 0.006*"股份" + 0.006*"胜" + 0.005*"涨停" + 0.005*"达" + 0.005*"锐电" + 0.004*"点" + 0.004*"雅化" + 0.004*"盘中" + 0.004*"快照"'),
 (2,
  '0.006*"次" + 0.006*"评级" + 0.005*"主力" + 0.004*"市场" + 0.004*"黄金" + 0.004*"机构" + 0.004*"资金" + 0.004*"公司" + 0.004*"中国" + 0.004*"概率"'),
 (3,
  '0.016*"席位" + 0.014*"证券" + 0.012*"营业部" + 0.011*"当日" + 0.009*"偏离" + 0.008*"医疗" + 0.008*"实力" + 0.007*"值达" + 0.007*"龙虎榜" + 0.007*"买入"'),
 (4,
  '0.010*"航天" + 0.010*"世纪" + 0.007*"长峰" + 0.005*"达" + 0.005*"大宗" + 0.005*"鼎利" + 0.004*"分钟" + 0.004*"成交" + 0.004*"快速" + 0.004*"点"'),
 (5,
  '0.007*"涨" + 0.007*"板块" + 0.006*"股份" + 0.006*"涨停" + 0.005*"实业" + 0.005*"通" + 0.005*"走强" + 0.005*"科技" + 0.005*"新材" + 0.005*"拉升"'),
 (6,
  '0.027*"股份" + 0.020*"科技" + 0.018*"分钟" + 0.017*"达" + 0.016*"快速" + 0.016*"超过" + 0.014*"分盘口" + 0.014*"快照" + 0.014*"点" + 0.014*"盘中"'),
 (7,
  '0.014*"流出" + 0.011*"金融界" +

In [7]:
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim.prepare(lda, corpus, dictionary)
vis

2020-06-19 14:00:43,871 : INFO : NumExpr defaulting to 8 threads.
