In [1]:
import re
import jieba
from gensim import corpora, models, similarities
from pprint import pprint
from collections import defaultdict
import pyLDAvis
import pyLDAvis.gensim
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

def load_stopwords(stopwords_path):
    with open(stopwords_path, 'r', encoding='utf-8') as f:
        return [line.strip() for line in f]
    
def preprocess_data(corpus_path, stopwords):
    corpus = []
    with open(corpus_path, 'r', encoding='utf-8') as f:
        for line in f:
            line = line.strip()
            line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;；:-【】+\"\']+|[+——！，;:。？、~@#￥%……&*（）]+", " ", line)
            corpus.append(' '.join([word for word in jieba.lcut(line) if word != " " and word != "\t" and word not in stopwords]))
    return corpus

In [2]:
stopwords_path = "../data/stop_words.txt"
documents_path = "../data/documents_股价上涨.txt"
stopwords = load_stopwords(stopwords_path)
documents = preprocess_data(documents_path, stopwords)

Building prefix dict from the default dictionary ...
2020-06-22 09:54:09,005 : DEBUG : Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/m3/4yh806w92fdgcn0bk16ql7nw0000gn/T/jieba.cache
2020-06-22 09:54:09,720 : DEBUG : Dumping model to file cache /var/folders/m3/4yh806w92fdgcn0bk16ql7nw0000gn/T/jieba.cache
Loading model cost 0.772 seconds.
2020-06-22 09:54:09,778 : DEBUG : Loading model cost 0.772 seconds.
Prefix dict has been built successfully.
2020-06-22 09:54:09,779 : DEBUG : Prefix dict has been built successfully.


In [3]:
documents[0]

'疫情 导致 停工 停产 影响 发酵 新华社 月 日 消息 联合国人口基金 日 公布 分析 报告 称 新冠 疫情 加剧 全球 超过 妇女 避孕药 具 未来 数月 妇女 意外 怀孕 报告 指出 疫情 期间 卫生系统 不堪重负 医疗 设施 关闭 或仅 提供 有限 服务 妇女 担心 感染 病毒 选择 暂时 放弃 体检 供应链 中断 导致 避孕药 具 短缺 妇女 长期 被困 家中 避孕药 具 天然 胶乳 安全套 生产 原料 橡胶 王国 马来西亚 新冠 疫情 安全套 产业链 连锁 影响 月 日 中午 马来西亚 新增 确诊 病例 例 累计 确诊 病例 例 病死率 累计 治愈 例 接近 确诊 病例 成 时间 月 日 马来西亚 卫生部 颁布 第四阶段 管制 令及 实施方案 政府 放宽 民众 一名 家人 陪伴 外出 前往 住所 十公里 购买 食物 生活必需品 药物 营养品 马来西亚 政府 遏制 新冠 肺炎 疫情 颁布 第四阶段 管制 令 有效期 是从 月 日至 月 日 疫情 影响 位于 马来西亚 全球 避孕套 生产商 康乐 公司 此前 被迫 停止 生产 恢复 月底 警告 市场供应 减少 亿个 安全套 缺口 康乐 公司 库存 足以 应付 月 需求 供应 端 承压 需求 端则 增加 电商 平台 数据 显示 疫情 期间 安全套 销量 大幅 增长 人福 医药 股价 一个月 大涨 月初 康乐 马来西亚 政府 豁免 重启 厂房 只能 成 劳动力 意味着 马来西亚 安全套 产量 短时间 内会 大幅 下降 启动 工厂 时间 难 产能 减半 情况 跟上 需求 康乐 公司 首席 执行官 预测 避孕套 全球 短缺 非洲地区 短缺 长 达 数月 久 疫情 影响 之下 行业 参与者 纷纷 采取措施 应对 乐福思 集团 全球 副总裁 杰士邦 总经理 张文耀 接受 记者 采访 时 全球 拥有 安全套 生产 基地 很强 自主 调节 能力 中国 地区 杰士邦 产品 泰国 日本 印度 工厂 供应 中国 疫情 爆发 第一 时间 乐福思 集团 杰士邦 公司 高度 关注 全球 着眼 做 应对 预案 加大 原料 成品 库存 储备 供应 短缺 疫情 影响 公司 早 一月份 调整 供应链 策略 市场策略 增加 库存 应对 变化 市场需求 泰国 日本 工厂 供应 疫情 影响 印度 工厂 受 疫情 影响 停工 中国 市场 品规 短期 

In [4]:
texts = [[word for word in document.split()] for document in documents]

frequency = defaultdict(int)
for text in texts:
    for token in text:
        frequency[token] += 1
texts = [[token for token in text if frequency[token] > 2] for text in texts]

dictionary = corpora.Dictionary(texts)
dictionary.save('../data/documents_估价上涨_doc.dict')
print(dictionary)

2020-06-22 09:55:04,210 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2020-06-22 09:55:04,848 : INFO : adding document #10000 to Dictionary(13907 unique tokens: ['一个月', '一名', '一季度', '一家', '一月']...)
2020-06-22 09:55:04,895 : INFO : built Dictionary(13982 unique tokens: ['一个月', '一名', '一季度', '一家', '一月']...) from 10763 documents (total 779833 corpus positions)
2020-06-22 09:55:04,896 : INFO : saving Dictionary object under ../data/documents_估价上涨_doc.dict, separately None
2020-06-22 09:55:04,905 : INFO : saved ../data/documents_估价上涨_doc.dict


Dictionary(13982 unique tokens: ['一个月', '一名', '一季度', '一家', '一月']...)


In [5]:
corpus = [dictionary.doc2bow(text) for text in texts]
[[(dictionary[id], freq) for id, freq in cp] for cp in corpus[:1]]

tf_idf = models.TfidfModel(corpus)
transformed_tfidf = tf_idf[corpus]

2020-06-22 09:55:05,406 : INFO : collecting document frequencies
2020-06-22 09:55:05,407 : INFO : PROGRESS: processing document #0
2020-06-22 09:55:05,485 : INFO : PROGRESS: processing document #10000
2020-06-22 09:55:05,492 : INFO : calculating IDF weights for 10763 documents and 13982 features (526850 matrix non-zeros)
2020-06-22 09:55:05,521 : INFO : using symmetric alpha at 0.125
2020-06-22 09:55:05,522 : INFO : using symmetric eta at 0.125
2020-06-22 09:55:05,524 : INFO : using serial LDA version on this node
2020-06-22 09:55:05,535 : INFO : running online (single-pass) LDA training, 8 topics, 1 passes over the supplied corpus of 10763 documents, updating model once every 2000 documents, evaluating perplexity every 10763 documents, iterating 50x with a convergence threshold of 0.001000
2020-06-22 09:55:05,928 : INFO : PROGRESS: pass 0, at document #2000/10763
2020-06-22 09:55:06,463 : INFO : merging changes from 2000 documents into a model of 10763 documents
2020-06-22 09:55:06,47

CPU times: user 4.93 s, sys: 64.5 ms, total: 4.99 s
Wall time: 5.01 s


In [10]:
%time lda = models.LdaModel(transformed_tfidf, num_topics=5, id2word=dictionary)
lda.show_topics()

2020-06-22 09:57:19,370 : INFO : using symmetric alpha at 0.2
2020-06-22 09:57:19,371 : INFO : using symmetric eta at 0.2
2020-06-22 09:57:19,374 : INFO : using serial LDA version on this node
2020-06-22 09:57:19,385 : INFO : running online (single-pass) LDA training, 5 topics, 1 passes over the supplied corpus of 10763 documents, updating model once every 2000 documents, evaluating perplexity every 10763 documents, iterating 50x with a convergence threshold of 0.001000
2020-06-22 09:57:19,862 : INFO : PROGRESS: pass 0, at document #2000/10763
2020-06-22 09:57:20,573 : INFO : merging changes from 2000 documents into a model of 10763 documents
2020-06-22 09:57:20,577 : INFO : topic #0 (0.200): 0.006*"分钟" + 0.005*"超过" + 0.005*"快速" + 0.005*"上涨" + 0.004*"流出" + 0.004*"股份" + 0.004*"点" + 0.004*"盘中" + 0.004*"快照" + 0.004*"分盘口"
2020-06-22 09:57:20,577 : INFO : topic #1 (0.200): 0.007*"涨停" + 0.007*"股份" + 0.006*"分钟" + 0.006*"快速" + 0.005*"超过" + 0.005*"上涨" + 0.005*"点" + 0.005*"科技" + 0.005*"盘中" + 0.0

CPU times: user 5.51 s, sys: 65.3 ms, total: 5.58 s
Wall time: 5.59 s


[(0,
  '0.011*"流出" + 0.009*"金融界" + 0.009*"网站" + 0.007*"截止" + 0.007*"个股" + 0.006*"净流入" + 0.005*"电子" + 0.005*"净" + 0.005*"营业" + 0.005*"日讯"'),
 (1,
  '0.021*"股份" + 0.018*"科技" + 0.015*"分钟" + 0.014*"达" + 0.013*"快速" + 0.013*"超过" + 0.013*"点" + 0.013*"快照" + 0.013*"分盘口" + 0.012*"盘中"'),
 (2,
  '0.008*"药业" + 0.008*"电气" + 0.007*"达" + 0.007*"分钟" + 0.006*"快速" + 0.006*"超过" + 0.006*"分盘口" + 0.006*"快照" + 0.006*"点" + 0.006*"盘中"'),
 (3,
  '0.008*"证券" + 0.007*"席位" + 0.005*"买入" + 0.005*"营业部" + 0.005*"当日" + 0.005*"次" + 0.004*"数据" + 0.004*"年" + 0.004*"卖出" + 0.004*"偏离"'),
 (4,
  '0.004*"股份" + 0.004*"涨" + 0.003*"公司" + 0.003*"达" + 0.003*"黄金" + 0.003*"板块" + 0.003*"汽车" + 0.003*"上涨" + 0.003*"超过" + 0.002*"涨超"')]

In [11]:
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim.prepare(lda, corpus, dictionary)
vis

In [16]:
lda.get_document_topics(corpus[7])

[(0, 0.07505998), (3, 0.6346817), (4, 0.28555545)]

In [17]:
documents_fall_path = "../data/documents_股价下跌.txt"
documents_fall = preprocess_data(documents_fall_path, stopwords)
documents_fall[0]

'格隆汇 月 日 丨 康 卡斯特 今日 股价 走低 现跌 报 美元 暂 成交 亿美元 最新 总 市值 亿美元 康 卡斯特 年 第一季度 营收 不及 预期 广告 收入 减少 康 卡斯特 季度 营收 同比 下降 亿美元 华尔街 预期 亿美元 净利润 上年 同期 亿美元 降 亿美元 合每股 收益 美元 公共卫生 事件 康 卡斯特 第二季度 负面影响 增加 影响'

In [19]:
texts_fall = [[word for word in document.split()] for document in documents_fall]

frequency = defaultdict(int)
for text in texts_fall:
    for token in text:
        frequency[token] += 1
texts_fall = [[token for token in text if frequency[token] > 2] for text in texts_fall]

dictionary_fall = corpora.Dictionary(texts_fall)
dictionary_fall.save('../data/documents_股价下跌_doc.dict')
print(dictionary_fall)

2020-06-22 10:06:49,919 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2020-06-22 10:06:50,172 : INFO : built Dictionary(8247 unique tokens: ['上年', '下降', '不及', '丨', '事件']...) from 4133 documents (total 279500 corpus positions)
2020-06-22 10:06:50,173 : INFO : saving Dictionary object under ../data/documents_股价下跌_doc.dict, separately None
2020-06-22 10:06:50,177 : INFO : saved ../data/documents_股价下跌_doc.dict


Dictionary(8247 unique tokens: ['上年', '下降', '不及', '丨', '事件']...)


In [21]:
corpus_fall = [dictionary_fall.doc2bow(text) for text in texts_fall]

In [29]:
lda.get_document_topics(corpus_fall[7])

[(0, 0.030039871),
 (1, 0.029117977),
 (2, 0.029380431),
 (3, 0.030901099),
 (4, 0.88056064)]

In [14]:
import numpy as np
import math
BITS = 31
class simHash(object):
# 初始化，遍历文档（已分词），得到词汇表，并进行32位(能表示2^32种情况，完全足够)\
#hash编码和对应的idf值，将idf值作为其权重进行运算，分别存入两个字典(dict)
    def __init__(self, documents):
        f = documents
        dictHash = dict()
        dictWeight = dict()
        i = 0#hash编码
        lines = 0#记录文本数量,以计算idf值
        #遍历文本，进行hash编码和统计df词频(在多少篇文章出现过，而不是总词频，\
        #比如某个词在一个文本中出现三次也只算一次)
        for line in f:
            lines += 1
            temp = set(str(line).strip().split())#避免重复统计词频
            for item in temp:
                if item not in stopwords:
                    if item not in dictWeight:
                        dictWeight[item] = 1
                        dictHash[item] = i
                        i += 1
                    else:
                        dictWeight[item] += 1
        del i
        #hash编码转为array形式的二进制，方便计算
        for item in dictHash:
            L = list(bin(dictHash[item]))[2:]
            intL = [int(x) for x in L]
            for i in range(len(intL)):
                if intL[i] == 0:
                    intL[i] = -1
            intL = (BITS - len(intL))*[-1]+intL
            dictHash[item] = np.array(intL)
        #根据词频计算idf值
        for item in dictWeight:
            dictWeight[item] = math.log(lines/dictWeight[item])

        self.dictHash = dictHash
        self.dictWeight = dictWeight
        
    #根据词的hash对句子进行hash编码
    def senHash(self, sen):
        senHashCode = np.zeros(BITS)
        temp = sen.strip().split()
        for item in temp:
            senHashCode += self.dictHash[item]*self.dictWeight[item]
        for i in range(BITS):
            if senHashCode[i] > 0:
                senHashCode[i] = 1
            else:
                senHashCode[i] = 0
        return senHashCode

    #获取两个句子的Hamming distance，dis越小说明相似度越高
    def sen2senDis(self, sen1, sen2):
        temp1 = self.senHash(sen1)
        temp2 = self.senHash(sen2)
        Hamming = 0
        for i in range(BITS):
            if temp1[i] != temp2[i]:
                Hamming += 1
        return Hamming


In [15]:
simhash = simHash(documents)

In [16]:
def findsimilar(index, documents):
    minSimHash = 10000
    minSimHashIndex = -1
    sim0, sim1, sim2 = [], [], []
    for i in range(0, len(documents)):
        if i == index:continue
        temp = simhash.sen2senDis(documents[index], documents[i])
        if temp == 0 : sim0.append(i)
        if temp == 1 : sim1.append(i)
        if temp == 2 : sim2.append(i)
            
        if temp < minSimHash:
            minSimHash = temp
            minSimHashIndex = i
    print(minSimHash, minSimHashIndex)
    return sim0, sim1, sim2

In [18]:
sim0, sim1, sim2 = findsimilar(999, documents)

0 8782


In [19]:
print(documents[999])
print(documents[8782])

格隆汇 月 日 丨 国美 系 上涨 国美 通讯 再度 封板 本周 暂 四日 三板 累涨 国美 零售 涨 逾 本周 暂累 涨 逾 中关村 涨近 国美 通讯 昨晚 公布 公司 筹划 资产重组 拟 现金 出售 方式 北京 美昊 投资 出售 浙江 德景 电子 股权 此举 有利于 进一步 提升 上市公司 质量 上周末 国美 零售 发 公告 称 拼 溢价 发行 亿美元 年期 可转债
截止 年 月 日 时 分 福建高速 最新 股价 涨跌幅 买入 卖出 成交量 手 成交额 万手 福建高速 年 月 日 融资 买入 额 年 月 日 融资 偿还 额 融资 偿还 额 融资 金额 融券 卖出 量 股 融券 偿还 量 股 融券 余额 福建高速 公司 经营范围 投资 开发 建设 经营 公路 机械设备 租赁 咨询服务 工业 生产资料 百货 建筑材料 五金 交电 化工 仪器仪表 电子计算机 配件 批发 零售 代购 代销 依法 须 批准 项目 相关 部门 批准 后方 经营 活动 数据 仅供参考 交易 时请 成交价 为准 南方 财富网 微 信号 南方 财富网
