In [1]:
import jieba
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

In [2]:
def load_stopwords(stopwords_path):
    with open(stopwords_path, 'r', encoding='utf-8') as f:
        return [line.strip() for line in f]
    
def preprocess_data(corpus_path, stopwords):
    corpus = []
    with open(corpus_path, 'r', encoding='utf-8') as f:
        for line in f:
            corpus.append(' '.join([word for word in jieba.lcut(line.strip()) if word not in stopwords]))
    return corpus

In [3]:
n = 1000
stopwords_path = "../data/stop_words.txt"
documents_path = "../data/documents_first_" + str(n) + ".txt"
stopwords = load_stopwords(stopwords_path)
documents = preprocess_data(documents_path, stopwords)

Building prefix dict from the default dictionary ...
2020-06-18 09:23:39,300 : DEBUG : Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/m3/4yh806w92fdgcn0bk16ql7nw0000gn/T/jieba.cache
2020-06-18 09:23:40,021 : DEBUG : Dumping model to file cache /var/folders/m3/4yh806w92fdgcn0bk16ql7nw0000gn/T/jieba.cache
Loading model cost 0.779 seconds.
2020-06-18 09:23:40,080 : DEBUG : Loading model cost 0.779 seconds.
Prefix dict has been built successfully.
2020-06-18 09:23:40,081 : DEBUG : Prefix dict has been built successfully.


In [4]:
documents[2]

'董明珠 惊人 之语 炮轰 美的 怒斥 国产车 炮火 引向 大众 这下 本来 习惯于 看热闹 吃 瓜 群众 答应 踩 同行 骂 竞争对手 意见 敢动 老子 一亩 三分 不行 014 月 日 晚间 格力电器 董事长 兼 总裁 董明珠 接受 采访 时 赞同 黄奇帆 取消 住房 公积金 说 格力电器 3700 套 房子 员工 入住 未来 格力 员工 发一 套房 公积金 听听 话 饱汉不知饿汉饥 专程来 炫富 经济 下行 大众 钱包 吃紧 格力 本事 每名 员工 分 房子 本事 格力 分房 取消 全国 公积金 站长 想 问 一句 董 小姐 蠢 坏 确实 格力 优秀 年 营业 收入 1981.53 拥有 万名 员工 格力 万名 员工 发一 套房 站长 说 信 格力 真 员工 分房 中国 企业 众多 能发 房子 企业 凤毛麟角 特别 受 疫情 影响 众多 行业 暴击 企业 濒临 倒闭 活着 不错 每人 发 套房 格力 员工 公积金 取消 公积金 格力 确实 省下 一大笔钱 我国 亿人 贫富差距 取消 公积金 势必会 影响 人群 利益 也许 董明珠 换种 表述 特定 福利 企业 取消 缴纳 公积金 企业 节约 成本 用于 研发 创新 公积金 整体 实施 影响 我国 当初 建立 住房 公积金 制度 新加坡 学习 希望 强制性 缴纳 办法 集合 政府 企业 职工 三方 力量 解决 民众 购房 中国 最先 实行 公积金 政策 上海 全国 房地产 市场 发展 实行 公房 分配制度 家庭 人均 住房面积 七八 平方米 住 拥挤 居住 环境 急需 改善 公积金 强制 缴存 看似 个人收入 减少 长期 并非如此 民企 公积金 缴纳 比例 5% 12% 薪资 基数 缴纳 比例 6% 公司 6% 12% 公积金 存缴 数额 50006% 别看 元不多 长此以往 可不是 小数 缴纳 时间 公积金 买房 提取 大众 福利 特别 事业单位 公务员 群体 公积金 缴纳 金额 高 一般来说 公务员 月 公积金 扣除 比例 工资 12% 公积金 政策 国家 补贴 数额 公务员 一个月 公积金 工资 24% 民企 两倍 账面 工资 特别 高 公务员 群体 公积金 住 建部 人民银行 总行 统计 显示 年 全国 住房 公积金 缴存 总额 14549.46 上年 增长 12.29% 缴存 人数 机关 事业单位 工作

In [5]:
from gensim import corpora
from pprint import pprint
from collections import defaultdict

In [6]:
texts = [[word for word in document.split()] for document in documents]

In [7]:
frequency = defaultdict(int)
for text in texts:
    for token in text:
        frequency[token] += 1
texts = [[token for token in text if frequency[token] > 2] for text in texts]
# pprint(texts)

In [8]:
dictionary = corpora.Dictionary(texts)
dictionary.save('../data/first_' + str(n) + '_doc.dict')
print(dictionary)

2020-06-18 09:23:54,127 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2020-06-18 09:23:54,281 : INFO : built Dictionary(11105 unique tokens: ['15%', '18%', '46%', '一周', '世界']...) from 1005 documents (total 200743 corpus positions)
2020-06-18 09:23:54,282 : INFO : saving Dictionary object under ../data/first_1000_doc.dict, separately None
2020-06-18 09:23:54,290 : INFO : saved ../data/first_1000_doc.dict


Dictionary(11105 unique tokens: ['15%', '18%', '46%', '一周', '世界']...)


In [9]:
corpus = [dictionary.doc2bow(text) for text in texts]
corpora.MmCorpus.serialize('../data/first_' + str(n) + '_doc.mm', corpus)
# pprint(corpus)

2020-06-18 09:23:54,400 : INFO : storing corpus in Matrix Market format to ../data/first_1000_doc.mm
2020-06-18 09:23:54,401 : INFO : saving sparse matrix to ../data/first_1000_doc.mm
2020-06-18 09:23:54,402 : INFO : PROGRESS: saving document #0
2020-06-18 09:23:54,511 : INFO : PROGRESS: saving document #1000
2020-06-18 09:23:54,512 : INFO : saved 1005x11105 matrix, density=0.982% (109589/11160525)
2020-06-18 09:23:54,514 : INFO : saving MmCorpus index to ../data/first_1000_doc.mm.index


In [10]:
from gensim import models, similarities
tf_idf = models.TfidfModel(corpus)


2020-06-18 09:23:54,519 : INFO : collecting document frequencies
2020-06-18 09:23:54,520 : INFO : PROGRESS: processing document #0
2020-06-18 09:23:54,537 : INFO : calculating IDF weights for 1005 documents and 11105 features (109589 matrix non-zeros)


In [11]:
import pprint
pprint.pprint(corpus[:2])

[[(0, 1),
  (1, 1),
  (2, 1),
  (3, 1),
  (4, 1),
  (5, 1),
  (6, 1),
  (7, 1),
  (8, 1),
  (9, 2),
  (10, 1),
  (11, 3),
  (12, 1),
  (13, 4),
  (14, 1),
  (15, 1),
  (16, 1),
  (17, 1),
  (18, 2),
  (19, 4),
  (20, 1),
  (21, 1),
  (22, 2),
  (23, 1),
  (24, 1),
  (25, 1),
  (26, 2),
  (27, 1),
  (28, 1),
  (29, 3),
  (30, 1),
  (31, 1),
  (32, 1),
  (33, 1),
  (34, 1),
  (35, 1),
  (36, 1),
  (37, 1),
  (38, 2),
  (39, 1),
  (40, 1),
  (41, 5),
  (42, 1),
  (43, 1),
  (44, 1),
  (45, 2),
  (46, 2),
  (47, 2),
  (48, 1),
  (49, 1),
  (50, 2),
  (51, 3),
  (52, 2),
  (53, 1),
  (54, 2),
  (55, 1),
  (56, 5),
  (57, 1),
  (58, 5),
  (59, 1),
  (60, 1),
  (61, 1),
  (62, 1),
  (63, 3),
  (64, 1),
  (65, 2),
  (66, 1),
  (67, 2),
  (68, 4),
  (69, 1),
  (70, 1),
  (71, 1),
  (72, 2),
  (73, 2),
  (74, 1),
  (75, 1)],
 [(43, 1),
  (45, 1),
  (76, 2),
  (77, 1),
  (78, 1),
  (79, 3),
  (80, 1),
  (81, 1),
  (82, 1),
  (83, 2),
  (84, 1),
  (85, 4),
  (86, 1),
  (87, 1),
  (88, 1),
  (89, 1

In [12]:
index = similarities.MatrixSimilarity(tf_idf[corpus])


2020-06-18 09:23:55,075 : INFO : creating matrix with 1005 documents and 11105 features


In [13]:
query_document = "金融 虎讯 月 日 消息 今日 菏泽市 地方 金融 监督 管理局 发布 该市 失联 小额贷款 公司 公告 显示 菏泽市 牡丹区 恒顺 小额贷款 有限公司 情形 监管 系统 或市 县 两级 地方 金融 监管部门 市场 监管部门 预留 电话 取得联系".split()
query_bow = dictionary.doc2bow(query_document)
sims = index[tf_idf[query_bow]]
for document_number, score in sorted(enumerate(sims), key=lambda x: x[1], reverse=True):
    print(document_number, score)

39 0.8459525
483 0.11595668
653 0.11566185
443 0.08606418
622 0.0748373
298 0.07418704
339 0.071005516
327 0.06818734
371 0.06796195
315 0.06487929
348 0.06225711
956 0.059957404
165 0.05980962
996 0.054670077
778 0.053686388
82 0.052728444
597 0.051916204
751 0.051364847
707 0.043157633
846 0.041981574
580 0.03954599
788 0.038054198
296 0.03713871
36 0.036963742
879 0.0368164
21 0.036739632
440 0.035467554
953 0.033900443
35 0.033481337
913 0.033455756
271 0.03276166
221 0.032736387
334 0.03246125
507 0.03174052
499 0.031045455
797 0.031032456
311 0.030903686
312 0.030280098
680 0.029878343
461 0.029806994
116 0.029659348
148 0.029653452
243 0.029493464
113 0.028947107
816 0.02846191
46 0.028146721
669 0.027783422
292 0.027584933
9 0.027326383
520 0.027126888
3 0.026542025
233 0.02637478
65 0.025726298
943 0.025676448
399 0.025495697
807 0.025269594
414 0.025067756
344 0.024766719
532 0.024764955
269 0.024758764
44 0.02407913
88 0.02406754
976 0.024049094
761 0.023970228
505 0.0238986

375 0.0005195068
539 0.00050893123
136 0.00050861406
185 0.00050117535
85 0.0004966631
448 0.00049100374
593 0.00048888347
619 0.00048595903
654 0.00047223162
569 0.00046801148
359 0.00046439696
773 0.00045830297
869 0.00045830297
381 0.00045821778
37 0.00044638012
411 0.00043892744
179 0.00043581787
886 0.00043543766
34 0.00041799727
86 0.00041534693
305 0.00040550923
118 0.0004050799
723 0.00040244625
949 0.00039770408
898 0.0003965405
790 0.0003944041
18 0.00038355426
691 0.0003727919
637 0.00037263276
697 0.00036980928
383 0.00036397978
667 0.00036371217
699 0.0003611552
15 0.00036014098
50 0.00035691564
809 0.00035375968
909 0.00035037467
458 0.000347436
456 0.00034456875
117 0.00034066825
81 0.00033561862
376 0.000333753
793 0.00033262017
120 0.00032734388
444 0.0003096916
261 0.00029804817
300 0.000297735
38 0.00029638375
560 0.00028908014
351 0.0002851229
579 0.0002824821
288 0.000272343
842 0.00027074537
946 0.0002703358
13 0.00027024018
470 0.00026866028
107 0.00025653117
394

In [14]:
print(documents[39])

金融 虎讯 月 日 消息 今日 菏泽市 地方 金融 监督 管理局 发布 该市 失联 小额贷款 公司 公告 显示 菏泽市 牡丹区 恒顺 小额贷款 有限公司 情形 监管 系统 或市 县 两级 地方 金融 监管部门 市场 监管部门 预留 电话 取得联系 办公 场所 已转 做 长期 未向 监管 系统 报送 相关 数据 情形 小额贷款 公司 长期 脱离 监管 经营 情况 较大 风险 隐患 现 公告 请 牡丹区 恒顺 小额贷款 有限公司 公告 三十日 主动 该局 提供 相关 资料 情况 逾期 未 主动 山东省 地方 金融 条例 相关 进一步 监管 措施 返回 搜狐 查看 责任编辑


In [15]:
#加载预训练金融预料w2v model
from gensim.models import KeyedVectors
word_vectors_char = KeyedVectors.load_word2vec_format('../data/sgns.financial.char.bz2') 

2020-06-18 09:23:55,907 : INFO : loading projection weights from ../data/sgns.financial.char.bz2


2020-06-18 09:27:09,684 : INFO : duplicate words detected, shrinking matrix size from 467389 to 467341
2020-06-18 09:27:09,685 : INFO : loaded (467341, 300) matrix from ../data/sgns.financial.char.bz2


In [16]:
distance = word_vectors_char.wmdistance(texts[3], texts[44]) #两篇原油宝的文章
print('distance = %.4f' % distance)
distance = word_vectors_char.wmdistance(texts[3], texts[45]) #一篇原油宝一篇疫情
print('distance = %.4f' % distance)

2020-06-18 09:27:09,693 : INFO : Removed 12 and 7 OOV words from document 1 and 2 (respectively).
2020-06-18 09:27:09,694 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2020-06-18 09:27:09,696 : INFO : built Dictionary(496 unique tokens: ['CME', 'WTI', '一度', '一段时间', '下跌']...) from 2 documents (total 1150 corpus positions)
2020-06-18 09:27:13,597 : INFO : Removed 12 and 24 OOV words from document 1 and 2 (respectively).
2020-06-18 09:27:13,598 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2020-06-18 09:27:13,599 : INFO : built Dictionary(442 unique tokens: ['CME', 'WTI', '一度', '一段时间', '下跌']...) from 2 documents (total 850 corpus positions)


distance = 3.4920
distance = 5.2379


In [17]:
#doc2vec example

In [18]:
import gensim
train_corpus = []
for i in range(n):
    train_corpus.append(gensim.models.doc2vec.TaggedDocument(documents[i].split(), [i]))
print(train_corpus[:2])

[TaggedDocument(words=['新华社', '哥本哈根', '月', '日电', '记者', '林晶', '世界卫生组织', '欧洲', '区域', '办事处', '主任', '克卢格', '月', '日', '哥本哈根', '视频', '例会', '时', '呼吁', '区域', '各国', '特别', '社区', '传播', '控制', '国家', '应', '确保', '医疗卫生', '系统', '双轨制', '抗击', '新冠', '疫情', '保证', '常规', '医疗卫生', '服务', '运转', '克卢格', '说', '欧洲地区', '新冠', '疫情', '严峻', '一周', '累计', '确诊', '病例', '15%', '累计', '确诊', '病例', '达', '1408266', '例', '同期', '死亡', '病例', '18%', '累计', '死亡', '人数', '达', '129344', '欧洲地区', '累计', '确诊', '死亡', '病例', '占', '世界', '相关', '病例', '数', '46%', '63%', '克卢格', '呼吁', '欧洲各国', '政府', '卫生机构', '寻求', '办法', '控制', '新冠', '病毒', '社区', '传播', '前提', '快速', '恢复', '常规', '医疗卫生', '服务', '特别', '指出', '形势', '保证', '儿童', '接种', '麻疹', '常规', '疫苗', '重要性', '克卢格', '说', '新冠', '疫情', '短时期', '消失', '波', '第三', '波', '疫情', '认知', '动员', '社会', '理解', '协作', '双轨制', '医疗卫生', '系统', '保证', '应对', '新冠', '疫情', '反复', '时', '灵活性', '弹性'], tags=[0]), TaggedDocument(words=['昨晚', '美股', '率先', '突破', '站上', '日', '均线', '创新', '高', '东京', '日经指数', '涨幅', '超', '2%', '创新', '高', 'A股', '大板', '指', '高开高', '走', '

In [19]:
model = gensim.models.doc2vec.Doc2Vec(vector_size=20, min_count=2, epochs=40)
model.build_vocab(train_corpus)
model.train(train_corpus, total_examples=model.corpus_count, epochs=model.epochs)

2020-06-18 09:27:15,883 : INFO : collecting all words and their counts
2020-06-18 09:27:15,884 : INFO : PROGRESS: at example #0, processed 0 words (0/s), 0 word types, 0 tags
2020-06-18 09:27:15,926 : INFO : collected 35788 word types and 1000 unique tags from a corpus of 1000 examples and 230224 words
2020-06-18 09:27:15,927 : INFO : Loading a fresh vocabulary
2020-06-18 09:27:15,964 : INFO : effective_min_count=2 retains 16894 unique words (47% of original 35788, drops 18894)
2020-06-18 09:27:15,966 : INFO : effective_min_count=2 leaves 211330 word corpus (91% of original 230224, drops 18894)
2020-06-18 09:27:16,021 : INFO : deleting the raw counts dictionary of 35788 items
2020-06-18 09:27:16,023 : INFO : sample=0.001 downsamples 18 most-common words
2020-06-18 09:27:16,024 : INFO : downsampling leaves estimated 203913 word corpus (96.5% of prior 211330)
2020-06-18 09:27:16,059 : INFO : estimated required memory for 16894 words and 20 dimensions: 11230040 bytes
2020-06-18 09:27:16,0

2020-06-18 09:27:22,051 : INFO : worker thread finished; awaiting finish of 1 more threads
2020-06-18 09:27:22,055 : INFO : worker thread finished; awaiting finish of 0 more threads
2020-06-18 09:27:22,056 : INFO : EPOCH - 18 : training on 230224 raw words (205006 effective words) took 0.1s, 1415741 effective words/s
2020-06-18 09:27:22,215 : INFO : worker thread finished; awaiting finish of 2 more threads
2020-06-18 09:27:22,216 : INFO : worker thread finished; awaiting finish of 1 more threads
2020-06-18 09:27:22,221 : INFO : worker thread finished; awaiting finish of 0 more threads
2020-06-18 09:27:22,222 : INFO : EPOCH - 19 : training on 230224 raw words (204898 effective words) took 0.2s, 1248663 effective words/s
2020-06-18 09:27:22,368 : INFO : worker thread finished; awaiting finish of 2 more threads
2020-06-18 09:27:22,369 : INFO : worker thread finished; awaiting finish of 1 more threads
2020-06-18 09:27:22,375 : INFO : worker thread finished; awaiting finish of 0 more thread

2020-06-18 09:27:25,102 : INFO : worker thread finished; awaiting finish of 1 more threads
2020-06-18 09:27:25,108 : INFO : worker thread finished; awaiting finish of 0 more threads
2020-06-18 09:27:25,108 : INFO : EPOCH - 38 : training on 230224 raw words (204953 effective words) took 0.1s, 1374742 effective words/s
2020-06-18 09:27:25,260 : INFO : worker thread finished; awaiting finish of 2 more threads
2020-06-18 09:27:25,263 : INFO : worker thread finished; awaiting finish of 1 more threads
2020-06-18 09:27:25,269 : INFO : worker thread finished; awaiting finish of 0 more threads
2020-06-18 09:27:25,270 : INFO : EPOCH - 39 : training on 230224 raw words (205007 effective words) took 0.2s, 1301224 effective words/s
2020-06-18 09:27:25,412 : INFO : worker thread finished; awaiting finish of 2 more threads
2020-06-18 09:27:25,417 : INFO : worker thread finished; awaiting finish of 1 more threads
2020-06-18 09:27:25,422 : INFO : worker thread finished; awaiting finish of 0 more thread

In [20]:
vector = model.infer_vector(['金融','行业','原油宝','期货'])
print(vector)

[-0.03474607 -0.15347145  0.32884297  0.10445941  0.13171554 -0.02941207
  0.12577774  0.04781371 -0.09115019 -0.11344688  0.11629994  0.40579236
 -0.35446244 -0.03451527  0.2492189  -0.39030346  0.04649777 -0.31508806
  0.19510715  0.03708351]


In [21]:
ranks = []
second_ranks = []
for doc_id in range(len(train_corpus)):
    inferred_vector = model.infer_vector(train_corpus[doc_id].words)
    sims = model.docvecs.most_similar([inferred_vector], topn=len(model.docvecs))
    rank = [docid for docid, sim in sims].index(doc_id)
    ranks.append(rank)

    second_ranks.append(sims[1])

2020-06-18 09:27:25,444 : INFO : precomputing L2-norms of doc weight vectors


In [22]:
import collections

counter = collections.Counter(ranks)
print(counter)

Counter({0: 975, 1: 14, 3: 2, 4: 2, 5: 2, 19: 1, 14: 1, 9: 1, 2: 1, 13: 1})


In [23]:
print('Document ({}): «{}»\n'.format(doc_id, ' '.join(train_corpus[doc_id].words)))
print(u'SIMILAR/DISSIMILAR DOCS PER MODEL %s:\n' % model)
for label, index in [('MOST', 0), ('SECOND-MOST', 1), ('MEDIAN', len(sims)//2), ('LEAST', len(sims) - 1)]:
    print(u'%s %s: «%s»\n' % (label, sims[index], ' '.join(train_corpus[sims[index][0]].words)))

Document (999): «新华社 耶路撒冷 月 日电 记者 尚昊 陈文仙 以色列 财政部 日 以色列 当天 亚洲 市场 首次 发行 债券 发行 总额 达 亿美元 财政部 本轮 债券 年期 利率 3.8% 旨在 以色列政府 减少 因新冠 疫情 财政赤字 疫情 发生 以色列 陆续 推出 多项 措施 应对 疫情 经济 冲击 月 日 以色列 推出 亿新 谢克尔 约合 228 亿美元 财政 救助 计划 规模 相当于 国内 生产总值 6% 月 日 以色列 面向 欧美 市场 发行 总额 达 亿美元 债券 月 日 以色列 中央银行 基准利率 0.25% 降至 0.1% 以色列 央行 本月 发布 数据 显示 受 疫情 影响 第一季度 以色列 经济 下滑 约 5% 预计 年 经济 萎缩 5.3% 以色列 卫生部 日晚 发布 新冠 疫情 数据 显示 疫情 发生 该国 累计 确诊 15834 例 累计 死亡 215 例 累计 治愈 8233 例»

SIMILAR/DISSIMILAR DOCS PER MODEL Doc2Vec(dm/m,d20,n5,w5,mc2,s0.001,t3):

MOST (999, 0.9750403165817261): «新华社 耶路撒冷 月 日电 记者 尚昊 陈文仙 以色列 财政部 日 以色列 当天 亚洲 市场 首次 发行 债券 发行 总额 达 亿美元 财政部 本轮 债券 年期 利率 3.8% 旨在 以色列政府 减少 因新冠 疫情 财政赤字 疫情 发生 以色列 陆续 推出 多项 措施 应对 疫情 经济 冲击 月 日 以色列 推出 亿新 谢克尔 约合 228 亿美元 财政 救助 计划 规模 相当于 国内 生产总值 6% 月 日 以色列 面向 欧美 市场 发行 总额 达 亿美元 债券 月 日 以色列 中央银行 基准利率 0.25% 降至 0.1% 以色列 央行 本月 发布 数据 显示 受 疫情 影响 第一季度 以色列 经济 下滑 约 5% 预计 年 经济 萎缩 5.3% 以色列 卫生部 日晚 发布 新冠 疫情 数据 显示 疫情 发生 该国 累计 确诊 15834 例 累计 死亡 215 例 累计 治愈 8233 例»

SECOND-MOST (238, 0.8533245921134949): «新华社 东京 月 日电 记者 刘春燕 日本参议院

In [24]:
# Pick a random document from the corpus and infer a vector from the model
import random
doc_id = random.randint(0, len(train_corpus) - 1)

# Compare and print the second-most-similar document
print('Train Document ({}): «{}»\n'.format(doc_id, ' '.join(train_corpus[doc_id].words)))
sim_id = second_ranks[doc_id]
print('Similar Document {}: «{}»\n'.format(sim_id, ' '.join(train_corpus[sim_id[0]].words)))

Train Document (12): «AFP2020 MANDELNGAN 白宫 顾问 指责 中国 美国 交付 合格 新冠 病毒检测 试剂盒 美国 国家情报局 统计 中称 冠状病毒 人为 制造 基因 编辑 一事 情报界 已达成 科学 共识 美国 科学家 研究 病毒 传播 感染 动物 接触 中国 武汉市 实验室 违反 特朗普 此前 美方 研究 新冠 病毒 COVID 中国 武汉市 实验室 里 打算 查明 病毒 起源 特朗普 威胁 中国 查出 北京 新冠 疫情 爆发 承担 后果 此前 中国外交部 发布 消息 称 新冠 肺炎 疫情 发生 中国 公开 透明 负责 态度 发布 疫情 信息»

Similar Document (359, 0.8740598559379578): «原 标题 锐 参考 中国 外交 天团 本周 连发 数十 问 美国 请 回答 新冠 肺炎 疫情 美国 突破 上限 美国 政客 频频 秀 下限 美国 国务卿 蓬佩奥 白宫 国家 贸易 制造业 政策 办公室 主任 纳 瓦罗 代表 近期 炮制 种种 匪夷所思 阴谋论 试图 栽赃 中国 资料 图片 美国 国务卿 蓬佩奥 新华社 面对 美国 频频 泼来 脏水 中国外交部 发言人 发起 反击 每日 例行 记者会 澄清事实 海外 社交 媒体 平台 发声 据小锐 统计 本周 外交部 发言人 华春莹 推特 发问 耿爽 记者会 左右开弓 外交部 副 部长 乐 玉成 直面 美媒 场合 语境 议题 设置 之下 美国 疫情 数据 病毒 源头 调查 话题 中国 外交官 美方 连续 发问 超过 次 种种 追问 美方 欠 世界 答案 华春莹 两怼 蓬佩奥 问纳 瓦罗 不请 美国 专家 查明 新冠 病毒 最早 美国 何地 月 日 中午 外交部 发言人 华春莹 推特上 发出 此问 美国 答案 世界 有权 知情 推文 所配 图片 华春莹 反问 对象 美国 国务卿 蓬佩奥 近日 推特上 煽风点火 声称 中国 展开 调查 华春莹 反击 蓬佩奥 推特 截图 本周 华春莹 推特上 第二次 点名 回击 蓬佩奥 月 日 蓬佩奥 福克斯 新闻频道 指责 中国 隐瞒 疫情 论调 华春莹发 推 反问 散布 假消息 共和党 参议院 全国 委员会 灰色 地带 美国 一家 独立 新闻 网站 披露 华春莹 一问 指向 此前 美媒 爆出 反华 备忘录 这份 长

In [25]:
import numpy as np
import codecs
import math
BITS = 31

In [26]:
class simHash(object):
# 初始化，遍历文档（已分词），得到词汇表，并进行32位(能表示2^32种情况，完全足够)\
#hash编码和对应的idf值，将idf值作为其权重进行运算，分别存入两个字典(dict)
    def __init__(self, documents):
        f = documents
        dictHash = dict()
        dictWeight = dict()
        i = 0#hash编码
        lines = 0#记录文本数量,以计算idf值
        #遍历文本，进行hash编码和统计df词频(在多少篇文章出现过，而不是总词频，\
        #比如某个词在一个文本中出现三次也只算一次)
        for line in f:
            lines += 1
            temp = set(str(line).strip().split())#避免重复统计词频
            for item in temp:
                if item not in stopwords:
                    if item not in dictWeight:
                        dictWeight[item] = 1
                        dictHash[item] = i
                        i += 1
                    else:
                        dictWeight[item] += 1
        del i
        #hash编码转为array形式的二进制，方便计算
        for item in dictHash:
            L = list(bin(dictHash[item]))[2:]
            intL = [int(x) for x in L]
            for i in range(len(intL)):
                if intL[i] == 0:
                    intL[i] = -1
            intL = (BITS - len(intL))*[-1]+intL
            dictHash[item] = np.array(intL)
        #根据词频计算idf值
        for item in dictWeight:
            dictWeight[item] = math.log(lines/dictWeight[item])

        self.dictHash = dictHash
        self.dictWeight = dictWeight
        
    #根据词的hash对句子进行hash编码
    def senHash(self, sen):
        senHashCode = np.zeros(BITS)
        temp = sen.strip().split()
        for item in temp:
            senHashCode += self.dictHash[item]*self.dictWeight[item]
        for i in range(BITS):
            if senHashCode[i] > 0:
                senHashCode[i] = 1
            else:
                senHashCode[i] = 0
        return senHashCode

    #获取两个句子的Hamming distance，dis越小说明相似度越高
    def sen2senDis(self, sen1, sen2):
        temp1 = self.senHash(sen1)
        temp2 = self.senHash(sen2)
        Hamming = 0
        for i in range(BITS):
            if temp1[i] != temp2[i]:
                Hamming += 1
        return Hamming


In [27]:
simhash = simHash(documents)

In [28]:
print(simhash.dictHash['金融'])
print(simhash.dictWeight['金融'])

[-1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1  1  1  1
 -1 -1 -1 -1 -1 -1  1]
2.7230880784667506


In [29]:
simhash.sen2senDis(documents[885], documents[684])

8

In [30]:
minSimHash = 10000
minSimHashIndex = -1
for i in range(1, n):
    temp = simhash.sen2senDis(documents[0], documents[i])
    if temp < minSimHash:
        minSimHash = temp
        minSimHashIndex = i
        
print(minSimHash, minSimHashIndex)

1 304


In [31]:
print(documents[0])

新华社 哥本哈根 月 日电 记者 林晶 世界卫生组织 欧洲 区域 办事处 主任 克卢格 月 日 哥本哈根 视频 例会 时 呼吁 区域 各国 特别 社区 传播 控制 国家 应 确保 医疗卫生 系统 双轨制 抗击 新冠 疫情 保证 常规 医疗卫生 服务 运转 克卢格 说 欧洲地区 新冠 疫情 严峻 一周 累计 确诊 病例 15% 累计 确诊 病例 达 1408266 例 同期 死亡 病例 18% 累计 死亡 人数 达 129344 欧洲地区 累计 确诊 死亡 病例 占 世界 相关 病例 数 46% 63% 克卢格 呼吁 欧洲各国 政府 卫生机构 寻求 办法 控制 新冠 病毒 社区 传播 前提 快速 恢复 常规 医疗卫生 服务 特别 指出 形势 保证 儿童 接种 麻疹 常规 疫苗 重要性 克卢格 说 新冠 疫情 短时期 消失 波 第三 波 疫情 认知 动员 社会 理解 协作 双轨制 医疗卫生 系统 保证 应对 新冠 疫情 反复 时 灵活性 弹性


In [32]:
print(documents[304])

月 日 统计数据 荷兰 累计 感染 病例 38802 例 4711 死亡 医务人员 补充 道 新冠 病毒感染 死亡 病例 新增 例 升至 4795 例 超过 1.07 医院 接受 治疗 世卫 组织 月 日 COVID 疫情 定性 流行 世卫 组织 最新 数据 全球 累计 确诊 万多例 新冠 病毒感染 病例 累计 死亡 20.8 万多例


In [45]:
import time

start_time = time.time()
simIndex = []
simNum = []
# minSimHash = 10000
# minSimHashIndex = -1
for i in range(1, n):
    temp = simhash.sen2senDis(documents[0], documents[i])
    if temp < 3:
        simIndex.append(i)
        simNum.append(temp)
#     if temp < minSimHash:
#         minSimHash = temp
#         minSimHashIndex = i
        
end_time = time.time()
print(simIndex)
print(simNum)
print(end_time-start_time)

[304, 503, 529, 608, 698, 699, 876, 886, 911, 983, 986]
[1, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2]
1.0834150314331055


In [46]:
print(documents[876])

格隆汇 月 日 丨 唐德 影视 300426 SZ 公布 年 月 日 公司 浙江 东阳 昊美 影业 有限公司 昊美 影业 公司 昊美 影业 合称 签订 战略 合作 协议 协议 约定 战略 合作 建立 长期 战略 合作伙伴 关系 提供 资源 项目 影视 领域 多层次 全方位 深度 合作 包括 限于 影视 项目 投资 开发 共享 优质 资源 拓展 发行 渠道 联动 宣传 推广 协议 签署 生效 互为 优先选择 合作伙伴 应 建立 长期有效 沟通 机制 合作 顺利进行 创造 有利条件 确保 实施 全方位 合作 配合 优化 合作 模式 市场化 运作 强强 联手 确保 合作 项目 既有 社会 影响力 市场需求 相结合 确保 社会效益 投资 效益 互利 共赢 影视 项目 合作 确立 影视 项目 战略 合作 关系 投资 开发 影视 项目 包括 限于 电影 电视剧 网络 剧 网络 电影 电视栏目 现有 未来 影视作品 形式 相关 衍生品 共享 投资收益 共担 投资 风险 共享 发行 渠道 项目 收益 最大化 提升 核心 竞争力 影视 项目 合作 权利义务 签署 项目 联合 投资 摄制 合同 约定 宣传 推广 合作 长期 战略 合作伙伴 充分利用 旗下 网站 平台 资源 合作项目 推广 工作 合作项目 联动 宣传 推广 协议 约定 合作 期限 协议 签署 生效 计算 合作 期满 一个月 协商 续签 协议 合作 全球 合作 公司 影视 产业链 优化 上下游 产业 拓展 影响 有助于 公司 整合 资源优势 进一步 完善 影视 产业链 战略 布局 公司 影视 相关 产业 运营 发展 起到 推动 作用 进一步 增强 公司 持续 发展 能力 核心 竞争力 责任编辑 HN666


In [47]:
#minhash

In [48]:
from datasketch import MinHash

In [49]:
documents[1]

'昨晚 美股 率先 突破 站上 日 均线 创新 高 东京 日经指数 涨幅 超 2% 创新 高 A股 大板 指 高开高 走 上证 一举 拿下 久攻不下 2850 点 成交量 暴增 银行 强 银行 板块 昨天 起到 应有 护盘 作用 轮 证券 板块 启动 大涨 超 2% 上证指数 支撑 爆量 上涨 资金 光速 进场 资金 板块 半导体 板块 板块 指数 暴涨 7% 创 历史 单日 涨幅 板块 权重股 行业龙头 涨停 如兆易 创新 通富 微电 长电 科技 沪 硅 产业 板块 效应 板块 效应 吸引 资金 参与 交易 好事 板块 技术 面 短期 均线 均线 粘合 短期 平均 成本 重叠 爆量 暴涨 站 上半年 线 近半年 平均 持仓 成本 获利 人类 趋利避害 特性 越 赚钱 越 持股 买入 越 亏损 越 卖出 恐慌性 吸引 资金 参与 半导体 指数 无线耳机 板块 板块 指数 涨幅 超 5% 佳禾 智能 天 板 市场 龙头股 华胜天 成 突破 年 高点 涨停板 亿 资金 抢筹 封板 突破 趋势 安洁 科技 PE30 倍 估值 不高 流通 市值 亿 年线 启动 早盘 开盘 分钟 涨停 速度 之快 前所未有 资金 心情 急切 可见一斑 华胜天 成 科技股 走势 板块 食品饮料 农林牧渔 人造肉 医药 板块 究其原因 逻辑 是因为 农林牧渔 食品饮料 人造肉 医药 消费 板块 偏 防御 指数 一跌 板块 必涨 这招 屡试不爽 A股 市场 经验 规律性 质疑 当作 公理 来记 当作 记住 预计 指数 五一 后先 延续 上涨 态势 科技股 领涨 交易日 指数 遇压 调整 指数 调整 防御性 板块 食品饮料 农林牧渔 人造肉 医药 复制 前期 行情 下图 农林牧渔 板块 指数 上证指数 叠加 图 上半 农林牧渔 板块 指数 上证指数 走势 农林牧渔 上证指数 叠加 图 透露 观察 市场 情绪 指标 规律 前天 早盘 A股 跌停 数量 上次 跌停 数量 好巧 巧合 市场 恐慌 情绪 聪明 资金 一看 熟悉 情况 情绪 低谷 来临 拐点 到来 久违 百股 涨停 情绪 时间 周期 情绪 周期 高点 低点 天 时间 低点 高点 天 时间 时间 做 防御性 板块 情绪 低谷 指标 市场 情绪 退潮 期时 市场 最先 跌停 数量 增多 连续 跌停 股 数量 增多 恐慌性 顶 跌停 数量 只股 跌

In [50]:
data0 = documents[0].split()
data1 = documents[1].split()

In [53]:
m0, m1 = MinHash(), MinHash()

In [54]:
for d in data0:
    m0.update(d.encode('utf-8'))
for d in data1:
    m1.update(d.encode('utf-8'))

In [55]:
print("Estimated Jaccard for data0 and data1 is", m0.jaccard(m1))

Estimated Jaccard for data0 and data1 is 0.0


In [56]:
s0 = set(data0)
s1 = set(data1)
actual_jaccard = float(len(s0.intersection(s1)))/float(len(s0.union(s1)))
print("Actual Jaccard for data1 and data2 is", actual_jaccard)

Actual Jaccard for data1 and data2 is 0.006872852233676976


In [70]:
def minHashSim(d0, d1):
    data0 = d0.split()
    data1 = d1.split()
    m0, m1 = MinHash(), MinHash()
    for d in data0:
        m0.update(d.encode('utf-8'))
    for d in data1:
        m1.update(d.encode('utf-8'))
#     print("Estimated Jaccard for data0 and data1 is", m0.jaccard(m1))
#     s0 = set(data0)
#     s1 = set(data1)
#     actual_jaccard = float(len(s0.intersection(s1)))/float(len(s0.union(s1)))
#     print("Actual Jaccard for data1 and data2 is", actual_jaccard)
    return m0.jaccard(m1)

In [69]:
minHashSim(documents[0], documents[3])

Estimated Jaccard for data0 and data1 is 0.015625
Actual Jaccard for data1 and data2 is 0.021377672209026127


In [75]:
start_time = time.time()
maxJaccard = 0
maxJaccardIndex = 0
for i in range(1, n):
    temp = minHashSim(documents[0], documents[i])
    if temp > maxJaccard:
        maxJaccardIndex = i
        maxJaccard = temp
end_time = time.time()
print("total run time:", end_time-start_time)

total run time: 6.4895339012146


In [74]:
print(maxJaccard, maxJaccardIndex)
print(documents[maxJaccardIndex])

0.15625 509
新华社 基辅 月 日电 记者 李东旭 乌克兰 卫生部长 马克西 玛 斯捷潘 诺夫 日 说 乌克兰 单日 新增 新冠 确诊 病例 再创新高 达 540 例 累计 确诊 病例 10406 例 斯捷潘 诺夫 当天 新闻 发布会 儿童 累计 确诊 病例 717 例 医护人员 累计 确诊 病例 2663 例 乌克兰 累计 治愈 病例 1238 例 累计 死亡 病例 261 例 乌通社 援引 乌 经济 发展 贸易部 消息 说 乌克兰 日 恢复 872 农产品 市场 运营 斯捷潘 诺夫 说 乌克兰 农产品 农产品 市场 销售 开放 农产品 市场 经济 食品 价格 稳定 乌政府 制定 应对 方案 开放 农产品 市场 力争 疫情 传播 风险 降到 最低 月 日 乌政府 全国 隔离 措施 日 延长 月 日 斯捷潘 诺夫 说 隔离 措施 到期 小企业 解禁 包括 小型 商店 美发店 日用百货 店
