In [1]:
import jieba
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

In [2]:
def load_stopwords(stopwords_path):
    with open(stopwords_path, 'r', encoding='utf-8') as f:
        return [line.strip() for line in f]
    
def preprocess_data(corpus_path, stopwords):
    corpus = []
    with open(corpus_path, 'r', encoding='utf-8') as f:
        for line in f:
            corpus.append(' '.join([word for word in jieba.lcut(line.strip()) if word not in stopwords]))
    return corpus

In [3]:
n = 1000
stopwords_path = "../data/stop_words.txt"
documents_path = "../data/documents_first_" + str(n) + ".txt"
stopwords = load_stopwords(stopwords_path)
documents = preprocess_data(documents_path, stopwords)

Building prefix dict from the default dictionary ...
2020-06-15 09:37:30,471 : DEBUG : Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/m3/4yh806w92fdgcn0bk16ql7nw0000gn/T/jieba.cache
2020-06-15 09:37:30,474 : DEBUG : Loading model from cache /var/folders/m3/4yh806w92fdgcn0bk16ql7nw0000gn/T/jieba.cache
Loading model cost 0.638 seconds.
2020-06-15 09:37:31,111 : DEBUG : Loading model cost 0.638 seconds.
Prefix dict has been built successfully.
2020-06-15 09:37:31,112 : DEBUG : Prefix dict has been built successfully.


In [4]:
documents[2]

'董明珠 惊人 之语 炮轰 美的 怒斥 国产车 炮火 引向 大众 这下 本来 习惯于 看热闹 吃 瓜 群众 答应 踩 同行 骂 竞争对手 意见 敢动 老子 一亩 三分 不行 014 月 日 晚间 格力电器 董事长 兼 总裁 董明珠 接受 采访 时 赞同 黄奇帆 取消 住房 公积金 说 格力电器 3700 套 房子 员工 入住 未来 格力 员工 发一 套房 公积金 听听 话 饱汉不知饿汉饥 专程来 炫富 经济 下行 大众 钱包 吃紧 格力 本事 每名 员工 分 房子 本事 格力 分房 取消 全国 公积金 站长 想 问 一句 董 小姐 蠢 坏 确实 格力 优秀 年 营业 收入 1981.53 拥有 万名 员工 格力 万名 员工 发一 套房 站长 说 信 格力 真 员工 分房 中国 企业 众多 能发 房子 企业 凤毛麟角 特别 受 疫情 影响 众多 行业 暴击 企业 濒临 倒闭 活着 不错 每人 发 套房 格力 员工 公积金 取消 公积金 格力 确实 省下 一大笔钱 我国 亿人 贫富差距 取消 公积金 势必会 影响 人群 利益 也许 董明珠 换种 表述 特定 福利 企业 取消 缴纳 公积金 企业 节约 成本 用于 研发 创新 公积金 整体 实施 影响 我国 当初 建立 住房 公积金 制度 新加坡 学习 希望 强制性 缴纳 办法 集合 政府 企业 职工 三方 力量 解决 民众 购房 中国 最先 实行 公积金 政策 上海 全国 房地产 市场 发展 实行 公房 分配制度 家庭 人均 住房面积 七八 平方米 住 拥挤 居住 环境 急需 改善 公积金 强制 缴存 看似 个人收入 减少 长期 并非如此 民企 公积金 缴纳 比例 5% 12% 薪资 基数 缴纳 比例 6% 公司 6% 12% 公积金 存缴 数额 50006% 别看 元不多 长此以往 可不是 小数 缴纳 时间 公积金 买房 提取 大众 福利 特别 事业单位 公务员 群体 公积金 缴纳 金额 高 一般来说 公务员 月 公积金 扣除 比例 工资 12% 公积金 政策 国家 补贴 数额 公务员 一个月 公积金 工资 24% 民企 两倍 账面 工资 特别 高 公务员 群体 公积金 住 建部 人民银行 总行 统计 显示 年 全国 住房 公积金 缴存 总额 14549.46 上年 增长 12.29% 缴存 人数 机关 事业单位 工作

In [5]:
from gensim import corpora
from pprint import pprint
from collections import defaultdict

In [6]:
texts = [[word for word in document.split()] for document in documents]

In [7]:
frequency = defaultdict(int)
for text in texts:
    for token in text:
        frequency[token] += 1
texts = [[token for token in text if frequency[token] > 2] for text in texts]
# pprint(texts)

In [8]:
dictionary = corpora.Dictionary(texts)
dictionary.save('../data/first_' + str(n) + '_doc.dict')
print(dictionary)

2020-06-15 09:37:45,315 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2020-06-15 09:37:45,481 : INFO : built Dictionary(11105 unique tokens: ['15%', '18%', '46%', '一周', '世界']...) from 1005 documents (total 200743 corpus positions)
2020-06-15 09:37:45,483 : INFO : saving Dictionary object under ../data/first_1000_doc.dict, separately None
2020-06-15 09:37:45,490 : INFO : saved ../data/first_1000_doc.dict


Dictionary(11105 unique tokens: ['15%', '18%', '46%', '一周', '世界']...)


In [9]:
corpus = [dictionary.doc2bow(text) for text in texts]
corpora.MmCorpus.serialize('../data/first_' + str(n) + '_doc.mm', corpus)
# pprint(corpus)

2020-06-15 09:37:45,657 : INFO : storing corpus in Matrix Market format to ../data/first_1000_doc.mm
2020-06-15 09:37:45,657 : INFO : saving sparse matrix to ../data/first_1000_doc.mm
2020-06-15 09:37:45,658 : INFO : PROGRESS: saving document #0
2020-06-15 09:37:45,776 : INFO : PROGRESS: saving document #1000
2020-06-15 09:37:45,777 : INFO : saved 1005x11105 matrix, density=0.982% (109589/11160525)
2020-06-15 09:37:45,778 : INFO : saving MmCorpus index to ../data/first_1000_doc.mm.index


In [10]:
from gensim import models, similarities
tf_idf = models.TfidfModel(corpus)


2020-06-15 09:37:45,783 : INFO : collecting document frequencies
2020-06-15 09:37:45,784 : INFO : PROGRESS: processing document #0
2020-06-15 09:37:45,802 : INFO : calculating IDF weights for 1005 documents and 11105 features (109589 matrix non-zeros)


In [11]:
import pprint
pprint.pprint(corpus[:2])

[[(0, 1),
  (1, 1),
  (2, 1),
  (3, 1),
  (4, 1),
  (5, 1),
  (6, 1),
  (7, 1),
  (8, 1),
  (9, 2),
  (10, 1),
  (11, 3),
  (12, 1),
  (13, 4),
  (14, 1),
  (15, 1),
  (16, 1),
  (17, 1),
  (18, 2),
  (19, 4),
  (20, 1),
  (21, 1),
  (22, 2),
  (23, 1),
  (24, 1),
  (25, 1),
  (26, 2),
  (27, 1),
  (28, 1),
  (29, 3),
  (30, 1),
  (31, 1),
  (32, 1),
  (33, 1),
  (34, 1),
  (35, 1),
  (36, 1),
  (37, 1),
  (38, 2),
  (39, 1),
  (40, 1),
  (41, 5),
  (42, 1),
  (43, 1),
  (44, 1),
  (45, 2),
  (46, 2),
  (47, 2),
  (48, 1),
  (49, 1),
  (50, 2),
  (51, 3),
  (52, 2),
  (53, 1),
  (54, 2),
  (55, 1),
  (56, 5),
  (57, 1),
  (58, 5),
  (59, 1),
  (60, 1),
  (61, 1),
  (62, 1),
  (63, 3),
  (64, 1),
  (65, 2),
  (66, 1),
  (67, 2),
  (68, 4),
  (69, 1),
  (70, 1),
  (71, 1),
  (72, 2),
  (73, 2),
  (74, 1),
  (75, 1)],
 [(43, 1),
  (45, 1),
  (76, 2),
  (77, 1),
  (78, 1),
  (79, 3),
  (80, 1),
  (81, 1),
  (82, 1),
  (83, 2),
  (84, 1),
  (85, 4),
  (86, 1),
  (87, 1),
  (88, 1),
  (89, 1

In [12]:
index = similarities.MatrixSimilarity(tf_idf[corpus])


2020-06-15 09:37:46,342 : INFO : creating matrix with 1005 documents and 11105 features


In [13]:
query_document = "金融 虎讯 月 日 消息 今日 菏泽市 地方 金融 监督 管理局 发布 该市 失联 小额贷款 公司 公告 显示 菏泽市 牡丹区 恒顺 小额贷款 有限公司 情形 监管 系统 或市 县 两级 地方 金融 监管部门 市场 监管部门 预留 电话 取得联系".split()
query_bow = dictionary.doc2bow(query_document)
sims = index[tf_idf[query_bow]]
for document_number, score in sorted(enumerate(sims), key=lambda x: x[1], reverse=True):
    print(document_number, score)

39 0.8459525
483 0.11595668
653 0.11566185
443 0.08606418
622 0.0748373
298 0.07418704
339 0.071005516
327 0.06818734
371 0.06796195
315 0.06487929
348 0.06225711
956 0.059957404
165 0.05980962
996 0.054670077
778 0.053686388
82 0.052728444
597 0.051916204
751 0.051364847
707 0.043157633
846 0.041981574
580 0.03954599
788 0.038054198
296 0.03713871
36 0.036963742
879 0.0368164
21 0.036739632
440 0.035467554
953 0.033900443
35 0.033481337
913 0.033455756
271 0.03276166
221 0.032736387
334 0.03246125
507 0.03174052
499 0.031045455
797 0.031032456
311 0.030903686
312 0.030280098
680 0.029878343
461 0.029806994
116 0.029659348
148 0.029653452
243 0.029493464
113 0.028947107
816 0.02846191
46 0.028146721
669 0.027783422
292 0.027584933
9 0.027326383
520 0.027126888
3 0.026542025
233 0.02637478
65 0.025726298
943 0.025676448
399 0.025495697
807 0.025269594
414 0.025067756
344 0.024766719
532 0.024764955
269 0.024758764
44 0.02407913
88 0.02406754
976 0.024049094
761 0.023970228
505 0.0238986

291 0.00020134455
744 0.00019999804
164 0.00019737973
308 0.00019177604
143 0.0001802579
191 0.0001778425
123 0.00017116735
29 0.00017033303
384 0.00016748825
239 0.00016429498
404 0.00015983131
975 0.0001479518
474 0.00014546103
810 0.0001429547
994 0.00014202166
826 0.00014125904
907 0.00014056358
561 0.00013723742
134 0.00013451403
883 0.0001286793
99 0.00012864731
28 0.00012388604
992 0.00011826202
204 0.00011628934
708 0.00010818026
600 0.00010755598
872 9.772619e-05
258 9.362336e-05
621 9.107958e-05
428 8.6798915e-05
473 8.4697036e-05
316 7.441674e-05
665 7.2510506e-05
218 7.001735e-05
352 6.9621834e-05
183 6.9455724e-05
72 6.6798064e-05
947 6.546286e-05
522 6.1778985e-05
711 6.0309332e-05
988 5.9339913e-05
203 5.7587175e-05
289 5.6371013e-05
295 4.7911613e-05
201 4.4506858e-05
794 4.402955e-05
480 2.8283757e-05
937 2.325649e-05
87 1.9892126e-05
568 1.9154093e-05
6 0.0
32 0.0
40 0.0
66 0.0
67 0.0
68 0.0
75 0.0
77 0.0
78 0.0
91 0.0
92 0.0
96 0.0
97 0.0
111 0.0
112 0.0
114 0.0
125 

In [14]:
print(documents[39])

金融 虎讯 月 日 消息 今日 菏泽市 地方 金融 监督 管理局 发布 该市 失联 小额贷款 公司 公告 显示 菏泽市 牡丹区 恒顺 小额贷款 有限公司 情形 监管 系统 或市 县 两级 地方 金融 监管部门 市场 监管部门 预留 电话 取得联系 办公 场所 已转 做 长期 未向 监管 系统 报送 相关 数据 情形 小额贷款 公司 长期 脱离 监管 经营 情况 较大 风险 隐患 现 公告 请 牡丹区 恒顺 小额贷款 有限公司 公告 三十日 主动 该局 提供 相关 资料 情况 逾期 未 主动 山东省 地方 金融 条例 相关 进一步 监管 措施 返回 搜狐 查看 责任编辑


In [15]:
#加载预训练金融预料w2v model
from gensim.models import KeyedVectors
word_vectors_char = KeyedVectors.load_word2vec_format('../data/sgns.financial.char.bz2') 

2020-06-15 09:37:47,189 : INFO : loading projection weights from ../data/sgns.financial.char.bz2


2020-06-15 09:41:14,951 : INFO : duplicate words detected, shrinking matrix size from 467389 to 467341
2020-06-15 09:41:14,951 : INFO : loaded (467341, 300) matrix from ../data/sgns.financial.char.bz2


In [16]:
distance = word_vectors_char.wmdistance(texts[3], texts[44]) #两篇原油宝的文章
print('distance = %.4f' % distance)
distance = word_vectors_char.wmdistance(texts[3], texts[45]) #一篇原油宝一篇疫情
print('distance = %.4f' % distance)

2020-06-15 09:41:14,957 : INFO : Removed 12 and 7 OOV words from document 1 and 2 (respectively).
2020-06-15 09:41:14,958 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2020-06-15 09:41:14,960 : INFO : built Dictionary(496 unique tokens: ['CME', 'WTI', '一度', '一段时间', '下跌']...) from 2 documents (total 1150 corpus positions)
2020-06-15 09:41:19,222 : INFO : Removed 12 and 24 OOV words from document 1 and 2 (respectively).
2020-06-15 09:41:19,222 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2020-06-15 09:41:19,223 : INFO : built Dictionary(442 unique tokens: ['CME', 'WTI', '一度', '一段时间', '下跌']...) from 2 documents (total 850 corpus positions)


distance = 3.4920
distance = 5.2379


In [17]:
#doc2vec example

In [18]:
import gensim
train_corpus = []
for i in range(n):
    train_corpus.append(gensim.models.doc2vec.TaggedDocument(documents[i].split(), [i]))
print(train_corpus[:2])

[TaggedDocument(words=['新华社', '哥本哈根', '月', '日电', '记者', '林晶', '世界卫生组织', '欧洲', '区域', '办事处', '主任', '克卢格', '月', '日', '哥本哈根', '视频', '例会', '时', '呼吁', '区域', '各国', '特别', '社区', '传播', '控制', '国家', '应', '确保', '医疗卫生', '系统', '双轨制', '抗击', '新冠', '疫情', '保证', '常规', '医疗卫生', '服务', '运转', '克卢格', '说', '欧洲地区', '新冠', '疫情', '严峻', '一周', '累计', '确诊', '病例', '15%', '累计', '确诊', '病例', '达', '1408266', '例', '同期', '死亡', '病例', '18%', '累计', '死亡', '人数', '达', '129344', '欧洲地区', '累计', '确诊', '死亡', '病例', '占', '世界', '相关', '病例', '数', '46%', '63%', '克卢格', '呼吁', '欧洲各国', '政府', '卫生机构', '寻求', '办法', '控制', '新冠', '病毒', '社区', '传播', '前提', '快速', '恢复', '常规', '医疗卫生', '服务', '特别', '指出', '形势', '保证', '儿童', '接种', '麻疹', '常规', '疫苗', '重要性', '克卢格', '说', '新冠', '疫情', '短时期', '消失', '波', '第三', '波', '疫情', '认知', '动员', '社会', '理解', '协作', '双轨制', '医疗卫生', '系统', '保证', '应对', '新冠', '疫情', '反复', '时', '灵活性', '弹性'], tags=[0]), TaggedDocument(words=['昨晚', '美股', '率先', '突破', '站上', '日', '均线', '创新', '高', '东京', '日经指数', '涨幅', '超', '2%', '创新', '高', 'A股', '大板', '指', '高开高', '走', '

In [19]:
model = gensim.models.doc2vec.Doc2Vec(vector_size=20, min_count=2, epochs=40)
model.build_vocab(train_corpus)
model.train(train_corpus, total_examples=model.corpus_count, epochs=model.epochs)

2020-06-15 09:41:21,658 : INFO : collecting all words and their counts
2020-06-15 09:41:21,659 : INFO : PROGRESS: at example #0, processed 0 words (0/s), 0 word types, 0 tags
2020-06-15 09:41:21,703 : INFO : collected 35788 word types and 1000 unique tags from a corpus of 1000 examples and 230224 words
2020-06-15 09:41:21,704 : INFO : Loading a fresh vocabulary
2020-06-15 09:41:21,739 : INFO : effective_min_count=2 retains 16894 unique words (47% of original 35788, drops 18894)
2020-06-15 09:41:21,739 : INFO : effective_min_count=2 leaves 211330 word corpus (91% of original 230224, drops 18894)
2020-06-15 09:41:21,782 : INFO : deleting the raw counts dictionary of 35788 items
2020-06-15 09:41:21,783 : INFO : sample=0.001 downsamples 18 most-common words
2020-06-15 09:41:21,784 : INFO : downsampling leaves estimated 203913 word corpus (96.5% of prior 211330)
2020-06-15 09:41:21,814 : INFO : estimated required memory for 16894 words and 20 dimensions: 11230040 bytes
2020-06-15 09:41:21,8

2020-06-15 09:41:27,974 : INFO : worker thread finished; awaiting finish of 1 more threads
2020-06-15 09:41:27,978 : INFO : worker thread finished; awaiting finish of 0 more threads
2020-06-15 09:41:27,978 : INFO : EPOCH - 18 : training on 230224 raw words (204927 effective words) took 0.1s, 1397517 effective words/s
2020-06-15 09:41:28,126 : INFO : worker thread finished; awaiting finish of 2 more threads
2020-06-15 09:41:28,130 : INFO : worker thread finished; awaiting finish of 1 more threads
2020-06-15 09:41:28,133 : INFO : worker thread finished; awaiting finish of 0 more threads
2020-06-15 09:41:28,134 : INFO : EPOCH - 19 : training on 230224 raw words (204811 effective words) took 0.2s, 1332538 effective words/s
2020-06-15 09:41:28,306 : INFO : worker thread finished; awaiting finish of 2 more threads
2020-06-15 09:41:28,308 : INFO : worker thread finished; awaiting finish of 1 more threads
2020-06-15 09:41:28,312 : INFO : worker thread finished; awaiting finish of 0 more thread

2020-06-15 09:41:31,062 : INFO : worker thread finished; awaiting finish of 1 more threads
2020-06-15 09:41:31,066 : INFO : worker thread finished; awaiting finish of 0 more threads
2020-06-15 09:41:31,066 : INFO : EPOCH - 38 : training on 230224 raw words (204877 effective words) took 0.1s, 1415895 effective words/s
2020-06-15 09:41:31,205 : INFO : worker thread finished; awaiting finish of 2 more threads
2020-06-15 09:41:31,206 : INFO : worker thread finished; awaiting finish of 1 more threads
2020-06-15 09:41:31,211 : INFO : worker thread finished; awaiting finish of 0 more threads
2020-06-15 09:41:31,212 : INFO : EPOCH - 39 : training on 230224 raw words (205017 effective words) took 0.1s, 1423861 effective words/s
2020-06-15 09:41:31,348 : INFO : worker thread finished; awaiting finish of 2 more threads
2020-06-15 09:41:31,351 : INFO : worker thread finished; awaiting finish of 1 more threads
2020-06-15 09:41:31,356 : INFO : worker thread finished; awaiting finish of 0 more thread

In [20]:
vector = model.infer_vector(['金融','行业','原油宝','期货'])
print(vector)

[-0.03995954 -0.1329282  -0.04240548 -0.248606   -0.11900987  0.06127899
  0.27710456 -0.3751939   0.23243082  0.09699579  0.0797852   0.26121157
 -0.04011713  0.15084654 -0.1159015  -0.01896799 -0.20620263 -0.7013185
 -0.14376396 -0.23553611]


In [21]:
ranks = []
second_ranks = []
for doc_id in range(len(train_corpus)):
    inferred_vector = model.infer_vector(train_corpus[doc_id].words)
    sims = model.docvecs.most_similar([inferred_vector], topn=len(model.docvecs))
    rank = [docid for docid, sim in sims].index(doc_id)
    ranks.append(rank)

    second_ranks.append(sims[1])

2020-06-15 09:41:31,379 : INFO : precomputing L2-norms of doc weight vectors


In [22]:
import collections

counter = collections.Counter(ranks)
print(counter)

Counter({0: 979, 1: 7, 6: 3, 2: 3, 5: 3, 3: 2, 43: 1, 30: 1, 12: 1})


In [23]:
print('Document ({}): «{}»\n'.format(doc_id, ' '.join(train_corpus[doc_id].words)))
print(u'SIMILAR/DISSIMILAR DOCS PER MODEL %s:\n' % model)
for label, index in [('MOST', 0), ('SECOND-MOST', 1), ('MEDIAN', len(sims)//2), ('LEAST', len(sims) - 1)]:
    print(u'%s %s: «%s»\n' % (label, sims[index], ' '.join(train_corpus[sims[index][0]].words)))

Document (999): «新华社 耶路撒冷 月 日电 记者 尚昊 陈文仙 以色列 财政部 日 以色列 当天 亚洲 市场 首次 发行 债券 发行 总额 达 亿美元 财政部 本轮 债券 年期 利率 3.8% 旨在 以色列政府 减少 因新冠 疫情 财政赤字 疫情 发生 以色列 陆续 推出 多项 措施 应对 疫情 经济 冲击 月 日 以色列 推出 亿新 谢克尔 约合 228 亿美元 财政 救助 计划 规模 相当于 国内 生产总值 6% 月 日 以色列 面向 欧美 市场 发行 总额 达 亿美元 债券 月 日 以色列 中央银行 基准利率 0.25% 降至 0.1% 以色列 央行 本月 发布 数据 显示 受 疫情 影响 第一季度 以色列 经济 下滑 约 5% 预计 年 经济 萎缩 5.3% 以色列 卫生部 日晚 发布 新冠 疫情 数据 显示 疫情 发生 该国 累计 确诊 15834 例 累计 死亡 215 例 累计 治愈 8233 例»

SIMILAR/DISSIMILAR DOCS PER MODEL Doc2Vec(dm/m,d20,n5,w5,mc2,s0.001,t3):

MOST (999, 0.9756925106048584): «新华社 耶路撒冷 月 日电 记者 尚昊 陈文仙 以色列 财政部 日 以色列 当天 亚洲 市场 首次 发行 债券 发行 总额 达 亿美元 财政部 本轮 债券 年期 利率 3.8% 旨在 以色列政府 减少 因新冠 疫情 财政赤字 疫情 发生 以色列 陆续 推出 多项 措施 应对 疫情 经济 冲击 月 日 以色列 推出 亿新 谢克尔 约合 228 亿美元 财政 救助 计划 规模 相当于 国内 生产总值 6% 月 日 以色列 面向 欧美 市场 发行 总额 达 亿美元 债券 月 日 以色列 中央银行 基准利率 0.25% 降至 0.1% 以色列 央行 本月 发布 数据 显示 受 疫情 影响 第一季度 以色列 经济 下滑 约 5% 预计 年 经济 萎缩 5.3% 以色列 卫生部 日晚 发布 新冠 疫情 数据 显示 疫情 发生 该国 累计 确诊 15834 例 累计 死亡 215 例 累计 治愈 8233 例»

SECOND-MOST (238, 0.8729859590530396): «新华社 东京 月 日电 记者 刘春燕 日本参议院

In [24]:
# Pick a random document from the corpus and infer a vector from the model
import random
doc_id = random.randint(0, len(train_corpus) - 1)

# Compare and print the second-most-similar document
print('Train Document ({}): «{}»\n'.format(doc_id, ' '.join(train_corpus[doc_id].words)))
sim_id = second_ranks[doc_id]
print('Similar Document {}: «{}»\n'.format(sim_id, ' '.join(train_corpus[sim_id[0]].words)))

Train Document (885): «挖贝网 月 日 华海 药业 600521 今日 发布 年 第一季度 报告 公告 显示 报告 期内 营收 570 555 260.04 同比 增长 30.98% 归属于 上市公司 股东 净利润 220 665 904.93 同比 增长 62.74% 挖贝网 报告 期内 营收 570 555 260.04 同比 增长 30.98% 系 国内 制剂 原料药 销售 大幅 增加 影响 报告 期内 销售费用 同比 增长 66% 系 国内 制剂 销售 力度 加大 国内 制剂 销售 大幅 增加 保证 新 产品 上市 销售 市场调研 前期 费用 大幅 投入 加大 线上 专家 学术 大讲堂 强化 互联网 学术 教育 平台 建设 相关 费用 增加 资料 显示 华海 药业 剂型 仿制 药 生物 药 创新 药及 特色 原料药 研发 生产 销售 集研 产 销为 一体 大型 高新技术 医药企业 来源 链接 sse disclosure listedinfo announcement 600521 20200430 pdf»

Similar Document (684, 0.8764888644218445): «挖贝网 月 日 消息 新 药业 600329 发布 年 第一季度 报告 报告期 营业 收入 655 960 806.79 同比 减少 5.56% 归属于 上市公司 股东 净利润 169 889 787.25 同比 减少 10.59% 第一季度 经营 活动 现金流量 净额 138 077 046.98 上年 同期 增长 20.07% 每股 收益 0.221 股 报告 期内 财务费用 882 603.42 上年 同期 693 024.71 利息费用 同比 减少 挖贝网 资料 显示 新 药业 业务 中药材 中成药 中药饮片 西药 制剂 医药 保健品 加工 批 兼 制造 来源 链接 static cninfo finalpage 1207689816 PDF»



In [25]:
import numpy as np
import codecs
import math
BITS = 31

In [36]:
class simHash(object):
# 初始化，遍历文档（已分词），得到词汇表，并进行32位(能表示2^32种情况，完全足够)\
#hash编码和对应的idf值，将idf值作为其权重进行运算，分别存入两个字典(dict)
    def __init__(self, documents):
        f = documents
        dictHash = dict()
        dictWeight = dict()
        i = 0#hash编码
        lines = 0#记录文本数量,以计算idf值
        #遍历文本，进行hash编码和统计df词频(在多少篇文章出现过，而不是总词频，\
        #比如某个词在一个文本中出现三次也只算一次)
        for line in f:
            lines += 1
            temp = set(str(line).strip().split())#避免重复统计词频
            for item in temp:
                if item not in stopwords:
                    if item not in dictWeight:
                        dictWeight[item] = 1
                        dictHash[item] = i
                        i += 1
                    else:
                        dictWeight[item] += 1
        del i
        #hash编码转为array形式的二进制，方便计算
        for item in dictHash:
            L = list(bin(dictHash[item]))[2:]
            intL = [int(x) for x in L]
            for i in range(len(intL)):
                if intL[i] == 0:
                    intL[i] = -1
            intL = (BITS - len(intL))*[-1]+intL
            dictHash[item] = np.array(intL)
        #根据词频计算idf值
        for item in dictWeight:
            dictWeight[item] = math.log(lines/dictWeight[item])

        self.dictHash = dictHash
        self.dictWeight = dictWeight
        
    #根据词的hash对句子进行hash编码
    def senHash(self, sen):
        senHashCode = np.zeros(BITS)
        temp = sen.strip().split()
        for item in temp:
            senHashCode += self.dictHash[item]*self.dictWeight[item]
        for i in range(BITS):
            if senHashCode[i] > 0:
                senHashCode[i] = 1
            else:
                senHashCode[i] = 0
        return senHashCode

    #获取两个句子的Hamming distance，dis越小说明相似度越高
    def sen2senDis(self, sen1, sen2):
        temp1 = self.senHash(sen1)
        temp2 = self.senHash(sen2)
        Hamming = 0
        for i in range(BITS):
            if temp1[i] != temp2[i]:
                Hamming += 1
        return Hamming


In [37]:
simhash = simHash(documents)

In [40]:
print(simhash.dictHash['金融'])
print(simhash.dictWeight['金融'])

[-1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1  1 -1  1
  1  1 -1  1 -1  1  1]
2.7230880784667506


In [47]:
simhash.sen2senDis(documents[885], documents[684])

9

In [49]:
minSimHash = 10000
minSimHashIndex = -1
for i in range(1, n):
    temp = simhash.sen2senDis(documents[0], documents[i])
    if temp < minSimHash:
        minSimHash = temp
        minSimHashIndex = i
        
print(minSimHash, minSimHashIndex)

1 304


In [52]:
print(documents[0])

新华社 哥本哈根 月 日电 记者 林晶 世界卫生组织 欧洲 区域 办事处 主任 克卢格 月 日 哥本哈根 视频 例会 时 呼吁 区域 各国 特别 社区 传播 控制 国家 应 确保 医疗卫生 系统 双轨制 抗击 新冠 疫情 保证 常规 医疗卫生 服务 运转 克卢格 说 欧洲地区 新冠 疫情 严峻 一周 累计 确诊 病例 15% 累计 确诊 病例 达 1408266 例 同期 死亡 病例 18% 累计 死亡 人数 达 129344 欧洲地区 累计 确诊 死亡 病例 占 世界 相关 病例 数 46% 63% 克卢格 呼吁 欧洲各国 政府 卫生机构 寻求 办法 控制 新冠 病毒 社区 传播 前提 快速 恢复 常规 医疗卫生 服务 特别 指出 形势 保证 儿童 接种 麻疹 常规 疫苗 重要性 克卢格 说 新冠 疫情 短时期 消失 波 第三 波 疫情 认知 动员 社会 理解 协作 双轨制 医疗卫生 系统 保证 应对 新冠 疫情 反复 时 灵活性 弹性
月 日 统计数据 荷兰 累计 感染 病例 38802 例 4711 死亡 医务人员 补充 道 新冠 病毒感染 死亡 病例 新增 例 升至 4795 例 超过 1.07 医院 接受 治疗 世卫 组织 月 日 COVID 疫情 定性 流行 世卫 组织 最新 数据 全球 累计 确诊 万多例 新冠 病毒感染 病例 累计 死亡 20.8 万多例


In [53]:
print(documents[304])

月 日 统计数据 荷兰 累计 感染 病例 38802 例 4711 死亡 医务人员 补充 道 新冠 病毒感染 死亡 病例 新增 例 升至 4795 例 超过 1.07 医院 接受 治疗 世卫 组织 月 日 COVID 疫情 定性 流行 世卫 组织 最新 数据 全球 累计 确诊 万多例 新冠 病毒感染 病例 累计 死亡 20.8 万多例
