In [1]:
import jieba
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

In [2]:
def load_stopwords(stopwords_path):
    with open(stopwords_path, 'r', encoding='utf-8') as f:
        return [line.strip() for line in f]
    
def preprocess_data(corpus_path, stopwords):
    corpus = []
    with open(corpus_path, 'r', encoding='utf-8') as f:
        for line in f:
            corpus.append(' '.join([word for word in jieba.lcut(line.strip()) if word not in stopwords]))
    return corpus

In [3]:
n = 50
stopwords_path = "../data/stop_words.txt"
documents_path = "../data/documents_first_" + str(n) + ".txt"
stopwords = load_stopwords(stopwords_path)
documents = preprocess_data(documents_path, stopwords)

Building prefix dict from the default dictionary ...
2020-06-14 15:55:18,916 : DEBUG : Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/m3/4yh806w92fdgcn0bk16ql7nw0000gn/T/jieba.cache
2020-06-14 15:55:18,919 : DEBUG : Loading model from cache /var/folders/m3/4yh806w92fdgcn0bk16ql7nw0000gn/T/jieba.cache
Loading model cost 0.640 seconds.
2020-06-14 15:55:19,558 : DEBUG : Loading model cost 0.640 seconds.
Prefix dict has been built successfully.
2020-06-14 15:55:19,559 : DEBUG : Prefix dict has been built successfully.


In [4]:
documents[2]

'董明珠 惊人 之语 炮轰 美的 怒斥 国产车 炮火 引向 大众 这下 本来 习惯于 看热闹 吃 瓜 群众 答应 踩 同行 骂 竞争对手 意见 敢动 老子 一亩 三分 不行 014 月 日 晚间 格力电器 董事长 兼 总裁 董明珠 接受 采访 时 赞同 黄奇帆 取消 住房 公积金 说 格力电器 3700 套 房子 员工 入住 未来 格力 员工 发一 套房 公积金 听听 话 饱汉不知饿汉饥 专程来 炫富 经济 下行 大众 钱包 吃紧 格力 本事 每名 员工 分 房子 本事 格力 分房 取消 全国 公积金 站长 想 问 一句 董 小姐 蠢 坏 确实 格力 优秀 年 营业 收入 1981.53 拥有 万名 员工 格力 万名 员工 发一 套房 站长 说 信 格力 真 员工 分房 中国 企业 众多 能发 房子 企业 凤毛麟角 特别 受 疫情 影响 众多 行业 暴击 企业 濒临 倒闭 活着 不错 每人 发 套房 格力 员工 公积金 取消 公积金 格力 确实 省下 一大笔钱 我国 亿人 贫富差距 取消 公积金 势必会 影响 人群 利益 也许 董明珠 换种 表述 特定 福利 企业 取消 缴纳 公积金 企业 节约 成本 用于 研发 创新 公积金 整体 实施 影响 我国 当初 建立 住房 公积金 制度 新加坡 学习 希望 强制性 缴纳 办法 集合 政府 企业 职工 三方 力量 解决 民众 购房 中国 最先 实行 公积金 政策 上海 全国 房地产 市场 发展 实行 公房 分配制度 家庭 人均 住房面积 七八 平方米 住 拥挤 居住 环境 急需 改善 公积金 强制 缴存 看似 个人收入 减少 长期 并非如此 民企 公积金 缴纳 比例 5% 12% 薪资 基数 缴纳 比例 6% 公司 6% 12% 公积金 存缴 数额 50006% 别看 元不多 长此以往 可不是 小数 缴纳 时间 公积金 买房 提取 大众 福利 特别 事业单位 公务员 群体 公积金 缴纳 金额 高 一般来说 公务员 月 公积金 扣除 比例 工资 12% 公积金 政策 国家 补贴 数额 公务员 一个月 公积金 工资 24% 民企 两倍 账面 工资 特别 高 公务员 群体 公积金 住 建部 人民银行 总行 统计 显示 年 全国 住房 公积金 缴存 总额 14549.46 上年 增长 12.29% 缴存 人数 机关 事业单位 工作

In [5]:
from gensim import corpora
from pprint import pprint
from collections import defaultdict

In [6]:
texts = [[word for word in document.split()] for document in documents]

In [7]:
frequency = defaultdict(int)
for text in texts:
    for token in text:
        frequency[token] += 1
texts = [[token for token in text if frequency[token] > 2] for text in texts]
# pprint(texts)

In [8]:
dictionary = corpora.Dictionary(texts)
dictionary.save('../data/first_' + str(n) + '_doc.dict')
print(dictionary)

2020-06-14 15:55:21,539 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2020-06-14 15:55:21,546 : INFO : built Dictionary(1236 unique tokens: ['15%', '一周', '世界', '主任', '人数']...) from 50 documents (total 10487 corpus positions)
2020-06-14 15:55:21,547 : INFO : saving Dictionary object under ../data/first_50_doc.dict, separately None
2020-06-14 15:55:21,548 : INFO : saved ../data/first_50_doc.dict


Dictionary(1236 unique tokens: ['15%', '一周', '世界', '主任', '人数']...)


In [9]:
corpus = [dictionary.doc2bow(text) for text in texts]
corpora.MmCorpus.serialize('../data/first_' + str(n) + '_doc.mm', corpus)
# pprint(corpus)

2020-06-14 15:55:21,559 : INFO : storing corpus in Matrix Market format to ../data/first_50_doc.mm
2020-06-14 15:55:21,560 : INFO : saving sparse matrix to ../data/first_50_doc.mm
2020-06-14 15:55:21,561 : INFO : PROGRESS: saving document #0
2020-06-14 15:55:21,567 : INFO : saved 50x1236 matrix, density=6.827% (4219/61800)
2020-06-14 15:55:21,568 : INFO : saving MmCorpus index to ../data/first_50_doc.mm.index


In [10]:
from gensim import models, similarities
tf_idf = models.TfidfModel(corpus)


2020-06-14 15:55:21,573 : INFO : collecting document frequencies
2020-06-14 15:55:21,574 : INFO : PROGRESS: processing document #0
2020-06-14 15:55:21,576 : INFO : calculating IDF weights for 50 documents and 1236 features (4219 matrix non-zeros)


In [11]:
import pprint
pprint.pprint(corpus[:2])

[[(0, 1),
  (1, 1),
  (2, 1),
  (3, 1),
  (4, 1),
  (5, 2),
  (6, 1),
  (7, 3),
  (8, 4),
  (9, 1),
  (10, 2),
  (11, 4),
  (12, 1),
  (13, 1),
  (14, 1),
  (15, 2),
  (16, 1),
  (17, 3),
  (18, 1),
  (19, 1),
  (20, 1),
  (21, 1),
  (22, 1),
  (23, 1),
  (24, 2),
  (25, 1),
  (26, 1),
  (27, 5),
  (28, 1),
  (29, 1),
  (30, 1),
  (31, 2),
  (32, 2),
  (33, 2),
  (34, 1),
  (35, 3),
  (36, 2),
  (37, 1),
  (38, 5),
  (39, 5),
  (40, 1),
  (41, 1),
  (42, 1),
  (43, 3),
  (44, 1),
  (45, 2),
  (46, 2),
  (47, 4),
  (48, 1),
  (49, 1),
  (50, 2),
  (51, 2)],
 [(29, 1),
  (31, 1),
  (52, 2),
  (53, 1),
  (54, 3),
  (55, 2),
  (56, 4),
  (57, 1),
  (58, 1),
  (59, 1),
  (60, 1),
  (61, 1),
  (62, 3),
  (63, 2),
  (64, 1),
  (65, 3),
  (66, 1),
  (67, 1),
  (68, 1),
  (69, 6),
  (70, 1),
  (71, 1),
  (72, 3),
  (73, 1),
  (74, 3),
  (75, 1),
  (76, 1),
  (77, 2),
  (78, 2),
  (79, 2),
  (80, 2),
  (81, 2),
  (82, 2),
  (83, 3),
  (84, 3),
  (85, 1),
  (86, 3),
  (87, 1),
  (88, 7),
  (89, 1

In [12]:
index = similarities.MatrixSimilarity(tf_idf[corpus])


2020-06-14 15:55:21,613 : INFO : creating matrix with 50 documents and 1236 features


In [13]:
query_document = "金融 虎讯 月 日 消息 今日 菏泽市 地方 金融 监督 管理局 发布 该市 失联 小额贷款 公司 公告 显示 菏泽市 牡丹区 恒顺 小额贷款 有限公司 情形 监管 系统 或市 县 两级 地方 金融 监管部门 市场 监管部门 预留 电话 取得联系".split()
query_bow = dictionary.doc2bow(query_document)
sims = index[tf_idf[query_bow]]
for document_number, score in sorted(enumerate(sims), key=lambda x: x[1], reverse=True):
    print(document_number, score)

39 0.8795297
30 0.053583592
21 0.052521154
35 0.046421032
44 0.045003835
9 0.044486463
36 0.03858678
26 0.03634316
11 0.029298063
3 0.028930094
19 0.024728918
46 0.022591515
12 0.020241328
16 0.019945148
47 0.01970283
48 0.019464679
0 0.019399758
4 0.018571319
27 0.016681235
7 0.015699157
42 0.01491687
5 0.014368719
22 0.011496466
2 0.011180134
10 0.010040576
49 0.0093471445
23 0.009177843
45 0.008241816
20 0.00808267
43 0.00787808
14 0.0078047155
41 0.0071079764
8 0.0058987807
1 0.0057456186
31 0.0043042256
37 0.0017856667
24 0.001494641
15 0.00093438564
25 0.00068809255
18 0.00067818176
34 0.0006757497
13 0.0005107222
17 0.0004304413
38 0.00041536556
29 0.00024654975
33 0.00018535976
28 0.00017331389
6 0.0
32 0.0
40 0.0


In [14]:
print(documents[39])

金融 虎讯 月 日 消息 今日 菏泽市 地方 金融 监督 管理局 发布 该市 失联 小额贷款 公司 公告 显示 菏泽市 牡丹区 恒顺 小额贷款 有限公司 情形 监管 系统 或市 县 两级 地方 金融 监管部门 市场 监管部门 预留 电话 取得联系 办公 场所 已转 做 长期 未向 监管 系统 报送 相关 数据 情形 小额贷款 公司 长期 脱离 监管 经营 情况 较大 风险 隐患 现 公告 请 牡丹区 恒顺 小额贷款 有限公司 公告 三十日 主动 该局 提供 相关 资料 情况 逾期 未 主动 山东省 地方 金融 条例 相关 进一步 监管 措施 返回 搜狐 查看 责任编辑


In [15]:
#加载预训练金融预料w2v model
from gensim.models import KeyedVectors
word_vectors_char = KeyedVectors.load_word2vec_format('../data/sgns.financial.char.bz2') 

2020-06-14 15:55:21,657 : INFO : loading projection weights from ../data/sgns.financial.char.bz2


2020-06-14 15:58:28,927 : INFO : duplicate words detected, shrinking matrix size from 467389 to 467341
2020-06-14 15:58:28,928 : INFO : loaded (467341, 300) matrix from ../data/sgns.financial.char.bz2


In [16]:
distance = word_vectors_char.wmdistance(texts[3], texts[44]) #两篇原油宝的文章
print('distance = %.4f' % distance)
distance = word_vectors_char.wmdistance(texts[3], texts[45]) #一篇原油宝一篇疫情
print('distance = %.4f' % distance)

2020-06-14 15:58:28,934 : INFO : Removed 6 and 5 OOV words from document 1 and 2 (respectively).
2020-06-14 15:58:28,935 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2020-06-14 15:58:28,937 : INFO : built Dictionary(294 unique tokens: ['CME', 'WTI', '一度', '下跌', '世界']...) from 2 documents (total 919 corpus positions)
2020-06-14 15:58:29,746 : INFO : Removed 6 and 18 OOV words from document 1 and 2 (respectively).
2020-06-14 15:58:29,747 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2020-06-14 15:58:29,748 : INFO : built Dictionary(267 unique tokens: ['CME', 'WTI', '一度', '下跌', '世界']...) from 2 documents (total 653 corpus positions)


distance = 3.0320
distance = 5.0842


In [17]:
#doc2vec example

In [23]:
import gensim
train_corpus = []
for i in range(n):
    train_corpus.append(gensim.models.doc2vec.TaggedDocument(documents[i].split(), [i]))
print(train_corpus[:2])

[TaggedDocument(words=['新华社', '哥本哈根', '月', '日电', '记者', '林晶', '世界卫生组织', '欧洲', '区域', '办事处', '主任', '克卢格', '月', '日', '哥本哈根', '视频', '例会', '时', '呼吁', '区域', '各国', '特别', '社区', '传播', '控制', '国家', '应', '确保', '医疗卫生', '系统', '双轨制', '抗击', '新冠', '疫情', '保证', '常规', '医疗卫生', '服务', '运转', '克卢格', '说', '欧洲地区', '新冠', '疫情', '严峻', '一周', '累计', '确诊', '病例', '15%', '累计', '确诊', '病例', '达', '1408266', '例', '同期', '死亡', '病例', '18%', '累计', '死亡', '人数', '达', '129344', '欧洲地区', '累计', '确诊', '死亡', '病例', '占', '世界', '相关', '病例', '数', '46%', '63%', '克卢格', '呼吁', '欧洲各国', '政府', '卫生机构', '寻求', '办法', '控制', '新冠', '病毒', '社区', '传播', '前提', '快速', '恢复', '常规', '医疗卫生', '服务', '特别', '指出', '形势', '保证', '儿童', '接种', '麻疹', '常规', '疫苗', '重要性', '克卢格', '说', '新冠', '疫情', '短时期', '消失', '波', '第三', '波', '疫情', '认知', '动员', '社会', '理解', '协作', '双轨制', '医疗卫生', '系统', '保证', '应对', '新冠', '疫情', '反复', '时', '灵活性', '弹性'], tags=[0]), TaggedDocument(words=['昨晚', '美股', '率先', '突破', '站上', '日', '均线', '创新', '高', '东京', '日经指数', '涨幅', '超', '2%', '创新', '高', 'A股', '大板', '指', '高开高', '走', '

In [24]:
model = gensim.models.doc2vec.Doc2Vec(vector_size=20, min_count=2, epochs=40)
model.build_vocab(train_corpus)
model.train(train_corpus, total_examples=model.corpus_count, epochs=model.epochs)

2020-06-14 16:20:31,932 : INFO : collecting all words and their counts
2020-06-14 16:20:31,933 : INFO : PROGRESS: at example #0, processed 0 words (0/s), 0 word types, 0 tags
2020-06-14 16:20:31,937 : INFO : collected 5162 word types and 50 unique tags from a corpus of 50 examples and 15183 words
2020-06-14 16:20:31,938 : INFO : Loading a fresh vocabulary
2020-06-14 16:20:31,945 : INFO : effective_min_count=2 retains 2006 unique words (38% of original 5162, drops 3156)
2020-06-14 16:20:31,945 : INFO : effective_min_count=2 leaves 12027 word corpus (79% of original 15183, drops 3156)
2020-06-14 16:20:31,954 : INFO : deleting the raw counts dictionary of 5162 items
2020-06-14 16:20:31,955 : INFO : sample=0.001 downsamples 41 most-common words
2020-06-14 16:20:31,956 : INFO : downsampling leaves estimated 11177 word corpus (92.9% of prior 12027)
2020-06-14 16:20:31,961 : INFO : estimated required memory for 2006 words and 20 dimensions: 1327960 bytes
2020-06-14 16:20:31,962 : INFO : reset

2020-06-14 16:20:32,685 : INFO : worker thread finished; awaiting finish of 0 more threads
2020-06-14 16:20:32,685 : INFO : EPOCH - 18 : training on 15183 raw words (11217 effective words) took 0.0s, 791559 effective words/s
2020-06-14 16:20:32,687 : INFO : worker thread finished; awaiting finish of 2 more threads
2020-06-14 16:20:32,694 : INFO : worker thread finished; awaiting finish of 1 more threads
2020-06-14 16:20:32,701 : INFO : worker thread finished; awaiting finish of 0 more threads
2020-06-14 16:20:32,701 : INFO : EPOCH - 19 : training on 15183 raw words (11234 effective words) took 0.0s, 765080 effective words/s
2020-06-14 16:20:32,704 : INFO : worker thread finished; awaiting finish of 2 more threads
2020-06-14 16:20:32,710 : INFO : worker thread finished; awaiting finish of 1 more threads
2020-06-14 16:20:32,716 : INFO : worker thread finished; awaiting finish of 0 more threads
2020-06-14 16:20:32,717 : INFO : EPOCH - 20 : training on 15183 raw words (11219 effective word

2020-06-14 16:20:33,011 : INFO : EPOCH - 38 : training on 15183 raw words (11261 effective words) took 0.0s, 839159 effective words/s
2020-06-14 16:20:33,013 : INFO : worker thread finished; awaiting finish of 2 more threads
2020-06-14 16:20:33,020 : INFO : worker thread finished; awaiting finish of 1 more threads
2020-06-14 16:20:33,026 : INFO : worker thread finished; awaiting finish of 0 more threads
2020-06-14 16:20:33,027 : INFO : EPOCH - 39 : training on 15183 raw words (11219 effective words) took 0.0s, 813547 effective words/s
2020-06-14 16:20:33,029 : INFO : worker thread finished; awaiting finish of 2 more threads
2020-06-14 16:20:33,035 : INFO : worker thread finished; awaiting finish of 1 more threads
2020-06-14 16:20:33,041 : INFO : worker thread finished; awaiting finish of 0 more threads
2020-06-14 16:20:33,041 : INFO : EPOCH - 40 : training on 15183 raw words (11237 effective words) took 0.0s, 880024 effective words/s
2020-06-14 16:20:33,042 : INFO : training on a 60732

In [25]:
vector = model.infer_vector(['金融','行业','原油宝','期货'])
print(vector)

[ 0.2199221   0.23610279 -0.04548362  0.02160881  0.3588981  -0.1897905
 -0.01976469 -0.01329631 -0.17440309 -0.01348257  0.03435411 -0.15655991
  0.2260536  -0.17815651  0.01567412 -0.12317552 -0.03368188  0.13903558
  0.2561948  -0.09461357]


In [26]:
ranks = []
second_ranks = []
for doc_id in range(len(train_corpus)):
    inferred_vector = model.infer_vector(train_corpus[doc_id].words)
    sims = model.docvecs.most_similar([inferred_vector], topn=len(model.docvecs))
    rank = [docid for docid, sim in sims].index(doc_id)
    ranks.append(rank)

    second_ranks.append(sims[1])

2020-06-14 16:24:38,932 : INFO : precomputing L2-norms of doc weight vectors


In [27]:
import collections

counter = collections.Counter(ranks)
print(counter)

Counter({0: 46, 1: 4})


In [28]:
print('Document ({}): «{}»\n'.format(doc_id, ' '.join(train_corpus[doc_id].words)))
print(u'SIMILAR/DISSIMILAR DOCS PER MODEL %s:\n' % model)
for label, index in [('MOST', 0), ('SECOND-MOST', 1), ('MEDIAN', len(sims)//2), ('LEAST', len(sims) - 1)]:
    print(u'%s %s: «%s»\n' % (label, sims[index], ' '.join(train_corpus[sims[index][0]].words)))

Document (49): «雷帝 网雷 建平 月 日 报道 氪 今日 SEC 公布 F 文件 文件 显示 年 月 日 氪 拥有 937 358 520 股 普通股 包括 841 275 820 股 类 普通股 082 股 B 类 普通股 年 月 日 氪 CEO 冯大刚 持有 16.3% 股权 75.5% 投票权 氪 创始人 刘成城 持有 6.3% 股权 32.2% 投票权 冯大刚 刘成 城是 冯大刚 投票权 包含 刘成城 投票权 蚂蚁 金服 持股 16.2% 拥有 4.7% 投票权 TembusuLimited 持股 10.8% 拥有 3.1% ChinaProsperityCapitalAlphaLimited 持股 7.6% 拥有 2.2% 投票权 BeijingJiuheYunqiInvestmentCenterL P 持股 7% 拥有 2% 投票权 M36InvestmentLimited 持股 6.7% 拥有 1.9% 投票权 文件 显示 财年 氪 收入 总额 6.56 约 9420 万美元 财年 2.99 相比 增长 119.2% 财年 氪 线 广告 类 收入 2.83 约 4070 万美元 上年 同期 增长 63.1% 企业 增值 服务 类 收入 3.20 约 4590 万美元 上年 同期 增长 218.7% 订阅 服务 类 收入 5270 约 美元 760 上年 同期 增长 110.2% 财年 氪 线 广告 类 收入 占 43.2% 企业 增值 服务 类 收入 占 48.8% 订阅 服务 类 收入 占 8.0% 财年 氪 服务 线 广告 客户 数较 财年 增长 58.1% 企业 增值 服务 客户 数 增长 65.8% 财年 氪 毛利 2.75 约 美元 3950 上年 同期 1.59 相比 增长 73.4% 财年 氪 调整 非 美国通用 会计准则 Non GAAP 净利润 6530 约 940 万美元 相比 上年 同期 4560 增长 43.0% 氪 年 月 美国 上市 市值 1.33 亿美元 上市 时跌 雷帝 触网 资深 媒体 人雷 建平 创办 转载 请 写明 来源 返回 搜狐 查看 责任编辑»

SIMILAR/DISSIMILAR DOCS PER MODEL Doc2Vec(dm/m,d20,n5,w5,mc2,s0.001,t3):



In [29]:
# Pick a random document from the corpus and infer a vector from the model
import random
doc_id = random.randint(0, len(train_corpus) - 1)

# Compare and print the second-most-similar document
print('Train Document ({}): «{}»\n'.format(doc_id, ' '.join(train_corpus[doc_id].words)))
sim_id = second_ranks[doc_id]
print('Similar Document {}: «{}»\n'.format(sim_id, ' '.join(train_corpus[sim_id[0]].words)))

Train Document (24): «月 日 深圳市 发改委 发布 应对 新冠 肺炎 疫情 影响 深圳市 新能源 汽车 推广应用 若干 措施 征求意见 稿 简称 征求意见 稿 征求意见 稿 提出 放宽 新能源 小汽车 增量 指标 申请 条件 增购 新能源 小汽车 车型 新购 新能源 小汽车 给予 综合 财政补贴 置换 更新 新能源 小汽车 实施 财政补贴 加大 新能源 汽车 停车 优惠 力度 措施 征求意见 稿 提出 取消 非深 户籍 人员 连续 月 本市 缴纳 补缴 医疗保险 华侨 港澳台地区 居民 年内 本市 累计 居住 月 外国人 连续 年且 本市 累计 居住 月 条件 征求意见 稿 提出 新购 新能源 小汽车 消费者 给予 综合 财政补贴 新购 电动 高级 型 经济型 乘用车 补贴 车 新购 插电式 混合 动力 高级 型 乘用车 补贴 车 应对 新冠 肺炎 疫情 影响 深圳市 新能源 汽车 推广应用 若干 措施 征求意见 稿 贯彻落实 中央 省 市 统筹 推进 疫情 防控 经济社会 发展 工作 部署 消费 扩容 提质 加快 强大 国内 市场 实施 意见 发改 就业 293 号 文件精神 进一步 推动 深圳市 新能源 汽车 推广应用 新能源 汽车 市场 消费 特 制定 政策措施 放宽 新能源 小汽车 增量 指标 申请 条件 持 深圳市 居住证 非深 户籍 人员 持 身份证明 本市 公安机关 办理 境外 人员 临时 住宿 登记 华侨 港澳台地区 居民 本市 办理 签证 居留 许可 外国人 申请 深圳市 混合 动力 小汽车 增量 指标 或纯 电动 小汽车 增量 指标 取消 非深 户籍 人员 连续 月 本市 缴纳 补缴 医疗保险 华侨 港澳台地区 居民 年内 本市 累计 居住 月 外国人 连续 年且 本市 累计 居住 月 条件 增购 新能源 小汽车 车型 名下 辆 深圳市 登记 小汽车 或仅 持有 深圳 小汽车 增量 指标 或仅 持有 深圳 小汽车 更新 指标 申请 资格 消费者 增购 新能源 小汽车 车型 由纯 电动 小汽车 至纯 电动 小汽车 插 电式 混合 动力 小汽车 新购 新能源 小汽车 给予 综合 财政补贴 新购 新能源 小汽车 消费者 给予 综合 财政补贴 新购 电动 高级 型 经济型 乘用车 补贴 车 新购 插电式 混合 动力 高级 型 乘用车