In [1]:
import jieba
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

In [2]:
def load_stopwords(stopwords_path):
    with open(stopwords_path, 'r', encoding='utf-8') as f:
        return [line.strip() for line in f]
    
def preprocess_data(corpus_path, stopwords):
    corpus = []
    with open(corpus_path, 'r', encoding='utf-8') as f:
        for line in f:
            corpus.append(' '.join([word for word in jieba.lcut(line.strip()) if word not in stopwords]))
    return corpus

In [3]:
n = 50
stopwords_path = "../data/stop_words.txt"
documents_path = "../data/documents_first_" + str(n) + ".txt"
stopwords = load_stopwords(stopwords_path)
documents = preprocess_data(documents_path, stopwords)

Building prefix dict from the default dictionary ...
2020-06-10 11:37:09,440 : DEBUG : Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/m3/4yh806w92fdgcn0bk16ql7nw0000gn/T/jieba.cache
2020-06-10 11:37:09,443 : DEBUG : Loading model from cache /var/folders/m3/4yh806w92fdgcn0bk16ql7nw0000gn/T/jieba.cache
Loading model cost 0.616 seconds.
2020-06-10 11:37:10,058 : DEBUG : Loading model cost 0.616 seconds.
Prefix dict has been built successfully.
2020-06-10 11:37:10,059 : DEBUG : Prefix dict has been built successfully.


In [4]:
documents[2]

'董明珠 惊人 之语 炮轰 美的 怒斥 国产车 炮火 引向 大众 这下 本来 习惯于 看热闹 吃 瓜 群众 答应 踩 同行 骂 竞争对手 意见 敢动 老子 一亩 三分 不行 014 月 日 晚间 格力电器 董事长 兼 总裁 董明珠 接受 采访 时 赞同 黄奇帆 取消 住房 公积金 说 格力电器 3700 套 房子 员工 入住 未来 格力 员工 发一 套房 公积金 听听 话 饱汉不知饿汉饥 专程来 炫富 经济 下行 大众 钱包 吃紧 格力 本事 每名 员工 分 房子 本事 格力 分房 取消 全国 公积金 站长 想 问 一句 董 小姐 蠢 坏 确实 格力 优秀 年 营业 收入 1981.53 拥有 万名 员工 格力 万名 员工 发一 套房 站长 说 信 格力 真 员工 分房 中国 企业 众多 能发 房子 企业 凤毛麟角 特别 受 疫情 影响 众多 行业 暴击 企业 濒临 倒闭 活着 不错 每人 发 套房 格力 员工 公积金 取消 公积金 格力 确实 省下 一大笔钱 我国 亿人 贫富差距 取消 公积金 势必会 影响 人群 利益 也许 董明珠 换种 表述 特定 福利 企业 取消 缴纳 公积金 企业 节约 成本 用于 研发 创新 公积金 整体 实施 影响 我国 当初 建立 住房 公积金 制度 新加坡 学习 希望 强制性 缴纳 办法 集合 政府 企业 职工 三方 力量 解决 民众 购房 中国 最先 实行 公积金 政策 上海 全国 房地产 市场 发展 实行 公房 分配制度 家庭 人均 住房面积 七八 平方米 住 拥挤 居住 环境 急需 改善 公积金 强制 缴存 看似 个人收入 减少 长期 并非如此 民企 公积金 缴纳 比例 5% 12% 薪资 基数 缴纳 比例 6% 公司 6% 12% 公积金 存缴 数额 50006% 别看 元不多 长此以往 可不是 小数 缴纳 时间 公积金 买房 提取 大众 福利 特别 事业单位 公务员 群体 公积金 缴纳 金额 高 一般来说 公务员 月 公积金 扣除 比例 工资 12% 公积金 政策 国家 补贴 数额 公务员 一个月 公积金 工资 24% 民企 两倍 账面 工资 特别 高 公务员 群体 公积金 住 建部 人民银行 总行 统计 显示 年 全国 住房 公积金 缴存 总额 14549.46 上年 增长 12.29% 缴存 人数 机关 事业单位 工作

In [5]:
from gensim import corpora
from pprint import pprint
from collections import defaultdict

In [6]:
texts = [[word for word in document.split()] for document in documents]

In [7]:
frequency = defaultdict(int)
for text in texts:
    for token in text:
        frequency[token] += 1
texts = [[token for token in text if frequency[token] > 2] for text in texts]
# pprint(texts)

In [8]:
dictionary = corpora.Dictionary(texts)
dictionary.save('../data/first_' + str(n) + '_doc.dict')
print(dictionary)

2020-06-10 11:37:12,223 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2020-06-10 11:37:12,231 : INFO : built Dictionary(1236 unique tokens: ['15%', '一周', '世界', '主任', '人数']...) from 50 documents (total 10487 corpus positions)
2020-06-10 11:37:12,232 : INFO : saving Dictionary object under ../data/first_50_doc.dict, separately None
2020-06-10 11:37:12,234 : INFO : saved ../data/first_50_doc.dict


Dictionary(1236 unique tokens: ['15%', '一周', '世界', '主任', '人数']...)


In [9]:
corpus = [dictionary.doc2bow(text) for text in texts]
corpora.MmCorpus.serialize('../data/first_' + str(n) + '_doc.mm', corpus)
# pprint(corpus)

2020-06-10 11:37:12,244 : INFO : storing corpus in Matrix Market format to ../data/first_50_doc.mm
2020-06-10 11:37:12,246 : INFO : saving sparse matrix to ../data/first_50_doc.mm
2020-06-10 11:37:12,247 : INFO : PROGRESS: saving document #0
2020-06-10 11:37:12,254 : INFO : saved 50x1236 matrix, density=6.827% (4219/61800)
2020-06-10 11:37:12,256 : INFO : saving MmCorpus index to ../data/first_50_doc.mm.index


In [10]:
from gensim import models, similarities
tf_idf = models.TfidfModel(corpus)


2020-06-10 11:37:12,262 : INFO : collecting document frequencies
2020-06-10 11:37:12,263 : INFO : PROGRESS: processing document #0
2020-06-10 11:37:12,264 : INFO : calculating IDF weights for 50 documents and 1236 features (4219 matrix non-zeros)


In [11]:
import pprint
pprint.pprint(corpus[:2])

[[(0, 1),
  (1, 1),
  (2, 1),
  (3, 1),
  (4, 1),
  (5, 2),
  (6, 1),
  (7, 3),
  (8, 4),
  (9, 1),
  (10, 2),
  (11, 4),
  (12, 1),
  (13, 1),
  (14, 1),
  (15, 2),
  (16, 1),
  (17, 3),
  (18, 1),
  (19, 1),
  (20, 1),
  (21, 1),
  (22, 1),
  (23, 1),
  (24, 2),
  (25, 1),
  (26, 1),
  (27, 5),
  (28, 1),
  (29, 1),
  (30, 1),
  (31, 2),
  (32, 2),
  (33, 2),
  (34, 1),
  (35, 3),
  (36, 2),
  (37, 1),
  (38, 5),
  (39, 5),
  (40, 1),
  (41, 1),
  (42, 1),
  (43, 3),
  (44, 1),
  (45, 2),
  (46, 2),
  (47, 4),
  (48, 1),
  (49, 1),
  (50, 2),
  (51, 2)],
 [(29, 1),
  (31, 1),
  (52, 2),
  (53, 1),
  (54, 3),
  (55, 2),
  (56, 4),
  (57, 1),
  (58, 1),
  (59, 1),
  (60, 1),
  (61, 1),
  (62, 3),
  (63, 2),
  (64, 1),
  (65, 3),
  (66, 1),
  (67, 1),
  (68, 1),
  (69, 6),
  (70, 1),
  (71, 1),
  (72, 3),
  (73, 1),
  (74, 3),
  (75, 1),
  (76, 1),
  (77, 2),
  (78, 2),
  (79, 2),
  (80, 2),
  (81, 2),
  (82, 2),
  (83, 3),
  (84, 3),
  (85, 1),
  (86, 3),
  (87, 1),
  (88, 7),
  (89, 1

In [12]:
index = similarities.MatrixSimilarity(tf_idf[corpus])


2020-06-10 11:37:12,307 : INFO : creating matrix with 50 documents and 1236 features


In [13]:
query_document = "金融 虎讯 月 日 消息 今日 菏泽市 地方 金融 监督 管理局 发布 该市 失联 小额贷款 公司 公告 显示 菏泽市 牡丹区 恒顺 小额贷款 有限公司 情形 监管 系统 或市 县 两级 地方 金融 监管部门 市场 监管部门 预留 电话 取得联系".split()
query_bow = dictionary.doc2bow(query_document)
sims = index[tf_idf[query_bow]]
for document_number, score in sorted(enumerate(sims), key=lambda x: x[1], reverse=True):
    print(document_number, score)

39 0.8795297
30 0.053583592
21 0.052521154
35 0.046421032
44 0.045003835
9 0.044486463
36 0.03858678
26 0.03634316
11 0.029298063
3 0.028930094
19 0.024728918
46 0.022591515
12 0.020241328
16 0.019945148
47 0.01970283
48 0.019464679
0 0.019399758
4 0.018571319
27 0.016681235
7 0.015699157
42 0.01491687
5 0.014368719
22 0.011496466
2 0.011180134
10 0.010040576
49 0.0093471445
23 0.009177843
45 0.008241816
20 0.00808267
43 0.00787808
14 0.0078047155
41 0.0071079764
8 0.0058987807
1 0.0057456186
31 0.0043042256
37 0.0017856667
24 0.001494641
15 0.00093438564
25 0.00068809255
18 0.00067818176
34 0.0006757497
13 0.0005107222
17 0.0004304413
38 0.00041536556
29 0.00024654975
33 0.00018535976
28 0.00017331389
6 0.0
32 0.0
40 0.0


In [14]:
print(documents[39])

金融 虎讯 月 日 消息 今日 菏泽市 地方 金融 监督 管理局 发布 该市 失联 小额贷款 公司 公告 显示 菏泽市 牡丹区 恒顺 小额贷款 有限公司 情形 监管 系统 或市 县 两级 地方 金融 监管部门 市场 监管部门 预留 电话 取得联系 办公 场所 已转 做 长期 未向 监管 系统 报送 相关 数据 情形 小额贷款 公司 长期 脱离 监管 经营 情况 较大 风险 隐患 现 公告 请 牡丹区 恒顺 小额贷款 有限公司 公告 三十日 主动 该局 提供 相关 资料 情况 逾期 未 主动 山东省 地方 金融 条例 相关 进一步 监管 措施 返回 搜狐 查看 责任编辑


In [15]:
#加载预训练金融预料w2v model
from gensim.models import KeyedVectors
word_vectors_char = KeyedVectors.load_word2vec_format('../data/sgns.financial.char.bz2') 

2020-06-10 11:38:30,170 : INFO : loading projection weights from ../data/sgns.financial.char.bz2


2020-06-10 11:41:54,682 : INFO : duplicate words detected, shrinking matrix size from 467389 to 467341
2020-06-10 11:41:54,683 : INFO : loaded (467341, 300) matrix from ../data/sgns.financial.char.bz2


In [24]:
distance = word_vectors_char.wmdistance(texts[3], texts[44]) #两篇原油宝的文章
print('distance = %.4f' % distance)
distance = word_vectors_char.wmdistance(texts[3], texts[45]) #一篇原油宝一篇疫情
print('distance = %.4f' % distance)

2020-06-10 11:48:17,139 : INFO : Removed 6 and 5 OOV words from document 1 and 2 (respectively).
2020-06-10 11:48:17,140 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2020-06-10 11:48:17,141 : INFO : built Dictionary(294 unique tokens: ['CME', 'WTI', '一度', '下跌', '世界']...) from 2 documents (total 919 corpus positions)
2020-06-10 11:48:18,103 : INFO : Removed 6 and 18 OOV words from document 1 and 2 (respectively).
2020-06-10 11:48:18,103 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2020-06-10 11:48:18,104 : INFO : built Dictionary(267 unique tokens: ['CME', 'WTI', '一度', '下跌', '世界']...) from 2 documents (total 653 corpus positions)


distance = 3.0320
distance = 5.0842
