In [1]:
from gensim import corpora, models, similarities

In [2]:
documents = [
    "会议认为，","党的十八大以来","在以习近平同志为核心的党中央坚强领导下","脱贫攻坚取得了决定性进展。",
    "中国特色脱贫攻坚制度体系全面建立","精准扶贫精准脱贫方略扎实推进","各方联动社会参与的大扶贫格局基本形成","创造了我国减贫史上最好成绩。",
    "2017年","党中央关于脱贫攻坚的决策部署得到全面贯彻落实","各地区各部门责任进一步强化，",
    "五级书记抓脱贫攻坚的思想自觉和行动自觉基本形成。",
    "精准扶贫精准脱贫政策措施落地见效",
    "东西部扶贫协作全面提速","中央单位定点扶贫稳步推进","工作作风明显转变","脱贫攻坚迈上新的台阶。",
    "会议指出","我们党的初心和使命","就是为中国人民谋幸福","为中华民族谋复兴。",
    "打好精准脱贫攻坚战、实现贫困群众对美好生活的向往","体现了我们党的初心和使命。",
    "未来三年，历史性地解决中华民族千百年来的绝对贫困问题","让现行标准下的贫困人口同全国人民一道迈入小康社会","是我们必须完成的重大任务。",
    "当前，脱贫攻坚面临的任务和挑战还十分艰巨","存在的突出问题仍然不少。",
    "一些地方贫困程度深、基础条件薄弱、公共服务不足","特殊困难群体脱贫难度大。",
    "一些地方精准基础不扎实","政策措施不落实不到位不精准","资金使用管理不规范","形式主义、官僚主义、弄虚作假现象时有发生。",
    "打好脱贫攻坚战仍需付出艰辛努力。",
]

In [3]:
import jieba

In [4]:
texts = [[word for word in jieba.cut(document) if len(word) > 1] for document in documents]

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 1.170 seconds.
Prefix dict has been built succesfully.


In [5]:
from collections import defaultdict
freq = defaultdict(int)

In [6]:
for text in texts:
    for token in text:
        freq[token] += 1

In [7]:
dictionary = corpora.Dictionary(texts)

In [8]:
corpus = [dictionary.doc2bow(text) for text in texts]

In [9]:
lsi = models.LsiModel(corpus, id2word=dictionary, num_topics=4)

In [10]:
doc = "实行最严格的考核评估制度是打赢脱贫攻坚战的重要保障"
vec_bow = dictionary.doc2bow([w for w in jieba.cut(doc) if len(w) > 1])

In [11]:
vec_lsi = lsi[vec_bow]

In [12]:
index = similarities.MatrixSimilarity(lsi[corpus])

In [13]:
sims = index[vec_lsi]

In [14]:
sims = sorted(enumerate(sims), key=lambda item: -item[1])

In [15]:
for i, v in sims:
    print(i,':', v, "==>", documents[i])
    print("------")

34 : 0.9986614 ==> 打好脱贫攻坚战仍需付出艰辛努力。
------
29 : 0.9957242 ==> 特殊困难群体脱贫难度大。
------
16 : 0.9514886 ==> 脱贫攻坚迈上新的台阶。
------
3 : 0.9499227 ==> 脱贫攻坚取得了决定性进展。
------
26 : 0.9449302 ==> 当前，脱贫攻坚面临的任务和挑战还十分艰巨
------
4 : 0.93483466 ==> 中国特色脱贫攻坚制度体系全面建立
------
9 : 0.92449856 ==> 党中央关于脱贫攻坚的决策部署得到全面贯彻落实
------
25 : 0.7996304 ==> 是我们必须完成的重大任务。
------
19 : 0.76740444 ==> 就是为中国人民谋幸福
------
21 : 0.7525403 ==> 打好精准脱贫攻坚战、实现贫困群众对美好生活的向往
------
2 : 0.6981182 ==> 在以习近平同志为核心的党中央坚强领导下
------
18 : 0.5673837 ==> 我们党的初心和使命
------
22 : 0.56009996 ==> 体现了我们党的初心和使命。
------
24 : 0.51785475 ==> 让现行标准下的贫困人口同全国人民一道迈入小康社会
------
12 : 0.51503116 ==> 精准扶贫精准脱贫政策措施落地见效
------
5 : 0.50034785 ==> 精准扶贫精准脱贫方略扎实推进
------
13 : 0.49911848 ==> 东西部扶贫协作全面提速
------
11 : 0.38444293 ==> 五级书记抓脱贫攻坚的思想自觉和行动自觉基本形成。
------
31 : 0.3063341 ==> 政策措施不落实不到位不精准
------
30 : 0.2359558 ==> 一些地方精准基础不扎实
------
23 : 0.08644482 ==> 未来三年，历史性地解决中华民族千百年来的绝对贫困问题
------
28 : 0.061680086 ==> 一些地方贫困程度深、基础条件薄弱、公共服务不足
------
20 : 0.053866334 ==> 为中华民族谋复兴。
------
2