# 导入包

In [2]:
import jieba
from gensim import corpora,models,similarities

# 语料
这里手工设置了一下，自己可以更具需要处理成下面这种格式就行

In [7]:
sentences=['我的语文成绩在年级得了第一',
           '吹泡泡是一件很有趣的事',
           '猴子们欢蹦乱跳地在树林里玩耍着']

jieba分词，这里其实可以做一些去除停用词和去除仅出现一次的词，这里语料简单不做处理，如有需求，请参考https://blog.csdn.net/questionfish/article/details/46739207

In [8]:
words=[]
for doc in sentences:
    words.append(list(jieba.cut(doc)))
print(words)

[['我', '的', '语文', '成绩', '在', '年级', '得', '了', '第一'], ['吹泡泡', '是', '一件', '很', '有趣', '的', '事'], ['猴子', '们', '欢蹦乱跳', '地', '在', '树林', '里', '玩耍', '着']]


# 构造词典

In [11]:
dictionary=corpora.Dictionary(words)
print(dictionary) # 一个有23个不同的词
print(dictionary.token2id) # 每个词对应的编号

Dictionary(23 unique tokens: ['了', '在', '年级', '得', '成绩']...)
{'了': 0, '在': 1, '年级': 2, '得': 3, '成绩': 4, '我': 5, '的': 6, '第一': 7, '语文': 8, '一件': 9, '事': 10, '吹泡泡': 11, '很': 12, '是': 13, '有趣': 14, '们': 15, '地': 16, '树林': 17, '欢蹦乱跳': 18, '猴子': 19, '玩耍': 20, '着': 21, '里': 22}


为了方便查看，我们输出下每个词对应的编号

In [15]:
for word,index in dictionary.token2id.items():
    print("{}--编号为:{}".format(word,index))

了--编号为:0
在--编号为:1
年级--编号为:2
得--编号为:3
成绩--编号为:4
我--编号为:5
的--编号为:6
第一--编号为:7
语文--编号为:8
一件--编号为:9
事--编号为:10
吹泡泡--编号为:11
很--编号为:12
是--编号为:13
有趣--编号为:14
们--编号为:15
地--编号为:16
树林--编号为:17
欢蹦乱跳--编号为:18
猴子--编号为:19
玩耍--编号为:20
着--编号为:21
里--编号为:22


# 生成语料库

In [17]:
corpus=[dictionary.doc2bow(text) for text in words]
print(corpus) # 向量空间模型格式的语料库 

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1)], [(6, 1), (9, 1), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1)], [(1, 1), (15, 1), (16, 1), (17, 1), (18, 1), (19, 1), (20, 1), (21, 1), (22, 1)]]


# TF-IDF变换
将用词频向量表示一句话 变换成为用 词的重要性向量表示一句话

（TF-IDF变换：评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。）

In [20]:
tf_idf=models.TfidfModel(corpus)
vec=[(0,1),(4,1)]  # 计算 “了”，“成绩”的重要性
print(tf_idf[vec])

[(0, 0.7071067811865475), (4, 0.7071067811865475)]


In [23]:
corpus_tfidf=tf_idf[corpus]
for doc in corpus_tfidf:
    print(doc)

[(0, 0.37081761280562664), (1, 0.1368577477382165), (2, 0.37081761280562664), (3, 0.37081761280562664), (4, 0.37081761280562664), (5, 0.37081761280562664), (6, 0.1368577477382165), (7, 0.37081761280562664), (8, 0.37081761280562664)]
[(6, 0.1489905855640844), (9, 0.40369167389095173), (10, 0.40369167389095173), (11, 0.40369167389095173), (12, 0.40369167389095173), (13, 0.40369167389095173), (14, 0.40369167389095173)]
[(1, 0.1293891572290254), (15, 0.35058138249049303), (16, 0.35058138249049303), (17, 0.35058138249049303), (18, 0.35058138249049303), (19, 0.35058138249049303), (20, 0.35058138249049303), (21, 0.35058138249049303), (22, 0.35058138249049303)]


# 比较句子之间的相似度

In [24]:
index=similarities.SparseMatrixSimilarity(tf_idf[corpus],num_features=23)
sims=index[tf_idf[vec]]
print(list(enumerate(sims)))

[(0, 0.52441525), (1, 0.0), (2, 0.0)]


这里表示 “了 成绩”与第一句的相似度为52.44%，与其他两句话的相似度为0

# LSI变换

In [25]:
lsi=models.LsiModel(corpus_tfidf,id2word=dictionary,num_topics=2)
lsi_out=lsi.print_topics(2) # 基于SVD建立的两个主题模型内容
print(lsi_out[0])
print(lsi_out[1])

(0, '0.259*"成绩" + 0.259*"语文" + 0.259*"我" + 0.259*"了" + 0.259*"第一" + 0.259*"得" + 0.259*"年级" + 0.213*"是" + 0.213*"有趣" + 0.213*"事"')
(1, '0.265*"欢蹦乱跳" + 0.265*"着" + 0.265*"玩耍" + 0.265*"猴子" + 0.265*"里" + 0.265*"树林" + 0.265*"地" + 0.265*"们" + -0.265*"很" + -0.265*"有趣"')


In [29]:
corpus_lsi = lsi[corpus_tfidf]
for doc in corpus_lsi:
    print(doc)

[(0, 0.7165913599306)]
[(0, 0.5410455418833824), (1, -0.6556941552835392)]
[(0, 0.469864766433178), (1, 0.7550266053107043)]


说明 第一句话和第二句话和主题1相似，第三句话和主题2相似

# LDA变换

In [31]:
lda = models.LdaModel(corpus_tfidf, id2word=dictionary, num_topics=2)
lda_out=lda.print_topics(2)
print(lda_out[0]) 
print(lda_out[1]) 
corpus_lda = lda[corpus_tfidf]
for doc in corpus_lda:
    print(doc)

(0, '0.052*"里" + 0.052*"猴子" + 0.052*"地" + 0.051*"欢蹦乱跳" + 0.051*"玩耍" + 0.051*"着" + 0.050*"树林" + 0.050*"们" + 0.044*"一件" + 0.044*"有趣"')
(1, '0.050*"了" + 0.050*"我" + 0.050*"成绩" + 0.050*"很" + 0.050*"是" + 0.050*"语文" + 0.049*"第一" + 0.049*"年级" + 0.049*"得" + 0.047*"吹泡泡"')
[(0, 0.16434348), (1, 0.8356565)]
[(0, 0.21110593), (1, 0.78889406)]
[(0, 0.84332335), (1, 0.15667662)]


第一二句和主题二相似，第三句和主题一相似

# 判断一句话属于哪个主题模型

In [34]:
index = similarities.MatrixSimilarity(lsi[corpus])
query = "猴子"
print()
query_bow = dictionary.doc2bow(list(jieba.cut(query)))
print(query_bow) 
query_lsi = lsi[query_bow]
print(query_lsi) 


[(19, 1)]
[(0, 0.16039417742386808), (1, 0.26469827110693045)]


与第二个主题更相似

# 比较和第几句话相似


In [35]:
sims = index[query_lsi]
print(list(enumerate(sims))) 
sort_sims = sorted(enumerate(sims), key=lambda item: -item[1])
print(sort_sims)

[(0, 0.5182331), (1, -0.31047052), (2, 0.99952173)]
[(2, 0.99952173), (0, 0.5182331), (1, -0.31047052)]


说明“猴子”和第三句话相似度很高

原文：https://blog.csdn.net/whzhcahzxh/article/details/17528261