# 文章相似度算法

通过计算文章的相似度，来进行文字的伪原创，实现文章的批量添加和新闻，中标详情页的收录率的提高。  
数据说明：doc2-doc5.txt为样本文档，doc1为测试文档

要用到的包如下：

In [298]:
from gensim import corpora,models,similarities
from jieba import posseg
import jieba
import urllib.request
from collections import defaultdict

test_file_name="doc1.txt"

**读取样本文件**

In [299]:
docs=[]
for i in range(1,6):
    filename="doc"+str(i)+".txt"
    f=open(filename,mode="r",encoding="utf-8")
    content=f.read()
    docs.append(content)
    f.close()
print("共读取了 " + str(len(docs)) + " 篇文章。")    

共读取了 5 篇文章。


**分词并删除停止词**

###### 读取停止词词典

In [300]:
def readStopWord(filelist):
    stop_word=set()
    for file in filelist:
        for line in open(file,mode="r",encoding="gbk"):
            stop_word.add(line)
    return stop_word

filelist=["百度停用词列表.txt","哈工大停用词表.txt","四川大学机器智能实验室停用词库.txt","中文停用词库.txt","自己的停止词词库.txt"]
stop_word=readStopWord(filelist)
print("读取到停止词：" + str(len(stop_word))) 

读取到停止词：2321


**分词**

In [301]:
#分词并删除停止词
def cut_word(docs,stop_word):
    del_flag_word=set(['x','uj','v','r','y','zg','c','p','c','m','d'])
    docs_words=[]
    set_docs_words=set()
    for doc in docs:
        doc_words=posseg.cut(doc)
        doc_words=[word for word in doc_words if word.flag not in del_flag_word]
        doc_words=[word for word in doc_words if word.word not in stop_word]
        doc_words=[word.word for word in doc_words]
        docs_words.append(doc_words)
        for word in doc_words:
            set_docs_words.add(word)
    return docs_words,set_docs_words
all_doc_words,set_docs_words=cut_word(docs,stop_word)

In [302]:
len(all_doc_words[0]),len(set_docs_words)

(193, 183)

**读取测试文档** 
  ###### 读取测试文档，对测试文档进行分词，生成测试文档分词列表

In [303]:
f=open(test_file_name,mode="r",encoding="utf-8")
doc1=f.read()
f.close()
test_doc_words,test_set_docs_words=cut_word([doc1],stop_word)
test_doc_words=test_doc_words[0]
len(test_doc_words)

193

** 制作语料库 **

In [304]:
# 首先用dictionary方法获取词袋（bag-of-words)
dictionary=corpora.Dictionary(all_doc_words)

#词袋中用数字对所有词进行了编号
dictionary.keys()

#编号与词之间的对应关系
dictionary.token2id

#使用doc2bow制作语料库
corpus = [dictionary.doc2bow(doc_words) for doc_words in all_doc_words]

**对测试文档分词转换为二元向量**

In [305]:
doc_test_vec = dictionary.doc2bow(test_doc_words)

**相似度分析**

In [313]:
#使用TF-IDF模型对语料库建模
tfidf = models.TfidfModel(corpus)

#获取测试文档中，每个词的TF-IDF值
tfidf[doc_test_vec]

#对每个目标文档，分析测试文档的相似度
index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=len(dictionary.keys()))
sim = index[tfidf[doc_test_vec]]
sim

#根据相似度排序
result=sorted(enumerate(sim), key=lambda item: -item[1])
for r in result:
    docindex,s=r
    if s >0.2:
        msg="相似"
    else:
        msg="不相似"
    print("docindex:"+str(docindex)+"  sim："+str(s)  +"   结果判定："+msg)
result    

docindex:0  sim：1.0   结果判定：相似
docindex:3  sim：0.40909374   结果判定：相似
docindex:2  sim：0.3548258   结果判定：相似
docindex:1  sim：0.14954704   结果判定：不相似
docindex:4  sim：0.12729307   结果判定：不相似


[(0, 1.0), (3, 0.40909374), (2, 0.3548258), (1, 0.14954704), (4, 0.12729307)]