Skip to content

cuteyou/031802222

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 

Repository files navigation

题目:论文查重
描述如下:
设计一个论文查重算法,给出一个原文文件和一个在这份原文上经过了增删改的抄袭版论文的文件,在答案文件中输出其重复率。

原文示例:今天是星期天,天气晴,今天晚上我要去看电影。
抄袭版示例:今天是周天,天气晴朗,我晚上要去看电影。

要求输入输出采用文件输入输出,规范如下:
从命令行参数给出:论文原文的文件的绝对路径。
从命令行参数给出:抄袭版论文的文件的绝对路径。
从命令行参数给出:输出的答案文件的绝对路径。

思路:
0.一个类class CosineSimilarity(object):
四个函数
init() #其中__init__方法接受self和content_x1, content_y2三个参数。Python中,self是指向该对象本身的一个引用,通过在类的内部使用self变量,类中的方法可以访问自己的成员变量
extract_keyword() # 提取关键词
one_hot() # oneHot编码
main()
此处main函数入口便于调用测试
1.文件路径输入采用sys模块中的函数sys.argv[ ]
2.利用正则过滤和jieba分词,将词分好并保存到向量中
3.用字典保存两篇文章中出现的所有词并编上号
4计算余弦相似度

Releases

No releases published

Packages

No packages published

Languages