Skip to content

Quadrillion1024/3219005446

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

22 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

3219005446

🍕个人项目作业🍕

题目:论文查重

描述如下:

设计一个论文查重算法,给出一个原文文件和一个在这份原文上经过了增删改的抄袭版论文的文件,在答案文件中输出其重复率。

原文示例:今天是星期天,天气晴,今天晚上我要去看电影。 抄袭版示例:今天是周天,天气晴朗,我晚上要去看电影。 要求输入输出采用文件输入输出,规范如下:

从命令行参数给出:论文原文的文件的绝对路径。 从命令行参数给出:抄袭版论文的文件的绝对路径。 从命令行参数给出:输出的答案文件的绝对路径。 我们提供一份样例,课堂上下发,上传到班级群,使用方法是:orig.txt是原文,其他orig_add.txt等均为抄袭版论文。

注意:答案文件中输出的答案为浮点型,精确到小数点后两位

在进行代码测试的时候,以Windows环境为例(但并不意味着程序一定在Windows环境下进行测试),我们是按照传递命令行参数的方式提供文件的位置,您的提交的作业程序需要从指定的位置读取文件,并向指定的文件输出答案:

  • Python: python main.py [原文文件] [抄袭版论文的文件] [答案文件]
  • C: main.exe [原文文件] [抄袭版论文的文件] [答案文件]
  • Java: java -jar main.jar [原文文件] [抄袭版论文的文件] [答案文件] 保证每个参数以空格隔开,文件路径中不含有空格,例如:

java -jar main.jar C:\tests\org.txt C:\tests\org_add.txt C:\tests\ans.txt
🍟🍟🍟🍟🍟🍟🍟🍟🍟🍟

采用python3

目前在第三版记录一下问题

  • 在短篇句子的查重中表现较好,随着文章长度增加重复率会大型上升,且长篇样例的查重的区分度不高
  • 未完成异常处理
  • 代码格式待修正

第四版

  • 修正代码格式,现在代码好看起来了
  • 未完成异常处理
  • 总体来说接近尾声了

第五版

  • 增加异常处理
  • 代码部分完结! 不排除后续更新可能

About

个人项目作业

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages