python实现的文档重复/抄袭检测
Switch branches/tags
Nothing to show
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
train
.gitignore
README
README.md
config.py
config.pyc
detector.py
exact.txt
near.txt

README.md

重复检测软件(Python实现)

可以检测英文文档之间的重复,包括完全重复(除标点,格式外都相同),和相近重复(部分(90%)抄袭)

TODO:

  1. 数据抄袭(英文文档中数据集中的地方,比较多的数据相同)
  2. 中文分词
  3. 噪音消除