Plagiarism Detection

# 文本查重

文本查重，也称为文本去重（Plagiarism Detection），是一项旨在识别文本文档之间的相似性或重复性的技术或任务。

它的主要目标是确定一个文本文档是否包含与其他文档相似或重复的内容，通常是为了检测抄袭、重复、剽窃等不当行为。

文本查重的重要性和应用领域

文本查重在今天的信息时代具有重要性，并在多个应用领域中发挥关键作用。以下是文本查重的重要性以及一些主要应用领域：

1. 学术研究和教育领域

   - 抄袭检测：在学术研究中，文本查重用于检测学生论文、学术论文和研究报告中的抄袭行为，以确保学术诚实性。
   - 学术评估：学术评估机构和期刊使用文本查重来验证论文的原创性，以确保高质量的学术出版物。

2. 新闻和媒体领域

   - 新闻稿件验证：新闻编辑和出版商使用文本查重来验证新闻稿件的原创性，以避免不实报道和抄袭。
   - 内容质量控制：维护在线新闻和媒体平台上的高质量内容，以提供可信赖的信息。

3. 内容管理和版权保护

   - 网站内容管理：网站管理员使用文本查重来管理网站上的重复内容，提供更好的用户体验。
   - 版权保护：内容创作者和版权持有者使用文本查重来监测和保护其知识产权。

4. 搜索引擎和信息检索

   - 搜索结果提升：搜索引擎公司使用文本查重来消除重复内容，从而提高搜索结果的质量。
   - 搜索引擎优化：网站管理员使用文本查重来改进其内容，以提高在搜索引擎中的排名。

5. 法律和知识产权领域

   - 知识产权保护：律师和知识产权专业人员使用文本查重来监测和保护专利、商标和版权等知识产权。
   - 法庭证据：文本查重用于法庭案件中，以确定证据是否存在抄袭或知识产权侵权。

6. 广告和市场营销

   - 广告监管：广告行业使用文本查重来验证广告内容的原创性，以确保合规性和消费者保护。
   - 品牌声誉：企业使用文本查重来监测和保护其品牌声誉，以避免负面广告。

总的来说，文本查重在多个领域中都具有广泛的应用，以确保内容的原创性、知识产权的保护、信息质量的提高和法律合规性的维护。它有助于维护信任、保护知识产权和提供更高质量的信息。

# 余弦相似度

余弦相似度 (Cosine Similarity)是一种常用的文本相似性度量方法，用于比较两个文本向量之间的夹角。

具体来说，余弦相似度度量了两个文本向量之间的夹角余弦值，值越接近1表示文本越相似。

In [1]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

documents = ["This is the first document.", "This document is the second document.", "And this is the third one."]
vectorizer = CountVectorizer()
vectors = vectorizer.fit_transform(documents)
cosine_sim = cosine_similarity(vectors)
print(cosine_sim)

[[1.         0.79056942 0.54772256]
 [0.79056942 1.         0.4330127 ]
 [0.54772256 0.4330127  1.        ]]


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.metrics.pairwise import cosine_similarity
data = ["This is some sample data",
        "This is some example data",
        "This is some example data",
        "More sample data",
        "Another example"]
# 数据矢量化
vectorizer = TfidfVectorizer ()
vectors = vectorizer.fit_transform(data)
# 计算余弦相似度
similarities = cosine_similarity(vectors)
# 查找重复
duplicates = set ()
for i in range (len(similarities)):
    for j in range(i+1, len(similarities)):
        if similarities[i][j] > 0.95:
            duplicates.add (j)
# 删除重复内容
for i in sorted (duplicates, reverse=True):
    del data[i]
print(data)

## 过滤相似的文本

In [None]:
import spacy 
from itertools import combinations 
 
 
# Set globals 
nlp = spacy.load("en_core_web_md") 
 
def pre_process(titles): 
    """ 
    Pre-processes titles by removing stopwords and lemmatizing text. 
    :param titles: list of strings, contains target titles,. 
    :return: preprocessed_title_docs, list containing pre-processed titles. 
    """ 
 
    # Preprocess all the titles 
    title_docs = [nlp(x) for x in titles] 
    preprocessed_title_docs = [] 
    lemmatized_tokens = [] 
    for title_doc in title_docs: 
        for token in title_doc: 
            if not token.is_stop: 
                lemmatized_tokens.append(token.lemma_) 
        preprocessed_title_docs.append(" ".join(lemmatized_tokens)) 
        del lemmatized_tokens[ 
            : 
            ]  # empty the lemmatized tokens list as the code moves onto a new title 
 
    return preprocessed_title_docs 
 
def similarity_filter(titles): 
    """ 
    Recursively check if titles pass a similarity filter. 
    :param titles: list of strings, contains titles. 
    If the function finds titles that fail the similarity test, the above param will be the function output. 
    :return: this method upon itself unless there are no similar titles; in that case the feed that was passed 
    in is returned. 
    """ 
 
    # Preprocess titles 
    preprocessed_title_docs = pre_process(titles) 
 
    # Remove similar titles 
    all_summary_pairs = list(combinations(preprocessed_title_docs, 2)) 
    similar_titles = [] 
    for pair in all_summary_pairs: 
        title1 = nlp(pair[0]) 
        title2 = nlp(pair[1]) 
        similarity = title1.similarity(title2) 
        if similarity > 0.8: 
            similar_titles.append(pair) 
 
    titles_to_remove = [] 
    for a_title in similar_titles: 
        # Get the index of the first title in the pair 
        index_for_removal = preprocessed_title_docs.index(a_title[0]) 
        titles_to_remove.append(index_for_removal) 
 
    # Get indices of similar titles and remove them 
    similar_title_counts = set(titles_to_remove) 
    similar_titles = [ 
        x[1] for x in enumerate(titles) if x[0] in similar_title_counts 
    ] 
 
    # Exit the recursion if there are no longer any similar titles 
    if len(similar_title_counts) == 0: 
        return titles 
 
    # Continue the recursion if there are still titles to remove 
    else: 
        # Remove similar titles from the next input 
        for title in similar_titles: 
            idx = titles.index(title) 
            titles.pop(idx) 
 
        return similarity_filter(titles) 
 
if __name__ == "__main__": 
    your_title_list = ['title1', 'title2'] 
    similarty_filter(your_title_list)

# 编辑距离

编辑距离（Levenshtein Distance）是衡量两个字符串之间差异的一种方法，即将一个字符串转换为另一个字符串所需的最小单字符编辑操作（插入、删除或替换）次数。

In [None]:
import numpy as np

def calculate_levenshtein_distance(text1, text2):
    m, n = len(text1), len(text2)
    dp = np.zeros((m + 1, n + 1))

    for i in range(m + 1):
        dp[i][0] = i
    for j in range(n + 1):
        dp[0][j] = j

    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if text1[i - 1] == text2[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]
            else:
                dp[i][j] = min(dp[i - 1][j], dp[i][j - 1], dp[i - 1][j - 1]) + 1

    return dp[m][n]

text1 = "I love Python programming"
text2 = "Python programming is great"

levenshtein_distance = calculate_levenshtein_distance(text1, text2)
print(levenshtein_distance)

## FuzzyWuzzy 

https://github.com/seatgeek/thefuzz

是一个简单易用的模糊字符串匹配工具包。它依据 Levenshtein Distance 算法，计算两个序列之间的差异。

从一个example.csv的CSV文件中读取数据，使用FuzzyWuzzy库中的process.extractOne方法提取与输入值最相似的字符串。如果相似度超过80%，就认为找到了正确的清洗结果，并将这些结果保存到新的cleaned_data.csv文件中。

In [1]:
import pandas as pd
from fuzzywuzzy import process
# 从CSV文件中读取数据
data = pd.read_csv("example.csv")
# 创建一个空的DataFrame来存储结果
results = pd.DataFrame(columns=["Original", "Cleaned"])
# 使用FuzzyWuzzy对数据进行清洗
for index, row in data.iterrows():
    cleaned_value = process.extractOne(row['value'], ['a', 'b', 'c', 'd'], score_cutoff=80)
    results = results.append({"Original": row['value'], "Cleaned": cleaned_value[0]}, ignore_index=True)
# 将结果保存到新的CSV文件
results.to_csv("cleaned_data.csv", index=False)

ModuleNotFoundError: No module named 'fuzzywuzzy'

定义了一个计算字符串相似度的函数calculate_similarity，然后我们使用多进程来并行计算多个字符串对的相似度，这能够显著提升大规模数据处理的性能。

In [None]:
from fuzzywuzzy import fuzz
from time import time
def calculate_similarity(str1, str2):
    """计算两个字符串的相似度"""
    start_time = time()
    result = fuzz.ratio(str1, str2)
    end_time = time()
    return result, end_time - start_time
str1 = "The quick brown fox jumps over the lazy dog"
str2 = "A quick, brown dog outpaces a lazy fox."
# 计算相似度
similarity, time_taken = calculate_similarity(str1, str2)
print(f"Similarity: {similarity}")
print(f"Time taken: {time_taken} seconds")
# 性能优化：使用并行处理
from concurrent.futures import ProcessPoolExecutor
import multiprocessing
def parallel_calculate_similarity(input_pair):
    str1, str2 = input_pair
    return calculate_similarity(str1, str2)
str_list1 = [str1] * multiprocessing.cpu_count()
str_list2 = [str2] * multiprocessing.cpu_count()
with ProcessPoolExecutor() as executor:
    results = list(executor.map(parallel_calculate_similarity, zip(str_list1, str_list2)))
# 输出并行处理结果
for result in results:
    print(f"Similarity: {result[0]}, Time taken: {result[1]:.4f} seconds")