In [1]:
import lzma
from itertools import combinations, product
from collections import defaultdict
from tqdm import tqdm
import re
import os
import sys


class keydefaultdict(defaultdict):
    def __missing__(self, key):
        if self.default_factory is None:
            raise KeyError(key)
        else:
            ret = self[key] = self.default_factory(key)
            return ret


compressed_length = keydefaultdict()


def compressor(quality):
    return (
        lambda s: len(lzma.compress(
            s,
            format=lzma.FORMAT_RAW,
            filters=[{"id": lzma.FILTER_LZMA2, "preset": quality}]
        ))
    )


def NCD(x, y, strategy=None):
    global compressed_length

    lx = compressed_length[x]
    ly = compressed_length[y]

    if strategy == 'MINMAX':
        return (min(compressed_length[x + y], compressed_length[y + x]) - max(lx, ly)) / max(lx, ly)
    if strategy == 'FAST':
        if lx > ly:
            lx, ly = ly, lx
        return (compressed_length[y + x] - ly) / lx

    return (compressed_length[x + y] + compressed_length[y + x] - lx - ly) / (lx + ly)


In [2]:
rsol = re.compile(r'.*\\begin\{solution\}(.*)\\end\{solution\}.*', re.DOTALL)


def get_solution_text(filename):
    global rsol
    with open(filename, 'r', encoding='utf-8') as txt:
        solution_text = rsol.match(txt.read())
        if solution_text:
            return solution_text.group(1).strip().lower().replace(' ', '').encode()
        else:
            return None


def traverse(dirname):
    all_solutions = defaultdict(lambda: defaultdict(str))
    rexp = re.compile(r'\D*(\d+)\.tex')

    for item in os.listdir(dirname):
        if item.startswith('ds2017'):
            _, _, student_surname, student_name = item.split()

            for file in os.listdir(dirname + item):
                if file.endswith('.tex'):
                    x = rexp.match(file)
                    if x:
                        if not file.startswith('solution'):
                            print(item[13:] + '/' + file)

                        problem_id = int(x.group(1))
                        if problem_id < 2:
                            continue

                        solution_text = get_solution_text(dirname + item + '\\' + file)
                        if solution_text:
                            all_solutions[problem_id][f'{student_surname} {student_name}'] = solution_text
                        else:
                            print('Failed to find solution in ' + item[9:] + '/' + file)
    return all_solutions


def traverse_archive(dirname, year=None):
    old_solutions = defaultdict(lambda: defaultdict(str))
    rexp = re.compile(r'\D*(\d+)\.tex')

    for item in os.listdir(dirname):
        student_surname, student_name = item.split()

        for file in os.listdir(dirname + item):
            if file.endswith('.tex'):
                x = rexp.match(file)
                if x:
                    problem_id = int(x.group(1))
                    if problem_id < 2:
                        continue

                    solution_text = get_solution_text(dirname + item + '\\' + file)
                    if solution_text:
                        student_display = f'{student_surname} {student_name}'
                        if year:
                            student_display = f'{student_display} ({year})'
                        old_solutions[problem_id][student_display] = solution_text
                    else:
                        print('Failed to find solution in ' + item + '/' + file)


    return old_solutions

In [3]:
def find_plagiarism(threshold=0.5, quality=9, problem_ids=None, problem_ids_exclude=None, exclusion_threshold=0.0):
    global compressed_length

    all_solutions = traverse(r'C:\Users\dainiak\Dropbox\Apps\ShareLaTeX\\')

    old_solutions = defaultdict(lambda: defaultdict(str))
    archives = [
        traverse_archive(r'c:\Users\dainiak\Documents\ds_reviews\dumps-2015\\', year=2015),
        traverse_archive(r'c:\Users\dainiak\Documents\ds_reviews\dumps-2016\\', year=2016)
    ]
    for archive in archives:
        for problem_id in archive:
            old_solutions[problem_id].update(archive[problem_id])

    compressed_length = keydefaultdict(compressor(quality))

    filtered_ids = set(all_solutions)
    if problem_ids:
        filtered_ids.intersection_update(problem_ids)
    if problem_ids_exclude and not exclusion_threshold or exclusion_threshold <= 0:
        filtered_ids.difference_update(problem_ids_exclude)

    n_pairs_to_check = sum(
        k * (k - 1) // 2
        for k in map(
            len,
            (all_solutions[problem_id] for problem_id in filtered_ids)
        )
    )

    #
    # for problem_id in filtered_ids:
    #     k = len(all_solutions[problem_id])
    #     n_pairs_to_check += k * (k-1) // 2

    similar_pairs = defaultdict(dict)

    with tqdm(total=n_pairs_to_check) as progress_bar:
        iteration = 0
        for problem_id in filtered_ids:
            if len(all_solutions[problem_id]) > 0:
                for (i1, s1), (i2, s2) in combinations(all_solutions[problem_id].items(), 2):
                    distance = NCD(s1, s2)
                    iteration += 1
                    progress_bar.update(1)
                    if distance <= exclusion_threshold or (
                                not problem_ids_exclude
                                or problem_id not in problem_ids_exclude
                            ) and distance <= threshold:
                        similar_pairs[problem_id][(i1, i2)] = distance

    n_pairs_to_check = sum(
        len(old_solutions[problem_id]) * len(all_solutions[problem_id])
        for problem_id in filtered_ids
        if problem_id in old_solutions
    )

    with tqdm(total=n_pairs_to_check) as progress_bar:
        for problem_id in filtered_ids:
            if problem_id in old_solutions:
                pairs_to_check = list(product(all_solutions[problem_id].items(), old_solutions[problem_id].items()))
                if len(pairs_to_check) > 0:
                    for (i1, s1), (i2, s2) in pairs_to_check:
                        distance = NCD(s1, s2)
                        progress_bar.update(1)
                        if distance <= exclusion_threshold or (not problem_ids_exclude or problem_id not in problem_ids_exclude) and distance <= threshold:
                            similar_pairs[problem_id][(i1, i2)] = distance

    sys.stdout.flush()
    no_duplicates = False
    if len(similar_pairs) > 0:
        for problem_id in similar_pairs:
            print(f'\nSimilar solutions for problem {problem_id}:')
            print(', '.join(
                f'[({pair[0]}, {pair[1]}), {round(similar_pairs[problem_id][pair], 2)}]'
                for pair in similar_pairs[problem_id]
            ))
    if no_duplicates:
        print('No duplicates')

In [4]:
find_plagiarism(
    threshold=0.5,
    quality=4,
    problem_ids_exclude=[1, 128, 156, 315, 314],
    exclusion_threshold=0.2
)

  0%|                                                                                          | 0/462 [00:00<?, ?it/s]

  2%|█▏                                                                                | 7/462 [00:00<00:06, 65.38it/s]

  3%|██▋                                                                              | 15/462 [00:00<00:06, 69.07it/s]

  6%|████▌                                                                            | 26/462 [00:00<00:05, 76.52it/s]

  7%|█████▉                                                                           | 34/462 [00:00<00:05, 75.11it/s]

  9%|███████▏                                                                         | 41/462 [00:00<00:05, 73.02it/s]

 11%|████████▉                                                                        | 51/462 [00:00<00:05, 77.86it/s]

 13%|██████████▎                                                                      | 59/462 [00:00<00:05, 77.56it/s]

 15%|███████████▋                                                                     | 67/462 [00:00<00:05, 76.25it/s]

 16%|█████████████▏                                                                   | 75/462 [00:00<00:05, 74.51it/s]

 18%|██████████████▋                                                                  | 84/462 [00:01<00:04, 77.64it/s]

 21%|████████████████▋                                                                | 95/462 [00:01<00:04, 84.35it/s]

 23%|██████████████████                                                              | 104/462 [00:01<00:04, 78.83it/s]

 24%|███████████████████▌                                                            | 113/462 [00:01<00:04, 75.95it/s]

 26%|████████████████████▉                                                           | 121/462 [00:01<00:04, 70.67it/s]

 28%|██████████████████████▎                                                         | 129/462 [00:01<00:05, 60.57it/s]

 29%|███████████████████████▌                                                        | 136/462 [00:01<00:05, 59.41it/s]

 31%|████████████████████████▉                                                       | 144/462 [00:01<00:04, 63.83it/s]

 33%|██████████████████████████▋                                                     | 154/462 [00:02<00:04, 71.13it/s]

 35%|████████████████████████████▍                                                   | 164/462 [00:02<00:03, 77.68it/s]

 39%|██████████████████████████████▊                                                 | 178/462 [00:02<00:03, 89.30it/s]

 41%|████████████████████████████████▉                                               | 190/462 [00:02<00:02, 96.01it/s]

 44%|██████████████████████████████████▌                                            | 202/462 [00:02<00:02, 101.21it/s]

 47%|████████████████████████████████████▊                                          | 215/462 [00:02<00:02, 108.39it/s]

 49%|██████████████████████████████████████▉                                        | 228/462 [00:02<00:02, 112.58it/s]

 52%|█████████████████████████████████████████▏                                     | 241/462 [00:02<00:01, 116.17it/s]

 55%|███████████████████████████████████████████▍                                   | 254/462 [00:02<00:01, 118.18it/s]

 58%|█████████████████████████████████████████████▉                                 | 269/462 [00:03<00:01, 124.15it/s]

 61%|████████████████████████████████████████████████▍                              | 283/462 [00:03<00:01, 127.61it/s]

 65%|██████████████████████████████████████████████████▉                            | 298/462 [00:03<00:01, 131.45it/s]

 68%|█████████████████████████████████████████████████████▎                         | 312/462 [00:03<00:01, 132.93it/s]

 74%|██████████████████████████████████████████████████████████▍                    | 342/462 [00:03<00:00, 159.19it/s]

 78%|█████████████████████████████████████████████████████████████▋                 | 361/462 [00:03<00:00, 154.25it/s]

 82%|████████████████████████████████████████████████████████████████▊              | 379/462 [00:03<00:00, 135.78it/s]

 85%|███████████████████████████████████████████████████████████████████▌           | 395/462 [00:03<00:00, 116.17it/s]

 89%|█████████████████████████████████████████████████████████████████████▉         | 409/462 [00:04<00:00, 105.27it/s]

 91%|███████████████████████████████████████████████████████████████████████▉       | 421/462 [00:04<00:00, 100.74it/s]

 94%|██████████████████████████████████████████████████████████████████████████▉     | 433/462 [00:04<00:00, 93.66it/s]

 96%|████████████████████████████████████████████████████████████████████████████▉   | 444/462 [00:04<00:00, 83.02it/s]

 98%|██████████████████████████████████████████████████████████████████████████████▌ | 454/462 [00:04<00:00, 74.46it/s]

100%|████████████████████████████████████████████████████████████████████████████████| 462/462 [00:04<00:00, 95.99it/s]




  0%|                                                                                          | 0/488 [00:00<?, ?it/s]

  2%|█▌                                                                                | 9/488 [00:00<00:05, 84.05it/s]

  4%|███▎                                                                             | 20/488 [00:00<00:05, 88.47it/s]

  6%|████▍                                                                            | 27/488 [00:00<00:05, 81.67it/s]

  7%|█████▋                                                                           | 34/488 [00:00<00:05, 76.49it/s]

  8%|██████▋                                                                          | 40/488 [00:00<00:06, 69.54it/s]

 10%|███████▊                                                                         | 47/488 [00:00<00:06, 69.45it/s]

 11%|████████▉                                                                        | 54/488 [00:00<00:06, 68.28it/s]

 13%|██████████▌                                                                      | 64/488 [00:00<00:05, 74.40it/s]

 15%|███████████▉                                                                     | 72/488 [00:00<00:06, 67.43it/s]

 16%|█████████████                                                                    | 79/488 [00:01<00:06, 68.17it/s]

 18%|██████████████▌                                                                  | 88/488 [00:01<00:05, 72.79it/s]

 20%|████████████████                                                                 | 97/488 [00:01<00:05, 77.10it/s]

 22%|█████████████████▌                                                              | 107/488 [00:01<00:04, 79.80it/s]

 24%|███████████████████                                                             | 116/488 [00:01<00:04, 79.74it/s]

 26%|████████████████████▍                                                           | 125/488 [00:01<00:04, 79.69it/s]

 27%|█████████████████████▉                                                          | 134/488 [00:01<00:04, 77.90it/s]

 29%|███████████████████████▎                                                        | 142/488 [00:01<00:04, 76.37it/s]

 31%|████████████████████████▌                                                       | 150/488 [00:01<00:04, 73.97it/s]

 32%|█████████████████████████▉                                                      | 158/488 [00:02<00:04, 67.69it/s]

 34%|███████████████████████████                                                     | 165/488 [00:02<00:05, 60.00it/s]

 35%|████████████████████████████▏                                                   | 172/488 [00:02<00:05, 56.80it/s]

 36%|█████████████████████████████▏                                                  | 178/488 [00:02<00:05, 55.01it/s]

 38%|██████████████████████████████▏                                                 | 184/488 [00:02<00:05, 56.33it/s]

 39%|███████████████████████████████▏                                                | 190/488 [00:02<00:05, 55.85it/s]

 40%|████████████████████████████████▏                                               | 196/488 [00:02<00:05, 55.44it/s]

 41%|█████████████████████████████████                                               | 202/488 [00:02<00:05, 56.16it/s]

 43%|██████████████████████████████████▎                                             | 209/488 [00:03<00:04, 59.54it/s]

 45%|███████████████████████████████████▋                                            | 218/488 [00:03<00:04, 65.39it/s]

 47%|█████████████████████████████████████▍                                          | 228/488 [00:03<00:03, 71.24it/s]

 49%|██████████████████████████████████████▊                                         | 237/488 [00:03<00:03, 74.38it/s]

 50%|████████████████████████████████████████▎                                       | 246/488 [00:03<00:03, 77.43it/s]

 52%|█████████████████████████████████████████▊                                      | 255/488 [00:03<00:02, 79.62it/s]

 54%|███████████████████████████████████████████▎                                    | 264/488 [00:03<00:02, 80.90it/s]

 56%|████████████████████████████████████████████▊                                   | 273/488 [00:03<00:02, 72.43it/s]

 58%|██████████████████████████████████████████████                                  | 281/488 [00:03<00:02, 73.91it/s]

 59%|███████████████████████████████████████████████▍                                | 289/488 [00:04<00:02, 75.41it/s]

 61%|████████████████████████████████████████████████▊                               | 298/488 [00:04<00:02, 78.63it/s]

 63%|██████████████████████████████████████████████████▎                             | 307/488 [00:04<00:02, 80.29it/s]

 65%|███████████████████████████████████████████████████▊                            | 316/488 [00:04<00:02, 76.40it/s]

 67%|█████████████████████████████████████████████████████▎                          | 325/488 [00:04<00:02, 79.91it/s]

 68%|██████████████████████████████████████████████████████▊                         | 334/488 [00:04<00:02, 70.85it/s]

 70%|████████████████████████████████████████████████████████                        | 342/488 [00:04<00:02, 65.43it/s]

 72%|█████████████████████████████████████████████████████████▏                      | 349/488 [00:04<00:02, 62.52it/s]

 73%|██████████████████████████████████████████████████████████▎                     | 356/488 [00:05<00:02, 63.78it/s]

 75%|███████████████████████████████████████████████████████████▊                    | 365/488 [00:05<00:01, 69.72it/s]

 77%|█████████████████████████████████████████████████████████████▎                  | 374/488 [00:05<00:01, 74.30it/s]

 78%|██████████████████████████████████████████████████████████████▊                 | 383/488 [00:05<00:01, 77.17it/s]

 80%|████████████████████████████████████████████████████████████████▎               | 392/488 [00:05<00:01, 79.75it/s]

 82%|█████████████████████████████████████████████████████████████████▋              | 401/488 [00:05<00:01, 79.70it/s]

 84%|███████████████████████████████████████████████████████████████████▏            | 410/488 [00:05<00:00, 80.96it/s]

 86%|█████████████████████████████████████████████████████████████████████           | 421/488 [00:05<00:00, 86.45it/s]

 88%|██████████████████████████████████████████████████████████████████████▋         | 431/488 [00:05<00:00, 89.86it/s]

 90%|████████████████████████████████████████████████████████████████████████▎       | 441/488 [00:05<00:00, 91.77it/s]

 92%|█████████████████████████████████████████████████████████████████████████▉      | 451/488 [00:06<00:00, 92.89it/s]

 94%|███████████████████████████████████████████████████████████████████████████▌    | 461/488 [00:06<00:00, 91.51it/s]

 97%|█████████████████████████████████████████████████████████████████████████████▏  | 471/488 [00:06<00:00, 84.37it/s]

 98%|██████████████████████████████████████████████████████████████████████████████▋ | 480/488 [00:06<00:00, 80.11it/s]

100%|████████████████████████████████████████████████████████████████████████████████| 488/488 [00:06<00:00, 74.32it/s]





Similar solutions for problem 156:




[(Сикалов Никита, Сунгатуллин Руслан), 0.18]





Similar solutions for problem 314:




[(Ахметзянов Талгат, Кревский Михаил), 0.15], [(Ахметзянов Талгат, Никулов Сергей), 0.15], [(Ахметзянов Талгат, Пономаренко Николай), 0.15], [(Ахметзянов Талгат, Якупова Аделина), 0.15], [(Кревский Михаил, Никулов Сергей), 0.02], [(Кревский Михаил, Пономаренко Николай), 0.02], [(Кревский Михаил, Якупова Аделина), 0.02], [(Никулов Сергей, Пономаренко Николай), 0.02], [(Никулов Сергей, Якупова Аделина), 0.02], [(Пономаренко Николай, Якупова Аделина), 0.02]





Similar solutions for problem 37:




[(Морковкин Василий, Пименов Павел (2016)), 0.49]





Similar solutions for problem 84:


