In [1]:
import lzma
from itertools import combinations, product
from collections import defaultdict
from tqdm import tqdm
import re
import os
import sys


class keydefaultdict(defaultdict):
    def __missing__(self, key):
        if self.default_factory is None:
            raise KeyError(key)
        else:
            ret = self[key] = self.default_factory(key)
            return ret


compressed_length = keydefaultdict()


def compressor(quality):
    return (
        lambda s: len(lzma.compress(
            s,
            format=lzma.FORMAT_RAW,
            filters=[{"id": lzma.FILTER_LZMA2, "preset": quality}]
        ))
    )


def NCD(x, y, strategy=None):
    global compressed_length

    lx = compressed_length[x]
    ly = compressed_length[y]

    if strategy == 'MINMAX':
        return (min(compressed_length[x + y], compressed_length[y + x]) - max(lx, ly)) / max(lx, ly)
    if strategy == 'FAST':
        if lx > ly:
            lx, ly = ly, lx
        return (compressed_length[y + x] - ly) / lx

    return (compressed_length[x + y] + compressed_length[y + x] - lx - ly) / (lx + ly)


In [2]:
rsol = re.compile(r'.*\\begin\{solution\}(.*)\\end\{solution\}.*', re.DOTALL)


def get_solution_text(filename):
    global rsol
    with open(filename, 'r', encoding='utf-8') as txt:
        solution_text = rsol.match(txt.read())
        if solution_text:
            return solution_text.group(1).strip().lower().replace(' ', '').encode()
        else:
            return None


def traverse(dirname):
    all_solutions = defaultdict(lambda: defaultdict(str))
    rexp = re.compile(r'\D*(\d+)\.tex')

    for item in os.listdir(dirname):
        if item.startswith('ds2017'):
            _, _, student_surname, student_name = item.split()

            for file in os.listdir(dirname + item):
                if file.endswith('.tex'):
                    x = rexp.match(file)
                    if x:
                        if not file.startswith('solution'):
                            print(item[13:] + '/' + file)

                        problem_id = int(x.group(1))
                        if problem_id < 2:
                            continue

                        solution_text = get_solution_text(dirname + item + '\\' + file)
                        if solution_text:
                            all_solutions[problem_id][f'{student_surname} {student_name}'] = solution_text
                        else:
                            print('Failed to find solution in ' + item[9:] + '/' + file)
    return all_solutions


def traverse_archive(dirname, year=None):
    old_solutions = defaultdict(lambda: defaultdict(str))
    rexp = re.compile(r'\D*(\d+)\.tex')

    for item in os.listdir(dirname):
        student_surname, student_name = item.split()

        for file in os.listdir(dirname + item):
            if file.endswith('.tex'):
                x = rexp.match(file)
                if x:
                    problem_id = int(x.group(1))
                    if problem_id < 2:
                        continue

                    solution_text = get_solution_text(dirname + item + '\\' + file)
                    if solution_text:
                        student_display = f'{student_surname} {student_name}'
                        if year:
                            student_display = f'{student_display} ({year})'
                        old_solutions[problem_id][student_display] = solution_text
                    else:
                        print('Failed to find solution in ' + item + '/' + file)


    return old_solutions

In [3]:
def find_plagiarism(threshold=0.5, quality=9, problem_ids=None, problem_ids_exclude=None, exclusion_threshold=0.0):
    global compressed_length

    all_solutions = traverse(r'C:\Users\dainiak\Dropbox\Apps\ShareLaTeX\\')

    old_solutions = defaultdict(lambda: defaultdict(str))
    archives = [
        traverse_archive(r'c:\Users\dainiak\Documents\ds_reviews\dumps-2015\\', year=2015),
        traverse_archive(r'c:\Users\dainiak\Documents\ds_reviews\dumps-2016\\', year=2016)
    ]
    for archive in archives:
        for problem_id in archive:
            old_solutions[problem_id].update(archive[problem_id])

    compressed_length = keydefaultdict(compressor(quality))

    filtered_ids = set(all_solutions)
    if problem_ids:
        filtered_ids.intersection_update(problem_ids)
    if problem_ids_exclude and not exclusion_threshold or exclusion_threshold <= 0:
        filtered_ids.difference_update(problem_ids_exclude)

    n_pairs_to_check = sum(
        k * (k - 1) // 2
        for k in map(
            len,
            (all_solutions[problem_id] for problem_id in filtered_ids)
        )
    )

    #
    # for problem_id in filtered_ids:
    #     k = len(all_solutions[problem_id])
    #     n_pairs_to_check += k * (k-1) // 2

    similar_pairs = defaultdict(dict)

    with tqdm(total=n_pairs_to_check) as progress_bar:
        iteration = 0
        for problem_id in filtered_ids:
            if len(all_solutions[problem_id]) > 0:
                for (i1, s1), (i2, s2) in combinations(all_solutions[problem_id].items(), 2):
                    distance = NCD(s1, s2)
                    iteration += 1
                    progress_bar.update(1)
                    if distance <= exclusion_threshold or (
                                not problem_ids_exclude
                                or problem_id not in problem_ids_exclude
                            ) and distance <= threshold:
                        similar_pairs[problem_id][(i1, i2)] = distance

    n_pairs_to_check = sum(
        len(old_solutions[problem_id]) * len(all_solutions[problem_id])
        for problem_id in filtered_ids
        if problem_id in old_solutions
    )

    with tqdm(total=n_pairs_to_check) as progress_bar:
        for problem_id in filtered_ids:
            if problem_id in old_solutions:
                pairs_to_check = list(product(all_solutions[problem_id].items(), old_solutions[problem_id].items()))
                if len(pairs_to_check) > 0:
                    for (i1, s1), (i2, s2) in pairs_to_check:
                        distance = NCD(s1, s2)
                        progress_bar.update(1)
                        if distance <= exclusion_threshold or (not problem_ids_exclude or problem_id not in problem_ids_exclude) and distance <= threshold:
                            similar_pairs[problem_id][(i1, i2)] = distance

    sys.stdout.flush()
    no_duplicates = False
    if len(similar_pairs) > 0:
        for problem_id in similar_pairs:
            print(f'\nSimilar solutions for problem {problem_id}:')
            print(', '.join(
                f'[({pair[0]}, {pair[1]}), {round(similar_pairs[problem_id][pair], 2)}]'
                for pair in similar_pairs[problem_id]
            ))
    if no_duplicates:
        print('No duplicates')

In [4]:
find_plagiarism(
    threshold=0.5,
    quality=4,
    problem_ids_exclude=[1, 128, 156, 315, 314],
    exclusion_threshold=0.2
)

  0%|                                                                                          | 0/462 [00:00<?, ?it/s]

  0%|▎                                                                                 | 2/462 [00:00<00:33, 13.74it/s]

  1%|▌                                                                                 | 3/462 [00:00<00:52,  8.73it/s]

  1%|█                                                                                 | 6/462 [00:00<00:43, 10.48it/s]

  2%|█▉                                                                               | 11/462 [00:00<00:32, 13.70it/s]

  3%|██▋                                                                              | 15/462 [00:00<00:29, 15.24it/s]

  4%|███▎                                                                             | 19/462 [00:00<00:24, 18.21it/s]

  5%|████▍                                                                            | 25/462 [00:01<00:19, 22.02it/s]

  7%|█████▍                                                                           | 31/462 [00:01<00:15, 26.94it/s]

  8%|██████▏                                                                          | 35/462 [00:01<00:16, 25.27it/s]

  8%|██████▊                                                                          | 39/462 [00:01<00:17, 24.16it/s]

  9%|███████▌                                                                         | 43/462 [00:01<00:16, 25.82it/s]

 10%|████████▏                                                                        | 47/462 [00:01<00:16, 24.71it/s]

 11%|████████▉                                                                        | 51/462 [00:01<00:15, 26.84it/s]

 12%|█████████▍                                                                       | 54/462 [00:02<00:15, 25.81it/s]

 12%|█████████▉                                                                       | 57/462 [00:02<00:16, 25.08it/s]

 13%|██████████▋                                                                      | 61/462 [00:02<00:15, 25.21it/s]

 14%|███████████▍                                                                     | 65/462 [00:02<00:14, 26.73it/s]

 15%|███████████▉                                                                     | 68/462 [00:02<00:16, 24.54it/s]

 16%|████████████▌                                                                    | 72/462 [00:02<00:14, 27.73it/s]

 16%|█████████████▎                                                                   | 76/462 [00:02<00:13, 29.26it/s]

 17%|██████████████                                                                   | 80/462 [00:03<00:13, 27.95it/s]

 19%|███████████████                                                                  | 86/462 [00:03<00:11, 32.89it/s]

 20%|████████████████▏                                                                | 92/462 [00:03<00:09, 37.79it/s]

 21%|█████████████████                                                                | 97/462 [00:03<00:09, 39.80it/s]

 22%|█████████████████▋                                                              | 102/462 [00:03<00:09, 37.39it/s]

 23%|██████████████████▌                                                             | 107/462 [00:03<00:09, 36.30it/s]

 24%|███████████████████▍                                                            | 112/462 [00:03<00:09, 38.19it/s]

 25%|████████████████████▎                                                           | 117/462 [00:03<00:09, 37.70it/s]

 26%|█████████████████████▏                                                          | 122/462 [00:04<00:08, 38.75it/s]

 27%|█████████████████████▉                                                          | 127/462 [00:04<00:08, 41.04it/s]

 29%|██████████████████████▊                                                         | 132/462 [00:04<00:08, 37.59it/s]

 30%|███████████████████████▋                                                        | 137/462 [00:04<00:08, 40.51it/s]

 31%|████████████████████████▌                                                       | 142/462 [00:04<00:07, 41.92it/s]

 32%|█████████████████████████▊                                                      | 149/462 [00:04<00:06, 46.51it/s]

 33%|██████████████████████████▋                                                     | 154/462 [00:04<00:06, 46.56it/s]

 35%|████████████████████████████                                                    | 162/462 [00:04<00:05, 51.78it/s]

 37%|█████████████████████████████▊                                                  | 172/462 [00:04<00:04, 59.19it/s]

 39%|██████████████████████████████▉                                                 | 179/462 [00:05<00:05, 50.60it/s]

 41%|████████████████████████████████▌                                               | 188/462 [00:05<00:04, 58.19it/s]

 42%|█████████████████████████████████▊                                              | 195/462 [00:05<00:04, 54.86it/s]

 44%|██████████████████████████████████▉                                             | 202/462 [00:05<00:04, 56.80it/s]

 46%|████████████████████████████████████▌                                           | 211/462 [00:05<00:04, 62.14it/s]

 47%|█████████████████████████████████████▉                                          | 219/462 [00:05<00:03, 64.89it/s]

 49%|███████████████████████████████████████▍                                        | 228/462 [00:05<00:03, 70.14it/s]

 51%|█████████████████████████████████████████                                       | 237/462 [00:05<00:03, 72.91it/s]

 53%|██████████████████████████████████████████▍                                     | 245/462 [00:06<00:02, 74.05it/s]

 55%|███████████████████████████████████████████▉                                    | 254/462 [00:06<00:02, 76.50it/s]

 57%|█████████████████████████████████████████████▌                                  | 263/462 [00:06<00:02, 77.70it/s]

 59%|██████████████████████████████████████████████▉                                 | 271/462 [00:06<00:02, 77.79it/s]

 60%|████████████████████████████████████████████████▎                               | 279/462 [00:06<00:02, 75.32it/s]

 62%|█████████████████████████████████████████████████▊                              | 288/462 [00:06<00:02, 76.85it/s]

 64%|███████████████████████████████████████████████████▍                            | 297/462 [00:06<00:02, 76.95it/s]

 66%|████████████████████████████████████████████████████▉                           | 306/462 [00:06<00:01, 79.06it/s]

 70%|████████████████████████████████████████████████████████                        | 324/462 [00:06<00:01, 94.44it/s]

 73%|█████████████████████████████████████████████████████████▉                     | 339/462 [00:07<00:01, 105.56it/s]

 76%|████████████████████████████████████████████████████████████▊                   | 351/462 [00:07<00:01, 96.42it/s]

 78%|██████████████████████████████████████████████████████████████▋                 | 362/462 [00:07<00:01, 94.67it/s]

 81%|████████████████████████████████████████████████████████████████▌               | 373/462 [00:07<00:01, 85.03it/s]

 83%|██████████████████████████████████████████████████████████████████▎             | 383/462 [00:07<00:01, 70.91it/s]

 85%|███████████████████████████████████████████████████████████████████▋            | 391/462 [00:07<00:01, 65.23it/s]

 86%|█████████████████████████████████████████████████████████████████████           | 399/462 [00:07<00:00, 64.21it/s]

 88%|██████████████████████████████████████████████████████████████████████▎         | 406/462 [00:08<00:01, 45.75it/s]

 89%|███████████████████████████████████████████████████████████████████████▎        | 412/462 [00:08<00:01, 42.54it/s]

 90%|████████████████████████████████████████████████████████████████████████▍       | 418/462 [00:08<00:00, 45.33it/s]

 92%|█████████████████████████████████████████████████████████████████████████▍      | 424/462 [00:08<00:00, 47.29it/s]

 93%|██████████████████████████████████████████████████████████████████████████▍     | 430/462 [00:08<00:00, 37.58it/s]

 94%|███████████████████████████████████████████████████████████████████████████▎    | 435/462 [00:08<00:00, 39.49it/s]

 95%|████████████████████████████████████████████████████████████████████████████▏   | 440/462 [00:09<00:00, 39.26it/s]

 96%|█████████████████████████████████████████████████████████████████████████████   | 445/462 [00:09<00:00, 36.01it/s]

 97%|█████████████████████████████████████████████████████████████████████████████▋  | 449/462 [00:09<00:00, 32.78it/s]

 98%|██████████████████████████████████████████████████████████████████████████████▍ | 453/462 [00:09<00:00, 30.66it/s]

 99%|███████████████████████████████████████████████████████████████████████████████▏| 457/462 [00:09<00:00, 28.95it/s]

100%|███████████████████████████████████████████████████████████████████████████████▊| 461/462 [00:09<00:00, 30.38it/s]

100%|████████████████████████████████████████████████████████████████████████████████| 462/462 [00:09<00:00, 47.12it/s]




  0%|                                                                                          | 0/488 [00:00<?, ?it/s]

  1%|▊                                                                                 | 5/488 [00:00<00:11, 43.64it/s]

  2%|█▊                                                                               | 11/488 [00:00<00:10, 47.29it/s]

  3%|██▊                                                                              | 17/488 [00:00<00:09, 49.31it/s]

  5%|███▊                                                                             | 23/488 [00:00<00:09, 51.35it/s]

  6%|████▋                                                                            | 28/488 [00:00<00:09, 46.13it/s]

  7%|█████▍                                                                           | 33/488 [00:00<00:09, 46.75it/s]

  8%|██████▎                                                                          | 38/488 [00:00<00:10, 43.11it/s]

  9%|███████▏                                                                         | 43/488 [00:00<00:10, 44.12it/s]

 10%|███████▉                                                                         | 48/488 [00:01<00:10, 41.61it/s]

 11%|████████▊                                                                        | 53/488 [00:01<00:10, 39.97it/s]

 12%|█████████▉                                                                       | 60/488 [00:01<00:09, 44.81it/s]

 14%|██████████▉                                                                      | 66/488 [00:01<00:09, 46.46it/s]

 15%|███████████▊                                                                     | 71/488 [00:01<00:09, 43.10it/s]

 16%|████████████▌                                                                    | 76/488 [00:01<00:09, 41.69it/s]

 17%|█████████████▌                                                                   | 82/488 [00:01<00:09, 44.26it/s]

 18%|██████████████▌                                                                  | 88/488 [00:01<00:08, 46.36it/s]

 19%|███████████████▌                                                                 | 94/488 [00:02<00:08, 48.18it/s]

 20%|████████████████▍                                                               | 100/488 [00:02<00:07, 49.00it/s]

 22%|█████████████████▍                                                              | 106/488 [00:02<00:07, 50.92it/s]

 23%|██████████████████▎                                                             | 112/488 [00:02<00:07, 49.14it/s]

 24%|███████████████████▏                                                            | 117/488 [00:02<00:07, 46.81it/s]

 25%|████████████████████                                                            | 122/488 [00:02<00:08, 43.59it/s]

 26%|████████████████████▊                                                           | 127/488 [00:02<00:08, 44.42it/s]

 27%|█████████████████████▋                                                          | 132/488 [00:02<00:08, 44.18it/s]

 28%|██████████████████████▍                                                         | 137/488 [00:02<00:07, 44.61it/s]

 29%|███████████████████████▍                                                        | 143/488 [00:03<00:07, 47.35it/s]

 31%|████████████████████████▌                                                       | 150/488 [00:03<00:06, 51.28it/s]

 32%|█████████████████████████▋                                                      | 157/488 [00:03<00:06, 54.38it/s]

 33%|██████████████████████████▋                                                     | 163/488 [00:03<00:05, 55.24it/s]

 35%|███████████████████████████▋                                                    | 169/488 [00:03<00:05, 56.02it/s]

 36%|████████████████████████████▋                                                   | 175/488 [00:03<00:06, 51.28it/s]

 37%|█████████████████████████████▋                                                  | 181/488 [00:03<00:07, 43.51it/s]

 38%|██████████████████████████████▍                                                 | 186/488 [00:03<00:07, 39.66it/s]

 39%|███████████████████████████████▎                                                | 191/488 [00:04<00:07, 38.78it/s]

 40%|████████████████████████████████▏                                               | 196/488 [00:04<00:07, 38.99it/s]

 41%|████████████████████████████████▉                                               | 201/488 [00:04<00:07, 38.03it/s]

 42%|█████████████████████████████████▊                                              | 206/488 [00:04<00:07, 39.23it/s]

 43%|██████████████████████████████████▊                                             | 212/488 [00:04<00:06, 43.72it/s]

 45%|███████████████████████████████████▉                                            | 219/488 [00:04<00:05, 48.44it/s]

 46%|█████████████████████████████████████                                           | 226/488 [00:04<00:05, 52.22it/s]

 48%|██████████████████████████████████████▏                                         | 233/488 [00:04<00:04, 54.92it/s]

 49%|███████████████████████████████████████▏                                        | 239/488 [00:05<00:04, 56.18it/s]

 50%|████████████████████████████████████████▎                                       | 246/488 [00:05<00:04, 57.93it/s]

 52%|█████████████████████████████████████████▎                                      | 252/488 [00:05<00:04, 57.02it/s]

 53%|██████████████████████████████████████████▎                                     | 258/488 [00:05<00:04, 48.52it/s]

 54%|███████████████████████████████████████████▎                                    | 264/488 [00:05<00:05, 44.38it/s]

 55%|████████████████████████████████████████████                                    | 269/488 [00:05<00:05, 41.67it/s]

 56%|████████████████████████████████████████████▉                                   | 274/488 [00:05<00:05, 42.13it/s]

 57%|█████████████████████████████████████████████▋                                  | 279/488 [00:05<00:04, 43.24it/s]

 58%|██████████████████████████████████████████████▌                                 | 284/488 [00:06<00:04, 42.74it/s]

 59%|███████████████████████████████████████████████▍                                | 289/488 [00:06<00:04, 41.66it/s]

 60%|████████████████████████████████████████████████▎                               | 295/488 [00:06<00:04, 44.83it/s]

 62%|█████████████████████████████████████████████████▎                              | 301/488 [00:06<00:03, 46.80it/s]

 63%|██████████████████████████████████████████████████▎                             | 307/488 [00:06<00:03, 48.17it/s]

 64%|███████████████████████████████████████████████████▏                            | 312/488 [00:06<00:03, 46.71it/s]

 65%|████████████████████████████████████████████████████▏                           | 318/488 [00:06<00:03, 49.11it/s]

 67%|█████████████████████████████████████████████████████▎                          | 325/488 [00:06<00:03, 52.00it/s]

 68%|██████████████████████████████████████████████████████▎                         | 331/488 [00:07<00:03, 50.21it/s]

 69%|███████████████████████████████████████████████████████▏                        | 337/488 [00:07<00:03, 48.67it/s]

 70%|████████████████████████████████████████████████████████                        | 342/488 [00:07<00:03, 47.45it/s]

 71%|████████████████████████████████████████████████████████▉                       | 347/488 [00:07<00:03, 45.98it/s]

 72%|█████████████████████████████████████████████████████████▋                      | 352/488 [00:07<00:03, 43.94it/s]

 73%|██████████████████████████████████████████████████████████▌                     | 357/488 [00:07<00:02, 44.02it/s]

 74%|███████████████████████████████████████████████████████████▎                    | 362/488 [00:07<00:02, 45.40it/s]

 75%|████████████████████████████████████████████████████████████▎                   | 368/488 [00:07<00:02, 48.32it/s]

 77%|█████████████████████████████████████████████████████████████▍                  | 375/488 [00:07<00:02, 51.95it/s]

 78%|██████████████████████████████████████████████████████████████▍                 | 381/488 [00:08<00:01, 54.12it/s]

 79%|███████████████████████████████████████████████████████████████▍                | 387/488 [00:08<00:01, 53.87it/s]

 81%|████████████████████████████████████████████████████████████████▌               | 394/488 [00:08<00:01, 56.19it/s]

 82%|█████████████████████████████████████████████████████████████████▌              | 400/488 [00:08<00:01, 54.91it/s]

 83%|██████████████████████████████████████████████████████████████████▌             | 406/488 [00:08<00:01, 52.42it/s]

 85%|███████████████████████████████████████████████████████████████████▋            | 413/488 [00:08<00:01, 55.07it/s]

 86%|█████████████████████████████████████████████████████████████████████           | 421/488 [00:08<00:01, 59.32it/s]

 88%|██████████████████████████████████████████████████████████████████████▎         | 429/488 [00:08<00:00, 62.63it/s]

 90%|███████████████████████████████████████████████████████████████████████▋        | 437/488 [00:08<00:00, 65.50it/s]

 91%|████████████████████████████████████████████████████████████████████████▊       | 444/488 [00:09<00:00, 66.59it/s]

 93%|██████████████████████████████████████████████████████████████████████████      | 452/488 [00:09<00:00, 67.87it/s]

 94%|███████████████████████████████████████████████████████████████████████████▏    | 459/488 [00:09<00:00, 67.49it/s]

 95%|████████████████████████████████████████████████████████████████████████████▍   | 466/488 [00:09<00:00, 65.16it/s]

 97%|█████████████████████████████████████████████████████████████████████████████▌  | 473/488 [00:09<00:00, 62.09it/s]

 98%|██████████████████████████████████████████████████████████████████████████████▋ | 480/488 [00:09<00:00, 59.66it/s]

100%|███████████████████████████████████████████████████████████████████████████████▊| 487/488 [00:09<00:00, 56.38it/s]

100%|████████████████████████████████████████████████████████████████████████████████| 488/488 [00:09<00:00, 49.94it/s]





Similar solutions for problem 156:




[(Сикалов Никита, Сунгатуллин Руслан), 0.18]





Similar solutions for problem 314:




[(Ахметзянов Талгат, Кревский Михаил), 0.15], [(Ахметзянов Талгат, Никулов Сергей), 0.15], [(Ахметзянов Талгат, Пономаренко Николай), 0.15], [(Ахметзянов Талгат, Якупова Аделина), 0.15], [(Кревский Михаил, Никулов Сергей), 0.02], [(Кревский Михаил, Пономаренко Николай), 0.02], [(Кревский Михаил, Якупова Аделина), 0.02], [(Никулов Сергей, Пономаренко Николай), 0.02], [(Никулов Сергей, Якупова Аделина), 0.02], [(Пономаренко Николай, Якупова Аделина), 0.02]





Similar solutions for problem 37:




[(Морковкин Василий, Пименов Павел (2016)), 0.49]





Similar solutions for problem 84:




[(Сунгатуллин Руслан, Баскаков Никита (2016)), 0.49]


