In [81]:
import os 
import ast

from random import choices, choice
from functools import lru_cache

In [3]:
def read_code(name, directory='files'):
    with open(f'{directory}/{name}', encoding='utf8') as f:
        file = f.read()
    return file
    
code = read_code('auto.py', 'files')
plagiat1 = read_code('auto.py', 'plagiat1')
plagiat2 = read_code('auto.py', 'plagiat2')

In [4]:
# Пример оригинального и сплагиаченного кода

for program in code, plagiat1, plagiat2:
    print(50*'-' + '\n\n' + program)

--------------------------------------------------

import pathlib

import pandas as pd

from etna.auto import Auto
from etna.datasets import TSDataset
from etna.metrics import SMAPE

CURRENT_DIR_PATH = pathlib.Path(__file__).parent

if __name__ == "__main__":
    df = pd.read_csv(CURRENT_DIR_PATH / "data" / "example_dataset.csv")

    ts = TSDataset.to_dataset(df)
    ts = TSDataset(ts, freq="D")

    # Create Auto object for greedy search
    # All trials will be saved in sqlite database
    # You can use it later for analysis with ``Auto.summary``
    auto = Auto(
        target_metric=SMAPE(),
        horizon=14,
        experiment_folder="auto-example",
    )

    # Get best pipeline
    best_pipeline = auto.fit(ts, catch=(Exception,))
    print(best_pipeline)

    # Get all metrics of greedy search
    print(auto.summary())

--------------------------------------------------

import pathlib
import pandas as pd
from etna.auto import Auto
from etna.datasets import TSDataset
from et

Мы хотим создать некоторый алфавит типов, из которых будут состоять наши слова-программы
Для успешного обучения, мы ограничим число используемых типов каким-то разумным значением
Найдём наиболее часто встречающиеся типы

In [82]:
class CodeVisitor(ast.NodeVisitor):
    
    def __init__(self):
        self.code_list = []
    
    def generic_visit(self, node):
        self.code_list.append(type(node))
        super().generic_visit(node)
        
def code_to_list(code):
    c = CodeVisitor()
    tree = ast.parse(code)
    c.visit(tree)
    return c.code_list

In [83]:
types = {}
for name in os.listdir('files'):
    
    with open(f'files/{name}', encoding='utf8') as file:
        for line in code_to_list(file.read()):
            if line in types:
                types[line] += 1
            else:
                types[line] = 1
            

print(*sorted(types.items(), key=lambda x: x[1], reverse=True), sep='\n')

(<class '_ast.Load'>, 66931)
(<class '_ast.Name'>, 49024)
(<class '_ast.Constant'>, 23135)
(<class '_ast.Attribute'>, 18483)
(<class '_ast.Call'>, 14924)
(<class '_ast.Store'>, 11112)
(<class '_ast.Assign'>, 8483)
(<class '_ast.keyword'>, 7058)
(<class '_ast.arg'>, 5518)
(<class '_ast.Subscript'>, 5080)
(<class '_ast.Index'>, 4855)
(<class '_ast.Expr'>, 3534)
(<class '_ast.List'>, 2772)
(<class '_ast.Tuple'>, 2625)
(<class '_ast.alias'>, 2571)
(<class '_ast.arguments'>, 2544)
(<class '_ast.FunctionDef'>, 2409)
(<class '_ast.BinOp'>, 2117)
(<class '_ast.Compare'>, 1747)
(<class '_ast.ImportFrom'>, 1668)
(<class '_ast.Return'>, 1224)
(<class '_ast.If'>, 1133)
(<class '_ast.Eq'>, 892)
(<class '_ast.Assert'>, 857)
(<class '_ast.Slice'>, 830)
(<class '_ast.Add'>, 823)
(<class '_ast.UnaryOp'>, 809)
(<class '_ast.Import'>, 687)
(<class '_ast.Dict'>, 685)
(<class '_ast.USub'>, 639)
(<class '_ast.For'>, 528)
(<class '_ast.Mult'>, 477)
(<class '_ast.Sub'>, 451)
(<class '_ast.ExtSlice'>, 445)
(<c

ClassDef является важнейшим элементом синтаксиса, который, тем не менее, встречается крайне редко. Давайте выбросим из словаря все синтаксические конструкции, встречающиеся реже, чем ClassDef.

In [8]:
alphabet = [name for name, value in filter(lambda x: x[1] > 310, types.items())]
with open('aplhabet.txt', 'w') as alpha:
    for line in alphabet:
        alpha.write(str(line) + '\n')
alphabet

[_ast.Import,
 _ast.alias,
 _ast.ImportFrom,
 _ast.ClassDef,
 _ast.Name,
 _ast.Load,
 _ast.Expr,
 _ast.Constant,
 _ast.FunctionDef,
 _ast.arguments,
 _ast.arg,
 _ast.Subscript,
 _ast.Index,
 _ast.Assign,
 _ast.Attribute,
 _ast.Store,
 _ast.If,
 _ast.Call,
 _ast.Return,
 _ast.ExtSlice,
 _ast.Slice,
 _ast.BinOp,
 _ast.Add,
 _ast.keyword,
 _ast.List,
 _ast.Tuple,
 _ast.Sub,
 _ast.Compare,
 _ast.Eq,
 _ast.For,
 _ast.Mult,
 _ast.Div,
 _ast.Raise,
 _ast.UnaryOp,
 _ast.USub,
 _ast.Dict,
 _ast.comprehension,
 _ast.Assert]

In [127]:
[print('"' + str(a) + '", ') for a in alphabet]

"<class '_ast.Import'>", 
"<class '_ast.alias'>", 
"<class '_ast.ImportFrom'>", 
"<class '_ast.ClassDef'>", 
"<class '_ast.Name'>", 
"<class '_ast.Load'>", 
"<class '_ast.Expr'>", 
"<class '_ast.Constant'>", 
"<class '_ast.FunctionDef'>", 
"<class '_ast.arguments'>", 
"<class '_ast.arg'>", 
"<class '_ast.Subscript'>", 
"<class '_ast.Index'>", 
"<class '_ast.Assign'>", 
"<class '_ast.Attribute'>", 
"<class '_ast.Store'>", 
"<class '_ast.If'>", 
"<class '_ast.Call'>", 
"<class '_ast.Return'>", 
"<class '_ast.ExtSlice'>", 
"<class '_ast.Slice'>", 
"<class '_ast.BinOp'>", 
"<class '_ast.Add'>", 
"<class '_ast.keyword'>", 
"<class '_ast.List'>", 
"<class '_ast.Tuple'>", 
"<class '_ast.Sub'>", 
"<class '_ast.Compare'>", 
"<class '_ast.Eq'>", 
"<class '_ast.For'>", 
"<class '_ast.Mult'>", 
"<class '_ast.Div'>", 
"<class '_ast.Raise'>", 
"<class '_ast.UnaryOp'>", 
"<class '_ast.USub'>", 
"<class '_ast.Dict'>", 
"<class '_ast.comprehension'>", 
"<class '_ast.Assert'>", 


[None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None]

Теперь можно каждую программу записать как последовательность символов: каждой операции будет соответствовать какая-то "буква" алфавита. 

Также отметим, что некоторые файлы невозможно запарсить с помощью библиотеки ast, если такие файлы содержат синтаксическую ошибку. Таких файлов всего 12 и 16  из 306 в первой и второй папке соответственно. Для практического применения знание о наличии плагиата в неработающей программе практически лишёно смысла поскольку ключевым фактором оценки такой программы будет банальная невозможность её запустить. По этой причине я буду считать эти файлы outlier-ами и не буду учитывать их при обучении модели.

На этапе предсказаний я дам такой программе нулевую степень сходства с любой другой программой (можно было бы давать полное сходство с другой программой, если та тоже содержит синтаксическую ошибку, но такую реализацию было бы тяжелее реализовать на практике)

Перепишем code_to_list учитывая новый алфавит

In [9]:
alphabet_mapping = {word: index for index, word in enumerate(alphabet)}
alphabet_mapping

{_ast.Import: 0,
 _ast.alias: 1,
 _ast.ImportFrom: 2,
 _ast.ClassDef: 3,
 _ast.Name: 4,
 _ast.Load: 5,
 _ast.Expr: 6,
 _ast.Constant: 7,
 _ast.FunctionDef: 8,
 _ast.arguments: 9,
 _ast.arg: 10,
 _ast.Subscript: 11,
 _ast.Index: 12,
 _ast.Assign: 13,
 _ast.Attribute: 14,
 _ast.Store: 15,
 _ast.If: 16,
 _ast.Call: 17,
 _ast.Return: 18,
 _ast.ExtSlice: 19,
 _ast.Slice: 20,
 _ast.BinOp: 21,
 _ast.Add: 22,
 _ast.keyword: 23,
 _ast.List: 24,
 _ast.Tuple: 25,
 _ast.Sub: 26,
 _ast.Compare: 27,
 _ast.Eq: 28,
 _ast.For: 29,
 _ast.Mult: 30,
 _ast.Div: 31,
 _ast.Raise: 32,
 _ast.UnaryOp: 33,
 _ast.USub: 34,
 _ast.Dict: 35,
 _ast.comprehension: 36,
 _ast.Assert: 37}

In [84]:
def code_to_list(code):
    c = CodeVisitor()
    tree = ast.parse(code)
    c.visit(tree)
    return list(map(lambda x: alphabet_mapping[x], filter(lambda x: x in alphabet, c.code_list)))

In [11]:
cnt_errors = 0
cnt_match = 0
for name in os.listdir('files'):
    code1 = read_code(name, 'files')
    code2 = read_code(name, 'plagiat1')
    try:
        if code_to_list(code1) == code_to_list(code2):
            cnt_match += 1
    except SyntaxError:
        cnt_errors += 1
        
print(cnt_errors)
print(cnt_match)

0
23


Давайте удалим те файлы, которые невозможно запарсить. 

In [301]:
error_files = set()


for name in os.listdir('files'):
    code1 = read_code(name, 'plagiat2')
    code2 = read_code(name, 'plagiat1')
    try:
        code_to_list(code1)
        code_to_list(code2)
    except SyntaxError:
        error_files.add(name)
        
error_files

{'_workarounds.py',
 'base.py',
 'bn_inception_simple.py',
 'cars196.py',
 'classification.py',
 'date_flags.py',
 'deepar.py',
 'eda_utils.py',
 'eval-speed.py',
 'generator.py',
 'imputation.py',
 'iql.py',
 'load-metrics.py',
 'mixins.py',
 'optuna_example.py',
 'plotters.py',
 'rnn.py',
 'runner.py',
 'sac_n.py',
 'sampler.py',
 'statistics.py',
 'test_add_constant_transform.py',
 'test_autoarima_model.py',
 'test_dirac.py',
 'test_predictability.py',
 'test_timeflags_transform.py',
 'test_voting_ensemble.py',
 'trend.py'}

In [303]:
for name in error_files:
    for directory in 'files', 'plagiat1', 'plagiat2':
        os.remove(f'{directory}/{name}')

Осталось написать алгоритм для нахождения расстояния Левенштейна. При этом у нас остаётся выбор параметров модели: мы можем установить цену удаления/вставки той или иной буквы, а также цену замены буквы i на букву j. В алфавите из 39 параметров это даст 39 * 2 + 39 * 38 = 1560 параметров. Очевидно, это будет слишком много для того чтобы хорошо обучить модель всего на 278 файлах (мы можем составить 278 * 277 пар файлов, чего было бы достаточно и для обучения и для проверки модели, однако, вероятнее всего, на практике при использовании модели, примерно равная вероятность копирайта и не-копирайта)

Скорее всего введение даже 39 или 78 параметров будет излишним. Поэтому у моей модели будет всего 3 параметра: цена удаления, цена вставки и цена замены букв. При таком количестве параметров мы сможем вместо градиентного спуска применить grid search и найти оптимальные параметры непосредственно перебором.

## Осталось написать модель

Начнём с алгоритма:
Обычный алгоритм левенштейна имеет большой недостаток, который заключается в том, что длинные последовательности, даже если они похожи, будут выдавать большие значения. Поэтому мы нормализуем значение, разделив его на наибольшее из длин последовательностей символов.

In [76]:
def wagner_fisher(code1: list, code2: list, rep_cost=1, del_cost=1, ins_cost=1):
    prev_line = [j * ins_cost for j in range(len(code2))]
    new_line = [0] * len(code2)
    for i in range(len(code1)):
        for j in range(len(code2)):
            if j == 0:
                new_line[0] = i * del_cost
            else:
                new_line[j] = min(prev_line[j] + del_cost, 
                                  new_line[j - 1] + ins_cost,
                                  prev_line[j - 1] + rep_cost * (code1[i] != code2[j]))
        prev_line, new_line = new_line, [0] * len(code2)
    try:
        return 1 - prev_line[-1] / (rep_cost * max(len(code2), len(code1)))
    except IndexError:
        if len(code1) == len(code2):
            return 1
        return 0

Давайте посмотрим на числа, которые выдаёт наш алгоритм при поиске плагиата.

In [49]:
os.listdir('files')

['add_constant.py',
 'any_percent_bc.py',
 'apply_lambda.py',
 'arima.py',
 'assembling_pipelines.py',
 'auto.py',
 'autoarima.py',
 'autoregressive_pipeline.py',
 'awac.py',
 'backtest_command.py',
 'base_change_points.py',
 'basic.py',
 'binseg.py',
 'callbacks.py',
 'catboost.py',
 'categorical.py',
 'cgd.py',
 'change_points_segmentation.py',
 'change_points_trend.py',
 'check_imported_dependencies.py',
 'cifar.py',
 'classifier.py',
 'cnn.py',
 'collection.py',
 'common.py',
 'conf.py',
 'config.py',
 'config_sampler.py',
 'conftest.py',
 'console_logger.py',
 'cql.py',
 'criterion.py',
 'cub200.py',
 'cutout.py',
 'cval.py',
 'datasets_generation.py',
 'deadline_ma.py',
 'debug.py',
 'decorators.py',
 'defaults.py',
 'density_outliers.py',
 'detrend.py',
 'differencing.py',
 'dirac.py',
 'direct_ensemble.py',
 'distance_matrix.py',
 'distribution.py',
 'dt.py',
 'dtw_clustering.py',
 'dtw_distance.py',
 'dummy.py',
 'edac.py',
 'embedder.py',
 'euclidean_clustering.py',
 'euclide

In [79]:
scores = 0
cnt = 0

for name in os.listdir('files'):
    cnt += 1
    code1 = code_to_list(read_code(name, 'files'))
    code2 = code_to_list(read_code(name, 'plagiat1'))
    score = wagner_fisher(code1, code2)
    scores += score
    print(name, '\n', score)

print(scores/cnt)

add_constant.py 
 0.5408805031446541
any_percent_bc.py 
 0.8448406676783005
apply_lambda.py 
 0.605072463768116
arima.py 
 0.9969418960244648
assembling_pipelines.py 
 1.0
auto.py 
 1.0
autoarima.py 
 0.7517241379310344
autoregressive_pipeline.py 
 0.6637931034482758
awac.py 
 0.5698308001147118
backtest_command.py 
 1.0
base_change_points.py 
 0.8184143222506394
basic.py 
 1.0
binseg.py 
 1.0
callbacks.py 
 1.0
catboost.py 
 0.8667334669338678
categorical.py 
 0.7149187592319055
cgd.py 
 0.9936507936507937
change_points_segmentation.py 
 0.6207865168539326
change_points_trend.py 
 0.6933667083854819
check_imported_dependencies.py 
 1.0
cifar.py 
 0.5985915492957746
classifier.py 
 0.6595092024539877
cnn.py 
 0.6098066298342542
collection.py 
 0.6556145004420866
common.py 
 0.971671388101983
conf.py 
 0.9927797833935018
config.py 
 0.9912663755458515
config_sampler.py 
 0.6134751773049645
conftest.py 
 1.0
console_logger.py 
 0.44318181818181823
cql.py 
 0.7162837162837163
criterion.py

test_regularization_search.py 
 0.9911894273127754
test_relevance.py 
 0.9841269841269842
test_relevance_table.py 
 0.7716857610474632
test_reproducibility.py 
 0.7447619047619047
test_resample_transform.py 
 0.9946666666666667
test_rnn.py 
 1.0
test_sampler.py 
 0.6691358024691358
test_sarimax_model.py 
 0.8574585635359115
test_scalers_transform.py 
 0.9809782608695652
test_segment_encoder_transform.py 
 1.0
test_simple_models.py 
 0.7519984012789769
test_sklearn.py 
 0.9864864864864865
test_sklearn_transform_interface.py 
 0.9919614147909968
test_special_days_transform.py 
 0.9841269841269842
test_stacking_ensemble.py 
 0.926829268292683
test_stages.py 
 0.5322812051649928
test_statistics_transform.py 
 0.9333333333333333
test_stl_transform.py 
 0.988834612700628
test_tbats.py 
 0.9971387696709585
test_tft.py 
 0.9920477137176938
test_to_dict.py 
 0.988833746898263
test_transform.py 
 0.5498371335504886
test_transform_quantiles.py 
 0.9863481228668942
test_trend_transform.py 
 0.8150

Можем заметить, что в большинстве случаев наш простой алгоритм даёт на плагиате score более 0.9. Но иногда значение опускается ниже 0.5. Достаточно ли такого такого алгоритма чтобы отличить плагиат от не-плагиата в большинстве случаев? Давайте попробуем сделать произвольную выборку из приблизительно 200 кодов, которые не являются плагиатами друг друга и посмотрим на score, который получают эти программы. 

In [78]:
scores = 0
cnt = 0

names_list = os.listdir('files')
codes1, codes2 = choices(names_list, k=200), choices(names_list, k=200)

for name1, name2 in zip(codes1, codes2):
    if name1 != name2:
        cnt += 1
        code1 = code_to_list(read_code(name1, 'files'))
        code2 = code_to_list(read_code(name2, 'plagiat1'))
        score = wagner_fisher(code1, code2)
        if score > 0.45:
            print(name1, name2, '\n', score)
        scores += score
        

print('\n', 50*'_', '\nresult:', scores/cnt)

pipeline.py generate-reality.py 
 0.4571984435797666
test_auto.py direct_ensemble.py 
 0.4570596797671034
relevance_table.py tbats.py 
 0.4508196721311475
edac.py tsdataset.py 
 0.4515356131561751

 __________________________________________________ 
result: 0.27005094830980353


Во время моего запуска кода на 197 случайных сравнениях, средний score был около 0.27 и почти ни в каких сравнениях score не был выше 0.5. Выполним проверку модели на полностью случайных выборках:

In [118]:
def one_batch(alphabet=os.listdir('files'), size=200):
    for file in choices(alphabet, k=size):
        yield code_to_list(read_code(file, 'files')), code_to_list(read_code(file, 'plagiat1'))
    for i in range(200):
        file1, file2 = choice(alphabet), choice(alphabet)
        while file1 == file2:
            file1, file2 = choice(alphabet), choice(alphabet)
        yield code_to_list(read_code(file1, 'files')), code_to_list(read_code(file2, 'plagiat1'))

        
price, division = 1, 0.45
scores = 0
gen = one_batch()
for i in range(400):
    result = wagner_fisher(*next(gen), price)
    if result > division and i // 200 == 0 or result <= division and i // 200 == 1:
        scores += 1
    print(i, scores, '\t\t', result)
with open('model.txt', 'w') as model:
    model.write(str(price) + ' ' + str(division) + ':\t;t' + str(scores / 400) + '\n')

0 1 		 0.9965367965367965
1 2 		 0.9904306220095693
2 3 		 0.7443840579710145
3 4 		 0.9595959595959596
4 5 		 0.5366161616161615
5 6 		 0.9914376742333731
6 7 		 0.9955995599559956
7 8 		 0.9954998392799743
8 9 		 0.9918116683725691
9 10 		 0.5275707898658719
10 11 		 0.9440459110473458
11 12 		 1.0
12 13 		 0.9951865222623345
13 14 		 0.9906103286384976
14 15 		 0.9896840747904577
15 16 		 0.621933621933622
16 17 		 0.9595959595959596
17 18 		 1.0
18 19 		 0.6334459459459459
19 20 		 0.825287356321839
20 21 		 0.6784037558685446
21 22 		 0.6919475655430711
22 23 		 0.6703947997323392
23 24 		 0.7890295358649789
24 25 		 0.5679627783316716
25 26 		 0.8508098891730606
26 27 		 1.0
27 28 		 0.9955377063810799
28 29 		 0.9941262848751835
29 30 		 0.8828451882845189
30 31 		 0.6322333811573411
31 32 		 0.6427604871447903
32 33 		 0.9921104536489151
33 34 		 0.985546522131888
34 35 		 0.9990880072959416
35 36 		 0.7230929989550678
36 37 		 0.8987108655616943
37 38 		 0.881965051104517
38 3

KeyboardInterrupt: 

Параметры price = 1, division = 0.45 позволяют добиться 98% точности, что можно считать достаточным. Для того, чтобы нормализовать результат (чтобы границей было 0.5) мы пожертвуем точностью на краях распределения и повысим оценку каждой пары до min(1, 0.05 + score)

In [131]:
import pickle

In [132]:
alphabet

[_ast.Import,
 _ast.alias,
 _ast.ImportFrom,
 _ast.ClassDef,
 _ast.Name,
 _ast.Load,
 _ast.Expr,
 _ast.Constant,
 _ast.FunctionDef,
 _ast.arguments,
 _ast.arg,
 _ast.Subscript,
 _ast.Index,
 _ast.Assign,
 _ast.Attribute,
 _ast.Store,
 _ast.If,
 _ast.Call,
 _ast.Return,
 _ast.ExtSlice,
 _ast.Slice,
 _ast.BinOp,
 _ast.Add,
 _ast.keyword,
 _ast.List,
 _ast.Tuple,
 _ast.Sub,
 _ast.Compare,
 _ast.Eq,
 _ast.For,
 _ast.Mult,
 _ast.Div,
 _ast.Raise,
 _ast.UnaryOp,
 _ast.USub,
 _ast.Dict,
 _ast.comprehension,
 _ast.Assert]

In [134]:
with open("alphabet", "wb") as fp:   
    pickle.dump(alphabet, fp)