In [1]:
import pandas as pd

# Описание датасета

Датасет состоит из нескольких частей:

- датасет со сниппетами кода, содержащими ошибки (`buggy_dataset.rar`)
- датасет со сниппетами, содержащими корректный код (`correct_dataset.rar`)

Датасет с кодом внутри каждого архива разбит на части:

- обучающая выборка (`bugfixes_train.pickle` и `correct_source_code_train.pickle`)
- валидационная выборка (`bugfixes_valid.pickle` и `correct_source_code_valid.pickle`)
- тестовая выборка (`bugfixes_test.pickle` и `correct_source_code_test.pickle`).

Сниппеты кода берутся из репозиториев из GitHub. Репозитории, представленные в тестовой выборке, не представлены в обучающей выборке, однако представлены в валидационной выборке.

В дополнение к исходному тексту сниппетов, их исходный код также содержатся в виде файлов в прилагаемых архивах `buggy_snippets_files.rar` и `stable_snippets_files.rar`.

# Загрузка данных датасетов

Загрузим, например, обучающую выборку из датасета со сниппетами, содержащими ошибки (файл `bugfixes_train.pickle`).

In [2]:
path_to_buggy_data = '/home/kks/zephyr_data/buggy_code/'
bugfixes_train = pd.read_pickle(path_to_buggy_data + 'bugfixes_train.pickle')

# Описание датасета с кодом с ошибками

Покажем список колонок таблицы:

In [3]:
bugfixes_train.columns

Index(['after_merge', 'before_merge', 'commit_message', 'commit_sha',
       'commit_summary', 'commit_type', 'filename',
       'full_file_code_after_merge', 'full_file_code_before_merge',
       'function_name', 'url', 'merge_commit_sha', 'pr_type', 'pr_url',
       'title', 'bodyHTML', 'bug report', 'closedAt', 'createdAt',
       'publishedAt', 'author', 'labels',
       'referencing commits not linked to PRs',
       'referencing commits linked to PRs',
       'closing commits not linked to PRs', 'closing commits linked to PRs',
       'closing PRs', 'linked PRs', 'mentioning PRs',
       'PRs for referencing commits', 'duplicate',
       'has mentioning, linked or closing PRs', 'has related commits and PRs',
       'source code and errors', 'keyword closing PRs', 'non-closing PRs',
       'relevant non-closing PRs', 'all relevant PRs', 'most relevant PRs',
       'keyword closing commits', 'non-closing commits',
       'relevant non-closing commits', 'all relevant commits',
     

В колонках `after_merge` и `before_merge` содержится исходный код сниппетов с ошибками после их исправления и до их исправления. Иными словами, в колонке `before_merge` содержатся исходный текст сниппетов кода с ошибками, а в колонке `after_merge` - исходный текст этих сниппетов сразу после исправления ошибок.

In [4]:
bugfixes_train.head()

Unnamed: 0,after_merge,before_merge,commit_message,commit_sha,commit_summary,commit_type,filename,full_file_code_after_merge,full_file_code_before_merge,function_name,...,all relevant commits,most relevant commits,full_traceback,traceback_type,before_merge_without_docstrings,after_merge_without_docstrings,before_merge_docstrings,after_merge_docstrings,path_to_snippet_before_merge,path_to_snippet_after_merge
1909,@cli.command()\n@click.argument('result_pickle...,@cli.command()\n@click.argument('result_pickle...,fix https://github.com/ricequant/rqalpha/issue...,32e70a06c7ca62c5c2b4adf5150e01e1cd33eee1,fix https://github.com/ricequant/rqalpha/issue...,most relevant commits,rqalpha/mod/rqalpha_mod_sys_analyser/__init__.py,# -*- coding: utf-8 -*-\n#\n# Copyright 2017 R...,# -*- coding: utf-8 -*-\n#\n# Copyright 2017 R...,plot,...,[{'commitUrl': 'https://github.com/ricequant/r...,[{'commitUrl': 'https://github.com/ricequant/r...,"Traceback (most recent call last):\nFile ""c:\p...",TypeError,@cli.command()\n@click.argument('result_pickle...,@cli.command()\n@click.argument('result_pickle...,[[sys_analyser] draw result DataFrame],[[sys_analyser] draw result DataFrame],buggy_snippets_files/1b26d646e62a8d394be4573db...,buggy_snippets_files/1b26d646e62a8d394be4573db...
2568,"def stream_logs(self):\n """"""Stream a pod's ...","def stream_logs(self):\n """"""Stream a pod's ...",Merge pull request #185 from minrk/avoid-failu...,,Merge pull request #185 from minrk/avoid-failure,,binderhub/build.py,"""""""\nContains build of a docker image from a g...","""""""\nContains build of a docker image from a g...",Build.stream_logs,...,[],[],/ # jupyter-repo2docker https://github.com/yuv...,FileNotFoundError,def stream_logs(self):\n \n for line in ...,def stream_logs(self):\n \n for line in ...,[Stream a pod's log.],[Stream a pod's log.],buggy_snippets_files/e140d339be68a93ae4918849a...,buggy_snippets_files/e140d339be68a93ae4918849a...
24555,"@Slot(str)\ndef addRecentProjectFile(self, pro...","@Slot(str)\ndef addRecentProjectFile(self, pro...",Merge pull request #940 from ChemicalXandco/fi...,,Merge pull request #940 from ChemicalXandco/fi...,,meshroom/ui/app.py,import logging\nimport os\nimport argparse\n\n...,import logging\nimport os\nimport argparse\n\n...,MeshroomApp.addRecentProjectFile,...,[],[],"[2020-05-23 16:12:48,660][ERROR] Traceback (mo...",OSError,"@Slot(str)\ndef addRecentProjectFile(self, pro...","@Slot(str)\ndef addRecentProjectFile(self, pro...",[],[],buggy_snippets_files/7045396915b1950e5d4c0d015...,buggy_snippets_files/7045396915b1950e5d4c0d015...
24559,"def addSfmAugmentation(self, withMVS=False):\n...","def addSfmAugmentation(self, withMVS=False):\n...",Merge pull request #140 from alicevision/fix_l...,,Merge pull request #140 from alicevision/fix_l...,,meshroom/ui/reconstruction.py,import logging\nimport os\nfrom threading impo...,import logging\nimport os\nfrom threading impo...,Reconstruction.addSfmAugmentation,...,[],[],"Traceback (most recent call last):\nFile ""C:\U...",RuntimeError,"def addSfmAugmentation(self, withMVS=False):\n...","def addSfmAugmentation(self, withMVS=False):\n...",[Create a new augmentation step connected to t...,[Create a new augmentation step connected to t...,buggy_snippets_files/6e34b43028572a05882fee2a8...,buggy_snippets_files/6e34b43028572a05882fee2a8...
26152,def load_pymathics_doc(self):\n if self.pym...,def load_pymathics_doc(self):\n if self.pym...,Fixed #906\n,b2602cc15c6dd93b676031dc6efd3b4f5c4b084e,Fixed #906,most relevant commits,mathics/doc/doc.py,#!/usr/bin/env python3\n# -*- coding: utf-8 -*...,#!/usr/bin/env python3\n# -*- coding: utf-8 -*...,MathicsMainDocumentation.load_pymathics_doc,...,[{'commitUrl': 'https://github.com/mathics/Mat...,[{'commitUrl': 'https://github.com/mathics/Mat...,$ mathicsserver\nwarning: database file /home/...,KeyError,def load_pymathics_doc(self):\n if self.pym...,def load_pymathics_doc(self):\n if self.pym...,[],[],buggy_snippets_files/022d3bdc74ccf0463b864bf1e...,buggy_snippets_files/022d3bdc74ccf0463b864bf1e...


Колонки с названиями `filename` и `function_name` содержат локализацию сниппета, т.е. название файла, где он содержится, а также название функции или метода соответственно. Колонки с названиями `full_file_code_after_merge` и `full_file_code_before_merge` содержат текст модуля, содержащего соответствующий сниппет после и до исправления (`after_merge` и `before_merge`). Колонки `commit_message`, `commit_sha` и `commit_summary` содержат информацию по коммитам (но не мердж-коммитам пулл-реквестов), из которых берутся исправления. Колонка `url` содержит ссылку на страницу инцидента, ассоциированного с данным исправлением. Колонки `title`, `bodyHTML`, `bug report`, `closedAt`, `createdAt`, `publishedAt`, `author` и `labels` содержат информацию о названии инцидента, тексте описания ошибки в разметке HTML, обычный текст ошибки (без разметки), даты закрытия, создания и опубликования информации об инциденте, авторе инцидента и метках, присвоенных инциденту (метки типа bug или похожие). Колонки `merge_commit_sha`, `pr_type`, `pr_url` описывают sha мердж-коммита, типа пулл-реквеста (закрывающий, упоминающий, связанный). Колонки `referencing commits not linked to PRs`, `referencing commits linked to PRs`, `closing commits not linked to PRs`, `closing commits linked to PRs`, `closing PRs`, `linked PRs`, `mentioning PRs` и `PRs for referencing commits` содержат информацию вообще обо всех коммитах и пулл-реквестах, упоминавшихся на странице инцидента. Колонки `has mentioning, linked or closing PRs`, `has related commits and PRs` содержат `True` или `False` значения о наличии любых упоминаний об исправлениях на странице данного инцидента (существовании для этого инцидента хотя бы каких-то исправлений в виде пулл-реквестов и коммитов).
       

Колонка `source code and errors` содержит весьма полезную информацию о различных секциях в описании инцидента, таких как секции с исходным кодом (часто воспроизводящим ошибку), а также секции с описанием ошибок (traceback). Вообще HTML-разметка с текстом инцидента (колонка `bodyHTML`) содержит кроме этой информации также много другой. Полезность HTML-разметки как раз и состоит в том, что различные секции выделены с помощью специальных ключевых слов и символов.

Колонки `keyword closing PRs`, `non-closing PRs`, `relevant non-closing PRs`, `all relevant PRs`, `most relevant PRs`, `keyword closing commits`, `non-closing commits`, `relevant non-closing commits` и `all relevant commits` содержат все наиболее релевантные инциденту пулл-реквесты и коммиты. Точнее, есть закрывающие инцидент коммиты и пулл-реквесты, которые наиболее релевантны, а также коммиты и пулл-реквесты, закрывающие инцидент посредством ключевых слов в своем сообщении (в GitHub имеется соглашение о том, какие слова нужно писать в описании пулл-реквеста или коммита для того чтобы при слиянии (мердж) пулл-реквеста или коммита происходило автоматическое закрытие инцидента). Среди остальных коммитов и пулл-реквестов также выделяются релевантные и наиболее релевантные.

Датасет включает в себя исправления только для тех инцидентов, которые содержат в своем сообщении отчет traceback. Поэтому в колонке `full_traceback` представлен полный текст этого отчета, а в колонке `traceback_type` - только тип ошибки, описанной в этом отчете.

Далее, колонки `before_merge_without_docstrings` и `after_merge_without_docstrings` содержат текст сниппетов до и после исправления, из которых удалены докстринги и комментарии. Кроме того, колонки `before_merge_docstrings` и `after_merge_docstrings` содержат тексты докстрингов.

Наконец, колонки `path_to_snippet_before_merge` и `path_to_snippet_after_merge` содержат пути к файлам с текстом сниппетов относительно папки. Здесь указывается подпапка `buggy_snippets_files` а затем имя файла с указанием типа `before` или `after`.

Рассмотрим содержимое колонки `most relevant PRs`. Здесь указана вся информация о наиболее релевантных данному инциденту пулл-реквестах. Для каждого пулл-реквеста дается информация обо всех инцидентах, которые относятся к данному пулл-реквесту (`'linked_issues`), включая 10 токенов, предшествующих упоминанию ссылки на инцидент в тексте пулл-реквеста.

In [5]:
bugfixes_train.at[2568, 'most relevant PRs']

[{'headRefOid': 'e94b48b88fc3b36eb58bd3b654222d4f99a16b73',
  'baseRefOid': '179623480e7b3eabd51c88782dac00a5319c22aa',
  'title': 'Protect against non-JSON output from repo2docker',
  'bodyHTML': '<p>use the raw line as the message if it’s not JSON</p>\n<p><span class="issue-keyword tooltipped tooltipped-se" aria-label="This pull request closes issue #164.">closes</span> <a class="issue-link js-issue-link" data-error-text="Failed to load title" data-id="262988294" data-permission-text="Title is private" data-url="https://github.com/jupyterhub/binderhub/issues/164" data-hovercard-type="issue" data-hovercard-url="/jupyterhub/binderhub/issues/164/hovercard" href="https://github.com/jupyterhub/binderhub/issues/164">#164</a></p>',
  'createdAt': '2017-10-17T11:49:52Z',
  'closed': True,
  'url': 'https://github.com/jupyterhub/binderhub/pull/185',
  'state': 'MERGED',
  'merged': True,
  'mergedAt': '2017-10-17T14:44:28Z',
  'mergedBy': {'login': 'yuvipanda'},
  'milestone': None,
  'author

# Загрузка тестового датасета с кодом с ошибками

Загрузим тестовый (валидированный) датасет с кодом с ошибками.

In [7]:
bugfixes_test = pd.read_pickle(path_to_buggy_data + 'bugfixes_test.pickle')

# Описание тестового датасета с кодом с ошибками

Посмотрим на колонки этого датасета.

In [8]:
bugfixes_test.columns

Index(['before_merge', 'after_merge', 'url', 'bug type', 'bug description',
       'bug filename', 'bug function_name', 'bug lines', 'full_traceback',
       'traceback_type', 'path_to_snippet_before_merge',
       'path_to_snippet_after_merge'],
      dtype='object')

Кроме обычных колонок `before_merge`, `after_merge` и `url` с текстом сниппетов и ссылкой на инцидент, соответствующий этому исправлению, с именем файла (колонка `bug filename`), а также c именем функции или метода `bug function_name`, с описанием ошибки (колонки `full_traceback` и `traceback_type`), а также с путями к файлам с текстом сниппетов (колонки `path_to_snippet_before_merge` и `path_to_snippet_after_merge`), в датасете содержатся колонки с подтверждениями того факта, что в сниппетах действительно содержатся ошибки. Это колонки с описанием ошибки на естественном языке (колонка `bug description`), понятно объясняющем в чем состоит исправляемая ошибка, колонка `bug type` с типом ошибки согласно классификации [CWE](http://cwe.mitre.org/data/definitions/1000.html), а также колонка `bug lines` с локализацией ошибки (диапазоны номеров строк в формате x,y - строки с x по y. Разделитель в виде ; используется для разделения диапазонов. Одно число x соответствует ситуации, когда ошибка локализована в одной строке).

In [9]:
bugfixes_test.head()

Unnamed: 0,before_merge,after_merge,url,bug type,bug description,bug filename,bug function_name,bug lines,full_traceback,traceback_type,path_to_snippet_before_merge,path_to_snippet_after_merge
353547,def remove_lb_backend_address_pool_address(cmd...,def remove_lb_backend_address_pool_address(cmd...,https://github.com/Azure/azure-cli/issues/14342,CWE-248: Uncaught Exception,Uncaught Exception when adding an address to a...,src/azure-cli/azure/cli/command_modules/networ...,remove_lb_backend_address_pool_address,[5],john@Azure:~$ az network lb address-pool addre...,AttributeError,buggy_snippets_files/3bb7f7f09145626ed3e4ae2d9...,buggy_snippets_files/3bb7f7f09145626ed3e4ae2d9...
355403,def split_action(arguments):\n clas...,def split_action(arguments):\n clas...,https://github.com/Azure/azure-cli/issues/793,CWE-754: Improper Check for Unusual or Excepti...,Attribute `arg.name` of `namespace` can be a s...,src/azure-cli-core/azure/cli/core/commands/arm.py,add_id_parameters.split_action,[16],'str' object has no attribute 'append'\nTraceb...,AttributeError,buggy_snippets_files/25709cdb193f8c883c904614a...,buggy_snippets_files/25709cdb193f8c883c904614a...
379188,"def parse_series(self, data, **kwargs):\n ...","def parse_series(self, data, **kwargs):\n ...",https://github.com/Flexget/Flexget/issues/2276,CWE-754: Improper Check for Unusual or Excepti...,"`guess_result.get('title')` can return None, t...",flexget/plugins/parsers/parser_guessit.py,ParserGuessit.parse_series,,2018-12-10 19:39 DEBUG parser_guessit movin...,AttributeError,buggy_snippets_files/f652403f87adbfe2ca2690e2d...,buggy_snippets_files/f652403f87adbfe2ca2690e2d...
99259,"def __init__(self, **kwargs):\n # S...","def __init__(self, **kwargs):\n # S...",https://github.com/GenericMappingTools/pygmt/i...,CWE-754: Improper Check for Unusual or Excepti...,There can be no value for key in default. No c...,pygmt/modules.py,config.__init__,[6],pygmt-session [ERROR]: Syntax error: Unrecogni...,pygmt.exceptions.GMTCLibError,buggy_snippets_files/db65c0082d70560caaba4022d...,buggy_snippets_files/db65c0082d70560caaba4022d...
403629,"def dump_checkpoint(self, weights_only: bo...","def dump_checkpoint(self, weights_only: bo...",https://github.com/PyTorchLightning/pytorch-li...,CWE-754: Improper Check for Unusual or Excepti...,There is no check if scaler is None,pytorch_lightning/trainer/training_io.py,TrainerIOMixin.dump_checkpoint,[46],Running command:\npython pipe/train_cnn.py\n/h...,AttributeError,buggy_snippets_files/9e8ea084968f1648a3f76bc45...,buggy_snippets_files/9e8ea084968f1648a3f76bc45...


# Загрузка обучающего датасета с корректным кодом

Загрузим обучающую выборку датасета с корректным кодом. Датасет по размеру большой, может не влезть в память.

In [5]:
path_to_stable_data = '/home/kks/zephyr_data/stable_code/'
correct_code_train = pd.read_pickle(path_to_stable_data + 'correct_source_code_train.pickle')

# Описание обучающего датасета с корректным кодом

Посмотрим на колонки фрейма, содержащего информацию о корректном коде из обучающей выборки.

In [3]:
correct_code_train.columns

Index(['before_merge', 'repo_name', 'filename', 'function_name',
       'syntax_correct', 'before_merge_without_docstrings',
       'before_merge_docstrings', 'path_to_snippet_before_merge'],
      dtype='object')

Колонка `before_merge` содержит исходный текст корректного сниппета, колонка `repo_name` дает название репозитория, из которого взят сниппет, колонки `filename` и `function_name` содержат название файла, содержащего этот сниппет, а также имя функции/метода для этого сниппета. Колонка `syntax_correct` содержит `True` значения о синтаксической корректности сниппетов. Колонка `before_merge_without_docstrings` содержит текст сниппета, из которого удалены докстринги и комментарии, а колонка `before_merge_docstrings` - список докстрингов для этого сниппета. Кроме того колонка `path_to_snippet_before_merge` содержит путь до файла с текстом сниппета.

In [4]:
correct_code_train.head()

Unnamed: 0,before_merge,repo_name,filename,function_name,syntax_correct,before_merge_without_docstrings,before_merge_docstrings,path_to_snippet_before_merge
0,def raw_serialize(self):\n result =...,jimmysong_programmingbitcoin,code-ch06_script.py,raw_serialize,True,def raw_serialize(self):\n result =...,[],stable_snippets_files/7869c9c9e1078ab64439fb57...
1,def serialize(self):\n result = sel...,jimmysong_programmingbitcoin,code-ch06_script.py,serialize,True,def serialize(self):\n result = sel...,[],stable_snippets_files/83bf747364a6d298d98825bb...
2,"def evaluate(self, z):\n cmds = sel...",jimmysong_programmingbitcoin,code-ch06_script.py,evaluate,True,"def evaluate(self, z):\n cmds = sel...",[],stable_snippets_files/a3bb529ac1f839e50b81f5d7...
5,def run(test):\n suite = TestSuite()\n s...,jimmysong_programmingbitcoin,code-ch11_helper.py,run,True,def run(test):\n suite = TestSuite()\n s...,[],stable_snippets_files/12442b368e47412505e2a0f9...
6,def hash160(s):\n '''sha256 followed by rip...,jimmysong_programmingbitcoin,code-ch11_helper.py,hash160,True,def hash160(s):\n \n return hashlib.new(...,[sha256 followed by ripemd160],stable_snippets_files/1904413ca699feba02ca6a1c...


# Загрузка тестового датасета с корректным кодом

Загрузим тестовый (валидированный) датасет с корректным кодом.

In [3]:
correct_code_test = pd.read_pickle(path_to_stable_data + 'correct_source_code_test.pickle')

# Описание тестового датасета с корректным кодом

Датасет содержит ту же информацию по отобранным в него сниппетам, что и описанный выше датасет с обучающей выборкой. Сниппеты вошедшие в тестовый датасет отобраны автоматически, а не вручную, как в случае с тестовым датасетом, содержащим код с ошибками. А именно в тестовый датасет с корректным кодом вошли сниппеты не менявшиеся не менее, чем 100 коммитов относительно каталога, где они содержатся. Кроме того, эти сниппеты часто вызываются из реализаций других часто вызываемых сниппетов внутри того же репозитория.

In [4]:
correct_code_test

Unnamed: 0,before_merge,repo_name,filename,function_name,syntax_correct,before_merge_without_docstrings,before_merge_docstrings,path_to_snippet_before_merge
0,def user_follows():\n access_token = reques...,facebookarchive_python-instagram,sample_app.py,user_follows,True,def user_follows():\n access_token = reques...,[],stable_snippets_files/e56b911b5f2cf21fcc087a2d...
1,"def instrumented_stage(args, stage):\n """"""\...",ClangBuiltLinux_tc-build,build-llvm.py,instrumented_stage,True,"def instrumented_stage(args, stage):\n \n ...",[Returns true if we are using PGO and on stage...,stable_snippets_files/a45224293585c24940ddf7e3...
2,"def ev_collect(ev, level, obj):\n if isinst...",andikleen_pmu-tools,toplev.py,ev_collect,True,"def ev_collect(ev, level, obj):\n if isinst...",[],stable_snippets_files/759e99ada074389fef8c7f21...
3,def load_libc_args():\n # load libc functio...,hugsy_gef,gef.py,load_libc_args,True,def load_libc_args():\n \n if not get_ge...,[],stable_snippets_files/ab1a12c03f2ad8ead19ce1e5...
4,def get_curr_connects_count():\n global use...,alexbers_mtprotoproxy,mtprotoproxy.py,get_curr_connects_count,True,def get_curr_connects_count():\n global use...,[],stable_snippets_files/f9aad12115156a3b3162feda...
...,...,...,...,...,...,...,...,...
165,def get_junk_item(count=1):\n ret_junk = []...,AmazingAmpharos_OoT-Randomizer,ItemList.py,get_junk_item,True,def get_junk_item(count=1):\n ret_junk = []...,[],stable_snippets_files/aa1413a9b9b2c78a906c82d5...
166,"def is_idle(cpus, idle_keys):\n return all(...",andikleen_pmu-tools,toplev.py,is_idle,True,"def is_idle(cpus, idle_keys):\n return all(...",[],stable_snippets_files/33e1c61199b64686481abc05...
167,"def parole_crawl(path, processfn, debug_sgm_li...",gooofy_zamia-speech,parole.py,parole_crawl,True,"def parole_crawl(path, processfn, debug_sgm_li...",[],stable_snippets_files/54b52d91e62bf4271958db45...
168,def _set_version(version):\n if not version...,ashishb_adb-enhanced,release.py,_set_version,True,def _set_version(version):\n if not version...,[],stable_snippets_files/0487d88e2b8f7937cf482f9b...
