#### Methods2Test from Microsoft

Здесь рассматривается вид входных данных, полученных в результате генерации пар "код метода (или класса) - unit тесты".

Исследуется код, написанный на языке Java. Алгоритм сбора данных описан в статье [Methods2Test: A dataset of focal methods mapped to test cases](https://arxiv.org/pdf/2203.12776v1).

В [репозитории проекта на GitHub](https://github.com/microsoft/methods2test) содержатся примеры данных, на которых происходило обучение модели. 

Посмотрим на формат валидационных данных

In [None]:
import json

def parse_json_input(path_json = '/data/data_methods2test_microsoft_example/81160_0.json'):
	'''Функция считываем файл формата JSON по пути и преобразует его в dict'''
	with open(path_json, 'r') as file:
		json_dict = json.load(file)

	return json_dict

json_example = parse_json_input()


Общий вид

Test class:

In [12]:
json_example['test_class']

{'identifier': 'seqTest',
 'superclass': '',
 'interfaces': '',
 'fields': [{'original_string': 'private boolean DEBUG = false;',
   'modifier': 'private',
   'type': 'boolean',
   'declarator': 'DEBUG = false',
   'var_name': 'DEBUG'},
  {'original_string': 'private static PrintStream out;',
   'modifier': 'private static',
   'type': 'PrintStream',
   'declarator': 'out',
   'var_name': 'out'},
  {'original_string': 'public String[] DEFAULT_VALS = new String[] { "A", "B", "C", "D", "E" };',
   'modifier': 'public',
   'type': 'String[]',
   'declarator': 'DEFAULT_VALS = new String[] { "A", "B", "C", "D", "E" }',
   'var_name': 'DEFAULT_VALS'}],
 'file': 'src/ajm/seqTest.java'}

Test case:

In [13]:
json_example['test_case']

{'identifier': 'testBasicIteration',
 'parameters': '()',
 'modifiers': '@Test public',
 'return': 'void',
 'body': '@Test\n\tpublic void testBasicIteration() {\n\t\tseqStub s = makeSeq();\n\t\tfor (String val : DEFAULT_VALS) {\n\t\t\ts.bang();\n\t\t\tassertEquals(val, s.getLastStringValue());\n\t\t}\n\t\ts.bang();\n\t\tassertEquals(DEFAULT_VALS[0], s.getLastStringValue());\n\t}',
 'signature': 'void testBasicIteration()',
 'full_signature': '@Test public void testBasicIteration()',
 'class_method_signature': 'seqTest.testBasicIteration()',
 'testcase': True,
 'constructor': False,
 'invocations': ['makeSeq',
  'bang',
  'assertEquals',
  'getLastStringValue',
  'bang',
  'assertEquals',
  'getLastStringValue']}

Focal class:

In [14]:
json_example['focal_class']

{'identifier': 'seq',
 'superclass': 'extends AbstractMaxRubyObject',
 'interfaces': '',
 'fields': [{'original_string': 'protected static int INFO_OUTLET = 4;',
   'modifier': 'protected static',
   'type': 'int',
   'declarator': 'INFO_OUTLET = 4',
   'var_name': 'INFO_OUTLET'},
  {'original_string': 'protected ArrayList<Item> seq = new ArrayList<Item>();',
   'modifier': 'protected',
   'type': 'ArrayList<Item>',
   'declarator': 'seq = new ArrayList<Item>()',
   'var_name': 'seq'},
  {'original_string': 'protected int index = 0;',
   'modifier': 'protected',
   'type': 'int',
   'declarator': 'index = 0',
   'var_name': 'index'},
  {'original_string': 'protected int iter = 0;',
   'modifier': 'protected',
   'type': 'int',
   'declarator': 'iter = 0',
   'var_name': 'iter'},
  {'original_string': 'protected int step = 1;',
   'modifier': 'protected',
   'type': 'int',
   'declarator': 'step = 1',
   'var_name': 'step'},
  {'original_string': 'protected CHORDMODE chordmode = CHORDMO

Focal method:

In [16]:
json_example['focal_method']

{'identifier': 'bang',
 'parameters': '()',
 'modifiers': 'public',
 'return': 'void',
 'body': 'public void bang() {\n\t\tif (!seq.isEmpty()) {\n\t\t\tfixIndexBounds();\n\t\t\toutput();\n\t\t\tif (!arpeggiating()) {\n\t\t\t\tindex(index + step);\n\t\t\t}\n\t\t}\n\t}',
 'signature': 'void bang()',
 'full_signature': 'public void bang()',
 'class_method_signature': 'seq.bang()',
 'testcase': False,
 'constructor': False,
 'invocations': ['isEmpty',
  'fixIndexBounds',
  'output',
  'arpeggiating',
  'index']}

Repo:

In [17]:
json_example['repository']

{'repo_id': 81160,
 'url': 'https://github.com/adamjmurray/ajm_objects',
 'language': 'Java',
 'is_fork': False,
 'fork_count': 3,
 'stargazer_count': 25,
 'size': 27600,
 'license': 'licensed'}

#### В удобном для понимания формате это выглядит...

Функция bang() -> focal_method:

```java
public void bang() {
		if (!seq.isEmpty()) {
			fixIndexBounds();
			output();
			if (!arpeggiating()) {
				index(index + step);
			}
		}
	}

```

Она лежит в классе seq (focal_class):

```java
public class seq extends AbstractMaxRubyObject {...}; // Весь класс непосредственно на репозитории
```

Для focal_method написан test_case:

```java
@Test
public void testBasicIteration() {
	seqStub s = makeSeq();
	for (String val : DEFAULT_VALS) {
		s.bang();
		assertEquals(val, s.getLastStringValue());
	}
	s.bang();
	assertEquals(DEFAULT_VALS[0], s.getLastStringValue());
}
```


И, соответственно, имеется test_class со всеми дополнительными объявлениями, где лежат сами тесты (и искомый test_case в том числе):

```java
public class seqTest {...}; // Весь класс непосредственно на репозитории
```


#### Резюме

Если говорить конкретно про данный датасет, то архитектура взаимосвязей между данными здесь сильно замысловатая. 

Так, применяется подход не метод (функция) -> функция теста для метода, а многоуровневый комбинированный подход:

* Focal method -> test case (Тест обслуживает какой-либо метод или функцию);
* Focal class <- focal method (Связь показывает, что focal method живет внутри focal class'а и нужно брать в учет не только сам код метода, но и атрибуты класса и другие функции, объявленные в классе);
* Test case -> Test class (Тестовые случаи метода генерятся в рамках Test class).

С одной стороны это плюс, потому что здесь происходит анализ информации со всех уровней и иерархий функций (как методов классов, так и по отдельности). С другой стороны не совсем пока понятно, как будет происходить состыковка input-output для данной модели.

Вероятно, стоит обучать модель на генерацию test_cases с учетом focal_methods и focal_classes, но что при этом надо делать с test_classes, где объвялено что-то дополнительное (есть идея сделать concat данных объяления тест-класса и самой тестирующей функции - вложить каким-то образом одно в другое). При этом важно учесть, что имеются данные только одного ЯП (Java) и генерируется лишь код класса и функций тестов, но никак не main, где данные тесты будут вызываться (компилироваться или интерпретироваться).


#### ***Идеи***:

Раз все так хорошо реализовано на Java (предобучено!), то можно попробовать реализовать логику конвертирования языков программирования.
Например, можно перекинуть код на Python в код на Java и получить тесты, конвертировав их в логику Python. Сложность данного в подхода может быть в сложности данных, нужно будет хорошо обучить модель генерить с ЯП X на Java, что несет дополнительные расходы с данными и прочей историей...