# Лабораторная работа по теме "Metamorphic testing"

Ссылка на материалы занятия https://drive.google.com/drive/folders/1dbq1scqU22XPFCrVmz75gpRsb49QjtcM?usp=drive_link

Литература

1) Barr E.T., Harman M., McMinn P., Shahbaz M., Yoo S. The oracle problem in software testing: A survey. IEEE transactions on software engineering. 41(5). 2014. P. 507-525. https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6963470

2) Tsong Yueh Chen, Fei-Ching Kuo, Huai Liu, Pak-Lok Poon, Dave Towey, T. H.
Tse, and Zhi Quan Zhou. 2018. Metamorphic Testing: A Review of Challenges
and Opportunities. 51, 1, Article 4 (Jan. 2018), 27 pages. https://doi.org/10.1145/3143561

3) M. Srinivasan, M. P. Shahri, I. Kahanda and U. Kanewala, "Quality Assurance of Bioinformatics Software: A Case Study of Testing a Biomedical Text Processing Tool Using Metamorphic Testing", 2018 IEEE/ACM 3rd International Workshop on Metamorphic Testing (MET), Gothenburg, 2018, pp. 26-33. https://arxiv.org/pdf/1802.07354.pdf


**Критерии оценки.**

Условная оценка - 10 баллов за лабораторную. Для получения зачёта достаточно набрать 6.



- Задание 1. (4 вопроса, 1 балл)
- Задание 2. (9 баллов)

## Задание 1. Теоретическая часть

Ответьте на следующие вопросы (*1 балл*).
1. Опишите суть проблемы тестового оракула.
2. Приведите примеры задач, для которых обычное тестирование с оракулом не подходит.
3. Перечислите методы, которые применяются для решения этой проблемы.
4. Дайте определение тестового инварианта (metamorphic relation).





Приведите свои ответы здесь:

1. Для оценки правильности ответа программы требуется либо уже готовый ответ (для сравнения), который нужно откуда-то брать, либо свойство "лёгкой проверяемости" у проверяемого ответа (алгоритм проверки правильности ответа прост даже при отсутствии изначальной информации о том, что ответ правильный).
2. Задачи, для которых понятие "правильности" (оценить качество выполнения таких задач сложно) определить трудно: это такие задачи как генерации изображений по описанию, задача перефразирования текстов и др. Задачи, для которых заведомо правильный ответ получить сложно: например, получить "однозначно правильные" веса для нейросети. Либо же задачи, в рамки которых входит взаимодействие с материальным миром: например, производственное оборудование.
3. Для оценки работы программы привлекается человек, либо же (если это возможно): сравнение версий (comparison testing), неявные оракулы (implicit oracles), фаззинг (fuzzing), assertion testing, тестирование инвариантами (metamorphic testing).
4. Это функция от нескольких тестовых входов и нескольких тестовых выходов в множество {True, False}, в основе лежит проверка сохранения некоторых свойств (сходств) на входах и выходах и(или) между выходами. Относится к методам тестирования без оракула, не требует наличия правильных ответов на каждый конкретный тестовый вход.

## Задание 2. Разработка тестовых инвариантов

Дана модель для распознавания сущностей в тексте.
- Придумайте и реализуйте 2 теста с тестовым оракулом (обычные тесты с правильными ответами) (*1 балл*)
- Придумайте и реализуйте не менее 3 тестовых инвариантов (metamorphic relations) для её проверки - (*суммарно 6 баллов, теоретическое описание - по 1 баллу, реализация - по 1 баллу*)
- Сравните полученные тесты. В чем преимущества каждого из методов? В чём недостатки? (*2 балла*)

*Указание*. Можете воспользоваться идеями со слайда "Bio-entity recognition" или из статьи "Quality Assurance of Bioinformatics Software: A Case Study of Testing a Biomedical Text Processing Tool Using Metamorphic Testing" из списка литературы.

**Правила оформления.**

Для каждого инварианта необходимо описать
 - из каких предположений о модели он вытекает,
 - формальное описание (желательно с формулой),
 - запуск на 1-2 примерах тестовых данных.

Теоретическую часть можно оформить в ячейке markdown.

### Тестируемая система

Модель позволяет искать сущности в тексте. Ниже приведены примеры того, как можно с ней работать.

In [None]:
# ! pip install spacy==2.2.4

In [3]:
import spacy
from spacy import displacy

In [2]:
# example of model usage
def render(text):

    nlp = spacy.load('en_core_web_sm') # model

    doc = nlp(text) # data processing

    # FYI all the properties
    props = [p for p in dir(doc.ents[0]) if p[0] != '_']
    print(props)

    # custom processing of the answer

    # get counts of entities
    ent_labels = [e.label_ for e in doc.ents]
    freq = dict()
    for l in ent_labels:
        freq[l] = ent_labels.count(l)
    print(freq)

    # get coordinates of entities
    coordinates = [e.start_char for e in doc.ents]
    print(coordinates)

    # render the answer
    displacy.render(doc, style='ent', jupyter=True)

def model_result(text):
    nlp = spacy.load('en_core_web_sm') # model
    doc = nlp(text) # data processing

    # get counts of entities
    ent_labels = [e.label_ for e in doc.ents]
    freq = dict()
    for l in ent_labels:
        freq[l] = ent_labels.count(l)

    # get coordinates of entities
    coordinates = [e.start_char for e in doc.ents]

    return (freq, coordinates)

Модель позволяет искать сущности в тексте. В ячейке ниже приведены примеры того, как можно с ней работать.

In [None]:
text = """But Google is starting from behind. The company made a late push
into hardware, and Apple’s Siri, available on iPhones, and Amazon’s Alexa
software, which runs on its Echo and Dot devices, have clear leads in
consumer adoption."""

render(text)

['as_doc', 'char_span', 'conjuncts', 'doc', 'end', 'end_char', 'ent_id', 'ent_id_', 'ents', 'get_extension', 'get_lca_matrix', 'has_extension', 'has_vector', 'id', 'id_', 'kb_id', 'kb_id_', 'label', 'label_', 'lefts', 'lemma_', 'n_lefts', 'n_rights', 'noun_chunks', 'orth_', 'remove_extension', 'rights', 'root', 'sent', 'sentiment', 'sents', 'set_extension', 'similarity', 'start', 'start_char', 'subtree', 'tensor', 'text', 'text_with_ws', 'to_array', 'vector', 'vector_norm', 'vocab']
{'ORG': 5, 'PERSON': 1, 'LOC': 1}
[4, 84, 92, 111, 124, 133, 167]



### Пример оформления инварианта

Рассмотрим задачу поиска подстроки в строке.

Предполагаем, что алгоритм должен находить все вхождения подстроки.

> **MR1.** Если в строке S найдёна некоторая подстрока s ровно k раз, то в строке SS она будет найдена не менее 2k раз (возможны нахождения на месте склейки строк).

Формально. Пусть S - строка, s - её подстрока, f(S,s) - определённое программой число вхождений s в S. Тогда f(SS,s) >= 2*f(S,s).


In [1]:
import re
import unittest

# function for testing
def func_to_test(substr, string):
    return re.finditer(pattern=substr, string=string)


class TestStringMethods(unittest.TestCase):

    def test_with_oracle1(self):
        # input data
        big_string = 'abacaba'
        substr = 'aba'

        # correct answer
        right_answer = [0, 4]

        indices = func_to_test(substr, big_string)
        answer = [index.start() for index in indices]

        self.assertTrue(answer == right_answer)

    def test_metamorphic1(self):
        # input data
        big_string1 = 'abacab'
        big_string2 = big_string1 + big_string1
        substr = 'aba'

        # first answer
        indices = func_to_test(substr, big_string1)
        indices1 = [index.start() for index in indices]

        # second answer
        indices = func_to_test(substr, big_string2)
        indices2 = [index.start() for index in indices]

        # metamorphic relation
        self.assertTrue(2*len(indices1) <= len(indices2))

Ниже мы запускаем все объявленные тестовые случаи

In [None]:
unittest.main(argv=['first-arg-is-ignored'], exit=False)

..
----------------------------------------------------------------------
Ran 2 tests in 0.738s

OK


<unittest.main.TestProgram at 0x7df6737434c0>

### Реализуйте собственные тестовые инварианты ниже

#### Инвариант 1
1. Должна существовать связь между словарём частот и количеством позиций в тексте.
2. Этот тест проверяет, что сумма частот равна длинне массива позиций: $\sum_{frequrency\in frequrencies} frequrency\equiv\operatorname{len}(positions)$

#### Инвариант 2
1. Удвоение текста (с разбивкой по предложениям) не должно менять число категорий, но должно увеличивать частоты вдвое.
2. Этот тест проверяет, что удвоение текста не увеличивает число категорий $\operatorname{categories}(frequrencies_{1})\equiv\operatorname{categories}(frequrencies_{1+1})$, что удваивается размер массива позиций $\operatorname{len}(positions_{1})\equiv\operatorname{len}(positions_{1+1})$, что удваивается счётчик частот в каждой категории $\forall category \in frequrencies_1: frequrencies_1[category]*2 \equiv frequrencies_{1+1}[category]$

#### Инвариант 3
1. Порядок объединения предложений не должен влиять на веделенные категории и позиции (так как контекст не учитывается).
2. Этот тест проверяет, что $a+b \equiv b+a$

#### Инвариант 4
1. Значение функции от результата объединения является результатом _некоторого объединения_ результатов функции от исходных частей.
2. Этот тест проверяет, что $f(a+b) \equiv f(a) + f(b)$

In [102]:
import unittest

class TestStringMethods(unittest.TestCase):

    def test_with_oracle1(self):
        # input data
        big_text = """Lorem Ipsum is simply dummy text of the printing and typesetting industry.
        Lorem Ipsum has been the industry's standard dummy text ever since the 1500s,
        when an unknown printer took a galley of type and scrambled it to make a type specimen book."""

        result = model_result(big_text)

        # correct answer
        ents = {'PERSON': 2, 'DATE': 1}
        locations = [0, 83, 150]

        self.assertTrue(result[0] == ents and result[1] == locations)


    def test_with_oracle2(self):
        # input data
        big_text = """"L" which were discovered in 1234. Lorem is simply dummy text of the printing and typesetting industry.
        Lorem Ipsum has been the Jubrand industry's standard dummy text ever since the 1500s,
        when an unknown printer in 90s took a galley of type and scrambled it to make a type specimen book
        with Donald Trump and Biden under Barak. """

        result = model_result(big_text)

        # correct answer
        ents = {'DATE': 3, 'PERSON': 5, 'GPE': 1}
        locations = [29, 35, 112, 137, 187, 233, 319, 336, 348]

        self.assertTrue(result[0] == ents and result[1] == locations)


    def test_metamorphic1(self):
        """Metamorphic #1 part 1"""

        part_1_text = """Google as officially launched in 1998 by Larry Page and
        Sergey Brin to market Google Search, which has become the most used web-based search engine.
        The search engine soon proved successful and the expanding company moved several times,
        finally settling at Mountain View in 2003. """

        result = model_result(part_1_text)
        self.assertTrue(sum(result[0].values()) == len(result[1]))


    def test_metamorphic1_2(self):
        """Metamorphic #1 part 2"""

        part_1_text = """Old friends Bill Gates and Paul Allen sought to make a business using their skills in computer programming.
        In 1972, they founded Traf-O-Data, which sold a rudimentary computer to track and analyze automobile traffic data.
        Gates enrolled at Harvard University while Allen pursued a degree in computer science at Washington State University,
        though he later dropped out to work at Honeywell. """

        result = model_result(part_1_text)
        self.assertTrue(sum(result[0].values()) == len(result[1]))


    def test_metamorphic2(self):
        """Metamorphic #2 part 1"""

        part_1_text = """Google as officially launched in 1998 by Larry Page and
        Sergey Brin to market Google Search, which has become the most used web-based search engine.
        The search engine soon proved successful and the expanding company moved several times,
        finally settling at Mountain View in 2003. """

        result_1 = model_result(part_1_text)
        result_11 = model_result(part_1_text + part_1_text)

        self.assertTrue(result_1[0].keys() == result_11[0].keys())
        self.assertTrue(2*len(result_1[1]) == len(result_11[1]))

        for key in result_1[0]:
          self.assertTrue(2*result_1[0][key] == result_11[0][key])


    def test_metamorphic2_2(self):
        """Metamorphic #2 part 2"""

        part_1_text = """Old friends Bill Gates and Paul Allen sought to make a business using their skills in computer programming.
        In 1972, they founded Traf-O-Data, which sold a rudimentary computer to track and analyze automobile traffic data.
        Gates enrolled at Harvard University while Allen pursued a degree in computer science at Washington State University,
        though he later dropped out to work at Honeywell. """

        result_1 = model_result(part_1_text)
        result_11 = model_result(part_1_text + part_1_text)

        self.assertTrue(result_1[0].keys() == result_11[0].keys())
        self.assertTrue(2*len(result_1[1]) == len(result_11[1]))

        for key in result_1[0]:
          self.assertTrue(2*result_1[0][key] == result_11[0][key])


    def test_metamorphic3(self):
        """Metamorphic #3 part 1"""

        part_1_text = """Google as officially launched in 1998 by Larry Page and
        Sergey Brin to market Google Search, which has become the most used web-based search engine. """

        part_2_text = """The search engine soon proved successful and the expanding company moved several times,
        finally settling at Mountain View in 2003. """

        result_12 = model_result(part_1_text + part_2_text)
        result_21 = model_result(part_2_text + part_1_text)

        self.assertTrue(result_12[0] == result_21[0])


    def test_metamorphic3_2(self):
        """Metamorphic #3 part 2"""

        part_1_text = """Old friends Bill Gates and Paul Allen sought to make a business using their skills in computer programming.
        In 1972, they founded Traf-O-Data, which sold a rudimentary computer to track and analyze automobile traffic data. """

        part_2_text = """Gates enrolled at Harvard University while Allen pursued a degree in computer science at Washington State University,
        though he later dropped out to work at Honeywell. """

        result_12 = model_result(part_1_text + part_2_text)
        result_21 = model_result(part_2_text + part_1_text)

        self.assertTrue(result_12[0] == result_21[0])


    def test_metamorphic4(self):
        """Metamorphic #4 part 1"""

        part_1_text = """Google as officially launched in 1998 by Larry Page and
        Sergey Brin to market Google Search, which has become the most used web-based search engine. """

        part_2_text = """The search engine soon proved successful and the expanding company moved several times,
        finally settling at Mountain View in 2003. """

        result_1 = model_result(part_1_text)
        result_2 = model_result(part_2_text)
        result_12 = model_result(part_1_text + part_2_text)

        result_1_2_merge = {key: result_1[0].get(key, 0) + result_2[0].get(key, 0) for key in set(result_1[0].keys()) | set(result_2[0].keys())}

        self.assertTrue(result_1_2_merge == result_12[0])
        self.assertTrue(result_1[1] + [len(part_1_text) + itm for itm in result_2[1]] == result_12[1])


    def test_metamorphic4_2(self):
        """Metamorphic #4 part 2"""

        part_1_text = """Old friends Bill Gates and Paul Allen sought to make a business using their skills in computer programming.
        In 1972, they founded Traf-O-Data, which sold a rudimentary computer to track and analyze automobile traffic data. """

        part_2_text = """Gates enrolled at Harvard University while Allen pursued a degree in computer science at Washington State University,
        though he later dropped out to work at Honeywell. """

        result_1 = model_result(part_1_text)
        result_2 = model_result(part_2_text)
        result_12 = model_result(part_1_text + part_2_text)

        result_1_2_merge = {key: result_1[0].get(key, 0) + result_2[0].get(key, 0) for key in set(result_1[0].keys()) | set(result_2[0].keys())}

        self.assertTrue(result_1_2_merge == result_12[0])
        self.assertTrue(result_1[1] + [len(part_1_text) + itm for itm in result_2[1]] == result_12[1])

In [103]:
unittest.main(argv=['first-arg-is-ignored'], exit=False)

..........
----------------------------------------------------------------------
Ran 10 tests in 15.020s

OK


<unittest.main.TestProgram at 0x7fee6e224190>

### Сравнение тестов
Тесты с обоими подходами завершились успешно. Ни один из подходов нельзя назвать лучше другого: они дополняют друг друга.

Тестирование инвариантов позволяет проверить тенденции изменения значений, но не сами значения. Однако, позволяет запускать тестирование на большом неразмеченном объёме данных.

Тестирование оракулом позволяет проверить, что ответ функции в точности совпадает с ожидаемым, но подготовить множество ответов для оракула может быть затруднительно на большом объёме данных.

#### Оракул
Плюсы:
+ проверяет соответствие каждого значение, легко найти несовпадение

Минусы:
- для некоторых задач подготовить множество ответов для оракула может быть трудно

#### Инварианты
Плюсы:
+ можно запускать на большом объёме данных без дополнительных манимуляций с данными
+ проверяет ожидаемые тенденции изменений в результатах

Минусы:
- проверяет сходство ожидаемой тенденции изменения и реальной, но не сами значения