# Annotation der Test Daten

Hier sollen zu einigen Passagen / Dokumenten Fragen formuliert und die Antworten dazu annotiert werden. Dabei soll dem SQUAD-Standard gefolgt werden:

| ID (int) | context (string) | question (string) | answers (json) |
| -: | :- | :- | :- |
| 1 | In der letzten Spalte der Signalanbindungstabelle kann eine Standardeinheit für ein generisches Signal angegeben werden. Der Defaulteintrag don’t care bezeichnet die Übernahme der Quelleinheit aus der Aufnahmedatei. | Wo kann die Einheit für genererisches Signal angegeben werden? | { "text": [In der letzten Spalte der Signalanbindungstabelle], "answer_start": [1] } |
| ... | ... | ... | ... | ... |

Dabei muss sich die ID dem Kontext in der geparsden Doku zuzuordenen sein. Für einen Kontext können mehrere Fragen formuliert werden, auch können mehrere Antworten gegeben werden (Im SQUAD ist der Standard 3, wobei eine Antwort (Antwort-Text und Start-Token) dann wiederholt wird, wenn es im gegeben Kontext nur eine Stelle mit der passenden Antwort gibt, so dass immer drei Antworten pro Fragen annotiert sind). Es sollte ausreichend sein, sich hier auf eine Antwort pro Frage zu beschränken. Für die Ermittlung des Start-Tokens werden Buchstaben, keine Wörter gezählt.

Die Idee ist ein zufälliges Dokument auszuwählen und dann eine oder mehrer Fragen zu formulieren. Die Antwort kann dann aus dem Text herausgesucht werden. Über Rückwärtssuche im gegebenen Text / Kontext, kann dann die Antwort im json-Format automatisch erzeugt werden.

### Laden der Dokumente

In [None]:
documents = catalog.load("ecu_test_doku_parsed")

### Definieren der nötigen Funtkionen

In [None]:
import pandas as pd

In [None]:
def get_random_document():
    _id = documents.sample()['Body'].index[0]
    context = str(documents.sample()['Body'].iloc[0])
    return _id, context

def get_start_token_of_string_in_context(context, query_string):
    res = context.find(query_string)
    if res == -1:
        print("context does not contain string")
        return {}
    else:
        return {"text": query_string, "answer_start": res}

### Beispiel Anwendung

In [None]:
# define output
answers = []

#### Wahl eines zufälligen Dokumentes

In [None]:
_id, context = get_random_document()
print(_id)
print(context)

#### DEBUG: Überschreiben des generierten Kontextes, da html Parser noch nicht geupdatet.

#### Stellen und Beantworte der Frage

In [None]:
question = "Welche Optionen stehen mir beim Exportieren zur Verfügung?"
answer = "Beim Export können neben einem Namen, welcher in TEST-GUIDE für das Playbook verwendet werden soll, auch die Workspace Source Informationen hinterlegt werden, um den Workspace auf der Testbench aus einem SCM auszuchecken oder als Artefakt aus TEST-GUIDE zu beziehen. Des Weiteren können Anforderungen (XiLConfigRequirements) an die Testbenches selbst gestellt werden. Diese Anforderungen werden von TEST-GUIDE verwendet, um geeignete Testbenches für die Testausführung auszuwählen. Aktuell wird hier lediglich der XiL-Type unterstützt. Der Katalog an möglichen Anforderungen wird dabei direkt aus TEST-GUIDE bezogen."
answer_json = get_start_token_of_string_in_context(context, answer)
answers.append([_id, context, question, answer])

### Überführen der Anworten in DataFrame und Speichern als CSV

In [None]:
answers_df = pd.DataFrame(answers)
answers_df.columns = ['id', 'context', 'question', 'answers']

display(answers_df)

In [None]:
answers_df.to_csv("../data/03_primary/test_data.csv")