# Demo for MedAgent - First answer generation with naive RAG pipeline

This is the manual testing playground to test some basic workflows later properly implemented in the MedAgent repository.

This file is responsible for a first test of answer generation with naive retrieval (basically creating the second baseline for our system test). This means, for the question first the most similar chunks from the guidelines are retrieved, and then provided to a generator with the original question. For this setup, new feedback must be gathered and the results analyzed and visualized.

In [1]:
import html
# SETUP
import os

import markdown
import pandas as pd
import requests
import sys
import tiktoken
from IPython.core.display_functions import clear_output
from dotenv import load_dotenv
from typing import List

from ipywidgets import widgets

from scripts.System.feedback_analysis import get_average_response_time, \
    analyze_and_visualize_response_time_per_category, get_average_correctness, \
    analyze_and_visualize_correctness_per_category, get_sum_hallucinations_per_question, \
    analyze_and_visualize_hallucinations

sys.path.append(os.path.abspath("../src"))
from general.data_model.question_dataset import QuestionEntry, ExpectedAnswer, all_supercategories
from general.data_model.system_interactions import WorkflowSystem, Feedback
from general.data_model.guideline_metadata import GuidelineMetadata
from general.helper.mongodb_interactor import MongoDBInterface, CollectionName
from general.helper.embedder import OpenAIEmbedder
from general.helper.logging import logger
from scripts.Guideline.guideline_interaction import get_plain_text_from_pdf
from scripts.System.system_setup import load_system_json
from scripts.System.system_interaction import *
from scripts.System.feedback_creation import create_feedback_correctness, create_feedback_hallucination_classification, insert_feedback, create_feedback_factuality_score

load_dotenv(dotenv_path="../.local-env")
BACKEND_API_URL = "http://host.docker.internal:5000/api"
mongo_url = os.getenv("MONGO_URL", "mongodb://mongo:mongo@host.docker.internal:27017/")

weaviate_db_config = load_system_json("./input/database_setups/weaviate_custom_vectorizer.json")
naive_rag_azure_config = load_system_json("./input/system/naive_rag_azure.json")
inserted_guidelines = load_system_json("./output/naive_rag/chunk_indexing.json")
text_output_dir = "output/guideline/plain_text/"
for file_or_dir in [text_output_dir]:
    os.makedirs(os.path.dirname(file_or_dir), exist_ok=True)

screen_width, screen_height = 750, 500
width, height = 750, 500

dbi = MongoDBInterface(mongo_url)
dbi.register_collections(
    CollectionName.GUIDELINES,
    CollectionName.WORKFLOW_SYSTEMS,
    CollectionName.QUESTIONS
)

## Setup vector database
In the first jupyter notebook, the guideline were already downloaded and stored in a MongoDB. To now be utilizable for the naive RAG flow, their content now needs to be cut up and stored in a vector database (for now Milvus with chunk size of 512).

In [None]:
guideline_documents = list(dbi.get_collection(CollectionName.GUIDELINES).find())
guidelines = [
    dbi.document_to_guideline_metadata(doc) for doc in guideline_documents
]

In [None]:
# comment out if not want to overwrite
#response = requests.delete(f"{BACKEND_API_URL}/knowledge/vector/retriever/delete/{weaviate_db_config['class_name']}")
#logger.info(f"Result of deletion for {weaviate_db_config['class_name']}: {response}")

#response = requests.post(f"{BACKEND_API_URL}/knowledge/vector/retriever/init", json=weaviate_db_config)
#try:
#    response.raise_for_status()
#    logger.info(response)
#except Exception as e:
#    detail = response.json().get("detail", "")
#    if "already exists" in detail:
#        logger.info(f"Weaviate collection already exists: {detail}")
#    else:
#        logger.error(f"Failed to initialize Weaviate collection: {detail}")
#        raise

In [None]:
#embedder = OpenAIEmbedder(
#    api_key=os.getenv("AZURE_OPENAI_API_KEY"),
#    api_base=os.getenv("AZURE_OPENAI_API_BASE"),
#    api_version=os.getenv("AZURE_OPENAI_API_VERSION"),
#    deployment_name="text-embedding-3-small" # or later: text-embedding-3-small
#)

encoding = tiktoken.get_encoding("cl100k_base")

def chunk_text(text: str, max_tokens: int = 512) -> List[str]:
    words = text.split()
    chunks, current = [], []
    token_count = lambda x: len(encoding.encode(" ".join(x)))

    for word in words:
        current.append(word)
        if token_count(current) >= max_tokens:
            chunks.append(" ".join(current[:-1]))
            current = [word]
    if current:
        chunks.append(" ".join(current))

    return chunks

In [None]:
def insert_for_guideline(guideline: GuidelineMetadata):
    logger.info(f"Processing guideline {guideline.awmf_register_number} ({guideline.download_information.page_count} pages)")
    text = get_plain_text_from_pdf(guideline.download_information.file_path, text_output_dir)
    chunks = chunk_text(text)
    if chunks == []:
        logger.error(f"[{g.awmf_register_numner}] Something went wrong with reading the text or chunking -> empty")
    logger.progress(f"Processing guideline {guideline.awmf_register_number} [PROGRESS]: ", 0, len(chunks))
    non_successful_chunks = []
    for i_c, chunk in enumerate(chunks):
        try:
            #vector = embedder.embed(chunk)
            insert_entity = {
                "text": chunk,
                #"vector": vector,
                "metadata": {
                    "guideline_id": guideline.awmf_register_number,
                    "chunk_index": i_c
                },
                "class_name": weaviate_db_config['class_name']
            }
            #logger.info(insert_entity)
            response = requests.post(
                f"{BACKEND_API_URL}/knowledge/vector/retriever/insert",
                json = insert_entity
            )
            response.raise_for_status()
        except Exception as chunk_error:
            logger.error(f"[{g.awmf_register_number}] Failed to process chunk {i_c}: {chunk_error}")
            non_successful_chunks.append({i_c: chunk})
        
        logger.progress(f"Processing guideline {guideline.awmf_register_number} [PROGRESS]:", i_c+1, len(chunks))

    if non_successful_chunks != []:
        logger.error(f"Problems with inserting these chunks: {non_successful_chunks}")
    else:
        logger.success(f"Successfully transferred whole guideline with {len(chunks)} chunks")

def insert_batch_for_guideline(guideline: GuidelineMetadata):
    logger.info(f"Processing guideline {guideline.awmf_register_number} ({guideline.download_information.page_count} pages)")
    text = get_plain_text_from_pdf(guideline.download_information.file_path, text_output_dir)
    chunks = chunk_text(text)
    if chunks == []:
        logger.error(f"[{g.awmf_register_numner}] Something went wrong with reading the text or chunking -> empty")
    logger.progress(f"Tranforming chunks {guideline.awmf_register_number} [PROGRESS]: ", 0, len(chunks))

    batch_entities = []
    for i_c, chunk in enumerate(chunks):
        #vector = embedder.embed(chunk)
        insert_entity = {
            "text": chunk,
            #"vector": vector,
            "metadata": {
                "guideline_id": guideline.awmf_register_number,
                "chunk_index": i_c
            },
            "class_name": weaviate_db_config['class_name']
        }
        batch_entities.append(insert_entity)
        logger.progress(f"Tranforming chunks {guideline.awmf_register_number} [PROGRESS]: ", i_c+1, len(chunks))

    logger.info(f"Submitting batch upload")
    response = requests.post(
        f"{BACKEND_API_URL}/knowledge/vector/retriever/insertBatch",
        json = {
            "class_name": weaviate_db_config['class_name'],
            "entries": batch_entities
        }
    )
    response.raise_for_status()
    logger.info(f"Response: {response.json()}")
    return response.json(), len(chunks)

In [None]:
for i in range(len(guidelines)):
    if i in inserted_guidelines.keys():
        continue

    res, num_chunks = insert_batch_for_guideline(guidelines[i])
    inserted_guidelines[i] = {
        "guideline_awmf_nr": guidelines[i].awmf_register_number,
        "number_pages": guidelines[i].download_information.page_count,
        "number_chunks": num_chunks,
        "missing_chunks": res["failed"]
    }

## Test out question

In [8]:
# Get question and system
naive_rag_azure_wf = dbi.get_entry(CollectionName.WORKFLOW_SYSTEMS, "name", naive_rag_azure_config["name"])
if naive_rag_azure_wf is None:
    naive_rag_azure_wf_id = init_workflow(BACKEND_API_URL, naive_rag_azure_config)
else:
    naive_rag_azure_wf_id = dbi.document_to_workflow_system(naive_rag_azure_wf).workflow_id
    naive_rag_azure_wf_id = init_workflow_with_id(BACKEND_API_URL, naive_rag_azure_config, naive_rag_azure_wf_id)

naive_rag_azure_chat = init_chat(BACKEND_API_URL, naive_rag_azure_wf_id)
question = dbi.get_collection(CollectionName.QUESTIONS).find_one().get("question")

question

[37m2025-04-22 12:26:42[0m [37m[[0m[1m[38;5;208mINFO[0m[37m][0m [38;5;208mWorkflow with ID '7f5e3254-2a13-4461-9b4c-9a9b4e4698b8' already exists.[0m


'Wann ist die dreidimensionale Bildgebung bei der Entfernung von Weisheitszähnen indiziert?'

In [5]:
# TEST RETRIEVAL separately
response = requests.post(
    f"{BACKEND_API_URL}/knowledge/vector/retriever/search",
    json = {
        "class_name": weaviate_db_config['class_name'],
        "query": question
    }
)

response.raise_for_status()

for i, item in enumerate(response.json()['results']):
    logger.info(
        f"""
## Result {i+1}
  - Guideline: {item['guideline_id']} (chunk {item['chunk_index']})
  - Text: '{item['text']}'
"""
    )


[37m2025-04-22 11:46:00[0m [37m[[0m[1m[38;5;208mINFO[0m[37m][0m [38;5;208m
## Result 1
  - Guideline: 007-003l (chunk 7)
  - Text: 'geplanter Umstellung des Unterkiefers (siehe unter 9.2.1) 1.5 Einbeziehung von Patienten und Angehörigen Die Inhalte dieser Leitlinie sollen in erster Linie eine Entscheidungshilfe für die zahnärztliche/ärztliche Therapieempfehlung bilden. Für die Einbeziehung des Patienten in die konkrete Therapieentscheidung, beispielsweise im Rahmen eines Aufklärungsgespräches, sollten die Informationen der Leitlinie für den Patienten und seine Angehörigen in verständlicher Form vermittelt werden. Hierzu steht eine Patienteninformation basierend auf dieser Leitlinie zur Verfügung. S3-Leitlinie „ Operative Entfernung von Weisheitszähnen " Langversion Stand August 2019 © DGMKG, DGZMK 4 2. Definitionen Der Begriff der Retention bezeichnet eine Position des Weisheitszahnes , bei der nach Abschluss des Wurzelwachstums die Okklusionsebene nicht erreicht wird. Als pa

In [6]:
answer, retrieval, response_latency = pose_question(BACKEND_API_URL, naive_rag_azure_chat, question)

print(f"### QUESTION: ###\n{question}")
print(f"--------------------------------------------------")
print(f"### ANSWER in {response_latency:.2f} seconds: ###\n{answer}")

print("\n### RETRIEVAL (Utilized guideline content): ###")
html_table = """
<table border="1">
    <tr>
        <th>Index</th>
        <th>Guideline ID</th>
        <th>Text</th>
    </tr>
"""

for i, retrieval_entry in enumerate(retrieval):
    html_table += f"""
    <tr>
        <td>{i}</td>
        <td>{retrieval_entry['guideline_id']}</td>
        <td>{retrieval_entry['text']}</td>
    </tr>
"""
html_table += "</table>"

from IPython.display import HTML

display(HTML(html_table))

### QUESTION: ###
Wann ist die dreidimensionale Bildgebung bei der Entfernung von Weisheitszähnen indiziert?
--------------------------------------------------
### ANSWER in 5.53 seconds: ###
Die dreidimensionale Bildgebung, insbesondere die digitale Volumentomographie (DVT), ist bei der Entfernung von Weisheitszähnen indiziert, wenn morphologische Besonderheiten oder Lageanomalien vorliegen. Diese Bildgebungsmethode wird empfohlen, um die Abgrenzung zwischen Zahnfach und Nervkanal präzise darzustellen, was für die Einschätzung des Risikos einer Nervschädigung während des Eingriffs entscheidend ist. Die Leitlinie hebt hervor, dass die DVT in mehreren Studien als geeignet befunden wurde, um solche Details zu visualisieren, und empfiehlt daher die Durchführung einer präoperativen 3D-Bildgebung, wenn solche spezifischen anatomischen Gegebenheiten vermutet werden (Ghaeminia et al., 2009; Lübbers et al., 2011; Neugebauer et al., 2008).

### RETRIEVAL (Utilized guideline content): ###


Index,Guideline ID,Text
0,007-003l,"geplanter Umstellung des Unterkiefers (siehe unter 9.2.1) 1.5 Einbeziehung von Patienten und Angehörigen Die Inhalte dieser Leitlinie sollen in erster Linie eine Entscheidungshilfe für die zahnärztliche/ärztliche Therapieempfehlung bilden. Für die Einbeziehung des Patienten in die konkrete Therapieentscheidung, beispielsweise im Rahmen eines Aufklärungsgespräches, sollten die Informationen der Leitlinie für den Patienten und seine Angehörigen in verständlicher Form vermittelt werden. Hierzu steht eine Patienteninformation basierend auf dieser Leitlinie zur Verfügung. S3-Leitlinie „ Operative Entfernung von Weisheitszähnen "" Langversion Stand August 2019 © DGMKG, DGZMK 4 2. Definitionen Der Begriff der Retention bezeichnet eine Position des Weisheitszahnes , bei der nach Abschluss des Wurzelwachstums die Okklusionsebene nicht erreicht wird. Als partiell retiniert gilt hierbei ein Zahn, bei dem Anteile der Krone die Mundhöhle erreichen oder über den Parodontalapparat des benachbarten 12 Jahr Molaren mit der M undhöhle in Verbindung stehen. Als vollständig retiniert gelten Zähne, die keinerlei Verbindung zur Mundhöhle aufweisen. Der Begriff der Impaktierung bezeichnet die vollständige knöcherne Einbettung des Zahnes. Als verlagert gilt ein Zahn dessen Achse oder Position von der regulären Durchbruchsrichtung abweicht. Gemäß diesen Definitionen befasst sich die Leitlinie vorwiegend mit Erkrankungsbildern, die durch folgende ICD -Codes beschrieben sind: Leitlinie ICD Weisheitszähne K00.2 Abnormitäten in Größe und Form der Zähne K00.4 Störung der Zahnbildung K00.6 Störungen des Zahndurchbruchs K00.9 Störung der Zahnentwicklung, nicht näher bezeichnet K01.0 Retinierte Zähne K01.01"
1,007-003l,"et al., 2010; Werkmeister et al., 2005, Armond et al. 2017) • Entst ehung einer Störung der dynamischen Okklusion (durch Elongation, Kippung) ggf. mit Gesichts -Schmerz S3-Leitlinie „ Operative Entfernung von Weisheitszähnen "" Langversion Stand August 2019 © DGMKG, DGZMK 11 9. Empfehlungen 9.1 Empfehlungen zur dreidimensionalen Bildgebung Mit der digitalen Volumentomographie (DVT) ist die dreidimensionale Bildgebungsmethodik für die Indikationsstellung und Behandlung innerhalb der Zahnheilkunde, Oralchirurgie und Mund -, Kiefer - und Gesichtschirurgie mittlerweile etabliert worden. Die Vorzüge der DVT -Diagnostik im Hinblick auf topographische Information, Auflösung und Dimension sgenauigkeit sind in den letzten Jahren umfangreich beschrieben worden. Mit der Verfügbarkeit des DVT hat die Frage nach der Notwendigkeit einer 3D -Diagnostik vor der operativen Weisheitszahnentfernung eine zentrale Bedeutung. In mehreren Studien wurde gezeigt, dass das DVT geeignet ist, morphologische Besonderheiten, Lageanomalien und insbesondere auch die fehlende Abgrenzung zwischen Zahnfach und Nervkanal darzustellen und damit für die Einschätzung des Risikos einer Nervschäd igung geeignet ist (Ghaeminia et al., 2009; Lübbers et al., 2011; Neugebauer et al., 2008; Suomalainen et al., 2010; Sursala and Dodson, 2007; Tantanapornkul et al., 2007) . Aus der Tatsache, dass diese Merkmale in der 3 -D-Bildgebung gut dargestellt werden können, leiten die Aut oren dann jeweils die Indikation einer präoperativen 3 -D-Bildgebung ab. Daneben gibt es erste Hinweise, dass die chirurgische Vorgehensweise durch die Einbeziehung der DVT -Informationen"
2,007-003l,"„ Operative Entfernung von Weisheitszähnen "" Langversion Stand August 2019 © DGMKG, DGZMK 1 1. Einleitung 1.1 Priorisierungsgründe Gründe für die Erstellung und weitere Aktualisierung einer Leitlinie für die Behandlung von Weisheitszähnen bestehen durch: Prävalenz des klinischen Problems Es bleibt bei bis zu 80% junger Erwachsener mindestens ein Weisheitszahn im Kiefer retiniert (Hugoson and Kugelberg, 1988). Häufigkeit des Eingriffs Die Weisheitszahnentfernung zählt zu den häufigsten ambulanten operativen Eingriffen, in GB zu den häufigsten belegärztlichen Eingriffen (Eklund and Pittmann, 2001) . Bis zu 2/3 der Patienten auf Wartelisten englischer Oral - und Kieferchirurgen sind für die operative Weisheitszahnentfernung vorgesehen. Im Jahr 2016 wurden in Deutschland im Bereich der GKV 1.265,9 Tsd. operative Entfernungen ve rlagerter und/oder retinierter Zähne vorgenommen (KZBV Jahrbuch 2017), wobei es sich in der überwiegenden Mehrzahl um Weisheitszähne handelte. Aus dem britischen Gesundheitssystem liegen mittlerweile auch Erkenntnisse über die Gesamtzahl der Zahnentfernung en nach den dortigen Leitlinien -Empfehlungen zu einem generellen Verzicht auf eine „prophylaktische“ Weisheitszahnentfernung (Song et al. 2000) vor. Nach einem vorübergehenden Abfall der Zahnentfernungen bis 2003/2004 ist es seither wieder zu einem kontinu ierlichen Anstieg der Eingriffszahlen gekommen, der bereits 2009 nahezu den Stand vor der Implementierung der Leitlinien erreicht hat, obwohl die Grundgesamtheit der Patienten und damit die Anzahl der Zähne in den jüngeren Geburtsjahrgängen deutlich kleine r geworden"
3,007-003l,"Impaktierte Zähne K03.3 Pathologische Zahnresorption K03.5 Ankylose der Zähne Tabelle 1: ICD -Codes der potenziellen Erkrankungsbilder (ICD -10-GM) S3-Leitlinie „ Operative Entfernung von Weisheitszähnen "" Langversion Stand August 2019 © DGMKG, DGZMK 5 3. Ziele der Leitlinie Die Leitlinie soll die o.g. Berufsgruppen in der differentialtherapeutischen Entscheidung zwischen dem Belassen und dem Entfernen von Weisheitszähnen unterstützen und diejenigen Patienten identifizieren helfen, die von einer Entfernung bzw. dem Belassen der Zähne mit Wahrscheinlichkeit einen Vorteil haben. Darüber hinaus besteht die präventive Intention, einer Entstehung pathologischer Prozesse im Zusammenhang mit r etinierten Weisheitszähnen vorzubeugen. Übergeordnetes Ziel der Leitlinie ist damit die Verbesserung der Versorgungsqualität für die betroffene Patientengruppe durch Vermeidung von Komplikationen: a) aus dem Belassen von Zähnen bei bestehender Indikation zur Entfernung b) aus dem Entfernen von Zähnen bei fehlender Indikation zur Entfernung 4. Symptome Klinische und radiologische Symptome im Zusammenhang mit Weisheitszähnen können typischerweise sein: • Perikoronare Infektion • Erweiterung des radiologischen Perikoronarraumes • Perikoronare Auftreibung (beispielsweise durch Zystenbildung) • Schmerzen/Spannungsgefühl im Kiefer -Gesichtsbereich • Parodontale Schäden, insbesondere distal an 12 -Jahr Molaren • Resorptionen an Nachbarzähnen (si ehe Hintergrundtext unter 9.2) • Elongation/Kippung • kariöse Zerstörung/Pulpitis S3-Leitlinie „ Operative Entfernung von Weisheitszähnen "" Langversion Stand August 2019 © DGMKG, DGZMK 6"
4,032-022OLl,"Zweifel daran gibt, dass die chirurgische Entfernung eines Plattenepithelkarzinoms der Haut die Methode der Wahl ist [329] , besteht für die gen aue Gestaltung der Exzision und der darauffolgenden histologischen Untersuchung nur geringer Konsens. Bei der Durchsicht der vorhandenen Leitlinien bezüglich der lokalen Therapie des PEK der Haut fällt auf, dass es weiterhin Diskrepanzen gibt hinsichtlich der Beurteilung von Risikofaktoren, die das lokoregionäre Verhalten der PEK beeinflussen und auch hinsichtlich der Modalitäten der lokalen Therapie. Das hängt damit zusammen, dass die vorhandene Literatur zu diesen Themen fast durchweg aus retrospektiven u nd auch zum Teil kleinen Studien besteht, die oft zu heterogenen Ergebnissen kommen. 8.1.1 Risikofaktoren für den loko -regionalen Progress und tumorspezifisches Überleben Die Kenntnis der Faktoren, die zum lokalen Rezidiv und regionären Metastasierung führen, i st für die Operationsplanung von Bedeutung. Ein Tumor mit hohem Potential zur lokalen Infiltration ist anders zu behandeln als ein solcher mit geringem Potential. Zur Analyse von Risikofaktoren wurden sowohl retrospektive als auch wenige prospektive Studie n durchgeführt. Allerdings mangelt es für Letztere immer noch an Studien mit ausreichend großen Patientenzahlen. Bislang wurden 7 prospektive Studien publiziert [20], [330] , [19], [331], [52], [332] ; drei davon mit Patientenzahlen von 502 bis 14 34 unterschiedlicher Zeiträume aus einer Institution [20], [330] , [19]. Eine kürzlich veröffentlichte Studie mit 745 Tumoren war zwar multizentrisch, jedoch waren zum Großteil eher low -risk PEK eingeschlossen (95% waren gut differenziert, 85% kleiner als 2 cm Durchmesser) [332] . Zwei weitere prospektive Studien untersuchten 210 und 224 Patienten [331] , [52]. Eine weitere"


## Creating stored answers

In [9]:
naive_rag_azure_wf_system: WorkflowSystem = init_stored_wf_system(dbi, naive_rag_azure_config, BACKEND_API_URL)

question_doc = dbi.get_collection(CollectionName.QUESTIONS).find_one()
question: QuestionEntry = dbi.document_to_question_entry(question_doc)
generate_stored_response(dbi, naive_rag_azure_wf_system, None, question, BACKEND_API_URL)

[37m2025-04-22 12:26:47[0m [37m[[0m[1m[38;5;208mINFO[0m[37m][0m [38;5;208mWorkflow with ID '7f5e3254-2a13-4461-9b4c-9a9b4e4698b8' already exists.[0m
[37m2025-04-22 12:26:53[0m [37m[[0m[1m[38;5;208mINFO[0m[37m][0m [38;5;208mStarting retrieval evaluation with number of expected entries [{len(expected_retrieval)}] and number of actual entries [{len(actual_retrieval)}] ...[0m
[37m2025-04-22 12:26:53[0m [37m[[0m[1m[36mDEBUG[0m[37m][0m [36mExpected entries: [('007-003l', 'Eine dreidimensionale Bildgebung (beispielsweise DVT/CT) kann indiziert sein, wenn in der konventionellen zweidimensionalen Bildgebung Hinweise auf eine unmittelbare Lagebeziehung zu Risikostrukturen oder pathologischen Veränderungen vorhanden sind und gleichzeitig aus Sicht des Behandlers weitere räumliche Informationen entweder für die Risikoaufklärung des Patienten, Eingriffsplanung oder auch für die intraoperative Orientierung erforderlich sind.'), ('007-003l', 'Eine dreidimensionale Bild

GenerationResultEntry(question=QuestionEntry(question='Wann ist die dreidimensionale Bildgebung bei der Entfernung von Weisheitszähnen indiziert?', classification=QuestionClass(supercategory=<SuperCategory.SIMPLE: 'Simple'>, subcategory=<SimpleSubCategory.TEXT: 'Text'>), expected_answers=[ExpectedAnswer(text='Eine dreidimensionale Bildgebung (beispielsweise DVT/CT) kann indiziert sein, wenn in der konventionellen zweidimensionalen Bildgebung Hinweise auf eine unmittelbare Lagebeziehung zu Risikostrukturen oder pathologischen Veränderungen vorhanden sind und gleichzeitig aus Sicht des Behandlers weitere räumliche Informationen entweder für die Risikoaufklärung des Patienten, Eingriffsplanung oder auch für die intraoperative Orientierung erforderlich sind.', guideline=GuidelineMetadata(awmf_register_number='007-003l', awmf_class='S2k', title='Weisheitszahnentfernung', leading_publishing_organizations=['Deutsche Gesellschaft für Mund-, Kiefer- und Gesichtschirurgie e.V. (DGMKG)', 'Deutsch

## Gathering feedback
For this configuration, we now want to obtain not only the response latency and performance of the retriever, but also two manual evaluation values:
1. Correctness
2. Hallucination classification
3. Generator's factuality score

This requires expert responses.

### Setup

#### Get chats

In [2]:
def get_chats():
    naive_rag_azure_config_wf_system: WorkflowSystem = dbi.document_to_workflow_system(
        dbi.get_entry(CollectionName.WORKFLOW_SYSTEMS, "name", naive_rag_azure_config["name"])
    )
    chats: List[ChatInteraction] = naive_rag_azure_config_wf_system.generation_results

    return chats

#### Define functions for widget creation

In [3]:
def create_ui_widgets():
  title_html = widgets.HTML()
  question_html = widgets.HTML(layout=widgets.Layout(width="75%"))
  expected_asw_html = widgets.HTML(layout=widgets.Layout(width="75%"))
  provided_asw_html = widgets.HTML(layout=widgets.Layout(width="75%"))
  existing_feedback_html = widgets.HTML(layout=widgets.Layout(width="75%"))

  feedback_correct_label = widgets.Label(value="Correctness:", layout=widgets.Layout(width='120px'))
  feedback_correct_input = widgets.IntSlider(value=3, min=1, max=5, step=1, description="")

  feedback_hall_label = widgets.Label(value="Hallucination count:", layout=widgets.Layout(width='120px'))
  fc_input = widgets.BoundedIntText(value=0, min=0, max=50, description="FC")
  ic_input = widgets.BoundedIntText(value=0, min=0, max=50, description="IC")
  cc_input = widgets.BoundedIntText(value=0, min=0, max=50, description="CC")

  feedback_factuality_label = widgets.Label(value="Count facts for factuality score:", layout=widgets.Layout(width='120px'))
  fs_input = widgets.BoundedIntText(value=0, min=0, max=50, description="Supported facts")
  fo_input = widgets.BoundedIntText(value=0, min=0, max=50, description="Overall facts")

  feedback_notes_label = widgets.Label(value="Note:", layout=widgets.Layout(width='120px'))
  feedback_notes_input = widgets.Textarea(placeholder="Enter your name and optional notes...", description="", disabled=False, layout=widgets.Layout(width="75%", padding="0 160px 0 0"))

  return title_html, question_html, expected_asw_html, provided_asw_html, existing_feedback_html, feedback_correct_label, feedback_correct_input, feedback_hall_label, fc_input, ic_input, cc_input, feedback_factuality_label, fs_input, fo_input, feedback_notes_label, feedback_notes_input

def create_buttons():
  prev_button   = widgets.Button(description="Previous")
  next_button   = widgets.Button(description="Next")
  save_button   = widgets.Button(description="Save", button_style="success")
  exit_button = widgets.Button(description="Exit")

  return prev_button, next_button, save_button, exit_button

#### Define parsers for display of chat properties

In [14]:
def parse_question(question: QuestionEntry, section_title="Question") -> str:
  question = f"""
  <details open style="margin: 0 20px">
    <summary style='font-weight: bold; font-size: 1.05em; cursor: pointer;'>{section_title}</summary>
    <div style='margin: 0px 30px 30px 30px;'>
      <span>{html.escape(question.question)}</span><br>
      <span><small style='color: gray'>Type: {question.classification.supercategory.value} / {question.classification.subcategory.value}</small></span>
    </div>
  </details>
  """
  return question

def parse_expected_answer_table(ea_list: List[ExpectedAnswer], section_title = "Expected answer / retrieval") -> str:
  align_style = "text-align:left; padding: 4px 10px;"
  table = f"""
  <details open style="margin: 0 20px">
    <summary style='font-weight: bold; font-size: 1.05em; cursor: pointer;'>{section_title}</summary>
    <div style='margin: 0px 30px 30px 30px;'>
      <table style='border-collapse: collapse;'>
        <thead>
          <tr>
            <th style='{align_style} border-bottom: 1px solid #ccc;'>#</th>
            <th style='{align_style} border-bottom: 1px solid #ccc;'>Guideline (AWMF-Nr.)</th>
            <th style='{align_style}; border-bottom: 1px solid #ccc;'>Text</th>
            <th style='{align_style} border-bottom: 1px solid #ccc;'>Page in guideline</th>
          </tr>
        </thead>
        <tbody>
  """
  for i, ea in enumerate(ea_list):
    table += f"""
          <tr>
            <td style='{align_style}'>{i}</td>
            <td style='{align_style}'>{ea.guideline.awmf_register_number}</td>
            <td style='{align_style}'>{html.escape(ea.text)}</td>
            <td style='{align_style}'>{ea.guideline_page}</td>
          </tr>
    """
  table += """
        </tbody>
      </table>
    </div>
  </details>
  """
  return table

def parse_provided_answer(pa: GenerationResultEntry, section_title="System response (provided answer)") -> str:
  align_style = "text-align:left; padding: 4px 10px;"
  provided_answer = f"""
  <details open style="margin: 0 20px">
    <summary style='font-weight: bold; font-size: 1.05em; cursor: pointer;'>{section_title}</summary>
    <div style='margin: 0px 0 30px 30px;'>
      {markdown.markdown(pa.answer)}
    </div>
    <details open style="margin: 0 20px">
      <summary style='font-weight: bold; font-size: 1.05em; cursor: pointer;'>Related retrieval</summary>
      <div style='margin: 0px 30px 30px 30px;'>
        <style>
          tr:nth-child(even) {{
            background-color: #f2f2f2;
          }}
        </style>
        <table style='border-collapse: collapse;'>
          <thead>
            <tr>
              <th style='{align_style} border-bottom: 1px solid #ccc;'>#</th>
              <th style='{align_style} border-bottom: 1px solid #ccc;'>Guideline (AWMF-Nr.)</th>
              <th style='{align_style}; border-bottom: 1px solid #ccc;'>Text</th>
            </tr>
          </thead>
          <tbody>
  """
  for i, pa in enumerate(pa.retrieval_result):
    provided_answer += f"""
            <tr>
              <td style='{align_style}'>{i}</td>
              <td style='{align_style}'>{pa.guideline.awmf_register_number}</td>
              <td style='{align_style} width:100%;'><details open><summary>...</summary>{html.escape(pa.text)}</details></td>
            </tr>
    """
  provided_answer += f"""
          </tbody>
        </table>
      </div>
    </details>
  </details>
  """
  return provided_answer

def parse_existing_feedback(fb_list: List[Feedback], section_title="Already existing evaluation / feedback") -> str:
  if not fb_list:
    return ""

  align_style = "text-align:left; padding: 4px 10px;"
  table = f"""
  <details open style="margin: 0 20px">
    <summary style='font-weight: bold; font-size: 1.05em; cursor: pointer;'>{section_title}</summary>
    <div style='margin: 0px 30px 30px 30px;'>
      <table style='border-collapse: collapse;'>
        <thead>
          <tr>
            <th style='{align_style} border-bottom: 1px solid #ccc;'>#</th>
            <th style='{align_style}; border-bottom: 1px solid #ccc;'>Target</th>
            <th style='{align_style} border-bottom: 1px solid #ccc;'>Type</th>
            <th style='{align_style} border-bottom: 1px solid #ccc;'>Value</th>
            <th style='{align_style} border-bottom: 1px solid #ccc;'>Notes</th>
          </tr>
        </thead>
        <tbody>
  """
  for i, fb in enumerate(fb_list):
    table += f"""
          <tr>
            <td style='{align_style}'>{i}</td>
            <td style='{align_style}'>{fb.target.value}</td>
            <td style='{align_style}'>{fb.type.value}</td>
            <td style='{align_style}'>{fb.value} <small style='color: gray;'>{'manual' if fb.manual else 'autom.'}</small></td>
            <td style='{align_style}'>{fb.notes if fb.notes else '/'}</td>
          </tr>
    """
  table += """
        </tbody>
      </table>
    </div>
  </details>
  """
  return table

#### Actual setup of input display

In [5]:
current_idx = 0

title_html, question_html, expected_answer_html, provided_answer_html, existing_feedback_html, feedback_correct_label, feedback_correct_input, feedback_hall_label, fc_input, ic_input, cc_input, feedback_factuality_label, fs_input, fo_input, feedback_notes_label, feedback_notes_input = create_ui_widgets()
prev_button, next_button, save_button, exit_button = create_buttons()

def update(dbi, chat: ChatInteraction, entry: GenerationResultEntry):
  correctness_score = feedback_correct_input.value
  hallucination_counts = {
    "FC": fc_input.value,
    "IC": ic_input.value,
    "CC": cc_input.value
  }
  fs, fo = fs_input.value, fo_input.value
  note = feedback_notes_input.value

  insert_feedback(
    dbi, chat, entry, create_feedback_correctness(correctness_score, note)
  )
  insert_feedback(
    dbi, chat, entry, create_feedback_hallucination_classification(hallucination_counts, note)
  )
  insert_feedback(
      dbi, chat, entry, create_feedback_factuality_score(fs, fo, note)
  )

def show_entry(idx):
  global current_idx
  current_idx = idx
  entry: GenerationResultEntry = chats[idx].entries[0]

  title_html.value = f"""
  <div style='display: flex; justify-content: start; align-items: center;'>
    <h3 style='margin: 0;'>Chat {idx}</h3>
    <small style='margin-left: 10px;'>[{idx + 1}/{len(chats)}]</small>
  </div>
  """
  question_html.value = parse_question(entry.question)
  expected_answer_html.value = parse_expected_answer_table(entry.question.expected_answers)
  provided_answer_html.value = parse_provided_answer(entry)
  existing_feedback_html.value = parse_existing_feedback(entry.feedback)

  prev_button.disabled = (idx == 0)
  next_button.disabled = (idx == len(chats) - 1)
  save_button.disabled = (idx == len(chats))

def on_prev_clicked(b):
  """Handle Previous button click: NO SAVING!! show previous entry."""
  if current_idx > 0:
    show_entry(current_idx - 1)

def on_next_clicked(b):
  """Handle Next button click: NO SAVING!! show next entry."""
  if current_idx < len(chats) - 1:
    show_entry(current_idx + 1)

def on_save_clicked(b):
  """Handle Save button click: store current status."""
  global chats
  current_entry = chats[current_idx]
  update(dbi, current_entry, current_entry.entries[0])
  chats = get_chats()
  show_entry(current_idx)
  print(f"stored results for entry {current_idx}")

def on_exit_clicked(b):
  """Handle Exit button click: NO SAVING!! end the process."""
  entry_box.layout.display = 'none'
  clear_output()
  print("Finished reviewing entries.")

prev_button.on_click(on_prev_clicked)
next_button.on_click(on_next_clicked)
save_button.on_click(on_save_clicked)
exit_button.on_click(on_exit_clicked)

entry_box = widgets.VBox([
  title_html,
  question_html,
  expected_answer_html,
  provided_answer_html,
  existing_feedback_html,
  widgets.HBox([feedback_correct_label,  feedback_correct_input], layout=widgets.Layout(margin="10px 20px")),
  widgets.HBox([feedback_hall_label, widgets.HBox([fc_input, ic_input, cc_input])], layout=widgets.Layout(margin="10px 20px")),
  widgets.HBox([feedback_factuality_label, widgets.HBox([fo_input, fs_input])], layout=widgets.Layout(margin="10px 20px")),
  widgets.HBox([feedback_notes_label,  feedback_notes_input], layout=widgets.Layout(margin="10px 20px")),
  widgets.HBox([prev_button, next_button, save_button, exit_button], layout=widgets.Layout(margin="5px 20px"))
])

### Explanation
This section requires expert input. Start the next cell, then fill out the provided form.

We assume for each chat, that only one interaction is relevant. Meaning, we got one question as an input, and one system response as the output. This means, per question, we got the following information displayed:
- Expected answer / retrieval (if available).
- Answer provided by the system &rarr; needs evaluation.
- Display of current evaluation.

The evaluation is focussing on the following aspects:
1. Correctness: Check how well response covers the expected information (1 - <small>$0\%$</small>, 5 - <small>$100\%$</small>)
2. Hallucination classification: Identify and categorize hallucinations &rarr; count for each of these categories:
    - FC = fact-conflicting (contradicts world (medical) knowledge)
    - IC = input-conflicting (does not address full user input)
    - CC = context-conflicting (contradicts provided content like user history or citations)
3. Factuality of generator: We want to generate a score that captures how many of the facts in the generated output are supported by retrieved content. For that, the following numbers need to be inserted:
    - FO = Overall facts (total number of statements / facts given in generated answer)
    - FS = Supported facts (equal or smaller to the total number of facts, as they are these facts BUT only count as supported if the statement is supported by facts given in the retrieval)

In addition to the values, you can also add a comment per feedback submission. Ideally, add the following line:
- `Evaluator name: ...` with your name inserted

For the navigation, keep the following in mind:
- TODO

### Execution

In [15]:
chats: List[ChatInteraction] = get_chats()
show_entry(0)
entry_box.layout.display = ""
display(entry_box)

VBox(children=(HTML(value="\n  <div style='display: flex; justify-content: start; align-items: center;'>\n    …

## Visualization
This section will now present an overview over the collected feedback and statistics for the evaluation.

### Response latency

In [None]:
naive_rag_azure_wf_system: WorkflowSystem = init_stored_wf_system(dbi, naive_rag_azure_config, BACKEND_API_URL)
avg_response_time = get_average_response_time(naive_rag_azure_wf_system)
df__response_time, img__response_time = analyze_and_visualize_response_time_per_category(naive_rag_azure_wf_system)
img__response_time.update_layout(width=screen_width, height=screen_height)


print(f"Average response latency: {avg_response_time:.2f} s")
for supercat in all_supercategories:
    entry = df__response_time[df__response_time['subcategory'].isna() & (df__response_time['supercategory'] == supercat.value)]['avg_response_latency']
    if len(entry) == 0:
        print(f"No response latency for {supercat.value} questions")
    else:
        print(f"Response latency for {supercat.value} questions: {entry.iloc[0]:.2f} s")

img__response_time

### Correctness of overall system

In [None]:
naive_rag_azure_wf_system: WorkflowSystem = init_stored_wf_system(dbi, naive_rag_azure_config, BACKEND_API_URL)
avg_correctness = get_average_correctness(naive_rag_azure_wf_system)
df__correctness, img__correctness = analyze_and_visualize_correctness_per_category(naive_rag_azure_wf_system)
img__correctness.update_layout(width=screen_width, height=screen_height)


print(f"Average correctness: {avg_correctness:.2f}")
for supercat in all_supercategories:
    entry = df__correctness[df__correctness['subcategory'].isna() & (df__correctness['supercategory'] == supercat.value)]['avg_correctness_score'].iloc[0]
    if pd.isna(entry):
        print(f"No correctness scores for {supercat.value} questions")
    else:
        print(f"Correctness score for {supercat.value} questions: {entry:.2f}")

img__correctness

In [None]:
naive_rag_azure_wf_system: WorkflowSystem = init_stored_wf_system(dbi, naive_rag_azure_config, BACKEND_API_URL)
list_hallucinations = get_sum_hallucinations_per_question(naive_rag_azure_wf_system)
avg_count_hallucinations_per_question = sum(list_hallucinations) / sum(1 for item in list_hallucinations if item is not None)
df__hallucinations, img__hallucinations = analyze_and_visualize_hallucinations(naive_rag_azure_wf_system)
img__hallucinations.update_layout(width=2*screen_width, height=screen_height)

print(f"Overall hallucinations per question: {avg_count_hallucinations_per_question:.2f}")

img__hallucinations

### Retrieval evaluation

In [None]:
naive_rag_azure_wf_system: WorkflowSystem = init_stored_wf_system(dbi, naive_rag_azure_config, BACKEND_API_URL)