# Retrieval Augmented Generation


## Setup


In [1]:
%pip install -U llama-index
%pip install -U llama-index-embeddings-huggingface
%pip install -U pinecone
%pip install -U llama-index-vector-stores-pinecone
%pip install -U deepeval
%pip install -U llama-index-llms-anthropic
%pip install llama-index-llms-openai

Collecting llama-index
  Downloading llama_index-0.10.56-py3-none-any.whl (6.8 kB)
Collecting llama-index-agent-openai<0.3.0,>=0.1.4 (from llama-index)
  Downloading llama_index_agent_openai-0.2.9-py3-none-any.whl (13 kB)
Collecting llama-index-cli<0.2.0,>=0.1.2 (from llama-index)
  Downloading llama_index_cli-0.1.12-py3-none-any.whl (26 kB)
Collecting llama-index-core==0.10.56 (from llama-index)
  Downloading llama_index_core-0.10.56-py3-none-any.whl (15.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.5/15.5 MB[0m [31m29.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting llama-index-embeddings-openai<0.2.0,>=0.1.5 (from llama-index)
  Downloading llama_index_embeddings_openai-0.1.11-py3-none-any.whl (6.3 kB)
Collecting llama-index-indices-managed-llama-cloud>=0.2.0 (from llama-index)
  Downloading llama_index_indices_managed_llama_cloud-0.2.5-py3-none-any.whl (9.3 kB)
Collecting llama-index-legacy<0.10.0,>=0.9.48 (from llama-index)
  Downloading llama_index_le

In [2]:
import os

from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.llms.anthropic import Anthropic
from llama_index.core import VectorStoreIndex
import numpy as np
import json
from llama_index.core.schema import TextNode
from llama_index.core.retrievers import VectorIndexRetriever
from llama_index.vector_stores.pinecone import PineconeVectorStore
from pinecone import Pinecone, ServerlessSpec
from google.colab import userdata
from llama_index.llms.openai import OpenAI


PINECONE_API_KEY = userdata.get("PINECONE_API_KEY")
GITHUB_TOKEN = userdata.get('GITHUB_TOKEN')
ANTHROPIC_API_KEY = userdata.get("ANTHROPIC_API_KEY")
OPENAI_API_KEY = userdata.get("OPENAI_API_KEY")

In [3]:
!git clone https://$GITHUB_TOKEN@github.com/J-Gann/medfluencer.git

Cloning into 'medfluencer'...
remote: Enumerating objects: 101, done.[K
remote: Counting objects: 100% (101/101), done.[K
remote: Compressing objects: 100% (88/88), done.[K
remote: Total 101 (delta 37), reused 64 (delta 12), pack-reused 0[K
Receiving objects: 100% (101/101), 9.44 MiB | 7.13 MiB/s, done.
Resolving deltas: 100% (37/37), done.
Filtering content: 100% (27/27), 13.51 GiB | 31.99 MiB/s, done.


In [4]:
embed_model = HuggingFaceEmbedding(
    model_name="T-Systems-onsite/cross-en-de-roberta-sentence-transformer"
)



config.json:   0%|          | 0.00/541 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/188 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

In [5]:
llm = Anthropic(
    model="claude-3-5-sonnet-20240620",
    api_key=ANTHROPIC_API_KEY,
    max_tokens=4096,
)

In [6]:
pc = Pinecone(api_key=PINECONE_API_KEY)

pinecone_index = pc.Index("medfluencer-videos-index-t-systems")
vector_store = PineconeVectorStore(pinecone_index=pinecone_index)
index_videos = VectorStoreIndex.from_vector_store(vector_store, embed_model=embed_model)

pinecone_index = pc.Index("medfluencer-comments-index-t-systems")
vector_store = PineconeVectorStore(pinecone_index=pinecone_index)
index_comments = VectorStoreIndex.from_vector_store(
    vector_store, embed_model=embed_model
)

#### Retriever


In [7]:
retriever_videos = VectorIndexRetriever(
    index=index_videos,
    similarity_top_k=20,
)

In [8]:
retriever_comments = VectorIndexRetriever(
    index=index_comments,
    similarity_top_k=20,
)

### Reranking


In [9]:
from llama_index.core.postprocessor import SentenceTransformerRerank

rerank = SentenceTransformerRerank(
    model="cross-encoder/msmarco-MiniLM-L6-en-de-v1", top_n=5
)

config.json:   0%|          | 0.00/840 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/428M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/541 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.10M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

### Query Engine


In [10]:
from llama_index.core import get_response_synthesizer
from llama_index.core.query_engine import RetrieverQueryEngine

In [11]:
response_synthesizer = get_response_synthesizer(llm=llm)

query_engine_videos = RetrieverQueryEngine(
    retriever=retriever_videos,
    response_synthesizer=response_synthesizer,
    node_postprocessors=[rerank],
)

query_engine_comments = RetrieverQueryEngine(
    retriever=retriever_comments,
    response_synthesizer=response_synthesizer,
    node_postprocessors=[rerank],
)

# Evaluation


In [12]:
import json

#### Generate questions


In [13]:
with open("medfluencer/medical_fields.json", "r", encoding="UTF-8") as file:
    medical_fields = json.load(file)

In [14]:
from collections import defaultdict

In [None]:
# Generates questions for each medical field

# field_questions = defaultdict(list)
# num_questions = 5
# for field in medical_fields:
#    for _ in range(num_questions):
#        question = llm.complete(
#            f"Generiere eine medizinische Frage eines Laiens, die medizinischem Personal (Arthelferin, Arzt) typischerweise in folgenden Fachbereich gestellt wird: {field}\n Antworte ausschließlich mit der Frage!"
#        ).text
#        field_questions[field].append(question)
# with open("evaluation/questions_per_field.json", "w") as file:
#    json.dump(field_questions, file)

In [15]:
with open("medfluencer/evaluation/questions_per_field.json", "r") as file:
    field_questions = json.load(file)

In [None]:
# answers_per_field = defaultdict(list)
# for field, questions in field_questions.items():
#    for question in questions:
#        res = query_engine.query(question)
#        answer = res.response
#        context = [node.text for node in res.source_nodes]
#        answers_per_field[field].append((answer, context))
# with open("evaluation/answers_per_field.json", "w") as file:
#    json.dump(answers_per_field, file)

In [16]:
with open("medfluencer/evaluation/answers_per_field.json", "r") as file:
    answers_per_field = json.load(file)

#### DeepEval


In [17]:
from deepeval import evaluate
from deepeval.metrics import (
    AnswerRelevancyMetric,
    FaithfulnessMetric,
    ContextualRelevancyMetric,
    HallucinationMetric,
)
from deepeval.test_case import LLMTestCase

In [18]:
test_cases_per_field = defaultdict(list)

for field, questions in field_questions.items():
    for idx, question in enumerate(questions):
        actual_output, retrieval_context = answers_per_field[field][idx]
        test_case = LLMTestCase(
            input=question,
            actual_output=actual_output,
            retrieval_context=retrieval_context,
            context=retrieval_context,
        )

        test_cases_per_field[field].append(test_case)

In [19]:
len(list(test_cases_per_field.keys())) * 10 * 4

2520

In [20]:
from deepeval.models.base_model import DeepEvalBaseLLM

class Claude(DeepEvalBaseLLM):
    def __init__(
        self
    ):
        self.model = Anthropic(
            model="claude-3-5-sonnet-20240620",
            api_key=ANTHROPIC_API_KEY,
            max_tokens=4096,
        )

    def load_model(self):
        return self.model

    def generate(self, prompt: str) -> str:
        model = self.load_model()

        res = model.complete(prompt)
        return res.text

    async def a_generate(self, prompt: str) -> str:
        return self.generate(prompt)

    def get_model_name(self):
        return "claude-3-5-sonnet-20240620"


class GPT4mini(DeepEvalBaseLLM):
    def __init__(
        self
    ):
        self.model = OpenAI(temperature=0, model="gpt-4o-mini", api_key=OPENAI_API_KEY)


    def load_model(self):
        return self.model

    def generate(self, prompt: str) -> str:
        model = self.load_model()

        res = model.complete(prompt)
        return res.text

    async def a_generate(self, prompt: str) -> str:
        return self.generate(prompt)

    def get_model_name(self):
        return "gpt-4o-mini"

In [21]:
import pickle

model = GPT4mini()

answer_relevancy_metric = AnswerRelevancyMetric(
    threshold=0.6,
    model=model,
    include_reason=False
)

faithfulness_metric = FaithfulnessMetric(
    threshold=0.6,
    model=model,
    include_reason=False
)

contextual_relevancy_metric = ContextualRelevancyMetric(
    threshold=0.6,
    model=model,
    include_reason=False
)

hallucination_metric = HallucinationMetric(
    threshold=0.5,
    model=model,
    include_reason=False
)

evaluations = {}

for field, test_case in test_cases_per_field.items():

    evaluation = evaluate(
        test_case,
        [
            answer_relevancy_metric,
            faithfulness_metric,
            contextual_relevancy_metric,
            hallucination_metric,
        ],
    )

    evaluations[field] = evaluation

    with open("medfluencer/evaluation/evaluation_metrics_rag.pkl", "wb") as file:
        pickle.dump(evaluations, file)

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.8, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie kann ich meine Rückenschmerzen lindern?
  - actual output: Es gibt mehrere Möglichkeiten, Rückenschmerzen zu lindern:

1. Bewegung: Bleiben Sie aktiv und vermeiden Sie längere Bettruhe. Regelmäßige Bewegung ist wichtig für einen gesunden Rücken.

2. Ausgewogene Belastung: Achten Sie auf ein gutes Verhältnis zwischen Belastung und Entlastung Ihres Rückens.

3. Schmerzmittel: Bei starken Sch

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ❌ Answer Relevancy (score: 0.25, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 1.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Was sind mögliche Nebenwirkungen der Vollnarkose?
  - actual output: Es tut mir leid, aber die gegebenen Informationen enthalten keine Angaben zu möglichen Nebenwirkungen einer Vollnarkose. Der Text behandelt hauptsächlich Themen wie obstruktive Schlafapnoe, Schlafstörungen und Schlafmittelabhängigkeit. Ohne zusätzliche relevante Informationen kann ich keine zuverlässige Antwort zu Nebenwirku

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 0.875, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.75, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wo genau befindet sich die Bauchspeicheldrüse im Körper?
  - actual output: Die Bauchspeicheldrüse befindet sich tief im Zentrum des Bauches, kurz vor der Wirbelsäule. Sie ist von Blutgefäßen umgeben, die den Darm und die Leber mit Blut versorgen. Ihre genaue Position macht sie zu einem zentralen Verdauungsorgan, das jedoch nicht so leicht zu lokalisieren ist wie beispielsweise Herz oder Ma

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.8, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Kann langes Sitzen am Schreibtisch zu Rückenschmerzen führen und wie kann man dem vorbeugen?
  - actual output: Ja, langes Sitzen am Schreibtisch kann definitiv zu Rückenschmerzen führen. Dies ist besonders problematisch für Menschen, die viel am Computer arbeiten müssen. Häufig entstehen dadurch Verspannungen im Nacken- und Schulterbereich sowie eine eingeschränkte Beweglichkeit.

Um dem vorz

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.8, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Kann ein grauer Star operativ entfernt werden?
  - actual output: Ja, ein grauer Star kann operativ entfernt werden. Die Operation des grauen Stars ist heutzutage ein sehr gängiger und sicherer Eingriff. In den meisten Fällen wird die Operation ambulant und unter örtlicher Betäubung durchgeführt. Nach der Operation benötigen die meisten Patienten keine Brille mehr für den Alltag, obwohl in man

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ❌ Answer Relevancy (score: 0.2, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 1.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie lange hält Insulin im Kühlschrank?
  - actual output: Leider enthält der gegebene Kontext keine spezifischen Informationen zur Haltbarkeit von Insulin im Kühlschrank. Der Text konzentriert sich hauptsächlich auf die Herausforderungen der Insulintherapie, die Wirkungsweise von Insulin im Körper und allgemeine Aspekte der Diabetesbehandlung. Ohne zusätzliche Informationen kann ich keine gena

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 0.9090909090909091, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 0.9, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.8, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie lange dauert die Operation in der Regel und wie lange ist die Erholungszeit danach?
  - actual output: Typischerweise dauert die Operation etwa zwei bis vier Stunden. Nach dem Eingriff werden die Patienten zunächst auf der Intensivstation überwacht. Erstaunlicherweise können die meisten Patienten das Krankenhaus bereits zwei bis drei Tage nach der Operation wieder verlassen.

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 0.9166666666666666, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 0.8571428571428571, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.6, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie lange wird die Operation voraussichtlich dauern und wie verlaufe der Heilungsprozess anschließend?
  - actual output: Die Dauer der Operation wird nicht spezifisch erwähnt, aber es gibt einige Informationen zum Heilungsprozess nach der Operation:

Die erste Wundheilung dauert etwa 14 Tage. In dieser Zeit sollte man vorsichtig sein und keine wirksamen Therapien

Output()

Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.6, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie kann eine Arterienverkalkung behandelt werden?
  - actual output: Es gibt mehrere Möglichkeiten, eine Arterienverkalkung zu behandeln:

1. Medikamentöse Therapie: Dazu gehören Medikamente wie Aspirin zur Blutverdünnung, um Blutgerinnsel zu verhindern, sowie Statine zur Verlangsamung des Plaque-Wachstums und zur Senkung des Risikos für Herzinfarkt und Schlaganfall. Auch bestimmte Blutdruckm

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 0.8235294117647058, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 1.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie lange dauert es, bis ich nach einer Herzoperation wieder voll belastbar bin?
  - actual output: Die Erholungszeit nach einer Herzoperation kann sehr individuell sein und hängt von verschiedenen Faktoren ab. In der Regel dauert es mehrere Wochen bis Monate, bis ein Patient wieder voll belastbar ist. 

Der Heilungsprozess beginnt unmittelbar nach der Operation, wenn das Herz w

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ❌ Answer Relevancy (score: 0.5384615384615384, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.6, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie lange dauert die Operation bei meinem Kind und welche Risiken gibt es?
  - actual output: Die Dauer der Operation und die damit verbundenen Risiken können je nach Art des Eingriffs und dem individuellen Zustand Ihres Kindes variieren. Es ist wichtig, dass Sie diese Fragen direkt mit dem Chirurgen besprechen. 

Generell sollten Sie den Arzt nach der erwarteten Operationsdauer

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 0.7142857142857143, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 0.8461538461538461, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.8, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.5, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Kann eine Operation meine Knieschmerzen nach einem Unfall endgültig beheben?
  - actual output: Eine Operation kann in vielen Fällen Knieschmerzen nach einem Unfall deutlich verbessern, aber es gibt einige wichtige Punkte zu beachten:

Zunächst sollten alle nicht-operativen Behandlungsmöglichkeiten ausgeschöpft werden, bevor eine Operation in Betracht gezogen wird

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 0.9166666666666666, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.8, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.2, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Ist es möglich, eine Nasenkorrektur durchführen zu lassen, um meine Nase zu verschmälern und mein Profil zu verbessern?
  - actual output: Ja, es ist durchaus möglich, eine Nasenkorrektur durchführen zu lassen, um Ihre Nase zu verschmälern und Ihr Profil zu verbessern. Es gibt verschiedene Optionen dafür:

Eine chirurgische Nasenkorrektur (Rhinoplastik) kann die Form der Nase um

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.8, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie lange dauert es, bis ich nach einer Operation an der Lunge wieder voll belastbar bin?
  - actual output: Die Erholungszeit nach einer Lungenoperation kann sehr unterschiedlich sein und hängt von der Art des Eingriffs ab. Bei kleineren Operationen, wie einer Keilresektion, bei der nur ein kleiner Teil der Lunge entfernt wird, können Patienten möglicherweise schon am nächsten Tag nach Hause 

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.2, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.8, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Worin liegt der Unterschied zwischen einer akuten und einer chronischen Bauchfellentzündung?
  - actual output: Der Hauptunterschied zwischen einer akuten und einer chronischen Bauchfellentzündung liegt im zeitlichen Verlauf und der Intensität der Symptome:

Eine akute Bauchfellentzündung tritt plötzlich auf und ist durch sehr starke Bauchschmerzen gekennzeichnet. Sie erfordert in der Regel ei

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.2, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 1.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Welche Beschwerden und Symptome sind während der Schwangerschaft normal?
  - actual output: Während der Schwangerschaft können verschiedene Beschwerden und Symptome auftreten, die als normal gelten. Allerdings ist es wichtig zu betonen, dass jede Schwangerschaft individuell verläuft. Einige häufige Symptome sind:

1. Müdigkeit und Erschöpfung, besonders im ersten Trimester
2. Übelkeit und Erbr

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.2, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.8, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Welche Behandlungsmöglichkeiten gibt es bei unerfülltem Kinderwunsch?
  - actual output: Bei unerfülltem Kinderwunsch gibt es heutzutage sowohl diagnostische als auch therapeutische Möglichkeiten. Es ist wichtig, dass Paare mit Kinderwunsch, die Schwierigkeiten haben schwanger zu werden, einen Arzt aufsuchen. Dieser kann verschiedene Untersuchungen durchführen, um mögliche Ursachen zu finden u

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 0.7272727272727273, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 0.7857142857142857, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.8, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie beeinflusst eine familiäre Vorbelastung mit Brust- oder Eierstockkrebs das persönliche Risiko für gynäkologische Krebserkrankungen?
  - actual output: Eine familiäre Vorbelastung mit Brust- oder Eierstockkrebs erhöht das persönliche Risiko für gynäkologische Krebserkrankungen deutlich. Wenn in der Familie gehäuft Fälle von Brust-, Eierstock-, Darm- oder Gebärm

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 0.9285714285714286, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Was sind die Risiken und Komplikationen bei einer Schwangerschaft mit Zwillingen oder Drillingen?
  - actual output: Bei Schwangerschaften mit Zwillingen oder Drillingen gibt es erhöhte Risiken und mögliche Komplikationen:

1. Frühgeburtlichkeit: Zwillinge kommen durchschnittlich 3-4 Wochen früher, Drillinge sogar etwa 7 Wochen früher als Einlinge.

2. Bluthochdruck bei der Mutt

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.6, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Warum habe ich ständig verstopfte Ohren und höre teilweise gedämpft?
  - actual output: Es gibt mehrere mögliche Gründe für Ihre Symptome. Eine häufige Ursache können chronische Veränderungen im Gehörgang sein, die zu Problemen mit der Selbstreinigung des Ohres führen. Dies kann zu ständigen Ansammlungen von Ohrenschmalz führen, was ein Gefühl der Verstopfung verursachen kann.

In manchen Fäll

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.2, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.8, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Ich habe letzte Nacht einen juckenden, geröteten Ausschlag an meiner Leiste bemerkt - könnte das eine Geschlechtskrankheit sein?
  - actual output: Es ist möglich, dass Ihre Symptome auf eine sexuell übertragbare Infektion hindeuten könnten. Juckreiz und Rötungen im Intimbereich können Anzeichen für verschiedene Geschlechtskrankheiten sein. Allerdings können solche Symptome auch andere Ursache

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Was verursacht genetische Krankheiten und wie können sie behandelt oder verhindert werden?
  - actual output: Genetische Krankheiten werden durch Veränderungen oder Mutationen in den Genen oder der DNA einer Person verursacht. Diese Veränderungen können die normalen Funktionen des Körpers beeinträchtigen und zu verschiedenen Erkrankungen führen.

Die Behandlung genetischer Krankheiten hängt vo

Output()

Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 1.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Welche Vorsichtsmaßnahmen sollte ich im Haushalt treffen, um eine Verbreitung von Krankheitserregern zu vermeiden?
  - actual output: Hier sind einige wichtige Vorsichtsmaßnahmen, die Sie im Haushalt treffen können, um die Verbreitung von Krankheitserregern zu vermeiden:

1. Regelmäßiges und gründliches Händewaschen: Dies ist eine der effektivsten Methoden, um Krankheitserreger zu reduzieren. 

Output()

Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 0.9230769230769231, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.8, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie kann ich meine anhaltenden Bauchschmerzen lindern?
  - actual output: Es gibt mehrere Möglichkeiten, anhaltende Bauchschmerzen zu lindern:

1. Achten Sie auf Ihre Ernährung und vermeiden Sie Lebensmittel, die Beschwerden auslösen könnten.

2. Bewegen Sie sich regelmäßig. Leichte Übungen können die Verdauung anregen und Schmerzen reduzieren.

3. Sorgen Sie für ausreichend Sch

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.6, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Ursachen und Behandlung von geschwollenen Beinen?
  - actual output: Geschwollene Beine können verschiedene Ursachen haben und es gibt mehrere Behandlungsmöglichkeiten:

Eine häufige Ursache ist eine chronische Venenschwäche. Dies kann zu einem Blutstau führen, besonders bei längerem Stehen oder Sitzen. Die Beschwerden verstärken sich oft bei warmen Temperaturen oder abends.

Zur Behandlung wi

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.8, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.8, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Welche Auswirkungen hat mein unkontrollierter Diabetes auf meinen Körper?
  - actual output: Unkontrollierter Diabetes kann schwerwiegende Auswirkungen auf Ihren Körper haben. Wenn der Blutzuckerspiegel zu hoch bleibt, kann dies zu ernsthaften gesundheitlichen Problemen führen. 

Einige mögliche Folgen sind:

1. Schädigung von Organen wie Herz, Nieren und Augen
2. Erhöhtes Risiko für Herz-Krei

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.8, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Woran könnte mein häufiges Sodbrennen liegen?
  - actual output: Es gibt verschiedene mögliche Ursachen für häufiges Sodbrennen:

1. Funktionsstörungen der Speiseröhre, die dazu führen, dass der Inhalt nicht ausreichend in den Magen befördert wird.

2. Probleme mit dem Schließmuskel zwischen Speiseröhre und Magen.

3. Zu häufige und zu große Mengen an Magensäure, die in die Speiseröhre gelange

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie kann man Nebenwirkungen während einer Chemotherapie lindern?
  - actual output: Es gibt verschiedene Möglichkeiten, Nebenwirkungen während einer Chemotherapie zu lindern:

1. Medikamente gegen Übelkeit und Erbrechen können sehr effektiv sein.

2. Bei Sensibilitätsstörungen in Händen und Füßen kann eine Kühlung dieser Bereiche vorbeugend wirken.

3. Gegen Haarausfall gibt es die Option eine

Output()

Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.8, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Ist es normal, dass mein Herz manchmal unregelmäßig oder schnell schlägt?
  - actual output: Es ist durchaus normal, dass Ihr Herz gelegentlich schneller oder unregelmäßig schlägt, besonders in bestimmten Situationen. Bei Aufregung, körperlicher Anstrengung wie einem Sprint oder unter Stress kann das Herz vorübergehend schneller schlagen. Diese kurzzeitigen Veränderungen im Herzrhythmus sind i

Output()

Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.6, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie kann ich meine Nierenfunktion verbessern und Nierenschäden vorbeugen?
  - actual output: Um Ihre Nierenfunktion zu verbessern und Nierenschäden vorzubeugen, können Sie folgende Maßnahmen ergreifen:

1. Überwachen Sie regelmäßig Ihre Nierenfunktion mit Ihrem Arzt.

2. Wenn Sie Diabetes haben, kontrollieren Sie Ihren Blutzuckerspiegel sorgfältig.

3. Bei Bluthochdruck ist es wichtig, den Blu

Output()

Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.8, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.4, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Kann die morgendliche Kurzatmigkeit auch mit der Luftverschmutzung zusammenhängen?
  - actual output: Ja, morgendliche Kurzatmigkeit kann durchaus mit Luftverschmutzung zusammenhängen. Luftverschmutzung, insbesondere erhöhte Ozonwerte, kann verschiedene Atemwegsbeschwerden verursachen. Ozon ist ein Reizgas, das Symptome wie Husten, Halskratzen und Atembeschwerden auslösen kann. Diese Effekte k

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.2, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Was ist die beste Behandlungsmöglichkeit für meine rheumatoide Arthritis?
  - actual output: Es gibt verschiedene Behandlungsmöglichkeiten für rheumatoide Arthritis, die je nach individueller Situation angewendet werden können:

Medikamentöse Therapien können Schmerzen lindern und Entzündungen reduzieren. Dazu gehören entzündungshemmende Medikamente wie Ibuprofen.

Physiotherapie und Ergothera

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.5, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wann sollte ich bei meinem Kind Fieber behandeln?
  - actual output: Fieber sollte in erster Linie behandelt werden, um das Wohlbefinden des Kindes zu verbessern. Es ist wichtig zu verstehen, dass Fieber an sich nicht gefährlich ist, sondern eine natürliche Reaktion des Körpers auf Infektionen darstellt. 

Eine Behandlung ist angebracht, wenn das Kind sich unwohl fühlt, nicht trinken oder esse

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.8, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Warum hat mein Kind so blaue Flecken und ist so müde?
  - actual output: Es gibt verschiedene mögliche Gründe für blaue Flecken und Müdigkeit bei Kindern. Ohne weitere Untersuchung lässt sich keine definitive Aussage treffen. Wichtig ist, das Verhalten und den Zustand des Kindes genau zu beobachten. 

Achten Sie darauf, ob Ihr Kind wirklich ungewöhnlich müde ist oder ob es sich wecken und zum 

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.2, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 1.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Könnten Sie mir erklären, was die Ursache für das Herzmurmeln meines Kindes sein könnte?
  - actual output: Es gibt verschiedene mögliche Ursachen für ein Herzmurmeln bei Kindern. Häufig kann es mit angeborenen Herzfehlern zusammenhängen. Diese können von leichten bis zu schwerwiegenden Formen reichen. Einige Kinder entwickeln auch eine Herzmuskelschwäche, die durch Entzündungen, genetische Fa

Output()

Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wieso hat mein Neugeborenes eine gelbe Hautfarbe?
  - actual output: Eine gelbliche Hautfarbe bei Neugeborenen ist ein häufiges Phänomen, das als Neugeborenengelbsucht bekannt ist. Dies tritt in den ersten Lebenstagen auf und ist in den meisten Fällen kein Grund zur Sorge. 

Die Gelbfärbung entsteht durch einen erhöhten Bilirubinspiegel im Blut des Babys. Dieses Phänomen ist bei vielen Neugebo

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Könnte die Konzentrationsschwierigkeiten und Hyperaktivität meines Kindes durch eine Aufmerksamkeitsdefizit-/Hyperaktivitätsstörung (ADHS) verursacht sein?
  - actual output: Es ist möglich, dass die Konzentrationsschwierigkeiten und Hyperaktivität Ihres Kindes auf ADHS hindeuten könnten. ADHS ist eine Störung, die sich typischerweise früh in der Entwicklung zeigt und durch Probleme mit Aufmer

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Was kann ich tun, wenn mein Kind unter Ängsten, Angstzuständen oder Depressionen leidet?
  - actual output: Es gibt mehrere Möglichkeiten, wie Sie Ihrem Kind bei Ängsten oder Depressionen helfen können:

1. Erkennen Sie an, dass Angst und andere Gefühle normal sind. Vermitteln Sie Ihrem Kind, dass diese Gefühle zwar unangenehm, aber nicht gefährlich sind.

2. Vermeiden Sie es, Ihr Kind vor all

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.5, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Können Sie mir die Ergebnisse meiner Blutuntersuchung erklären?
  - actual output: Ich verstehe Ihr Interesse an den Ergebnissen Ihrer Blutuntersuchung. Die Analyse eines Blutbildes kann viele wichtige Informationen über Ihren Gesundheitszustand liefern. Typischerweise werden bei einer Blutuntersuchung verschiedene Werte gemessen, die Aufschluss über die Zusammensetzung Ihres Blutes geben. 

E

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.8, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.2, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie kann ich mich vor Infektionen mit Viren oder Bakterien effektiv schützen, und welche Hygienemaßnahmen sind dafür am wichtigsten?
  - actual output: Um sich effektiv vor Infektionen mit Viren oder Bakterien zu schützen, gibt es mehrere wichtige Hygienemaßnahmen:

1. Regelmäßiges und gründliches Händewaschen ist die einfachste und effektivste Methode. Dies sollte besonders nach dem Kontakt m

Output()

Output()

Output()

Output()

Output()



Metrics Summary

  - ❌ Answer Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 1.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Was sind die Ursachen für meine Kiefergelenkschmerzen und wie kann ich diese behandeln?
  - actual output: Leider enthält der gegebene Kontext keine spezifischen Informationen zu Kiefergelenkschmerzen und deren Behandlung. Der Text befasst sich hauptsächlich mit anderen orthopädischen Problemen wie Rückenschmerzen, Nackenproblemen und Kniebeschwerden. Ohne weitere relevante Informationen kann 

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.4, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie gefährlich ist eine Operation am Gehirn?
  - actual output: Operationen am Gehirn gehören zu den gefährlichsten und anspruchsvollsten chirurgischen Eingriffen überhaupt. Sie erfordern höchste Präzision, da selbst kleinste Fehler schwerwiegende Folgen haben können. Bei Hirnoperationen handelt es sich um Millimeterarbeit, bei der jeder Handgriff sitzen muss.

Zu den komplexen Eingriffen am G

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...




Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Könnte meine Konzentrationsschwierigkeiten und häufigen Kopfschmerzen mit einer neurologischen Erkrankung zusammenhängen?
  - actual output: Es ist durchaus möglich, dass Ihre Konzentrationsschwierigkeiten und häufigen Kopfschmerzen mit einer neurologischen Erkrankung zusammenhängen könnten. Kopfschmerzen, insbesondere wenn sie regelmäßig auftreten, können auf verschiedene Ursachen hindeuten, 

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 0.9, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 0.8888888888888888, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.2, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie lange strahlt die radioaktive Substanz im Körper nach einer Untersuchung in der Nuklearmedizin?
  - actual output: Die radioaktiven Substanzen, die bei nuklearmedizinischen Untersuchungen verwendet werden, haben in der Regel eine sehr kurze Halbwertszeit. Das bedeutet, dass die Strahlung im Körper relativ schnell abnimmt. 

Nach der Untersuchung müssen Patienten normalerweis

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 0.9090909090909091, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.16666666666666666, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie kann ich meine Familie und mich selbst vor ansteckenden Krankheiten in unserer Gemeinde schützen?
  - actual output: Um sich und Ihre Familie vor ansteckenden Krankheiten zu schützen, gibt es mehrere wichtige Maßnahmen:

1. Hygiene: Regelmäßiges und gründliches Händewaschen ist entscheidend. 

2. Abstand halten: Vermeiden Sie engen Kontakt zu anderen Menschen

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()

Output()

Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 0.7272727272727273, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 0.9090909090909091, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.75, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Warum hat meine Haut hier diese merkwürdigen Flecken?
  - actual output: Es gibt verschiedene mögliche Gründe für merkwürdige Hautflecken. Ohne eine genaue Untersuchung ist es schwierig, eine definitive Antwort zu geben. Allerdings können Faktoren wie Hauttyp, Hauterkrankungen oder Veränderungen in bestehenden Pigmentflecken eine Rolle spielen. 

Es ist ratsam, a

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.8, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Was können die seltsamen Lähmungserscheinungen und Kribbelgefühle in meinen Gliedmaßen bedeuten?
  - actual output: Diese Symptome können auf verschiedene Ursachen hindeuten. Lähmungserscheinungen und Kribbelgefühle in den Gliedmaßen können zum Beispiel mit Durchblutungsstörungen oder Nervenschädigungen zusammenhängen. In manchen Fällen können solche Symptome auch auf einen Hirntumor hinweisen

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Können Sie mir erklären, wie ich die verschriebenen Medikamente richtig einnehmen soll und worauf ich bei möglichen Nebenwirkungen achten muss?
  - actual output: Es ist wichtig, dass Sie die Anweisungen Ihres Arztes zur Einnahme der Medikamente genau befolgen. Nehmen Sie die Medikamente regelmäßig und in der verschriebenen Dosierung ein. Beachten Sie, dass einige Medikamente mehrere Wochen br

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 0.9090909090909091, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Welche Nebenwirkungen können bei der Einnahme dieses Medikaments auftreten?
  - actual output: Bei der Einnahme dieses Medikaments können verschiedene Nebenwirkungen auftreten. Häufig berichtete Nebenwirkungen sind Veränderungen der Darmtätigkeit, wie leichter Durchfall oder Verstopfung. Es kann auch zu Kribbeln oder Taubheitsgefühlen in Fingern und Zehen kommen, was als Neuropa

Output()

Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 0.8181818181818182, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Welche Medikamente sollte ich bei Einnahme von Antibiotika vermeiden?
  - actual output: Es ist wichtig, dass Sie alle Medikamente, die Sie einnehmen, mit Ihrem Arzt besprechen, wenn Ihnen Antibiotika verschrieben werden. Dies dient dazu, mögliche unerwünschte Wechselwirkungen zu vermeiden. 

Informieren Sie Ihren Arzt über sämtliche Medikamente, die Sie regelmäßig oder gelegent

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.8, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.4, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Mein Sohn hat seit einiger Zeit Sprachprobleme und Schwierigkeiten mit dem Hören. Könnte das an einer Hörbehinderung oder einer Sprachstörung liegen?
  - actual output: Es ist durchaus möglich, dass die Sprachprobleme und Hörschwierigkeiten Ihres Sohnes auf eine Hörbehinderung oder Sprachstörung hindeuten könnten. 

Solche Symptome sollten auf jeden Fall ernst genommen werden. Sprachentwicklun

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 0.8571428571428571, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.8, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Welche Übungen können mir bei der Rehabilitation nach meinem Schlaganfall helfen, die Beweglichkeit in meinem linken Arm wiederherzustellen?
  - actual output: Es gibt mehrere Möglichkeiten, die Beweglichkeit in Ihrem Arm nach einem Schlaganfall zu verbessern:

1. Physiotherapie und Ergotherapie sind sehr wichtige Bestandteile der Rehabilitation. Diese sollten Sie so früh wie mö

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.4, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie funktioniert der menschliche Körper bei der Regulierung der Körpertemperatur?
  - actual output: Der menschliche Körper hat einen bemerkenswerten Mechanismus zur Regulierung der Körpertemperatur. Im Zentrum dieses Systems steht der Hypothalamus im Gehirn, der als Wärmeregulationszentrum fungiert. Er erhält ständig Signale von Temperatursensoren, insbesondere aus der Haut.

Die optimale Kör

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 0.9166666666666666, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Was kann ich tun, um besser mit meiner Angststörung umzugehen?
  - actual output: Hier sind einige Vorschläge, wie Sie besser mit Ihrer Angststörung umgehen können:

1. Konzentrieren Sie sich darauf, Ihr Selbstvertrauen zu stärken, anstatt nur zu versuchen, die Angst zu reduzieren. Arbeiten Sie daran, Dinge trotz Ihrer Angst zu tun und diese auszuhalten.

2. Vermeiden Sie es, An

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 0.9333333333333333, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.25, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie werden psychische Erkrankungen oder Persönlichkeitsstörungen bei Straftätern beurteilt und behandelt?
  - actual output: Psychische Erkrankungen und Persönlichkeitsstörungen sind bei Straftätern deutlich häufiger als in der Allgemeinbevölkerung. Studien zeigen, dass bis zu 78% der Gefängnisinsassen die Kriterien für eine Persönlichkeitsstörung erfüllen könnten, verglichen m

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.2, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Ich leide seit einiger Zeit unter ständiger Erschöpfung und Antriebslosigkeit, obwohl medizinisch keine körperliche Ursache gefunden wurde. Könnte das psychische Gründe haben?
  - actual output: Ja, es ist durchaus möglich, dass Ihre anhaltende Erschöpfung und Antriebslosigkeit psychische Ursachen haben könnten. Was Sie beschreiben, ähnelt stark den Symptomen einer Depression. 

Depression ist

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 0.9375, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.8, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.4, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Ist die Durchführung einer Computertomographie zur Untersuchung des [betroffenen Körperbereichs] erforderlich und wie läuft diese ab?
  - actual output: Eine Computertomographie (CT) ist in vielen Fällen eine sehr nützliche Untersuchungsmethode, die schnell und sicher detaillierte Einblicke in den Körper ermöglicht. Sie eignet sich besonders gut zur Untersuchung von Organen, Knochen und grö

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 0.8571428571428571, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 0.7857142857142857, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.6, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Warum muss mein Kind für diese Untersuchung bestrahlt werden und ist das nicht gefährlich?
  - actual output: Die Bestrahlung ist Teil einer spezialisierten Behandlung für Ihr Kind. Es handelt sich dabei um eine gezielte medizinische Therapie, die von einem erfahrenen Team durchgeführt wird. 

Die Bestrahlung selbst findet in einem speziellen Raum statt, in dem Ih

Output()

Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Können Sie mir die Ergebnisse meiner Magnetresonanztomographie (MRT) des Gehirns erklären?
  - actual output: Es tut mir leid, aber ich kann Ihre spezifischen MRT-Ergebnisse nicht erklären, da ich keinen Zugang zu Ihren persönlichen medizinischen Unterlagen habe. Die Interpretation von MRT-Bildern erfordert die Expertise eines qualifizierten Arztes oder Radiologen.

Generell ermöglicht eine MR

Output()

Output()

Output()

Output()

Output()



Metrics Summary

  - ❌ Answer Relevancy (score: 0.25, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 1.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Können Sie mir erklären, wie die Todesursache bei einem Unfallopfer ermittelt wird?
  - actual output: Entschuldigung, aber ich kann diese Frage basierend auf den gegebenen Informationen nicht beantworten. Der bereitgestellte Kontext enthält keine spezifischen Details zur Ermittlung von Todesursachen bei Unfallopfern. Die Informationen beziehen sich hauptsächlich auf Suizidforschung, Risikofa

Output()

Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wird die Strahlentherapie bei meinem Krebstyp empfohlen, und wie kann ich mich darauf vorbereiten?
  - actual output: Die Empfehlung für eine Strahlentherapie hängt von Ihrem individuellen Fall ab. Üblicherweise wird Ihr Fall in einem Tumorboard besprochen, bei dem Experten verschiedener Fachrichtungen zusammenkommen, um die beste Behandlungsstrategie für Sie zu entwickeln. Dabei werden Faktor

Output()

Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.8, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie lange muss man nach einer Blutspende warten, bevor man wieder Blut spenden kann?
  - actual output: Nach einer Blutspende müssen Männer eine Sperrfrist von 60 Tagen einhalten, bevor sie wieder spenden dürfen. Für Frauen beträgt diese Sperrfrist 90 Tage. Diese Wartezeiten sind wichtig, damit sich der Körper vollständig von der Spende erholen kann und der Eisenhaushalt sich wieder normalisie

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.8, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Warum habe ich beim Wasserlassen so starke Schmerzen?
  - actual output: Es gibt mehrere mögliche Gründe für Schmerzen beim Wasserlassen. Eine Ursache könnte mit der Nierenfunktion zusammenhängen. Wenn die Nieren nicht richtig arbeiten, kann dies zu Problemen beim Urinieren führen. 

Eine Niereninsuffizienz, ob akut oder chronisch, kann verschiedene Symptome verursachen, die auch das Wasserlas

In [22]:
import pickle
with open("medfluencer/evaluation/evaluation_metrics_rag.pkl", "rb") as file:
    evaluation_ = pickle.load(file)

In [24]:
len(evaluation_)

63

In [33]:

evaluation = evaluate(
    test_cases_per_field["Allgemeinmedizin"],
    [
        answer_relevancy_metric,
        faithfulness_metric,
        contextual_relevancy_metric,
        hallucination_metric,
    ],
)



Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.8, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie kann ich meine Rückenschmerzen lindern?
  - actual output: Es gibt mehrere Möglichkeiten, Rückenschmerzen zu lindern:

1. Bewegung: Bleiben Sie aktiv und vermeiden Sie längere Bettruhe. Regelmäßige Bewegung ist wichtig für einen gesunden Rücken.

2. Ausgewogene Belastung: Achten Sie auf ein gutes Verhältnis zwischen Belastung und Entlastung Ihres Rückens.

3. Schmerzmittel: Bei starken Sch

AttributeError: 'list' object has no attribute 'success'

In [50]:
import pickle
with open("medfluencer/evaluation/evaluation_metrcis_rag.json", "wb") as file:
    pickle.dump(evaluation, file)

In [51]:
import pickle
with open("medfluencer/evaluation/evaluation_metrcis_rag.json", "rb") as file:
    evaluation_ = pickle.load(file)

In [52]:
evaluation_

[TestResult(success=False, metrics_metadata=[MetricMetadata(metric='Answer Relevancy', threshold=0.6, success=True, score=1.0, reason=None, strict_mode=False, evaluation_model='claude-3-5-sonnet-20240620', error=None, evaluation_cost=None, verbose_logs='Statements:\n[\n    "Es gibt mehrere Möglichkeiten, Rückenschmerzen zu lindern:",\n    "Bewegung: Bleiben Sie aktiv und vermeiden Sie längere Bettruhe.",\n    "Regelmäßige Bewegung ist wichtig für einen gesunden Rücken.",\n    "Ausgewogene Belastung: Achten Sie auf ein gutes Verhältnis zwischen Belastung und Entlastung Ihres Rückens.",\n    "Schmerzmittel: Bei starken Schmerzen können vorübergehend Medikamente helfen, um Alltagsaktivitäten zu erleichtern.",\n    "Wärmebehandlung: Wärmeanwendungen können zur Schmerzlinderung beitragen.",\n    "Akupunktur: Diese Methode kann für manche Menschen hilfreich sein.",\n    "Dehnübungen: Einfache Dehnübungen, wie das Strecken der Vorderseite für 1-1,5 Minuten, können Verspannungen lösen.",\n    

In [46]:
evaluations = defaultdict(list)

for sample in evaluation:
    for metric in sample.metrics_metadata:
        evaluations["Allgemeinmedizin"].append({"success": metric.success, "metric": metric.metric, "score": metric.score})

In [49]:
evaluation

[TestResult(success=False, metrics_metadata=[MetricMetadata(metric='Answer Relevancy', threshold=0.6, success=True, score=1.0, reason=None, strict_mode=False, evaluation_model='claude-3-5-sonnet-20240620', error=None, evaluation_cost=None, verbose_logs='Statements:\n[\n    "Es gibt mehrere Möglichkeiten, Rückenschmerzen zu lindern:",\n    "Bewegung: Bleiben Sie aktiv und vermeiden Sie längere Bettruhe.",\n    "Regelmäßige Bewegung ist wichtig für einen gesunden Rücken.",\n    "Ausgewogene Belastung: Achten Sie auf ein gutes Verhältnis zwischen Belastung und Entlastung Ihres Rückens.",\n    "Schmerzmittel: Bei starken Schmerzen können vorübergehend Medikamente helfen, um Alltagsaktivitäten zu erleichtern.",\n    "Wärmebehandlung: Wärmeanwendungen können zur Schmerzlinderung beitragen.",\n    "Akupunktur: Diese Methode kann für manche Menschen hilfreich sein.",\n    "Dehnübungen: Einfache Dehnübungen, wie das Strecken der Vorderseite für 1-1,5 Minuten, können Verspannungen lösen.",\n    

In [48]:
evaluations["Allgemeinmedizin"]

[{'success': True, 'metric': 'Answer Relevancy', 'score': 1.0},
 {'success': True, 'metric': 'Faithfulness', 'score': 1.0},
 {'success': True, 'metric': 'Contextual Relevancy', 'score': 1.0},
 {'success': False, 'metric': 'Hallucination', 'score': 0.8},
 {'success': True, 'metric': 'Answer Relevancy', 'score': 1.0},
 {'success': True, 'metric': 'Faithfulness', 'score': 1.0},
 {'success': True, 'metric': 'Contextual Relevancy', 'score': 0.6},
 {'success': True, 'metric': 'Hallucination', 'score': 0.0},
 {'success': True, 'metric': 'Answer Relevancy', 'score': 0.9375},
 {'success': True, 'metric': 'Faithfulness', 'score': 0.8461538461538461},
 {'success': False, 'metric': 'Contextual Relevancy', 'score': 0.4},
 {'success': True, 'metric': 'Hallucination', 'score': 0.2},
 {'success': True, 'metric': 'Answer Relevancy', 'score': 1.0},
 {'success': True, 'metric': 'Faithfulness', 'score': 1.0},
 {'success': False, 'metric': 'Contextual Relevancy', 'score': 0.2},
 {'success': False, 'metric'

In [32]:
evaluation[0].success

True

In [30]:
with open("medfluencer/evaluation/evaluation_metrcis_rag.json", "w") as file:
    json.dump(evaluation, file)

TypeError: Object of type TestResult is not JSON serializable

In [None]:
evaluation

[TestResult(success=False, metrics_metadata=[MetricMetadata(metric='Answer Relevancy', threshold=0.7, success=True, score=0.8571428571428571, reason='The score is 0.86 because while the answer is relevant and provides some helpful tips on dealing with anxiety disorders, there is a statement in the output that does not contribute any useful information to addressing the question.', strict_mode=False, evaluation_model='gpt-3.5-turbo', error=None, evaluation_cost=0.0014895), MetricMetadata(metric='Faithfulness', threshold=0.7, success=False, score=0.6, reason='The score is 0.60 because the actual output includes contradictions such as focusing on values and goals in life being more important than anxiety, and the idea that relying too much on coping strategies that provide short-term relief is not recommended.', strict_mode=False, evaluation_model='gpt-3.5-turbo', error=None, evaluation_cost=0.0031345), MetricMetadata(metric='Contextual Relevancy', threshold=0.7, success=True, score=0.8, 

TODO: Evaluate different answers for expert or layman (how relevant is the context in each case?)

TODO: Evaluate standard llm answers

TODO: Generate suitable test queries for comments

TODO: test video questions and comment questions on other datasets

TODO: evaluate cobined query engine on both questions


In [None]:
from llama_index.core import VectorStoreIndex
import numpy as np
import json
from llama_index.core.schema import TextNode

In [None]:
question = "Was hilft bei Ohrenentzündung?"

In [None]:
retrieved_nodes = retriever.retrieve(question)

In [None]:
for node in retrieved_nodes:
    print(node.text)

how do I get rid of pain in my ear pain
can be caused by things like an
infection a blockage in the ear canal or
an injury sometimes you can alleviate
the pain by applying a warm compress
such as putting a warm cloth over the
affected ear to help reduce pain
non-prescription drugs like
acetaminophen can help and even more so
when it comes to NSAID medications so
things like ibuprofen Advil Aleve
naproxen and the like just know that
every medication has the potential for
side effects sometimes ear drops can
help just remember to follow the
directions on the packaging it's best to
keep the hurt ear or the injured ear up
so when you're lying down try to keep
that injured ear facing up to relieve
pressure and swelling there are certain
red flags that you should be aware of
that indicate you may need to seek
urgent medical attention red flags
include severe pain if the pain lasts
for a long time or if it comes with
Associated discharge or hearing loss
antibiotics may be needed for example t

In [None]:
from llama_index.core.llms import ChatMessage

In [None]:
summaries = []
for node in retrieved_nodes[:5]:
    res = llm.chat(
        [
            ChatMessage(
                role="system",
                content=f"Summarize the content of the given document which is relevant for the question '{question}'",
            ),
            ChatMessage(role="user", content=node.text),
        ]
    )
    summaries.append(res.message.content)

In [None]:
summaries

['Hier sind die wichtigsten Punkte, die bei einer Ohrenentzündung helfen können:\n\n- Warme Kompressen auf dem betroffenen Ohr können die Schmerzen lindern.\n\n- Nicht-verschreibungspflichtige Schmerzmittel wie Acetaminophen oder NSAID-Medikamente (Ibuprofen, Naproxen etc.) können die Schmerzen reduzieren.\n\n- Ohrentropfen können ebenfalls hilfreich sein, aber die Anweisungen auf der Packung müssen beachtet werden.\n\n- Das betroffene Ohr nach oben halten, wenn man liegt, um Druck und Schwellungen zu verringern.\n\n- Bei starken anhaltenden Schmerzen, Ausfluss oder Hörverlust sollte dringend ein Arzt aufgesucht werden, da eventuell Antibiotika zur Behandlung einer bakteriellen Infektion nötig sind.\n\nDie Hauptempfehlungen sind also warme Kompressen, Schmerzmittel, Ohrentropfen und das Ohr nach oben halten. Bei Alarmsignalen wie starken Schmerzen oder Komplikationen ist ein Arztbesuch angeraten.',
 'Der gegebene Text behandelt nicht die Frage "Was hilft bei Ohrenentzündung?". Er besch