# Retrieval Augmented Generation


## Setup


In [3]:
%pip install -U llama-index
%pip install -U llama-index-embeddings-huggingface
%pip install -U pinecone
%pip install -U llama-index-vector-stores-pinecone
%pip install -U deepeval
%pip install -U llama-index-llms-anthropic

Collecting llama-index-llms-anthropic
  Downloading llama_index_llms_anthropic-0.1.15-py3-none-any.whl (6.1 kB)
Collecting anthropic<0.29.0,>=0.26.2 (from llama-index-llms-anthropic)
  Downloading anthropic-0.28.1-py3-none-any.whl (862 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m862.7/862.7 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
Collecting jiter<1,>=0.4.0 (from anthropic<0.29.0,>=0.26.2->llama-index-llms-anthropic)
  Downloading jiter-0.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (318 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m318.9/318.9 kB[0m [31m23.8 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: jiter, anthropic, llama-index-llms-anthropic
Successfully installed anthropic-0.28.1 jiter-0.5.0 llama-index-llms-anthropic-0.1.15


In [3]:
import os

from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.llms.anthropic import Anthropic
from llama_index.core import VectorStoreIndex
import numpy as np
import json
from llama_index.core.schema import TextNode
from llama_index.core.retrievers import VectorIndexRetriever
from llama_index.vector_stores.pinecone import PineconeVectorStore
from pinecone import Pinecone, ServerlessSpec
from google.colab import userdata

PINECONE_API_KEY = userdata.get("PINECONE_API_KEY")
GITHUB_TOKEN = userdata.get('GITHUB_TOKEN')
ANTHROPIC_API_KEY = userdata.get("ANTHROPIC_API_KEY")

In [5]:
!git clone https://$GITHUB_TOKEN@github.com/J-Gann/medfluencer.git

Cloning into 'medfluencer'...
remote: Enumerating objects: 89, done.[K
remote: Counting objects: 100% (89/89), done.[K
remote: Compressing objects: 100% (76/76), done.[K
remote: Total 89 (delta 30), reused 65 (delta 12), pack-reused 0[K
Receiving objects: 100% (89/89), 9.06 MiB | 6.84 MiB/s, done.
Resolving deltas: 100% (30/30), done.
Filtering content: 100% (27/27), 13.51 GiB | 33.31 MiB/s, done.


In [4]:
embed_model = HuggingFaceEmbedding(
    model_name="T-Systems-onsite/cross-en-de-roberta-sentence-transformer"
)



In [5]:
llm = Anthropic(
    model="claude-3-5-sonnet-20240620",
    api_key=ANTHROPIC_API_KEY,
    max_tokens=4096,
)

In [6]:
pc = Pinecone(api_key=PINECONE_API_KEY)

pinecone_index = pc.Index("medfluencer-videos-index-t-systems")
vector_store = PineconeVectorStore(pinecone_index=pinecone_index)
index_videos = VectorStoreIndex.from_vector_store(vector_store, embed_model=embed_model)

pinecone_index = pc.Index("medfluencer-comments-index-t-systems")
vector_store = PineconeVectorStore(pinecone_index=pinecone_index)
index_comments = VectorStoreIndex.from_vector_store(
    vector_store, embed_model=embed_model
)

#### Retriever


In [7]:
retriever_videos = VectorIndexRetriever(
    index=index_videos,
    similarity_top_k=20,
)

In [8]:
retriever_comments = VectorIndexRetriever(
    index=index_comments,
    similarity_top_k=20,
)

### Reranking


In [9]:
from llama_index.core.postprocessor import SentenceTransformerRerank

rerank = SentenceTransformerRerank(
    model="cross-encoder/msmarco-MiniLM-L6-en-de-v1", top_n=5
)

### Query Engine


In [10]:
from llama_index.core import get_response_synthesizer
from llama_index.core.query_engine import RetrieverQueryEngine

In [11]:
response_synthesizer = get_response_synthesizer(llm=llm)

query_engine_videos = RetrieverQueryEngine(
    retriever=retriever_videos,
    response_synthesizer=response_synthesizer,
    node_postprocessors=[rerank],
)

query_engine_comments = RetrieverQueryEngine(
    retriever=retriever_comments,
    response_synthesizer=response_synthesizer,
    node_postprocessors=[rerank],
)

# Evaluation


In [12]:
import json

#### Generate questions


In [13]:
with open("medfluencer/medical_fields.json", "r", encoding="UTF-8") as file:
    medical_fields = json.load(file)

In [14]:
from collections import defaultdict

In [None]:
# Generates questions for each medical field

# field_questions = defaultdict(list)
# num_questions = 5
# for field in medical_fields:
#    for _ in range(num_questions):
#        question = llm.complete(
#            f"Generiere eine medizinische Frage eines Laiens, die medizinischem Personal (Arthelferin, Arzt) typischerweise in folgenden Fachbereich gestellt wird: {field}\n Antworte ausschließlich mit der Frage!"
#        ).text
#        field_questions[field].append(question)
# with open("evaluation/questions_per_field.json", "w") as file:
#    json.dump(field_questions, file)

In [15]:
with open("medfluencer/evaluation/questions_per_field.json", "r") as file:
    field_questions = json.load(file)

In [None]:
# answers_per_field = defaultdict(list)
# for field, questions in field_questions.items():
#    for question in questions:
#        res = query_engine.query(question)
#        answer = res.response
#        context = [node.text for node in res.source_nodes]
#        answers_per_field[field].append((answer, context))
# with open("evaluation/answers_per_field.json", "w") as file:
#    json.dump(answers_per_field, file)

In [16]:
with open("medfluencer/evaluation/answers_per_field.json", "r") as file:
    answers_per_field = json.load(file)

#### DeepEval


In [17]:
from deepeval import evaluate
from deepeval.metrics import (
    AnswerRelevancyMetric,
    FaithfulnessMetric,
    ContextualRelevancyMetric,
    HallucinationMetric,
)
from deepeval.test_case import LLMTestCase

In [18]:
test_cases_per_field = defaultdict(list)

for field, questions in field_questions.items():
    for idx, question in enumerate(questions):
        actual_output, retrieval_context = answers_per_field[field][idx]
        test_case = LLMTestCase(
            input=question,
            actual_output=actual_output,
            retrieval_context=retrieval_context,
            context=retrieval_context,
        )

        test_cases_per_field[field].append(test_case)

In [19]:
len(list(test_cases_per_field.keys())) * 10 * 4

2520

In [20]:
from deepeval.models.base_model import DeepEvalBaseLLM

class Claude(DeepEvalBaseLLM):
    def __init__(
        self
    ):
        self.model = llm = Anthropic(
            model="claude-3-5-sonnet-20240620",
            api_key=ANTHROPIC_API_KEY,
            max_tokens=4096,
        )

    def load_model(self):
        return self.model

    def generate(self, prompt: str) -> str:
        model = self.load_model()

        res = model.complete(prompt)
        return res.text

    async def a_generate(self, prompt: str) -> str:
        return self.generate(prompt)

    def get_model_name(self):
        return "claude-3-5-sonnet-20240620"

In [22]:
model = Claude()

answer_relevancy_metric = AnswerRelevancyMetric(
    threshold=0.6,
    model=model,
    include_reason=False
)

faithfulness_metric = FaithfulnessMetric(
    threshold=0.6,
    model=model,
    include_reason=False
)

contextual_relevancy_metric = ContextualRelevancyMetric(
    threshold=0.6,
    model=model,
    include_reason=False
)

hallucination_metric = HallucinationMetric(
    threshold=0.5,
    model=model,
    include_reason=False
)

evaluations = {}

for field, test_case in test_cases_per_field.items():

    evaluation = evaluate(
        test_case,
        [
            answer_relevancy_metric,
            faithfulness_metric,
            contextual_relevancy_metric,
            hallucination_metric,
        ],
    )

    evaluations[field] = evaluation

    with open("medfluencer/evaluation/evaluation_metrcis_rag.json", "w") as file:
        json.dump(evaluations, file)

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie kann ich meine Rückenschmerzen lindern?
  - actual output: Es gibt mehrere Möglichkeiten, Rückenschmerzen zu lindern:

1. Bewegung: Bleiben Sie aktiv und vermeiden Sie längere Bettruhe. Regelmäßige Bewegung ist wichtig für einen gesunden Rücken.

2. Ausgewogene Belastung: Achten Sie auf ein gutes Verhältnis zwischen Belastung und Entlastung Ihres Rückens.

3. Schmerzmittel: Bei starken Sch

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 0.75, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Was sind mögliche Nebenwirkungen der Vollnarkose?
  - actual output: Es tut mir leid, aber die gegebenen Informationen enthalten keine Angaben zu möglichen Nebenwirkungen einer Vollnarkose. Der Text behandelt hauptsächlich Themen wie obstruktive Schlafapnoe, Schlafstörungen und Schlafmittelabhängigkeit. Ohne zusätzliche relevante Informationen kann ich keine zuverlässige Antwort zu Nebenwirku

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 0.8888888888888888, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wo genau befindet sich die Bauchspeicheldrüse im Körper?
  - actual output: Die Bauchspeicheldrüse befindet sich tief im Zentrum des Bauches, kurz vor der Wirbelsäule. Sie ist von Blutgefäßen umgeben, die den Darm und die Leber mit Blut versorgen. Ihre genaue Position macht sie zu einem zentralen Verdauungsorgan, das jedoch nicht so leicht zu lokalisieren ist wie beispielsweise 

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.8, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Kann langes Sitzen am Schreibtisch zu Rückenschmerzen führen und wie kann man dem vorbeugen?
  - actual output: Ja, langes Sitzen am Schreibtisch kann definitiv zu Rückenschmerzen führen. Dies ist besonders problematisch für Menschen, die viel am Computer arbeiten müssen. Häufig entstehen dadurch Verspannungen im Nacken- und Schulterbereich sowie eine eingeschränkte Beweglichkeit.

Um dem vorz

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.8, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Kann ein grauer Star operativ entfernt werden?
  - actual output: Ja, ein grauer Star kann operativ entfernt werden. Die Operation des grauen Stars ist heutzutage ein sehr gängiger und sicherer Eingriff. In den meisten Fällen wird die Operation ambulant und unter örtlicher Betäubung durchgeführt. Nach der Operation benötigen die meisten Patienten keine Brille mehr für den Alltag, obwohl in man

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 0.6666666666666666, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie lange hält Insulin im Kühlschrank?
  - actual output: Leider enthält der gegebene Kontext keine spezifischen Informationen zur Haltbarkeit von Insulin im Kühlschrank. Der Text konzentriert sich hauptsächlich auf die Herausforderungen der Insulintherapie, die Wirkungsweise von Insulin im Körper und allgemeine Aspekte der Diabetesbehandlung. Ohne zusätzliche Informationen kann

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.4, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie lange dauert die Operation in der Regel und wie lange ist die Erholungszeit danach?
  - actual output: Typischerweise dauert die Operation etwa zwei bis vier Stunden. Nach dem Eingriff werden die Patienten zunächst auf der Intensivstation überwacht. Erstaunlicherweise können die meisten Patienten das Krankenhaus bereits zwei bis drei Tage nach der Operation wieder verlassen. Die Mehrheit d

Output()

Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.2, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie lange wird die Operation voraussichtlich dauern und wie verlaufe der Heilungsprozess anschließend?
  - actual output: Die Dauer der Operation wird nicht spezifisch erwähnt, aber es gibt einige Informationen zum Heilungsprozess nach der Operation:

Die erste Wundheilung dauert etwa 14 Tage. In dieser Zeit sollte man vorsichtig sein und keine wirksamen Therapien anwenden. 

Nach etwa 6 Woche

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie kann eine Arterienverkalkung behandelt werden?
  - actual output: Es gibt mehrere Möglichkeiten, eine Arterienverkalkung zu behandeln:

1. Medikamentöse Therapie: Dazu gehören Medikamente wie Aspirin zur Blutverdünnung, um Blutgerinnsel zu verhindern, sowie Statine zur Verlangsamung des Plaque-Wachstums und zur Senkung des Risikos für Herzinfarkt und Schlaganfall. Auch bestimmte Blutdruckm

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie lange dauert es, bis ich nach einer Herzoperation wieder voll belastbar bin?
  - actual output: Die Erholungszeit nach einer Herzoperation kann sehr individuell sein und hängt von verschiedenen Faktoren ab. In der Regel dauert es mehrere Wochen bis Monate, bis ein Patient wieder voll belastbar ist. 

Der Heilungsprozess beginnt unmittelbar nach der Operation, wenn das Herz wieder effektiv 

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie lange dauert die Operation bei meinem Kind und welche Risiken gibt es?
  - actual output: Die Dauer der Operation und die damit verbundenen Risiken können je nach Art des Eingriffs und dem individuellen Zustand Ihres Kindes variieren. Es ist wichtig, dass Sie diese Fragen direkt mit dem Chirurgen besprechen. 

Generell sollten Sie den Arzt nach der erwarteten Operationsdauer, möglichen Kom

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.8, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Kann eine Operation meine Knieschmerzen nach einem Unfall endgültig beheben?
  - actual output: Eine Operation kann in vielen Fällen Knieschmerzen nach einem Unfall deutlich verbessern, aber es gibt einige wichtige Punkte zu beachten:

Zunächst sollten alle nicht-operativen Behandlungsmöglichkeiten ausgeschöpft werden, bevor eine Operation in Betracht gezogen wird. Ein künstliches Kniegelenk w

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.8, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.2, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Ist es möglich, eine Nasenkorrektur durchführen zu lassen, um meine Nase zu verschmälern und mein Profil zu verbessern?
  - actual output: Ja, es ist durchaus möglich, eine Nasenkorrektur durchführen zu lassen, um Ihre Nase zu verschmälern und Ihr Profil zu verbessern. Es gibt verschiedene Optionen dafür:

Eine chirurgische Nasenkorrektur (Rhinoplastik) kann die Form der Nase umfassend verände

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.2, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.4, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie lange dauert es, bis ich nach einer Operation an der Lunge wieder voll belastbar bin?
  - actual output: Die Erholungszeit nach einer Lungenoperation kann sehr unterschiedlich sein und hängt von der Art des Eingriffs ab. Bei kleineren Operationen, wie einer Keilresektion, bei der nur ein kleiner Teil der Lunge entfernt wird, können Patienten möglicherweise schon am nächsten Tag nach Hause 

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.6, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Worin liegt der Unterschied zwischen einer akuten und einer chronischen Bauchfellentzündung?
  - actual output: Der Hauptunterschied zwischen einer akuten und einer chronischen Bauchfellentzündung liegt im zeitlichen Verlauf und der Intensität der Symptome:

Eine akute Bauchfellentzündung tritt plötzlich auf und ist durch sehr starke Bauchschmerzen gekennzeichnet. Sie erfordert in der Regel ei

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Welche Beschwerden und Symptome sind während der Schwangerschaft normal?
  - actual output: Während der Schwangerschaft können verschiedene Beschwerden und Symptome auftreten, die als normal gelten. Allerdings ist es wichtig zu betonen, dass jede Schwangerschaft individuell verläuft. Einige häufige Symptome sind:

1. Müdigkeit und Erschöpfung, besonders im ersten Trimester
2. Übelkeit und Erbr

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.2, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.8, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Welche Behandlungsmöglichkeiten gibt es bei unerfülltem Kinderwunsch?
  - actual output: Bei unerfülltem Kinderwunsch gibt es heutzutage sowohl diagnostische als auch therapeutische Möglichkeiten. Es ist wichtig, dass Paare mit Kinderwunsch, die Schwierigkeiten haben schwanger zu werden, einen Arzt aufsuchen. Dieser kann verschiedene Untersuchungen durchführen, um mögliche Ursachen zu finden u

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.8, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie beeinflusst eine familiäre Vorbelastung mit Brust- oder Eierstockkrebs das persönliche Risiko für gynäkologische Krebserkrankungen?
  - actual output: Eine familiäre Vorbelastung mit Brust- oder Eierstockkrebs erhöht das persönliche Risiko für gynäkologische Krebserkrankungen deutlich. Wenn in der Familie gehäuft Fälle von Brust-, Eierstock-, Darm- oder Gebärmutterkrebs auftreten, kann die

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 0.9285714285714286, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Was sind die Risiken und Komplikationen bei einer Schwangerschaft mit Zwillingen oder Drillingen?
  - actual output: Bei Schwangerschaften mit Zwillingen oder Drillingen gibt es erhöhte Risiken und mögliche Komplikationen:

1. Frühgeburtlichkeit: Zwillinge kommen durchschnittlich 3-4 Wochen früher, Drillinge sogar etwa 7 Wochen früher als Einlinge.

2. Bluthochdruck bei der Mutt

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.6, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Warum habe ich ständig verstopfte Ohren und höre teilweise gedämpft?
  - actual output: Es gibt mehrere mögliche Gründe für Ihre Symptome. Eine häufige Ursache können chronische Veränderungen im Gehörgang sein, die zu Problemen mit der Selbstreinigung des Ohres führen. Dies kann zu ständigen Ansammlungen von Ohrenschmalz führen, was ein Gefühl der Verstopfung verursachen kann.

In manchen Fäll

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.2, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.4, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Ich habe letzte Nacht einen juckenden, geröteten Ausschlag an meiner Leiste bemerkt - könnte das eine Geschlechtskrankheit sein?
  - actual output: Es ist möglich, dass Ihre Symptome auf eine sexuell übertragbare Infektion hindeuten könnten. Juckreiz und Rötungen im Intimbereich können Anzeichen für verschiedene Geschlechtskrankheiten sein. Allerdings können solche Symptome auch andere Ursache

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 0.9285714285714286, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Was verursacht genetische Krankheiten und wie können sie behandelt oder verhindert werden?
  - actual output: Genetische Krankheiten werden durch Veränderungen oder Mutationen in den Genen oder der DNA einer Person verursacht. Diese Veränderungen können die normalen Funktionen des Körpers beeinträchtigen und zu verschiedenen Erkrankungen führen.

Die Behandlung genetischer Krank

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 1.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Welche Vorsichtsmaßnahmen sollte ich im Haushalt treffen, um eine Verbreitung von Krankheitserregern zu vermeiden?
  - actual output: Hier sind einige wichtige Vorsichtsmaßnahmen, die Sie im Haushalt treffen können, um die Verbreitung von Krankheitserregern zu vermeiden:

1. Regelmäßiges und gründliches Händewaschen: Dies ist eine der effektivsten Methoden, um Krankheitserreger zu reduzieren. 

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.4, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Wie kann ich meine anhaltenden Bauchschmerzen lindern?
  - actual output: Es gibt mehrere Möglichkeiten, anhaltende Bauchschmerzen zu lindern:

1. Achten Sie auf Ihre Ernährung und vermeiden Sie Lebensmittel, die Beschwerden auslösen könnten.

2. Bewegen Sie sich regelmäßig. Leichte Übungen können die Verdauung anregen und Schmerzen reduzieren.

3. Sorgen Sie für ausreichend Schlaf und Erholun

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.4, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Hallucination (score: 0.6, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Ursachen und Behandlung von geschwollenen Beinen?
  - actual output: Geschwollene Beine können verschiedene Ursachen haben und es gibt mehrere Behandlungsmöglichkeiten:

Eine häufige Ursache ist eine chronische Venenschwäche. Dies kann zu einem Blutstau führen, besonders bei längerem Stehen oder Sitzen. Die Beschwerden verstärken sich oft bei warmen Temperaturen oder abends.

Zur Behandlung wi

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ❌ Contextual Relevancy (score: 0.2, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.0, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Welche Auswirkungen hat mein unkontrollierter Diabetes auf meinen Körper?
  - actual output: Unkontrollierter Diabetes kann schwerwiegende Auswirkungen auf Ihren Körper haben. Wenn der Blutzuckerspiegel zu hoch bleibt, kann dies zu ernsthaften gesundheitlichen Problemen führen. 

Einige mögliche Folgen sind:

1. Schädigung von Organen wie Herz, Nieren und Augen
2. Erhöhtes Risiko für Herz-Krei

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

Output()



Metrics Summary

  - ✅ Answer Relevancy (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Faithfulness (score: 1.0, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Contextual Relevancy (score: 0.6, threshold: 0.6, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)
  - ✅ Hallucination (score: 0.4, threshold: 0.5, strict: False, evaluation model: claude-3-5-sonnet-20240620, reason: None, error: None)

For test case:

  - input: Woran könnte mein häufiges Sodbrennen liegen?
  - actual output: Es gibt verschiedene mögliche Ursachen für häufiges Sodbrennen:

1. Funktionsstörungen der Speiseröhre, die dazu führen, dass der Inhalt nicht ausreichend in den Magen befördert wird.

2. Probleme mit dem Schließmuskel zwischen Speiseröhre und Magen.

3. Zu häufige und zu große Mengen an Magensäure, die in die Speiseröhre gelange

Output()

Evaluating test cases...
Event loop is already running. Applying nest_asyncio patch to allow async execution...


Output()

Output()

Output()

RateLimitError: Error code: 429 - {'type': 'error', 'error': {'type': 'rate_limit_error', 'message': 'Number of request tokens has exceeded your daily rate limit (https://docs.anthropic.com/en/api/rate-limits); see the response headers for current usage. Please reduce the prompt length or the maximum tokens requested, or try again later. You may also contact sales at https://www.anthropic.com/contact-sales to discuss your options for a rate limit increase.'}}

In [29]:
evaluations

{'Allgemeinmedizin': 'evaluation',
 'Anästhesiologie': 'evaluation',
 'Anatomie': 'evaluation',
 'Arbeitsmedizin': 'evaluation',
 'Augenheilkunde': 'evaluation',
 'Biochemie': 'evaluation',
 'Chirurgie': 'evaluation',
 'Allgemeine Chirurgie': 'evaluation',
 'Gefäßchirurgie': 'evaluation',
 'Herzchirurgie': 'evaluation',
 'Kinderchirurgie': 'evaluation',
 'Orthopädie und Unfallchirurgie': 'evaluation',
 'Plastische, Rekonstruktive und Ästhetische Chirurgie': 'evaluation',
 'Thoraxchirurgie': 'evaluation',
 'Viszeralchirurgie': 'evaluation',
 'Frauenheilkunde und Geburtshilfe': 'evaluation',
 'Gynäkologische Endokrinologie und Reproduktionsmedizin': 'evaluation',
 'Gynäkologische Onkologie': 'evaluation',
 'Spezielle Geburtshilfe und Perinatalmedizin': 'evaluation',
 'Hals-Nasen-Ohrenheilkunde': 'evaluation',
 'Haut- und Geschlechtskrankheiten': 'evaluation',
 'Humangenetik': 'evaluation',
 'Hygiene und Umweltmedizin': 'evaluation',
 'Innere Medizin': 'evaluation',
 'Angiologie': 'evalua

In [None]:
evaluation

[TestResult(success=False, metrics_metadata=[MetricMetadata(metric='Answer Relevancy', threshold=0.7, success=True, score=0.8571428571428571, reason='The score is 0.86 because while the answer is relevant and provides some helpful tips on dealing with anxiety disorders, there is a statement in the output that does not contribute any useful information to addressing the question.', strict_mode=False, evaluation_model='gpt-3.5-turbo', error=None, evaluation_cost=0.0014895), MetricMetadata(metric='Faithfulness', threshold=0.7, success=False, score=0.6, reason='The score is 0.60 because the actual output includes contradictions such as focusing on values and goals in life being more important than anxiety, and the idea that relying too much on coping strategies that provide short-term relief is not recommended.', strict_mode=False, evaluation_model='gpt-3.5-turbo', error=None, evaluation_cost=0.0031345), MetricMetadata(metric='Contextual Relevancy', threshold=0.7, success=True, score=0.8, 

TODO: Evaluate different answers for expert or layman (how relevant is the context in each case?)

TODO: Evaluate standard llm answers

TODO: Generate suitable test queries for comments

TODO: test video questions and comment questions on other datasets

TODO: evaluate cobined query engine on both questions


In [None]:
from llama_index.core import VectorStoreIndex
import numpy as np
import json
from llama_index.core.schema import TextNode

In [None]:
question = "Was hilft bei Ohrenentzündung?"

In [None]:
retrieved_nodes = retriever.retrieve(question)

In [None]:
for node in retrieved_nodes:
    print(node.text)

how do I get rid of pain in my ear pain
can be caused by things like an
infection a blockage in the ear canal or
an injury sometimes you can alleviate
the pain by applying a warm compress
such as putting a warm cloth over the
affected ear to help reduce pain
non-prescription drugs like
acetaminophen can help and even more so
when it comes to NSAID medications so
things like ibuprofen Advil Aleve
naproxen and the like just know that
every medication has the potential for
side effects sometimes ear drops can
help just remember to follow the
directions on the packaging it's best to
keep the hurt ear or the injured ear up
so when you're lying down try to keep
that injured ear facing up to relieve
pressure and swelling there are certain
red flags that you should be aware of
that indicate you may need to seek
urgent medical attention red flags
include severe pain if the pain lasts
for a long time or if it comes with
Associated discharge or hearing loss
antibiotics may be needed for example t

In [None]:
from llama_index.core.llms import ChatMessage

In [None]:
summaries = []
for node in retrieved_nodes[:5]:
    res = llm.chat(
        [
            ChatMessage(
                role="system",
                content=f"Summarize the content of the given document which is relevant for the question '{question}'",
            ),
            ChatMessage(role="user", content=node.text),
        ]
    )
    summaries.append(res.message.content)

In [None]:
summaries

['Hier sind die wichtigsten Punkte, die bei einer Ohrenentzündung helfen können:\n\n- Warme Kompressen auf dem betroffenen Ohr können die Schmerzen lindern.\n\n- Nicht-verschreibungspflichtige Schmerzmittel wie Acetaminophen oder NSAID-Medikamente (Ibuprofen, Naproxen etc.) können die Schmerzen reduzieren.\n\n- Ohrentropfen können ebenfalls hilfreich sein, aber die Anweisungen auf der Packung müssen beachtet werden.\n\n- Das betroffene Ohr nach oben halten, wenn man liegt, um Druck und Schwellungen zu verringern.\n\n- Bei starken anhaltenden Schmerzen, Ausfluss oder Hörverlust sollte dringend ein Arzt aufgesucht werden, da eventuell Antibiotika zur Behandlung einer bakteriellen Infektion nötig sind.\n\nDie Hauptempfehlungen sind also warme Kompressen, Schmerzmittel, Ohrentropfen und das Ohr nach oben halten. Bei Alarmsignalen wie starken Schmerzen oder Komplikationen ist ein Arztbesuch angeraten.',
 'Der gegebene Text behandelt nicht die Frage "Was hilft bei Ohrenentzündung?". Er besch