## Bonus: Eigene Metriken benutzen

Wir haben die drei Standardmetriken der **RAG-Triade** verwendet. Diese sind ein guter Startpunkt, aber f√ºr eine praxisorientierte Bewertung reichen sie nicht aus. 

Best-practice ist daher, die eigenen Anforderungen an das RAG-System zu definieren und diese in ma√ügeschneiderte Metriken zu √ºbersetzen.

Zun√§chst einmal: Was passiert eigentlich "under-the-hood", wenn wir eine Metrik wie die **Answer Relevancy** von DeepEval nutzen? 

Das Prinzip ist einfach: Wir √ºbergeben die *Frage* und die *generierte Antwort* an ein separates LLM, der die Rolle eines Richters √ºbernimmt. 
Dieser *LLM-as-a-judge* bewertet dann, wie relevant die Antwort auf die Frage ist.

In [22]:
from deepeval import evaluate
from deepeval.metrics import AnswerRelevancyMetric
from deepeval.test_case import LLMTestCase, LLMTestCaseParams

answer_relevance_metric = AnswerRelevancyMetric(model="gpt-4o-mini")
test_case = LLMTestCase(
	input="welche neuen medikamente zur behandlung von psychosen gibt es und wie wirken diese?",
	actual_output="""
	Basierend auf den vorliegenden Informationen gibt es zwei vielversprechende neue Medikamente zur Behandlung von Psychosen:

	1. KarXT (Cobenfy):
	Das Medikament stellt einen bedeutenden Durchbruch in der Behandlung von Schizophrenie dar. Es unterscheidet sich von bisherigen Antipsychotika durch seinen neuartigen Wirkmechanismus. KarXT besteht aus zwei Komponenten: Xanomelin, einem M1/M4 muskarinergen Agonisten, und Trospium, einem peripher beschr√§nkten Anticholinergikum. Der Wirkungsmechanismus zielt auf Muskarinrezeptoren ab und reduziert indirekt die pr√§synaptische Dopaminaussch√ºttung, im Gegensatz zu herk√∂mmlichen Medikamenten, die postsynaptische Dopaminrezeptoren blockieren.

	2. Emraclidin:
	Dieses Medikament wird als weiterer vielversprechender Ansatz bezeichnet. Es wirkt als positiver allosterischer Modulator am M4-Rezeptor und weist einen √§hnlichen Ansatz wie KarXT auf. Die Forschung sieht insbesondere Potenzial f√ºr die Behandlung akuter psychotischer Erkrankungen, vor allem bei Positiv-Symptomen und in fr√ºhen Erkrankungsphasen. Beide Medikamente er√∂ffnen neue Perspektiven in der Psychosebehandlung, indem sie von der traditionellen Dopamin-Hypothese abweichen.
	""",
)

In [23]:
evaluate([test_case], [answer_relevance_metric])



Metrics Summary

  - ‚úÖ Answer Relevancy (score: 1.0, threshold: 0.5, strict: False, evaluation model: gpt-4o-mini, reason: The score is 1.00 because the response directly addressed the question about new medications for treating psychosis and their mechanisms of action without any irrelevant statements., error: None)

For test case:

  - input: welche neuen medikamente zur behandlung von psychosen gibt es und wie wirken diese?
  - actual output: 
	Basierend auf den vorliegenden Informationen gibt es zwei vielversprechende neue Medikamente zur Behandlung von Psychosen:

	1. KarXT (Cobenfy):
	Das Medikament stellt einen bedeutenden Durchbruch in der Behandlung von Schizophrenie dar. Es unterscheidet sich von bisherigen Antipsychotika durch seinen neuartigen Wirkmechanismus. KarXT besteht aus zwei Komponenten: Xanomelin, einem M1/M4 muskarinergen Agonisten, und Trospium, einem peripher beschr√§nkten Anticholinergikum. Der Wirkungsmechanismus zielt auf Muskarinrezeptoren ab und reduzie

EvaluationResult(test_results=[TestResult(name='test_case_0', success=True, metrics_data=[MetricData(name='Answer Relevancy', threshold=0.5, success=True, score=1.0, reason='The score is 1.00 because the response directly addressed the question about new medications for treating psychosis and their mechanisms of action without any irrelevant statements.', strict_mode=False, evaluation_model='gpt-4o-mini', error=None, evaluation_cost=0.0006444, verbose_logs='Statements:\n[\n    "Es gibt zwei vielversprechende neue Medikamente zur Behandlung von Psychosen.",\n    "KarXT (Cobenfy) stellt einen bedeutenden Durchbruch in der Behandlung von Schizophrenie dar.",\n    "KarXT unterscheidet sich von bisherigen Antipsychotika durch seinen neuartigen Wirkmechanismus.",\n    "KarXT besteht aus zwei Komponenten: Xanomelin und Trospium.",\n    "Xanomelin ist ein M1/M4 muskarinergen Agonisten.",\n    "Trospium ist ein peripher beschr√§nkter Anticholinergikum.",\n    "Der Wirkungsmechanismus von KarXT 

Der Output zeigt uns den **Score** (zwischen 0 und 1) und eine detaillierte **Begr√ºndung** f√ºr die Entscheidung.

### Beispiel 1: Gesetzestexte zusammenfassen

Doch generische Metriken sto√üen schnell an ihre Grenzen, wenn es um spezielle Anwendungsf√§lle geht. <br>
Wenn unser RAG-System beispielsweise Zusammenfassungen von Gesetzestexten erstellen soll, brauchen wir angepasste Kriterien.

Auch hierf√ºr k√∂nnen wir DeepEval nutzen. Wir definieren einfach in der Variable `evaluation_steps` genau die Kriterien, die f√ºr uns entscheidend sind. <br>
Anschlie√üend geben wir erneut die relevanten Variablen an. In unserem Fall: *Gesetzestext* und die *generierte Zusammenfassung*. <br>
Das System l√§uft dann wie gewohnt und liefert den gleichen Output: einen Score und eine detaillierte Begr√ºndung, die sich an unseren selbst definierten Kriterien orientiert.

In [12]:
# Create a mock document class, consisting of the full text and a summary
class Document:
    def __init__(self):
        self.FULL_TEXT = """
        B√ºrgerliches Gesetzbuch (BGB)
        ¬ß 535 Inhalt und Hauptpflichten des Mietvertrags
        (1) Durch den Mietvertrag wird der Vermieter verpflichtet, dem Mieter den Gebrauch der Mietsache w√§hrend der Mietzeit zu gew√§hren. 
        Der Vermieter hat die Mietsache dem Mieter in einem zum vertragsgem√§√üen Gebrauch geeigneten Zustand zu √ºberlassen und sie w√§hrend der Mietzeit in diesem Zustand zu erhalten. 
        Er hat die auf der Mietsache ruhenden Lasten zu tragen.
        (2) Der Mieter ist verpflichtet, dem Vermieter die vereinbarte Miete zu entrichten.
        ...
        """

        self.SUMMARY = """
        Ein Mietvertrag verpflichtet den Vermieter, die Immobilie in einem nutzbaren Zustand bereitzustellen und zu erhalten, w√§hrend der Mieter daf√ºr die vereinbarte Miete zahlen muss.
        """

# Create the document instance
document = Document()

In [25]:
from deepeval import evaluate
from deepeval.metrics import GEval
from deepeval.test_case import LLMTestCase, LLMTestCaseParams

summarization_correctness_metric = GEval(
	name="Summarization_Correctness",
	evaluation_steps=[
		"Pr√ºfe, ob die wesentlichen rechtlichen Inhalte korrekt wiedergegeben werden.",
		"√úberpr√ºfe, ob keine zus√§tzlichen Informationen erfunden wurden.",
		"Stelle sicher, dass die Zusammenfassung den Sinn und die rechtliche Bedeutung nicht verf√§lscht.",
		"Achte darauf, dass die Sprache klar und f√ºr juristische Laien nachvollziehbar bleibt."
	],
	evaluation_params=[LLMTestCaseParams.ACTUAL_OUTPUT, LLMTestCaseParams.INPUT],
)

llm_test_case_summary = LLMTestCase(
	input=document.FULL_TEXT,
	actual_output=document.SUMMARY,
)

In [26]:
evaluate([llm_test_case_summary], [summarization_correctness_metric])



Metrics Summary

  - ‚úÖ Summarization_Correctness [GEval] (score: 0.8010986942630594, threshold: 0.5, strict: False, evaluation model: gpt-4.1, reason: Die wesentlichen rechtlichen Inhalte des ¬ß 535 BGB werden korrekt wiedergegeben: Die Pflichten des Vermieters (Bereitstellung und Erhaltung der Mietsache) und des Mieters (Zahlung der Miete) sind enthalten. Es wurden keine zus√§tzlichen Informationen erfunden. Allerdings fehlt der Hinweis auf die Pflicht des Vermieters, die auf der Mietsache ruhenden Lasten zu tragen. Die Zusammenfassung ist klar und f√ºr Laien verst√§ndlich, verf√§lscht den Sinn nicht, l√§sst aber einen Aspekt des Gesetzestextes aus., error: None)

For test case:

  - input: 
        B√ºrgerliches Gesetzbuch (BGB)
        ¬ß 535 Inhalt und Hauptpflichten des Mietvertrags
        (1) Durch den Mietvertrag wird der Vermieter verpflichtet, dem Mieter den Gebrauch der Mietsache w√§hrend der Mietzeit zu gew√§hren. 
        Der Vermieter hat die Mietsache dem Mieter in e

EvaluationResult(test_results=[TestResult(name='test_case_0', success=True, metrics_data=[MetricData(name='Summarization_Correctness [GEval]', threshold=0.5, success=True, score=0.8010986942630594, reason='Die wesentlichen rechtlichen Inhalte des ¬ß 535 BGB werden korrekt wiedergegeben: Die Pflichten des Vermieters (Bereitstellung und Erhaltung der Mietsache) und des Mieters (Zahlung der Miete) sind enthalten. Es wurden keine zus√§tzlichen Informationen erfunden. Allerdings fehlt der Hinweis auf die Pflicht des Vermieters, die auf der Mietsache ruhenden Lasten zu tragen. Die Zusammenfassung ist klar und f√ºr Laien verst√§ndlich, verf√§lscht den Sinn nicht, l√§sst aber einen Aspekt des Gesetzestextes aus.', strict_mode=False, evaluation_model='gpt-4.1', error=None, evaluation_cost=0.00199, verbose_logs='Criteria:\nNone \n \nEvaluation Steps:\n[\n    "Pr√ºfe, ob die wesentlichen rechtlichen Inhalte korrekt wiedergegeben werden.",\n    "√úberpr√ºfe, ob keine zus√§tzlichen Informationen er

### Beispiel 2: RAG QA-Bot f√ºr Sch√ºler:innen

F√ºr einen RAG-Bot, der Antworten f√ºr Sch√ºler:innen generiert, sind andere Kriterien entscheidend. Wir definieren erneut die Evaluierungsschritte, um sicherzustellen, dass die Antworten einfach und altersgerecht sind.  

Im Unterschied zum vorherigen Beispiel wollen wir hier keinen kontinuierlichen Score (zwischen 0 und 1), sondern eine klare Aussage: 'pass' oder 'fail'. 

Daf√ºr setzen wir einfach die Variable `strict_mode` auf `True`. Der restliche Prozess bleibt derselbe.

In [27]:
student_comprehensibility = GEval(
	name="Student_Comprehensibility",
    evaluation_steps=[
        "Bewerte, ob einfache, altersgerechte Sprache verwendet wird (kurze S√§tze, aktive Form).",
        "Kennzeichne Fachbegriffe/Jargon und pruefe, ob sie vermieden oder kurz erkl√§rt werden.",
        "Achte auf klare Struktur (1‚Äì3 Kernpunkte, ggf. kurzes Beispiel).",
        "√úberpr√ºfe, ob keine √ºberfluessigen Details die Verst√§ndlichkeit mindern."
    ],
	evaluation_params=[LLMTestCaseParams.ACTUAL_OUTPUT, LLMTestCaseParams.INPUT],
	strict_mode=True, # strict mode -> bin√§rer output (0 oder 1)
)

INPUT_QUESTION = "Was genau bedeutet Klimawandel?"

OUTPUT_ANSWER = (
    "Der Klimawandel bezeichnet signifikante statistische Verschiebungen in der "
    "Energie- und Strahlungsbilanz des Klimasystems, induziert durch anthropogene "
    "Forcings und nichtlineare R√ºckkopplungsmechanismen."
)

llm_test_case_school = LLMTestCase(
	input=INPUT_QUESTION,
	actual_output=OUTPUT_ANSWER,
)

In [28]:
evaluate([llm_test_case_school], [student_comprehensibility])
# Hier erwarten wir einen **fail**-Output, da die Antwort zu komplex ist. 



Metrics Summary

  - ‚ùå Student_Comprehensibility [GEval] (score: 0.0, threshold: 1.0, strict: True, evaluation model: gpt-4.1, reason: The output uses complex terms like 'statistische Verschiebungen', 'Energie- und Strahlungsbilanz', 'anthropogene Forcings', and 'nichtlineare R√ºckkopplungsmechanismen' without explanation, does not use simple language, and lacks a clear, concise structure suitable for the input question., error: None)

For test case:

  - input: Was genau bedeutet Klimawandel?
  - actual output: Der Klimawandel bezeichnet signifikante statistische Verschiebungen in der Energie- und Strahlungsbilanz des Klimasystems, induziert durch anthropogene Forcings und nichtlineare R√ºckkopplungsmechanismen.
  - expected output: None
  - context: None
  - retrieval context: None


Overall Metric Pass Rates

Student_Comprehensibility [GEval]: 0.00% pass rate




EvaluationResult(test_results=[TestResult(name='test_case_0', success=False, metrics_data=[MetricData(name='Student_Comprehensibility [GEval]', threshold=1.0, success=False, score=0.0, reason="The output uses complex terms like 'statistische Verschiebungen', 'Energie- und Strahlungsbilanz', 'anthropogene Forcings', and 'nichtlineare R√ºckkopplungsmechanismen' without explanation, does not use simple language, and lacks a clear, concise structure suitable for the input question.", strict_mode=True, evaluation_model='gpt-4.1', error=None, evaluation_cost=0.001298, verbose_logs='Criteria:\nNone \n \nEvaluation Steps:\n[\n    "Bewerte, ob einfache, altersgerechte Sprache verwendet wird (kurze S√§tze, aktive Form).",\n    "Kennzeichne Fachbegriffe/Jargon und pruefe, ob sie vermieden oder kurz erkl√§rt werden.",\n    "Achte auf klare Struktur (1‚Äì3 Kernpunkte, ggf. kurzes Beispiel).",\n    "√úberpr√ºfe, ob keine √ºberfluessigen Details die Verst√§ndlichkeit mindern."\n] \n \nRubric:\nNone \

In [29]:
INPUT_QUESTION = "Was genau bedeutet Klimawandel?"

OUTPUT_ANSWER = (
    "Klimawandel hei√üt, dass es auf der Erde nach und nach w√§rmer wird, "
    "weil wir Menschen viele Abgase in die Luft pusten. Dadurch √§ndert sich das Wetter."
)

llm_test_case_school = LLMTestCase(
    input=INPUT_QUESTION,
    actual_output=OUTPUT_ANSWER,
)

In [30]:
evaluate([llm_test_case_school], [student_comprehensibility])
# Hier erwarten wir einen **pass**-Output, da die Antwort nun altersgerecht ist. 



Metrics Summary

  - ‚úÖ Student_Comprehensibility [GEval] (score: 1.0, threshold: 1.0, strict: True, evaluation model: gpt-4.1, reason: Die Antwort verwendet einfache, altersgerechte Sprache mit kurzen S√§tzen und aktiver Form, erkl√§rt den Fachbegriff 'Klimawandel' verst√§ndlich, enth√§lt 1‚Äì2 Kernpunkte und vermeidet √ºberfl√ºssige Details., error: None)

For test case:

  - input: Was genau bedeutet Klimawandel?
  - actual output: Klimawandel hei√üt, dass es auf der Erde nach und nach w√§rmer wird, weil wir Menschen viele Abgase in die Luft pusten. Dadurch √§ndert sich das Wetter.
  - expected output: None
  - context: None
  - retrieval context: None


Overall Metric Pass Rates

Student_Comprehensibility [GEval]: 100.00% pass rate




EvaluationResult(test_results=[TestResult(name='test_case_0', success=True, metrics_data=[MetricData(name='Student_Comprehensibility [GEval]', threshold=1.0, success=True, score=1.0, reason="Die Antwort verwendet einfache, altersgerechte Sprache mit kurzen S√§tzen und aktiver Form, erkl√§rt den Fachbegriff 'Klimawandel' verst√§ndlich, enth√§lt 1‚Äì2 Kernpunkte und vermeidet √ºberfl√ºssige Details.", strict_mode=True, evaluation_model='gpt-4.1', error=None, evaluation_cost=0.0011359999999999999, verbose_logs='Criteria:\nNone \n \nEvaluation Steps:\n[\n    "Bewerte, ob einfache, altersgerechte Sprache verwendet wird (kurze S√§tze, aktive Form).",\n    "Kennzeichne Fachbegriffe/Jargon und pruefe, ob sie vermieden oder kurz erkl√§rt werden.",\n    "Achte auf klare Struktur (1‚Äì3 Kernpunkte, ggf. kurzes Beispiel).",\n    "√úberpr√ºfe, ob keine √ºberfluessigen Details die Verst√§ndlichkeit mindern."\n] \n \nRubric:\nNone \n \nScore: 1')], conversational=False, multimodal=False, input='Was g

### Beispiel 3: RAG QA-Bot mir kurzen und pr√§gnanten Antworten

F√ºr manche Anwendungsf√§lle brauchen wir keine komplexen LLM-Bewertungen. 
Einfache, **deterministische Metriken** sind oft schneller, effizienter und g√ºnstiger. 
Ein Beispiel ist die √úberpr√ºfung der Antwortl√§nge: 
Wir k√∂nnen eine simple Funktion schreiben, die z√§hlt, ob die Antwort eine definierte Maximall√§nge (z.B. 500 Zeichen) nicht √ºberschreitet, und uns dann ein klares 'Ja' oder 'Nein' zur√ºckgibt.

In [21]:
def length_metric(test_case: LLMTestCase, max_len=500):
    return 1 if len(test_case.actual_output) <= max_len else 0

INPUT_QUESTION = "Was genau bedeutet Klimawandel?"

OUTPUT_ANSWER = (
    "Klimawandel hei√üt, dass es auf der Erde nach und nach w√§rmer wird, "
    "weil wir Menschen viele Abgase in die Luft pusten. Dadurch √§ndert sich das Wetter."
)

llm_test_case = LLMTestCase(
    input=INPUT_QUESTION,
    actual_output=OUTPUT_ANSWER,
)

print(length_metric(llm_test_case))

1
