# Evaluation

In [1]:
import json
import pandas as pd
from collections import defaultdict

## Seed 1

In [11]:
llm_answers_eval_seed_1 = json.load(open("seed_1_llm_answers_eval.json", encoding="utf-8"))
llm_answers_eval_seed_1

[{'id': 0,
  'question': 'Wie kann man eine Auskunftspflicht in einer Haushaltsgemeinschaft durchsetzen?',
  'eval': {'DNB': 2, 'DNT': 2, 'DFB': 6, 'DFT': 6, 'DCB': 2, 'DCT': 4}},
 {'id': 1,
  'question': 'Muss man Schülereinkommen aus Ferienjobs anzurechnen? Wenn ja, in welcher Höhe?',
  'eval': {'DNT': 2, 'DFB': 5, 'DFT': 6, 'DCT': 4, 'DNB': 4, 'DCB': 6}},
 {'id': 2,
  'question': 'Wie ist weiter vorzugehen, wenn nach einer Versagung die Mitwirkung nachgeholt wird?',
  'eval': {'DFT': 5, 'DCB': 2, 'DCT': 2, 'DNB': 2, 'DNT': 2, 'DFB': 3}},
 {'id': 3,
  'question': 'Wie bemisst sich die Fahrkostenentschädigung bei Teilnahme an einer Maßnahme zur Förderung der beruflichen Weiterbildung?',
  'eval': {'DCB': 3, 'DCT': 2, 'DNB': 5, 'DNT': 4, 'DFB': 5, 'DFT': 6}},
 {'id': 4,
  'question': 'Ein Arbeitgeber beantragt einen Zuschuss zur Ausbildungsvergütung. Kann ein derartiger Zuschuss gewährt werden? Wenn ja, unter welchen Voraussetzungen?',
  'eval': {'DNT': 5, 'DFB': 4, 'DFT': 3, 'DCT': 4,

In [12]:
dict_avg_seed_1 = defaultdict(int)
for answer in llm_answers_eval_seed_1:
    for val, key in answer['eval'].items():
        dict_avg_seed_1[val] += key

for val in dict_avg_seed_1:
    dict_avg_seed_1[val] /= len(llm_answers_eval_seed_1)

In [43]:
df_seed_1 = pd.DataFrame.from_dict(dict_avg_seed_1, orient='index', columns=['Average']).T
df_seed_1 = df_seed_1.style.highlight_max(color='darkred', axis=1).highlight_min(color='darkgreen', axis=1)
df_seed_1 = df_seed_1.format("{:.1f}")
df_seed_1 = df_seed_1.set_caption('Average evaluation of LLM answers Seed 1')
df_seed_1

Unnamed: 0,DNB,DNT,DFB,DFT,DCB,DCT
Average,3.6,3.0,4.6,5.2,3.8,3.2


## Seed 2

In [14]:
llm_answers_eval_seed_2 = json.load(open("seed_2_llm_answers_eval.json", encoding="utf-8"))
llm_answers_eval_seed_2

[{'id': 0,
  'question': 'Ist es möglich, die Höhe einer russischen Rente umgerechnet in Euro zu erfahren?',
  'eval': {'DNB': 1, 'DNT': 1, 'DCT': 1, 'MQNB': 1, 'MQNT': 1, 'MQCT': 1}},
 {'id': 1,
  'question': 'Unter welchen Voraussetzungen ist ein Stromguthaben (Haushaltsstrom) als Einkommen im Sinne des § 11 SGB II bedarfsmindernd zu berücksichtigen?',
  'eval': {'MQCT': 1, 'DNB': 1, 'DNT': 1, 'MQNB': 1, 'MQNT': 1, 'DCT': 1}},
 {'id': 2,
  'question': 'Der 29jährige Markus absolviert seinen Bundesfreiwilligendienst und erhält dafür ein Taschengeld i.H.v. 420 €. Er erhält außerdem Mittagsverpflegung als Sachleistung. Diese hat einen Wert von 90 € monatlich. Daneben erzielt er ein Einkommen aus Erwerbstätigkeit von 800 € (brutto= netto). Welche Einkommen sind in welcher Höhe als Einkommen im Sinne des SGB II anzurechnen?',
  'eval': {'MQNT': 2, 'MQCT': 6, 'DNT': 1, 'DCT': 6, 'DNB': 1, 'MQNB': 6}},
 {'id': 3,
  'question': 'Die Ehefrau eines aus Syrien geflüchteten Mannes kommt im Rahme

In [15]:
dict_avg_seed_2 = defaultdict(int)
for answer in llm_answers_eval_seed_2:
    for val, key in answer['eval'].items():
        dict_avg_seed_2[val] += key

for val in dict_avg_seed_2:
    dict_avg_seed_2[val] /= len(llm_answers_eval_seed_2)

In [44]:
df_seed_2 = pd.DataFrame.from_dict(dict_avg_seed_2, orient='index', columns=['Average']).T
df_seed_2 = df_seed_2.style.highlight_max(color='darkred', axis=1).highlight_min(color='darkgreen', axis=1)
df_seed_2 = df_seed_2.format("{:.1f}")
df_seed_2 = df_seed_2.set_caption('Average evaluation of LLM answers Seed 2')
df_seed_2

Unnamed: 0,DNB,DNT,DCT,MQNB,MQNT,MQCT
Average,1.7,1.7,2.6,3.3,2.6,3.1


## Average

In [19]:
dict_avg_seed_2

defaultdict(int,
            {'DNB': 1.7142857142857142,
             'DNT': 1.7142857142857142,
             'DCT': 2.5714285714285716,
             'MQNB': 3.2857142857142856,
             'MQNT': 2.5714285714285716,
             'MQCT': 3.142857142857143})

In [24]:
def calculate_weighted_average(
        avg_1: float | int, 
        avg_2: float | int, 
        n_1: int=len(llm_answers_eval_seed_1), 
        n_2: int=len(llm_answers_eval_seed_2), 
        round_to: int=None
    ):
    if not round_to:
        return ((avg_1*n_1)+(avg_2*n_2))/(n_1+n_2)
    return round(((avg_1*n_1)+(avg_2*n_2))/(n_1+n_2), round_to)

In [41]:
dict_all = defaultdict(dict)
dict_avg = defaultdict(dict)

for k1, v1 in dict_avg_seed_1.items():
    if dict_avg_seed_2.get(k1):
        dict_avg[k1] = calculate_weighted_average(v1, dict_avg_seed_2[k1], round_to=1)

In [39]:
dict_avg

defaultdict(dict, {'DNB': 2.5, 'DNT': 2.2, 'DCT': 2.8})

Average over the Retriever types that were used in both seeds

In [45]:
df_all = pd.DataFrame.from_dict(dict_avg, orient='index', columns=['Average']).T
df_all = df_all.style.highlight_max(color='darkred', axis=1).highlight_min(color='darkgreen', axis=1)
df_all = df_all.format("{:.1f}")
ddf_allf = df_all.set_caption('Average evaluation of LLM answers')
df_all

Unnamed: 0,DNB,DNT,DCT
Average,2.5,2.2,2.8
