In [1]:
from deepeval import evaluate
from deepeval.metrics import ContextualRelevancyMetric
from deepeval.test_case import LLMTestCase



In [2]:
import os

In [3]:
from embedchain import App

In [4]:
from transformers import pipeline

In [5]:
def calculateContextRelevancy(actual_output = "", retrieval_context=[], input=""):
    metric = ContextualRelevancyMetric(
        threshold=0.7,
        model="gpt-4",
        include_reason=True
    )
    test_case = LLMTestCase(
        input,
        actual_output=actual_output,
        retrieval_context=retrieval_context
    )

    metric.measure(test_case)
    print(metric.score)
    print(metric.reason)
    print()
    
    
    return test_case, metric

In [6]:
def evaluate_in_bulk(test_case, metric):
    # evaluate test cases in bulk
    evaluate([test_case], [metric])

In [7]:
inputs = ["""Voiko luottamustehtävässä edelleen olla, jos muuttaa toiselle paikkakunnalle (answer IN FINNISH)?""",
         """Voidaanko turhaa irtaimistoa lahjoittaa yliopistolle ja kuka päättää irtaimiston lahjoittamisesta (answer IN FINNISH)?""",
         """Kuka päättää uusien virkojen perustamisesta (answer IN FINNISH)?""",
         """Mikäli toimipisteessä sattuu vesivahinko, jonka myötä toiminta
         tulee siirtää muualle, kuka päättää toimipisteen siirrosta, mikäli
         asiasta on jo tehty viranhaltijapäätös kahdelle kuukaudelle, mutta
         alkuperäisessä toimipisteessä olevien laajojen ongelmien vuoksi,
         toimintaa joudutaan edelleen jatkamaan toisessa toimipisteessä (answer IN FINNISH)?""",
         """Mikä on aluehallituksen rooli osakeyhtiön perustamiseen liittyvissä asioissa (answer IN FINNISH)?"""]

In [8]:
dir_path = "./chunks_hallinto/"

In [9]:
file_names = []
for i, file in enumerate(os.listdir(dir_path)):
        file = dir_path + file
        # Check if the file has a .txt extension
        if file.endswith('.txt'):
            file_names.append( file)

In [10]:
file_names

['./chunks_hallinto/chunk.txt',
 './chunks_hallinto/chunk2.txt',
 './chunks_hallinto/chunk3.txt',
 './chunks_hallinto/chunk4.txt',
 './chunks_hallinto/chunk5.txt',
 './chunks_hallinto/chunk6.txt']

## Evaluate RAG + Vector DB

### Initialize embedcahin

In [15]:
app = App()
app.add('./chunks_hallinto/chunk.txt', data_type="text_file")
app.add('./chunks_hallinto/chunk2.txt', data_type="text_file")
app.add('./chunks_hallinto/chunk3.txt', data_type="text_file")
app.add('./chunks_hallinto/chunk4.txt', data_type="text_file")
app.add('./chunks_hallinto/chunk5.txt', data_type="text_file")
app.add('./chunks_hallinto/chunk6.txt', data_type="text_file")



'3e655cea63f45a0f404b6ba32ad6e35f'

In [16]:
embedchain_results = []

#### Analyze the inputs

In [18]:

for input in inputs:
    answer, sources = app.query(input, citations=True)
    source_list = []
    for s in sources:
        source_list.append(s[0])
    test_case_ragV, metric_ragV = calculateContextRelevancy(answer, source_list, input)
    embedchain_results.append((test_case_ragV, metric_ragV))

Output()

0.0
The score is 0.00 because all retrieved statements such as 'jossa on kyseessä viran määräaikainen täyttö' and 'jossa on kyseessä viran uudelleen täyttäminen...' are irrelevant to the input query about continuing duties after moving to a new location, and no relevant statements were found in the retrieval context.


Event loop is already running. Applying nest_asyncio patch to allow async execution...


Evaluating 1 test case(s) in parallel: |██████████████████████████████|100% (1/1) [Time Taken: 00:51, 51.98s/test case]



Metrics Summary

  - ❌ Contextual Relevancy (score: 0.0, threshold: 0.7, strict: False, evaluation model: gpt-4, reason: The score is 0.00 because all the statements in the retrieval context are irrelevant to the question about 'continuing in a position of trust after moving to another municipality'. The statements are about different topics such as 'temporary filling of a position', 'refilling a position in certain circumstances' and 'selecting a former official who receives a disability pension'. Furthermore, none of the statements mention anything about 'moving to another location' (muuttaa toiselle paikkakunnalle)., error: None)

For test case:

  - input: Voiko luottamustehtävässä edelleen olla, jos muuttaa toiselle paikkakunnalle (answer IN FINNISH)?
  - actual output: Luottamustehtävässä voi edelleen olla, mutta se riippuu tehtävän luonteesta ja mahdollisista säännöistä tai määräyksistä, jotka koskevat kyseistä tehtävää. Jos tehtävä edellyttää paikallista läsnäoloa tai on sido




Output()

0.0
The score is 0.00 because none of the information or statements in the retrieval context are related to the question about donating unnecessary property to the university. Statements such as 'jossa on kyseessä viran määräaikainen täyttö' and 'Aluevaltuusto' are not relevant to the input.


Event loop is already running. Applying nest_asyncio patch to allow async execution...


Evaluating 1 test case(s) in parallel: |██████████████████████████████|100% (1/1) [Time Taken: 00:57, 57.73s/test case]



Metrics Summary

  - ❌ Contextual Relevancy (score: 0.0, threshold: 0.7, strict: False, evaluation model: gpt-4, reason: The score is 0.00 because none of the statements in the retrieval context are relevant to the question about the possibility of donating unnecessary property to the university and who decides on the donation of property. The statements primarily concern personnel matters, establishing and abolishing a position, changing the title of the position, service relationship, and the qualifications of a person to be part of a governing body, which are all irrelevant to the input question., error: None)

For test case:

  - input: Voidaanko turhaa irtaimistoa lahjoittaa yliopistolle ja kuka päättää irtaimiston lahjoittamisesta (answer IN FINNISH)?
  - actual output: Turhan irtaimiston lahjoittaminen yliopistolle on mahdollista, mutta päätös lahjoittamisesta tehdään organisaation hallituksen tai vastaavan toimielimen toimesta. Lahjoituksesta on hyvä keskustella etukäteen, jo




Output()

0.13333333333333333
The score is 0.13 because while the retrieval context did contain relevant statements such as 'Aluevaltuusto päättää hyvinvointialuejohtajan ja toimialajohtajien virkojen perustamisesta ja lakkauttamisesta sekä virkanimikkeen muuttamisesta.' and 'Aluehallitus päättää muiden virkojen perustamisesta ja lakkauttamisesta. Virkanimikkeen muuttamisesta päättää hyvinvointialuejohtaja.', a majority of the statements were irrelevant to the input, as they did not specifically address who decides on the establishment of new positions.


Event loop is already running. Applying nest_asyncio patch to allow async execution...


Evaluating 1 test case(s) in parallel: |██████████████████████████████|100% (1/1) [Time Taken: 01:02, 62.09s/test case]



Metrics Summary

  - ❌ Contextual Relevancy (score: 0.10526315789473684, threshold: 0.7, strict: False, evaluation model: gpt-4, reason: The score is 0.11 because the majority of the context discussed irrelevant topics such as 'Viran kelpoisuusvaatimusten muuttamisesta', 'Hyvinvointialuejohtajan viran kelpoisuusvaatimuksista', 'Muiden virkojen kelpoisuusvaatimuksista päätetään virkaa perustettaessa', and 'Pelastuslautakunta päättää pelastuslaitosta koskevat asiat 25 §:n mukaisesti.' among others, which do not answer the question about who decides on the establishment of new positions. Only two statements, 'Aluevaltuusto päättää hyvinvointialuejohtajan ja toimialajohtajien virkojen perustamisesta ja lakkauttamisesta sekä virkanimikkeen muuttamisesta.' and 'Aluehallitus päättää muiden virkojen perustamisesta ja lakkauttamisesta. Virkanimikkeen muuttamisesta päättää hyvinvointialuejohtaja.' were relevant to the input., error: None)

For test case:

  - input: Kuka päättää uusien virkoje




Output()

0.4166666666666667
The score is 0.42 because while the input discusses decision-making in the event of water damage and the need to transfer operations, the retrieval context often discusses unrelated topics such as 'perustamisesta ja lakkauttamisesta' (establishing and abolishing positions), 'virkanimikkeen muuttamisesta' (changing job title), and 'toimialan tietosuojan ja tietoturvan järjestämisestä' (data protection and information security). However, there are relevant statements such as 'Viran siirtämisestä toimialalta toiselle päättää hyvinvointialuejohtaja tai hänen määräämänsä viranhaltija.' (The transfer of a position from one area of responsibility to another is decided by the regional director or an official appointed by him.) and 'Toimialajohtaja vastaa toimialansa toiminnasta ja taloudesta sekä johtaa ja kehittää toimintaa hyvinvointialuestrategian mukaisesti aluehallituksen ja hyvinvointialuejohtajan alaisuudessa.' (The department director is responsible for the operation

Event loop is already running. Applying nest_asyncio patch to allow async execution...


Evaluating 1 test case(s) in parallel: |██████████████████████████████|100% (1/1) [Time Taken: 00:57, 57.90s/test case]



Metrics Summary

  - ❌ Contextual Relevancy (score: 0.3181818181818182, threshold: 0.7, strict: False, evaluation model: gpt-4, reason: The score is 0.32 because although the retrieval context contains some information about the responsibilities and decision-making power of the wellbeing area manager and department manager, it does not specifically address who would decide on the relocation of an office in case of a severe water damage. The irrelevancy reasons highlight that the context contains a lot of unrelated information about other aspects of their roles and responsibilities., error: None)

For test case:

  - input: Mikäli toimipisteessä sattuu vesivahinko, jonka myötä toiminta
         tulee siirtää muualle, kuka päättää toimipisteen siirrosta, mikäli
         asiasta on jo tehty viranhaltijapäätös kahdelle kuukaudelle, mutta
         alkuperäisessä toimipisteessä olevien laajojen ongelmien vuoksi,
         toimintaa joudutaan edelleen jatkamaan toisessa toimipisteessä (answe




Output()

0.07692307692307693
The score is 0.08 because almost all provided context statements are irrelevant to the input question about the role of the Regional Government in the establishment of a limited company. Only one statement, 'Aluehallitus päättää osakeyhtiön perustamisesta', was found relevant.


Event loop is already running. Applying nest_asyncio patch to allow async execution...


Evaluating 1 test case(s) in parallel: |██████████████████████████████|100% (1/1) [Time Taken: 00:56, 56.89s/test case]



Metrics Summary

  - ❌ Contextual Relevancy (score: 0.06666666666666667, threshold: 0.7, strict: False, evaluation model: gpt-4, reason: The score is 0.07 because the majority of statements in the retrieval context discuss topics such as 'hyvinvointialueen toiminta', 'henkilöstöasiat', and 'document management', which are not related to 'osakeyhtiön perustamiseen'. Only one relevant statement was found: 'Aluehallitus päättää osakeyhtiön perustamisesta'., error: None)

For test case:

  - input: Mikä on aluehallituksen rooli osakeyhtiön perustamiseen liittyvissä asioissa (answer IN FINNISH)?
  - actual output: Aluehallitus päättää osakeyhtiön perustamisesta. Tämä tarkoittaa, että aluehallitus on vastuussa osakeyhtiön perustamiseen liittyvistä päätöksistä ja toimenpiteistä hyvinvointialueella.
  - expected output: None
  - context: None
  - retrieval context: ['24 § Aluehallituksen tehtävät ja toimivalta\nAluehallitus johtaa hyvinvointialueen toimintaa, hallintoa ja taloutta.\nAluehall




In [19]:
print(embedchain_results)

[None, None, None, None, None]


## Evaluate RagBERT

In [11]:
from RAGBERT import RagBERT

In [12]:
bert_model = "distil_bert_fine_chunk_hallinto_classifier-v2"
classifier = pipeline("text-classification", model=bert_model)

Device set to use cuda:0


In [17]:
ragbert_results = []

In [18]:
chunk_map = [{'label':'LABEL_0', 'file':'chunk.txt'},
                 {'label':'LABEL_1', 'file':'chunk2.txt'},
                 {'label':'LABEL_2', 'file':'chunk3.txt'},
                 {'label':'LABEL_3', 'file':'chunk4.txt'},
                 {'label':'LABEL_4', 'file':'chunk5.txt'},
                 {'label':'LABEL_5', 'file':'chunk6.txt'}]

In [19]:
for input in inputs:
    resp, sources, query = RagBERT(classifier, topk=1, query=input, chunk_map=chunk_map, source="./chunks_hallinto")
    test_case_ragB, metric_ragB = calculateContextRelevancy(resp, sources, query)
    ragbert_results.append((test_case_ragB, metric_ragB))

[[{'label': 'LABEL_0', 'score': 0.7795916199684143}, {'label': 'LABEL_1', 'score': 0.03009897656738758}, {'label': 'LABEL_2', 'score': 0.09950163960456848}, {'label': 'LABEL_3', 'score': 0.03744695708155632}, {'label': 'LABEL_4', 'score': 0.03293641656637192}, {'label': 'LABEL_5', 'score': 0.020424384623765945}]]
LABEL_0 [{'label': 'LABEL_0', 'file': 'chunk.txt'}]
[{'label': 'LABEL_0', 'file': 'chunk.txt'}, {'label': 'LABEL_1', 'file': 'chunk2.txt'}, {'label': 'LABEL_2', 'file': 'chunk3.txt'}, {'label': 'LABEL_3', 'file': 'chunk4.txt'}, {'label': 'LABEL_4', 'file': 'chunk5.txt'}, {'label': 'LABEL_5', 'file': 'chunk6.txt'}]
final_query:  
    
        76 Â§
Yleinen vaalikelpoisuus
Vaalikelpoinen hyvinvointialueen luottamustoimeen on henkilÃ¶:

1)â€‚joka on kyseisen hyvinvointialueen asukas;

2)â€‚jolla on jollakin hyvinvointialueella Ã¤Ã¤nioikeus aluevaaleissa sinÃ¤ vuonna, jona valtuutetut valitaan tai vaali muuhun luottamustoimeen toimitetaan; ja

3)â€‚jota ei ole julistettu vajaavalt

Output()

0.25
The score is 0.25 because the retrieval context mostly contains irrelevant information about eligibility rules for serving on regional councils and in service relationships, which does not answer the question about continuity in a position of trust when moving to a different locality. However, there is a single relevant statement about eligibility for a position of trust requiring the person to be a resident of the respective wellbeing area.

[[{'label': 'LABEL_0', 'score': 0.02966916188597679}, {'label': 'LABEL_1', 'score': 0.006383607164025307}, {'label': 'LABEL_2', 'score': 0.9290233254432678}, {'label': 'LABEL_3', 'score': 0.012153920717537403}, {'label': 'LABEL_4', 'score': 0.011851023882627487}, {'label': 'LABEL_5', 'score': 0.01091888826340437}]]
LABEL_2 [{'label': 'LABEL_2', 'file': 'chunk3.txt'}]
[{'label': 'LABEL_0', 'file': 'chunk.txt'}, {'label': 'LABEL_1', 'file': 'chunk2.txt'}, {'label': 'LABEL_2', 'file': 'chunk3.txt'}, {'label': 'LABEL_3', 'file': 'chunk4.txt'}, {'



Output()

0.0
The score is 0.00 because all statements in the retrieval context are talking about personnel matters, establishment and abolition of posts, transfer of posts, and proclamation of posts for application, which are all not relevant to the donation of unnecessary property.

[[{'label': 'LABEL_0', 'score': 0.002337086945772171}, {'label': 'LABEL_1', 'score': 0.0011278341989964247}, {'label': 'LABEL_2', 'score': 0.9913187623023987}, {'label': 'LABEL_3', 'score': 0.0021168228704482317}, {'label': 'LABEL_4', 'score': 0.0013927258551120758}, {'label': 'LABEL_5', 'score': 0.0017067393055185676}]]
LABEL_2 [{'label': 'LABEL_2', 'file': 'chunk3.txt'}]
[{'label': 'LABEL_0', 'file': 'chunk.txt'}, {'label': 'LABEL_1', 'file': 'chunk2.txt'}, {'label': 'LABEL_2', 'file': 'chunk3.txt'}, {'label': 'LABEL_3', 'file': 'chunk4.txt'}, {'label': 'LABEL_4', 'file': 'chunk5.txt'}, {'label': 'LABEL_5', 'file': 'chunk6.txt'}]
final_query:  
    
        50 Â§ Toimivalta henkilÃ¶stÃ¶asioissa
MikÃ¤li toimivalla



Output()

0.5
The score is 0.50 because the retrieved context contains relevant statements such as 'Aluevaltuusto päättää hyvinvointialuejohtajan ja toimialajohtajien virkojen perustamisesta ja lakkauttamisesta sekä virkanimikkeen muuttamisesta.' and 'Aluehallitus päättää muiden virkojen perustamisesta ja lakkauttamisesta.' However, there are also irrelevant statements like 'Mikäli toimivallasta henkilöstöasioissa ei ole säädetty laissa eikä määrätty hallintosäännössä, toimivalta on hyvinvointialuejohtajalla' and 'Pelastuslautakunta päättää pelastuslaitosta koskevat asiat 25 Â§:n mukaisesti', which are not related to the establishment of new positions.

[[{'label': 'LABEL_0', 'score': 0.05718198046088219}, {'label': 'LABEL_1', 'score': 0.013595126569271088}, {'label': 'LABEL_2', 'score': 0.7902374267578125}, {'label': 'LABEL_3', 'score': 0.0677618458867073}, {'label': 'LABEL_4', 'score': 0.04866572842001915}, {'label': 'LABEL_5', 'score': 0.022558031603693962}]]
LABEL_2 [{'label': 'LABEL_2', 'fi



Output()

0.4
The score is 0.40 because while the retrieval context does provide some information about decision making related to relocation of a position or an office ('Viran siirtÃ¤misestÃ¤ toimialalta toiselle pÃ¤Ã¤ttÃ¤Ã¤ hyvinvointialuejohtaja tai hÃ¤nen mÃ¤Ã¤rÃ¤Ã¤mÃ¤nsÃ¤ viranhaltija.', 'Kuitenkin mikÃ¤li aluevaltuusto tai aluehallitus tai pelastuslautakunta pÃ¤Ã¤ttÃ¤Ã¤ viran tÃ¤yttÃ¤misestÃ¤, aluevaltuusto ja vastaavasti aluehallitus ja pelastuslautakunta myÃ¶s pÃ¤Ã¤ttÃ¤Ã¤ viran siirtÃ¤misestÃ¤.'), it doesn't specifically address the decision making in case of relocation due to extensive problems at the original location, which was the main point of the input.

[[{'label': 'LABEL_0', 'score': 0.20487233996391296}, {'label': 'LABEL_1', 'score': 0.24692319333553314}, {'label': 'LABEL_2', 'score': 0.11118076741695404}, {'label': 'LABEL_3', 'score': 0.06688091158866882}, {'label': 'LABEL_4', 'score': 0.18773862719535828}, {'label': 'LABEL_5', 'score': 0.18240411579608917}]]
LABEL_1 [{'label':



Output()

0.0
The score is 0.00 because the role of the regional director in relation to the establishment of a limited company is not discussed in the statement, and no relevant statements were found in the retrieval context.



In [22]:
#print(ragbert_results)
for t,m in ragbert_results:
    print(m.score)
    print(m.reason)

0.25
The score is 0.25 because the retrieval context mostly contains irrelevant information about eligibility rules for serving on regional councils and in service relationships, which does not answer the question about continuity in a position of trust when moving to a different locality. However, there is a single relevant statement about eligibility for a position of trust requiring the person to be a resident of the respective wellbeing area.
0.0
The score is 0.00 because all statements in the retrieval context are talking about personnel matters, establishment and abolition of posts, transfer of posts, and proclamation of posts for application, which are all not relevant to the donation of unnecessary property.
0.5
The score is 0.50 because the retrieved context contains relevant statements such as 'Aluevaltuusto päättää hyvinvointialuejohtajan ja toimialajohtajien virkojen perustamisesta ja lakkauttamisesta sekä virkanimikkeen muuttamisesta.' and 'Aluehallitus päättää muiden virk

## Evaluate in Bulk

In [None]:
# Embedchain
for t,m in embedchain_results:
    evaluate_in_bulk(t, m)

In [None]:
# RagBERT
for t,m in ragbert_results:
    evaluate_in_bulk(t, m)