# Please create another jupyter notebook server inside UniEval folder before running this notebook

In [2]:
from utils import convert_to_json
from metric.evaluator import get_evaluator
import nltk
nltk.download('punkt')
import pandas as pd
import os

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/aaron.dinh.int/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [3]:
from enum import Enum

class EvaluationType(Enum):
    ResSearch = "RestrictedSearch"
    SrcDropped = "SourcedDropped"
    UnresSearch= "UnrestrictedSearch"

class ResponseType(Enum):
    TLDR = "TLDR"
    Synthesis = "Synthesis"
    Combined= "Combined"


In [9]:
def evaluate(eval_type: EvaluationType, is_vietnamese: bool = False):
    path = ""
    if is_vietnamese:
        path = os.path.join(f"../VN_{eval_type.value}.csv")
    else:
        path = os.path.join(f"../{eval_type.value}.csv")
    test = pd.read_csv(path)
    test.head()

    src_list=[]
    ref_list=[]
    output_TLDR=[]
    output_Summary=[]
    output_All=[]


    for index, row in test.iterrows():
        # Example for summarization
        task = 'summarization'

        # a list of source documents
        src_list.append(row['Abstract'])
        # a list of human-annotated reference summaries
        ref_list.append(row['HumanAnswer'])
        
        output_TLDR.append(row['TLDR'])
        output_Summary.append(row['Summary'])
        output_All.append(row['All'])


    data_TLDR = convert_to_json(output_list=output_TLDR, 
                        src_list=src_list, ref_list=ref_list)
    
    data_Summary = convert_to_json(output_list=output_Summary, 
                    src_list=src_list, ref_list=ref_list)
    data_All = convert_to_json(output_list=output_All, 
                        src_list=src_list, ref_list=ref_list)
    # Initialize evaluator for a specific task
    evaluator = get_evaluator(task, device="mps")

    # Get multi-dimensional evaluation scores
    print("Evaluating TLDR")
    eval_TLDR = evaluator.evaluate(data_TLDR, print_result=True)
    print("------------------------")
    print("Evaluating Summary")
    eval_Summary = evaluator.evaluate(data_Summary, print_result=True)
    print("------------------------")
    print("Evaluating All")
    eval_All = evaluator.evaluate(data_All, print_result=True)

In [10]:
evaluate(EvaluationType.UnresSearch)



Evaluating TLDR
Evaluating coherence of 11 samples !!!


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [01:40<00:00, 50.38s/it]


Evaluating consistency of 11 samples !!!


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [01:54<00:00, 57.35s/it]


Evaluating fluency of 11 samples !!!


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [01:56<00:00, 58.18s/it]


Evaluating relevance of 11 samples !!!


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:36<00:00, 78.47s/it]



Evaluation scores are shown below:
+-------------+----------+
|  Dimensions |  Score   |
+-------------+----------+
|  coherence  | 0.802566 |
| consistency | 0.805406 |
|   fluency   | 0.95495  |
|  relevance  | 0.855385 |
|   overall   | 0.854577 |
+-------------+----------+
------------------------
Evaluating Summary
Evaluating coherence of 11 samples !!!


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:20<00:00, 70.30s/it]


Evaluating consistency of 11 samples !!!


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [09:09<00:00, 91.58s/it]


Evaluating fluency of 11 samples !!!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [03:37<00:00, 36.23s/it]


Evaluating relevance of 11 samples !!!


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [20:31<00:00, 615.76s/it]



Evaluation scores are shown below:
+-------------+----------+
|  Dimensions |  Score   |
+-------------+----------+
|  coherence  | 0.836162 |
| consistency | 0.626847 |
|   fluency   | 0.915165 |
|  relevance  | 0.91747  |
|   overall   | 0.823911 |
+-------------+----------+
------------------------
Evaluating All
Evaluating coherence of 11 samples !!!


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [04:41<00:00, 140.78s/it]


Evaluating consistency of 11 samples !!!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [11:18<00:00, 84.86s/it]


Evaluating fluency of 11 samples !!!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [02:18<00:00, 17.26s/it]


Evaluating relevance of 11 samples !!!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:53<00:00, 26.82s/it]



Evaluation scores are shown below:
+-------------+----------+
|  Dimensions |  Score   |
+-------------+----------+
|  coherence  | 0.921498 |
| consistency | 0.65814  |
|   fluency   | 0.924644 |
|  relevance  | 0.966328 |
|   overall   | 0.867652 |
+-------------+----------+


In [11]:
evaluate(EvaluationType.UnresSearch, is_vietnamese=True) 



Evaluating TLDR
Evaluating coherence of 10 samples !!!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:06<00:00, 63.29s/it]


Evaluating consistency of 10 samples !!!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [03:18<00:00, 99.24s/it]


Evaluating fluency of 10 samples !!!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:42<00:00, 81.23s/it]


Evaluating relevance of 10 samples !!!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [01:13<00:00, 36.85s/it]



Evaluation scores are shown below:
+-------------+----------+
|  Dimensions |  Score   |
+-------------+----------+
|  coherence  | 0.538442 |
| consistency | 0.536401 |
|   fluency   | 0.679237 |
|  relevance  | 0.510135 |
|   overall   | 0.566054 |
+-------------+----------+
------------------------
Evaluating Summary
Evaluating coherence of 10 samples !!!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [01:13<00:00, 36.74s/it]


Evaluating consistency of 10 samples !!!


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [08:28<00:00, 127.14s/it]


Evaluating fluency of 10 samples !!!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [04:56<00:00, 74.07s/it]


Evaluating relevance of 10 samples !!!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:02<00:00, 61.31s/it]



Evaluation scores are shown below:
+-------------+----------+
|  Dimensions |  Score   |
+-------------+----------+
|  coherence  | 0.430905 |
| consistency | 0.350314 |
|   fluency   | 0.573134 |
|  relevance  | 0.384803 |
|   overall   | 0.434789 |
+-------------+----------+
------------------------
Evaluating All
Evaluating coherence of 10 samples !!!


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [08:50<00:00, 265.15s/it]


Evaluating consistency of 10 samples !!!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [09:01<00:00, 90.20s/it]


Evaluating fluency of 10 samples !!!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [04:44<00:00, 47.48s/it]


Evaluating relevance of 10 samples !!!


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [01:59<00:00, 59.97s/it]



Evaluation scores are shown below:
+-------------+----------+
|  Dimensions |  Score   |
+-------------+----------+
|  coherence  | 0.570444 |
| consistency | 0.408035 |
|   fluency   | 0.62881  |
|  relevance  | 0.565136 |
|   overall   | 0.543106 |
+-------------+----------+


In [62]:
from llama_index.llms.openai import OpenAI
import json
from llama_index.core.prompts import PromptTemplate
from dotenv import load_dotenv
from llama_index.core import Settings
from pydantic import BaseModel
from llama_index.program.openai import OpenAIPydanticProgram
load_dotenv()
OPEN_AI_API_KEY = os.getenv("OPENAI_API_KEY")


# create prompt template
qa_prompt_tmpl_str = """\
    You are an Vietnamese Medical Expert who is evaluating the quality of a medical summary.
    You are given an json object containing the following fields:
    - source: A list contains the abstract of the medical paper in Vietnamese
    - reference: A list contains the human-annotated reference summaries in Vietnamese
    - system_output: A list contains the model-generated summaries in Vietnamese
    Please evaluate the quality of the model-generated summaries based on the following criteria:
    - Coherence: The summary is logically consistent and flows well
    - Consistency: The summary does not contradict itself
    - Relevance: The summary is relevant to the source document
    - Fluency: The summary is grammatically correct and sounds natural
    - Overall: The overall quality of the summary
    Please provide a score between 0 and 1 with 2 decimal places for each of the criteria.
    --------------------------------------------------
    Given the context information and not prior knowledge, evaluate this json: {json_obj}
    Please provide a score between 0 and 1 for each of the criteria only in object format.
"""  

# qa_prompt_tmpl_str.format(json_obj=json_str)
class Evaluation(BaseModel):
    coherence: float
    consistency: float
    relevance: float
    fluency: float
    overall: float

Settings.llm =  OpenAI(model="gpt-4o", api_key=OPEN_AI_API_KEY, context_window=1280000)

program = OpenAIPydanticProgram.from_defaults(
    output_cls=Evaluation, prompt_template_str=qa_prompt_tmpl_str, verbose=True
)



In [68]:
data  = evaluate(EvaluationType.UnresSearch, is_vietnamese=True)

TLDR = data["TLDR"]
Summary = data["Summary"]
All = data["All"]



def get_eval_scores(data):
    output = program(
    json_obj=data, description="Data model for an Evaluation."
)
    return output

In [69]:
# TLDR
response = get_eval_scores(TLDR)
print(response.json())

Function call: Evaluation with args: {"coherence":0.95,"consistency":0.95,"relevance":0.9,"fluency":0.95,"overall":0.94}


Evaluation(coherence=0.95, consistency=0.95, relevance=0.9, fluency=0.95, overall=0.94)

In [72]:
#Synthesis
response = get_eval_scores(Summary)
print(response.json())

Function call: Evaluation with args: {"coherence":0.95,"consistency":0.95,"relevance":0.9,"fluency":0.9,"overall":0.92}
{"coherence":0.95,"consistency":0.95,"relevance":0.9,"fluency":0.9,"overall":0.92}


In [73]:
# Synthesis + TLDR
response = get_eval_scores(All)
print(response.json())


Function call: Evaluation with args: {"coherence":0.85,"consistency":0.9,"relevance":0.88,"fluency":0.87,"overall":0.88}
{"coherence":0.85,"consistency":0.9,"relevance":0.88,"fluency":0.87,"overall":0.88}
