In [11]:
import os
import pandas as pd
import instructor
import openai
from pydantic import Field, field_validator, BaseModel
from typing import Optional

In [12]:
res_df = pd.read_csv("/Users/shreeyadhakal/Desktop/Projects-2023/llama-3-finetune/infer_out/alpaca_nepali_test_lora_cleaned.csv")

In [13]:
res_df.head()

Unnamed: 0,instruction,input,output,id,generated_text,model_response,cleaned_response
0,"दिइएको क्यारेक्टर, सेटिङ र विषयवस्तु प्रयोग गर...","पात्रहरू: जासूस, वैज्ञानिक\nसेटिङ: परित्याग गर...",जासूस र वैज्ञानिकलाई एक रहस्यमय बेपत्ताको अनुस...,6916,<|begin_of_text|>Below is an instruction in Ne...,जासूस र वैज्ञानिक एक परित्याग गरिएको कारखानामा...,जासूस र वैज्ञानिक एक परित्याग गरिएको कारखानामा...
1,जलवायु परिवर्तनले मानिस र वातावरणमा पार्ने ५ प...,,"1. आकस्मिक मृत्यु: गर्मी छाल, बाढी र अन्य जलवा...",36299,<|begin_of_text|>Below is an instruction in Ne...,1. जलवायु परिवर्तनले मानव स्वास्थ्य र खाद्यान्...,1. जलवायु परिवर्तनले मानव स्वास्थ्य र खाद्यान्...
2,उच्च प्रदर्शन इन्जिनलाई सही रूपमा वर्णन गर्ने ...,,प्रदर्शनको पावरहाउस।,18066,<|begin_of_text|>Below is an instruction in Ne...,एक उच्च प्रदर्शन इन्जिनलाई सामान्यतया शक्तिशाल...,एक उच्च प्रदर्शन इन्जिनलाई सामान्यतया शक्तिशाल...
3,तपाईको विचारमा जलवायु परिवर्तनको प्रमुख कारण क...,,जलवायु परिवर्तनको प्रमुख कारण जीवाश्म इन्धन जल...,3011,<|begin_of_text|>Below is an instruction in Ne...,मलाई विश्वास छ कि जलवायु परिवर्तनको प्रमुख कार...,मलाई विश्वास छ कि जलवायु परिवर्तनको प्रमुख कार...
4,गणितका ५ वटा शाखाको नाम दिनुहोस्।,,- बीजगणित\n- ज्यामिति\n- क्याल्कुलस\n- संख्या ...,1520,<|begin_of_text|>Below is an instruction in Ne...,"गणितका पाँच शाखाहरू संख्यात्मक गणित, ज्यामिति,...","गणितका पाँच शाखाहरू संख्यात्मक गणित, ज्यामिति,..."


In [14]:
def load_api_key(file_path):
    with open(file_path, 'r') as file:
        return file.read().strip()

In [15]:
class Score(BaseModel):
    relevance_score: Optional[int] = Field("Relevance score for response for a given instruction on a scale of 1 (lowest) to 10 (highest).")
    cc_score: Optional[int] = Field("Score how the response for clarity and coherence on a scale of 1 (lowest) to 10 (highest).")
    syntax_score: Optional[int] = Field("Score how the response for correctness of syntax and grammar on a scale of 1 (lowest) to 10 (highest).")
    complete_score: Optional[int] = Field("Score the response for completeness on a scale of 1 (lowest) to 10 (highest).")
    hallucination_type: Optional[str] = Field("Give the type of hallucination in the model response: factual, nonsensical or contradiction. If there is no hallucination say None.")
    is_repeat: Optional[str] = Field("Is the rensponse repeat of the Instruction or Input. Return Yes or No")


In [16]:
# class IsaRepeat(BaseModel):
    

#     @field_validator('is_repeat')
#     def score_validator(cls, s):
#         try:
#             if not isinstance(s, str):
#                 raise ValueError("The value must be an string.")
   
#             elif s.lower() not in ["yes", "no"]:
#                 raise ValueError("The response should be either yes or no.")
#             else:
#                 return s
#         except ValueError as e:
#             print(f"Validation error: {e}")

In [17]:
def get_content(input, ins, model_out):
    return f"""
        Grade the response of the model given the instruction and input.\n
        ### Start of Instruction and Input###

        {ins} + {input}

        ### End of Instruction ###
        ### Start of response ###

        {model_out}
        
        ### End of response ###
        """

In [18]:
from openai import OpenAI

client = instructor.from_openai(OpenAI())

In [19]:
from tqdm import tqdm 

scores = []

for idx, row in tqdm(res_df.iterrows(), total=len(res_df)):
    try:
        input = row["input"].strip()
    except Exception as e:
        input = ""
    ins = row ["instruction"].strip()
    expected = row["output"].strip()
    model_out = row["cleaned_response"].strip()
    res = {}
    if len(model_out) == 0:
        res["relevance_score"], res["cc_score"], res["syntax_score"], res["complete_score"] = 0, 0, 0, 0
        res["hallucination_type"] = "Empty Response"
        res["is_repeat"] = "Empty Response"

    else:
        try:
            response = client.chat.completions.create(
            model="gpt-4o",
            messages=[
                    {"role": "user", "content": get_content(input, ins, model_out)},
                ],
            response_model = Score,
            max_tokens=256,
            temperature=0.7,
            )
            res = response.model_dump()
            scores.append(res)
        except Exception as e:
            print(f"Falied to process row {idx} with exception {e}")

scores_df = pd.DataFrame(scores)

  0%|          | 0/200 [00:00<?, ?it/s]

100%|██████████| 200/200 [05:31<00:00,  1.66s/it]


In [24]:
scores_df

Unnamed: 0,relevance_score,cc_score,syntax_score,complete_score,hallucination_type,is_repeat
0,5,4,6,3,,Yes
1,9,9,9,9,,No
2,8,8,8,6,,No
3,9,8,9,8,,No
4,8,9,10,8,,No
...,...,...,...,...,...,...
195,6,7,8,7,,No
196,8,7,9,6,,Yes
197,8,9,9,7,,No
198,5,6,7,4,,No


In [25]:
final_df = pd.concat([res_df, scores_df], axis=1)

In [26]:
final_df

Unnamed: 0,instruction,input,output,id,generated_text,model_response,cleaned_response,relevance_score,cc_score,syntax_score,complete_score,hallucination_type,is_repeat
0,"दिइएको क्यारेक्टर, सेटिङ र विषयवस्तु प्रयोग गर...","पात्रहरू: जासूस, वैज्ञानिक\nसेटिङ: परित्याग गर...",जासूस र वैज्ञानिकलाई एक रहस्यमय बेपत्ताको अनुस...,6916,<|begin_of_text|>Below is an instruction in Ne...,जासूस र वैज्ञानिक एक परित्याग गरिएको कारखानामा...,जासूस र वैज्ञानिक एक परित्याग गरिएको कारखानामा...,5,4,6,3,,Yes
1,जलवायु परिवर्तनले मानिस र वातावरणमा पार्ने ५ प...,,"1. आकस्मिक मृत्यु: गर्मी छाल, बाढी र अन्य जलवा...",36299,<|begin_of_text|>Below is an instruction in Ne...,1. जलवायु परिवर्तनले मानव स्वास्थ्य र खाद्यान्...,1. जलवायु परिवर्तनले मानव स्वास्थ्य र खाद्यान्...,9,9,9,9,,No
2,उच्च प्रदर्शन इन्जिनलाई सही रूपमा वर्णन गर्ने ...,,प्रदर्शनको पावरहाउस।,18066,<|begin_of_text|>Below is an instruction in Ne...,एक उच्च प्रदर्शन इन्जिनलाई सामान्यतया शक्तिशाल...,एक उच्च प्रदर्शन इन्जिनलाई सामान्यतया शक्तिशाल...,8,8,8,6,,No
3,तपाईको विचारमा जलवायु परिवर्तनको प्रमुख कारण क...,,जलवायु परिवर्तनको प्रमुख कारण जीवाश्म इन्धन जल...,3011,<|begin_of_text|>Below is an instruction in Ne...,मलाई विश्वास छ कि जलवायु परिवर्तनको प्रमुख कार...,मलाई विश्वास छ कि जलवायु परिवर्तनको प्रमुख कार...,9,8,9,8,,No
4,गणितका ५ वटा शाखाको नाम दिनुहोस्।,,- बीजगणित\n- ज्यामिति\n- क्याल्कुलस\n- संख्या ...,1520,<|begin_of_text|>Below is an instruction in Ne...,"गणितका पाँच शाखाहरू संख्यात्मक गणित, ज्यामिति,...","गणितका पाँच शाखाहरू संख्यात्मक गणित, ज्यामिति,...",8,9,10,8,,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,एक समय को एक उदाहरण उत्पन्न गर्नुहोस् जब तपाईं...,,मेरा सबै साथीहरूले पार्कमा ह्याङ्ग आउट गर्नको ...,16763,<|begin_of_text|>Below is an instruction in Ne...,"जब म 16 वर्षको थिएँ, मैले मेरो सानो सहरमा भीड ...","जब म 16 वर्षको थिएँ, मैले मेरो सानो सहरमा भीड ...",6,7,8,7,,No
196,यस लेखमा मुख्य विचारहरूको रूपरेखा सिर्जना गर्न...,डा. नोको कथा अङ्ग्रेजी लेखक इयान फ्लेमिङको छैट...,परिचय\nII। सेटिङ डा. नं\nए इंग्ल्याण्ड\nB. जमै...,32238,<|begin_of_text|>Below is an instruction in Ne...,डा. नोको कथा मुख्य रूपमा बन्डले क्यारिबियनको आ...,डा. नोको कथा मुख्य रूपमा बन्डले क्यारिबियनको आ...,8,7,9,6,,Yes
197,निम्न पाठको टुक्रा लिनुहोस् र यसलाई थप औपचारिक...,नमस्ते! म हाम्रो नयाँ फोटोभोल्टिक विन्डो प्रणा...,हामी हाम्रो नयाँ फोटोभोल्टिक विन्डो प्रणालीको ...,35404,<|begin_of_text|>Below is an instruction in Ne...,हामी हाम्रो नयाँ फोटोभोल्टिक विन्डो प्रणालीको ...,हामी हाम्रो नयाँ फोटोभोल्टिक विन्डो प्रणालीको ...,8,9,9,7,,No
198,"कामको विवरण दिएर, महत्त्वपूर्ण योग्यताहरू सूची...",सफ्टवेयर इन्जिनियरको लागि जागिरको सूची।,सफ्टवेयर इन्जिनियरका लागि योग्यताहरूमा सफ्टवेय...,48622,<|begin_of_text|>Below is an instruction in Ne...,सफ्टवेयर इन्जिनियरको लागि जागिरको लागि महत्त्व...,सफ्टवेयर इन्जिनियरको लागि जागिरको लागि महत्त्व...,5,6,7,4,,No


In [27]:
final_df.to_csv("../../infer_out/df_gpt_4_score_Nepali_lora_finetune.csv")