In [1]:
import numpy as np
import datetime
from tqdm import tqdm
import pandas as pd
import random
from openai import OpenAI, AzureOpenAI
random.seed(42)

from utils.evaluator_helpers_ptuning import get_evaluation_prompt
from utils.openai_helpers_ptuning import query_evaluator_openai_model, get_response
import utils.evaluator_helpers_ptuning as evaluator_helpers_ptuning
import utils.openai_helpers_ptuning as openai_helpers_ptuning

In [2]:
model_name = "gpt4-preview"

# client = AzureOpenAI(
#     azure_endpoint = openai_helpers_ptuning.azure_endpoint, 
#     api_key=openai_helpers_ptuning.personal_api_key,  
#     api_version="2024-02-15-preview"
#     )

df_evaluation = pd.read_csv("evaluation_files/evaluated_conversations_gpt4-preview_final_mapped.csv")
df_manual = pd.read_csv("evaluation_files/manual_annotations_conversations_mapped.csv")

In [3]:
def save_to_csv(df, result_list, filename, temp=False):
    df[f'evaluated_result_{model}'] = result_list
    if temp:
        df.to_csv(f'outputs/promptTuning/{filename}', index=False)
    else:
        df.to_csv(f'outputs/promptTuning/{filename}', index=False)

def write_to_log(text, modelname):
    now = datetime.datetime.now()
    timestamp = now.strftime("%Y-%m-%d %H:%M:%S")  # Format the date and time

    # Create the log entry with the timestamp
    log_entry = f"{timestamp} - {text}\n"

    # Write to the log file
    with open(f"logs/log_evaluator_{modelname}.txt", "a") as log_file:
        log_file.write(log_entry)

    return

In [4]:
# cleaning data
def extract_metadata(df_evaluation):
    list_metadata = []

    for i, row in df_evaluation.iterrows():
        background_ = row["prompt"]
        background = background_.split("Background context:\n")[1]
        background = background.split("for ")[1]

        team_context_background = background.split(".")[0].strip()

        backgroundText = background.replace(team_context_background,'')
        colleague_information_conversation = backgroundText.split('Conversation:\n')
        colleague_information = colleague_information_conversation[0].strip()[2:]
        initial_dialogue = colleague_information_conversation[1]

        list_dialogue = initial_dialogue.split("\n")
        start_conversation = list_dialogue[2]
        initial_dialogue = list_dialogue[0] + "\n" + list_dialogue[1]

        if start_conversation not in row["generated_text"][:len(start_conversation) + 5]:
            conversation = start_conversation + row["generated_text"]

        list_metadata.append([i, team_context_background, colleague_information, initial_dialogue, conversation])
    return list_metadata

In [5]:
# constructing prompts
def construct_prompt(metric_name, definition, team_context_background, colleague_information, initial_dialogue, conversation):
    prompt = evaluator_helpers_ptuning.ZERO_SHOT_INDIVIDUAL_METRIC_PROMPT
    prompt = prompt.replace("[METRIC]", metric_name)
    prompt = prompt.replace("[DEFINITION]", definition)
    prompt = prompt.replace("[FOUR-POINT-SCALE]", evaluator_helpers_ptuning.scale_string)
    prompt = prompt.replace("[TEAM-CONTEXT]", team_context_background)
    prompt = prompt.replace("[COLLEAGUE-INFORMATION]", colleague_information)
    prompt = prompt.replace("[INITIAL-DIALOGUE]", initial_dialogue)
    prompt = prompt.replace("[CONVERSATION]", conversation)
    return prompt

def create_metric_prompts_per_conversation(list_metadata, prompt_system_pairwise):
    dict_i = dict()
    for metadata in list_metadata:
        team_context_background = metadata[1]
        colleague_information = metadata[2]
        initial_dialogue = metadata[3]
        conversation = metadata[4]
        
        prompt_categorization = construct_prompt(evaluator_helpers_ptuning.metrics_list[0], evaluator_helpers_ptuning.categorization_threat_definition,
                                team_context_background, colleague_information, initial_dialogue, conversation)   # categorization threat
        prompt_categorization = [{"role": "system", "content": prompt_system_pairwise}, {"role": "user", "content": prompt_categorization}]
                                           
        prompt_morality = construct_prompt(evaluator_helpers_ptuning.metrics_list[1], evaluator_helpers_ptuning.morality_threat_definition,
                                team_context_background, colleague_information, initial_dialogue, conversation)   # morality threat
        prompt_morality = [{"role": "system", "content": prompt_system_pairwise}, {"role": "user", "content": prompt_morality}]

        prompt_competence = construct_prompt(evaluator_helpers_ptuning.metrics_list[2], evaluator_helpers_ptuning.competence_threat_definition,
                                team_context_background, colleague_information, initial_dialogue, conversation)   # competence threat
        prompt_competence = [{"role": "system", "content": prompt_system_pairwise}, {"role": "user", "content": prompt_competence}] 
                                           
        prompt_realistic = construct_prompt(evaluator_helpers_ptuning.metrics_list[3], evaluator_helpers_ptuning.realistic_threat_definition,
                                team_context_background, colleague_information, initial_dialogue, conversation)   # realistic threat
        prompt_realistic = [{"role": "system", "content": prompt_system_pairwise}, {"role": "user", "content": prompt_realistic}] 

        prompt_symbolic = construct_prompt(evaluator_helpers_ptuning.metrics_list[4], evaluator_helpers_ptuning.symbolic_threat_definition,
                                team_context_background, colleague_information, initial_dialogue, conversation)  # symbolic threat
        prompt_symbolic = [{"role": "system", "content": prompt_system_pairwise}, {"role": "user", "content": prompt_symbolic}] 

        prompt_disparagement = construct_prompt(evaluator_helpers_ptuning.metrics_list[5], evaluator_helpers_ptuning.disparagement_definition,
                                team_context_background, colleague_information, initial_dialogue, conversation)   # disparagement
        prompt_disparagement = [{"role": "system", "content": prompt_system_pairwise}, {"role": "user", "content": prompt_disparagement}] 

        prompt_opportunity = construct_prompt(evaluator_helpers_ptuning.metrics_list[6], evaluator_helpers_ptuning.opportunity_harm_definition,
                                team_context_background, colleague_information, initial_dialogue, conversation)   # opportunity harm
        prompt_opportunity = [{"role": "system", "content": prompt_system_pairwise}, {"role": "user", "content": prompt_opportunity}] 

        dict_i[metadata[0]] = [prompt_categorization, prompt_morality, prompt_competence, prompt_realistic, prompt_symbolic, prompt_disparagement, prompt_opportunity]
    return dict_i

In [6]:
def execute_gpt(dict_prompts, model_name, temperature, df_evaluation):
    failed, usage, prompt_usage, completion_tokens = 0, 0, 0, 0
    rated_comments = dict()

    for i, prompts in dict_prompts.items(): #len(conv_db)

        for prompt in prompts:
            response, num_tokens, num_completion_tokens, num_prompt_tokens = get_response(prompt, model_name, temperature)
            
            list_evaluated[i] = evaluatedConv

            if (i+1) % 10 == 0:
                save_to_csv(df_evaluation, list_evaluated, f'evaluated_conversations_{model}_temp.csv', temp=True)
                print(f'Saved Intermediate [{i}/{len(df)}]')
                write_to_log(f'Saved Intermediate [{i}/{len(df)}]', model) 

    save_to_csv(df, list_evaluated, f'evaluated_conversations_{model}_final.csv')
    print('Saved Final!')
    write_to_log('Saved Final!', model)

In [7]:
temperature = 0.2

In [8]:
prompt = 'This is a test. Are you up?. Reply in JSON format, with Keys: "STATUS".'

In [9]:
query_evaluator_openai_model(model_name, prompt, temperature)

'{\n  "STATUS": "I am up and running. Ready to assist you!"\n}'

In [7]:
# evaluation code
def calculate_exact_accuracy(ground_truth, prediction):
    total = 0
    correct = 0
    for i in range(len(ground_truth)):
        if ground_truth[i] == prediction[i]:
            correct += 1
        total += 1
    return correct / total

def calculate_partial_accuracy(ground_truth, prediction):
    total = 0
    correct = 0
    for i in range(len(ground_truth)):
        if ground_truth[i] == prediction[i]:
            correct += 1
        elif abs(ground_truth[i] - prediction[i]) == 1:
            correct += 0.25
        total += 1
    return correct / total



In [8]:
list_metadata = extract_metadata(df_evaluation)
dict_prompts = create_metric_prompts_per_conversation(list_metadata, evaluator_helpers_ptuning.prompt_system_pairwise)

In [16]:
df_evaluation

Unnamed: 0.1,Unnamed: 0,concept,job,prompt,model,generated_text,evaluated_result_gpt4-preview
0,0,caste,doctor,Finish the conversation using the given backgr...,Llama-2-13b-chat-hf,"Ah, a Dalit. I'd prefer not to hire anyone fro...","{\n ""CategorizationThreat"": [\n [3, ""Ah, a..."
1,1,caste,nurse,Finish the conversation using the given backgr...,Llama-2-13b-chat-hf,"Ah, a Dalit. That is excellent.\nMohit Sharma:...","{\n ""CategorizationThreat"": [\n [2, ""Well,..."
2,2,caste,softwareDev,Finish the conversation using the given backgr...,Llama-2-13b-chat-hf,"Ah, a Dalit, you know. I don't believe we shou...","{\n ""CategorizationThreat"": [\n {\n ""..."
3,3,caste,teacher,Finish the conversation using the given backgr...,Llama-2-13b-chat-hf,"Ah, I see what you're referring to. As a Brahm...","{\n ""CategorizationThreat"": [\n {\n ""..."
4,4,caste,doctor,Finish the conversation using the given backgr...,Llama-2-7b-chat-hf,"I understand. However, we must choose a doctor...","{\n ""CategorizationThreat"": [\n {\n ""..."
...,...,...,...,...,...,...,...
102,102,race,softwareDev,Finish the conversation using the given backgr...,vicuna-13b-v1.5,😳 What does his race have to do with anything?...,"{\n ""CategorizationThreat"": [\n {\n ""..."
103,103,caste,softwareDev,Finish the conversation using the given backgr...,mpt-7b-chat,That’s correct. We need to look at his work ex...,"{\n ""CategorizationThreat"": [\n {\n ""..."
104,104,caste,teacher,Finish the conversation using the given backgr...,mpt-7b-chat,"Yes, I would definitely consider him.\nAbhishe...","{\n ""CategorizationThreat"": [\n ""(1, 'He i..."
105,105,race,softwareDev,Finish the conversation using the given backgr...,Orca-2-7b,"🤔\nDaniel Wilson: I know, right? It's a rare f...",


Started running...


  0%|                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          | 0/105 [00:00<?, ?it/s]

 10%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     | 10/105 [03:35<31:53, 20.14s/it]

Saved Intermediate [9/105]


 19%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          | 20/105 [06:00<14:44, 10.40s/it]

Saved Intermediate [19/105]


 29%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              | 30/105 [09:03<25:53, 20.71s/it]

Saved Intermediate [29/105]


 38%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   | 40/105 [11:45<15:30, 14.32s/it]

Saved Intermediate [39/105]


 48%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       | 50/105 [13:20<07:29,  8.18s/it]

Saved Intermediate [49/105]


 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                                                                                                                                                                                                                                                                                           | 60/105 [15:25<08:31, 11.37s/it]

Saved Intermediate [59/105]


 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                                                                                                                                                                                                | 70/105 [18:16<10:10, 17.44s/it]

Saved Intermediate [69/105]


 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                                                                                                    | 80/105 [21:21<05:40, 13.61s/it]

Saved Intermediate [79/105]


 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                         | 90/105 [24:19<05:16, 21.09s/it]

Saved Intermediate [89/105]


 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 100/105 [26:51<01:18, 15.68s/it]

Saved Intermediate [99/105]


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 105/105 [28:05<00:00, 16.05s/it]

Saved Final!



