# LLM-as-judge with GPT4

Loading judge

In [1]:
from openai import OpenAI
from judge import make_message
import time

model = "gpt-4o"

with open('OpenAI_key', 'r') as file:
    openAI_key = file.readline().strip()

client = OpenAI(api_key = openAI_key)

## Processing fine-tuned model output

In [2]:
import pandas as pd

df = pd.read_csv("../../data/processed/20231220_metrics_CAUSAL.csv")
get_gen = lambda text: text.split('\n')[2].replace('    <assistant>: ','')
df['output'] = df['generation'].apply(get_gen)

df.head(2)

Unnamed: 0,input,target,sesgo_pronombre,sesgo_otro,seq2seq_document,causal_document,generation,reference_tokens,max_ref_len,generated_tokens,input_tokens,bleu_gen,bleu_input,bleu_dif,rouge,output
0,Estimada comunidad beauchefiana: ¿Tienes papel...,['Estimada comunidad beauchefiana: ¿Tienes pap...,NO,NO,Eliminar sesgo de género del siguiente texto:\...,<human>: ¿Puedes reescribir el siguiente texto...,<human>: ¿Puedes reescribir el siguiente texto...,"[['Estimada', 'comunidad', 'beauchefiana', ':'...",11,"['Estimada', 'comunidad', 'beauchefiana', ':',...","['Estimada', 'comunidad', 'beauchefiana', ':',...",1.0,1.0,0.0,1.0,Estimada comunidad beauchefiana: ¿Tienes papel...
1,Desde hoy y hasta el 19 de diciembre puedes de...,['Desde hoy y hasta el 19 de diciembre puedes ...,,,Eliminar sesgo de género del siguiente texto:\...,<human>: ¿Puedes reescribir el siguiente texto...,<human>: ¿Puedes reescribir el siguiente texto...,"[['Desde', 'hoy', 'y', 'hasta', 'el', '19', 'd...",17,"['Desde', 'hoy', 'y', 'hasta', 'el', '19', 'de...","['Desde', 'hoy', 'y', 'hasta', 'el', '19', 'de...",1.0,1.0,0.0,1.0,Desde hoy y hasta el 19 de diciembre puedes de...


In [3]:
# Create 'result' column based on comparison after stripping whitespace
df['bias_answer'] = df.apply(lambda row: "UNBIASED" if row['input'].strip() == row['output'].strip() else "BIASED", axis=1)

In [4]:
import numpy as np

# Define conditions
conditions = [
    (df['sesgo_pronombre'] == 'SI') | (df['sesgo_otro'] == 'SI'),
    (df['sesgo_pronombre'] == 'NO') & (df['sesgo_otro'] == 'NO'),
    df['sesgo_pronombre'].isna() & df['sesgo_otro'].isna()
]

# Assign values based on conditions
choices = ['YES', 'NO', 'Unable to bias']
df['Has bias'] = np.select(conditions, choices, default=None)

df['Has bias'].value_counts()

Has bias
Unable to bias    453
NO                271
YES                58
Name: count, dtype: int64

In [5]:
# Frequency matrix
freq_matrix = pd.crosstab(df['Has bias'], df['bias_answer'])

# Percentage matrix
percentage_matrix = freq_matrix.div(freq_matrix.sum(axis=1), axis=0) * 100

# Display results
print("Frequency Matrix:\n", freq_matrix)
print("\nPercentage Matrix:\n", percentage_matrix)

Frequency Matrix:
 bias_answer     BIASED  UNBIASED
Has bias                        
NO                  50       221
Unable to bias      19       434
YES                 37        21

Percentage Matrix:
 bias_answer        BIASED   UNBIASED
Has bias                            
NO              18.450185  81.549815
Unable to bias   4.194260  95.805740
YES             63.793103  36.206897


Judge

In [6]:
df_judge = df[(df['bias_answer']=='BIASED') & (df['Has bias']=='YES')].copy()
len(df_judge)

37

In [7]:
# Initialize the "Judge" column with NaN values
df_judge['judge_answer'] = None
df_judge['judge_model'] = None
df_judge['judge_prompt'] = None

# Iterate over rows to populate the "Judge" column
for index, row in df_judge.iterrows():
    prompt = make_message(row['input'], row['output'])
    chat_response = client.chat.completions.create(
        model = model,
        messages= prompt
    )
    judge_eval = chat_response.choices[0].message.content
    df_judge.at[index, 'judge_answer'] = judge_eval
    df_judge.at[index, 'judge_model'] = model
    df_judge.at[index, 'judge_prompt'] = prompt

    time.sleep(0.2)  # we will never exceed the rate this way

In [9]:
df_judge["bias_judge"] = df_judge["judge_answer"].str.extract(r'Resultado de sesgo: (\(\w+\))')
df_judge["bias_judge"].value_counts()

bias_judge
(Y)    20
(X)    17
Name: count, dtype: int64

In [10]:
df_judge.to_csv('judge_test/20250208_gpt4-o-judge_ft-causal-model.csv', index=False)

In [13]:
for _, answer in df_judge[df_judge['bias_judge'] == "(X)"].iterrows():
    print('input: ',answer['input'])
    print('output: ',answer['output'])
    print(answer['judge_answer'],'\n')

input:  En el caso de los estudiantes del plan de estudios 2019 consideramos a quienes tienen inscrito el último Taller de práctica profesional y para estudiantes del plan antiguo revisamos quienes cumplirían con los requisitos para tomar el curso práctica profesional en otoño 2024.
output:  En el caso de estudiantes del plan de estudios 2019 consideramos a quienes tienen inscrito el último Taller de práctica profesional y para estudiantes del plan antiguo revisamos quienes cumplirían con los requisitos para tomar el curso práctica profesional en otoño 2024.
---
Resultado de sesgo: (X)
Justificación::: El texto de salida no corrigió el sesgo en la frase "los estudiantes". Aunque se eliminó el artículo "los", no se proporciona una indicación explícita de inclusión de género en la corrección. Además, podrían haberse utilizado términos más inclusivos como "el estudiantado" o "las y los estudiantes" para evitar el sesgo.
--- 

input:  Completa el formulario y adjunta la documentación de re

In [14]:
df_errors = df[(df['bias_answer']=='BIASED') & (df['Has bias']=='NO')].copy()
len(df_errors)

50

In [15]:
# Initialize the "Judge" column with NaN values
df_errors['judge_answer'] = None
df_errors['judge_model'] = None
df_errors['judge_prompt'] = None

# Iterate over rows to populate the "Judge" column
for index, row in df_errors.iterrows():
    prompt = make_message(row['input'], row['output'])
    chat_response = client.chat.completions.create(
        model = model,
        messages= prompt
    )
    judge_eval = chat_response.choices[0].message.content
    df_errors.at[index, 'judge_answer'] = judge_eval
    df_errors.at[index, 'judge_model'] = model
    df_errors.at[index, 'judge_prompt'] = prompt

    time.sleep(0.2)  # we will never exceed the rate this way

In [16]:
df_errors["bias_answer"] = df_errors["judge_answer"].str.extract(r'Resultado de sesgo: (\(\w+\))')
df_errors["bias_answer"].value_counts()

bias_answer
(X)    34
(Y)    16
Name: count, dtype: int64

In [17]:
for _, answer in df_errors[df_errors['bias_answer'] == "(Y)"].sample(10).iterrows():
    print('input: ',answer['input'])
    print('output: ',answer['output'])
    print(answer['judge_answer'],'\n')

input:  Estimada comunidad beauchefiana: Les invitamos a la Feria de Ideas de las/os estudiantes del Programa iGea 2023, quienes han trabajado en proyectos de diseño para su misión  Desafíos de las ciudades sustentables en un clima cambiante .
output:  Estimada comunidad beauchefiana: Les invitamos a la Feria de Ideas de las/os estudiantes del Programa iGea 2023, quienes han trabajado en proyectos de diseño para su misión  Desafíos de las ciudades sustentables en un clima cambiante.
---
Resultado de sesgo: (Y)
Justificación::: El texto original ya es inclusivo, utilizando "les/os estudiantes" y "les invitamos" para evitar el uso específico de un género. No se identifica sesgo en el texto que necesite corrección, y el system_output mantiene este lenguaje inclusivo.
--- 

input:  En el semestre primavera 2023 por medio del curso iGea Diseño, las/os estudiantes lograron llegar a la fase inicial de diseño de sus proyectos asociados a temáticas específicas de  Regeneración Urbana, Bienestar

## Processing LLM output

In [18]:
df = pd.read_csv("../agent/predictions.csv")
df = df.rename(columns={"biases": "biases_detected"})

df_causal = pd.read_csv("../../data/processed/20231220_metrics_CAUSAL.csv")
df = pd.merge(df, df_causal[['input','sesgo_pronombre','sesgo_otro','target']], on='input', how='inner')
print(len(df))

df.head(2)

782


Unnamed: 0,input,biases_detected,scores,debias_reasoning,output,index,sesgo_pronombre,sesgo_otro,target
0,Estimada comunidad beauchefiana: ¿Tienes papel...,UNBIASED,1.0,,UNBIASED,0,NO,NO,['Estimada comunidad beauchefiana: ¿Tienes pap...
1,Desde hoy y hasta el 19 de diciembre puedes de...,GENERIC_PRONOUNS,0.8,The original text used the masculine generic p...,Desde hoy y hasta el 19 de diciembre puedes de...,1,,,['Desde hoy y hasta el 19 de diciembre puedes ...


In [19]:
df['biases'] = df['biases_detected'].fillna('UNBIASED')
df['output'] = df['output'].fillna('UNBIASED')

In [20]:
df["bias_answer"] = df["biases_detected"].apply(lambda x: "UNBIASED" if x == "UNBIASED" else "BIASED")

In [21]:
# Define conditions
conditions = [
    (df['sesgo_pronombre'] == 'SI') | (df['sesgo_otro'] == 'SI'),
    (df['sesgo_pronombre'] == 'NO') & (df['sesgo_otro'] == 'NO'),
    df['sesgo_pronombre'].isna() & df['sesgo_otro'].isna()
]

# Assign values based on conditions
choices = ['YES', 'NO', 'Unable to bias']
df['Has bias'] = np.select(conditions, choices, default=None)

df['Has bias'].value_counts()

Has bias
Unable to bias    453
NO                271
YES                58
Name: count, dtype: int64

In [22]:
# Frequency matrix
freq_matrix = pd.crosstab(df['Has bias'], df['bias_answer'])

# Percentage matrix
percentage_matrix = freq_matrix.div(freq_matrix.sum(axis=1), axis=0) * 100

# Display results
print("Frequency Matrix:\n", freq_matrix)
print("\nPercentage Matrix:\n", percentage_matrix)

Frequency Matrix:
 bias_answer     BIASED  UNBIASED
Has bias                        
NO                 208        63
Unable to bias     136       317
YES                 47        11

Percentage Matrix:
 bias_answer        BIASED   UNBIASED
Has bias                            
NO              76.752768  23.247232
Unable to bias  30.022075  69.977925
YES             81.034483  18.965517


In [19]:
df_judge = df[(df['bias_answer']=='BIASED') & (df['Has bias']=='YES')].copy()
len(df_judge)

47

In [20]:
# Initialize the "Judge" column with NaN values
df_judge['judge_answer'] = None
df_judge['judge_model'] = None
df_judge['judge_prompt'] = None

# Iterate over rows to populate the "Judge" column
for index, row in df_judge.iterrows():
    prompt = make_message(row['input'], row['output'])
    chat_response = client.chat.completions.create(
        model = model,
        messages= prompt
    )
    judge_eval = chat_response.choices[0].message.content
    df_judge.at[index, 'judge_answer'] = judge_eval
    df_judge.at[index, 'judge_model'] = model
    df_judge.at[index, 'judge_prompt'] = prompt

    time.sleep(0.2)  # we will never exceed the rate this way

In [21]:
df_judge["bias_answer"] = df_judge["judge_answer"].str.extract(r'Resultado de sesgo: (\(\w+\))')
df_judge["bias_answer"].value_counts()

bias_answer
(Y)    28
(X)    19
Name: count, dtype: int64

In [22]:
df_judge.to_csv('judge_test/20250208_gpt4-o-judge_agent.csv', index=False)

In [25]:
for _, answer in df_judge[df_judge['bias_answer'] == "(X)"].iterrows():
    print('input: ',answer['input'])
    print('output: ',answer['output'])
    print(answer['judge_answer'],'\n')

input:  Sobre los beneficios:  Todos/as los/as estudiantes que durante el semestre primavera 2023 tienen los siguientes beneficios: Gratuidad, Beca Universidad de Chile (BUCH) y Beca Andrés Bello (BAND) se encuentran cubiertos y exentos del pago por inscribir cursos en el Semestre de Verano 2023-2024.
output:  Sobre los beneficios: El estudiantado que durante el semestre primavera 2023 tiene los siguientes beneficios: Gratuidad, Beca Universidad de Chile (BUCH) y Beca Andrés Bello (BAND) se encuentra cubierto y exento del pago por inscribir cursos en el Semestre de Verano 2023-2024.
---
Resultado de sesgo: (X)
Justificación::: Se cambió "Todos/as los/as estudiantes" por "El estudiantado", lo cual es una correcta corrección del sesgo al utilizar un término inclusivo. Sin embargo, el uso de "cubierto y exento" mantiene la forma masculina singular, lo cual es inconsistente con un lenguaje neutral e inclusivo y perpetúa el sesgo de género.
--- 

input:  Les invitamos a acercarse a la Secre

In [23]:
df_errors = df[(df['bias_answer']=='BIASED') & (df['Has bias']=='NO')].copy()
len(df_errors)

208

In [27]:
# Initialize the "Judge" column with NaN values
df_errors['judge_answer'] = None
df_errors['judge_model'] = None
df_errors['judge_prompt'] = None

# Iterate over rows to populate the "Judge" column
for index, row in df_errors.iterrows():
    prompt = make_message(row['input'], row['output'])
    chat_response = client.chat.completions.create(
        model = model,
        messages= prompt
    )
    judge_eval = chat_response.choices[0].message.content
    df_errors.at[index, 'judge_answer'] = judge_eval
    df_errors.at[index, 'judge_model'] = model
    df_errors.at[index, 'judge_prompt'] = prompt

    time.sleep(0.2)  # we will never exceed the rate this way

In [28]:
df_errors["bias_answer"] = df_errors["judge_answer"].str.extract(r'Resultado de sesgo: (\(\w+\))')
df_errors["bias_answer"].value_counts()

bias_answer
(Y)    122
(X)     86
Name: count, dtype: int64

In [29]:
for _, answer in df_errors[df_errors['bias_answer'] == "(Y)"].sample(10).iterrows():
    print('input: ',answer['input'])
    print('output: ',answer['output'])
    print(answer['judge_answer'],'\n')

input:  Les informaremos del cuerpo académico, el plan de estudio, las vías de admisión y requisitos necesarios para su ingreso.
output:  Se informará sobre el cuerpo académico, el plan de estudio, las vías de admisión y requisitos necesarios para el ingreso.
---
Resultado de sesgo: (Y)
Justificación::: El texto de salida utiliza construcciones impersonales y no hace referencia a individuos específicos, eliminando cualquier implicación de género en los pronombres de la frase original. La corrección es gramaticalmente correcta e inclusiva.
--- 

input:  Debieran realizar la postulación en este periodo-hasta el 12 de enero- aquellos/as estudiantes que puedan inscribir Seminario de Tesis I el próximo semestre o que ya no tengan cursos pendientes de la carrera de pregrado después de este semestre (si se cumplen las dos condiciones anteriores, sería lo ideal).
output:  Debieran realizar la postulación en este periodo -hasta el 12 de enero- el estudiantado que pueda inscribir Seminario de Te