In [4]:
import pandas as pd
import numpy as np

# Cargar los archivos CSV
df_prompt_2 = pd.read_csv('Human_Metrics/sonar_prompt_2.csv', delimiter=';')
df_prompt_3 = pd.read_csv('Human_Metrics/sonar_prompt_3.csv', delimiter=';')

# Ver las primeras filas y columnas
print("Prompt 2 - Columnas:", df_prompt_2.columns.tolist())
print("Prompt 2 - Shape:", df_prompt_2.shape)
print("\nPrompt 3 - Columnas:", df_prompt_3.columns.tolist())
print("Prompt 3 - Shape:", df_prompt_3.shape)

Prompt 2 - Columnas: ['Modismo', 'Definición Sonar', 'Definiciones Reales', 'Acorde', 'Unnamed: 4', 'Unnamed: 5']
Prompt 2 - Shape: (2290, 6)

Prompt 3 - Columnas: ['Ejemplo', 'Modismo', 'Definición Real', 'Sinónimo', 'Definición Sinónimo', 'Acorde', 'Def. real', ' ', 'Unnamed: 8', 'Unnamed: 9']
Prompt 3 - Shape: (1715, 10)


In [5]:
# Cruzar por Modismo - mantener solo los que están en ambos archivos
df_merged = pd.merge(
    df_prompt_2[['Modismo', 'Acorde']], 
    df_prompt_3[['Modismo', 'Acorde']], 
    on='Modismo', 
    how='inner',
    suffixes=('_prompt_2', '_prompt_3')
)

print(f"Total de modismos en común: {len(df_merged)}")
print("\nPrimeras filas del dataframe cruzado:")
print(df_merged.head(10))

Total de modismos en común: 704

Primeras filas del dataframe cruzado:
                       Modismo  Acorde_prompt_2  Acorde_prompt_3
0                      chácara                1                1
1                     atrincar                1                0
2                       chumbe                1                1
3  no saber o entender ni papa                1                1
4                    cachilapo                0                0
5                    balneario                1                0
6                      arepear                1                0
7                      chicuca                1                1
8                      nochero                1                1
9                     viaticar                1                1


In [6]:
# Filtrar solo los que tienen 1 en prompt_3
df_filtered = df_merged[df_merged['Acorde_prompt_3'] == 1].copy()

print(f"Total de modismos con Acorde=1 en Prompt 3: {len(df_filtered)}")
print("\nPrimeras filas filtradas:")
print(df_filtered.head(10))

Total de modismos con Acorde=1 en Prompt 3: 563

Primeras filas filtradas:
                        Modismo  Acorde_prompt_2  Acorde_prompt_3
0                       chácara                1                1
2                        chumbe                1                1
3   no saber o entender ni papa                1                1
7                       chicuca                1                1
8                       nochero                1                1
9                      viaticar                1                1
12                        chile                0                1
13                       guacal                0                1
15                    mastranto                1                1
16                   fifirichas                0                1


In [7]:
# Crear nueva columna donde prompt_3 es 1 Y prompt_2 también es 1
df_filtered['Ambos_Acorde'] = ((df_filtered['Acorde_prompt_3'] == 1) & 
                                 (df_filtered['Acorde_prompt_2'] == 1)).astype(int)

print("Distribución de la nueva columna 'Ambos_Acorde':")
print(df_filtered['Ambos_Acorde'].value_counts())
print(f"\nTotal casos donde Prompt 3 = 1 Y Prompt 2 = 1: {df_filtered['Ambos_Acorde'].sum()}")
print(f"Total casos donde Prompt 3 = 1 pero Prompt 2 = 0: {(df_filtered['Ambos_Acorde'] == 0).sum()}")

Distribución de la nueva columna 'Ambos_Acorde':
Ambos_Acorde
1    386
0    177
Name: count, dtype: int64

Total casos donde Prompt 3 = 1 Y Prompt 2 = 1: 386
Total casos donde Prompt 3 = 1 pero Prompt 2 = 0: 177


In [8]:
# Calcular el accuracy de la nueva columna
# Accuracy = casos donde ambos son 1 / total de casos con prompt_3 = 1
total_casos = len(df_filtered)
casos_ambos_acorde = df_filtered['Ambos_Acorde'].sum()
accuracy = (casos_ambos_acorde / total_casos) * 100

print("="*60)
print("RESULTADOS FINALES")
print("="*60)
print(f"Total de modismos evaluados: {total_casos}")
print(f"Casos donde ambos prompts están acordes (ambos = 1): {casos_ambos_acorde}")
print(f"Casos donde solo Prompt 3 = 1 pero Prompt 2 = 0: {total_casos - casos_ambos_acorde}")
print(f"\nAccuracy (concordancia): {accuracy:.2f}%")
print("="*60)

RESULTADOS FINALES
Total de modismos evaluados: 563
Casos donde ambos prompts están acordes (ambos = 1): 386
Casos donde solo Prompt 3 = 1 pero Prompt 2 = 0: 177

Accuracy (concordancia): 68.56%
