In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re

In [None]:
#Dataframe preguntas y respuestas que se esperan de los modelos
df_preguntas_respuestas = pd.read_csv("preguntas_respuestas.csv")
df_preguntas_respuestas

In [None]:
df_resultados_experimentos = pd.read_csv("resultados_experimentos_modelos_prompts.csv")
df_resultados_experimentos

In [None]:
# === Lista de etiquetas para las preguntas ===
preguntas = [
    "Pregunta 1", "Pregunta 2", "Pregunta 3", "Pregunta 4", "Pregunta 5",
    "Pregunta 6", "Pregunta 7", "Pregunta 8", "Pregunta 9", "Pregunta 10",
    "Pregunta 11", "Pregunta 12", "Pregunta 13", "Pregunta 14", "Pregunta 15"
]

# === Gráficas comparativas: todos los modelos para un mismo prompt ===
prompts = df_resultados_experimentos["Prompt"].unique()

for prompt in prompts:
    plt.figure(figsize=(20, 9))
    df_prompt = df_resultados_experimentos[df_resultados_experimentos["Prompt"] == prompt]

    for modelo in df_prompt["Modelo"].unique():
        df_modelo = df_prompt[df_prompt["Modelo"] == modelo]
        plt.plot(
            range(1, len(df_modelo) + 1),
            df_modelo["Tiempo_Respuesta"],
            marker='o',
            linestyle='-',
            label=modelo
        )

    plt.xticks(range(1, len(df_prompt["Pregunta"].unique()) + 1),
               preguntas[:len(df_prompt["Pregunta"].unique())],
               rotation=90)
    plt.xlabel("Preguntas")
    plt.ylabel("Tiempo de respuesta (s)")
    plt.title(f"Comparativa de modelos - {prompt}")
    plt.legend(loc="upper left")
    plt.grid(True, linestyle='--', alpha=0.6)
    plt.tight_layout()
    plt.show()

In [None]:
df_evaluacion = df_resultados_experimentos.copy()

#Analisemos cuantas palabras tiene cada respuesta
def normalizar_texto(texto):
    """
    Normaliza texto: minúsculas, remueve puntuación y espacios extra.
    Adaptado para español (mantiene acentos básicos).
    """
    if pd.isna(texto) or texto == "":
        return ""
    texto = str(texto).lower().strip()
    texto = re.sub(r'[^\w\sáéíóúüñÁÉÍÓÚÜÑ]', ' ', texto)  # Remueve puntuación, mantiene acentos y ñ
    texto = re.sub(r'\s+', ' ', texto)  # Normaliza espacios
    return texto

df_evaluacion["numero_palabras_respuesta"] = df_evaluacion["Respuesta"].apply(lambda x: len(normalizar_texto(x).split()))
df_evaluacion


In [None]:
# === Lista de etiquetas para las preguntas ===
df_evaluacion_one=df_evaluacion.copy()
preguntas = [
    "Pregunta 1", "Pregunta 2", "Pregunta 3", "Pregunta 4", "Pregunta 5",
    "Pregunta 6", "Pregunta 7", "Pregunta 8", "Pregunta 9", "Pregunta 10",
    "Pregunta 11", "Pregunta 12", "Pregunta 13", "Pregunta 14", "Pregunta 15"
]

# === Gráficas comparativas: todos los modelos para un mismo prompt ===
prompts = df_evaluacion_one["Prompt"].unique()

for prompt in prompts:
    plt.figure(figsize=(20, 9))
    df_prompt = df_evaluacion_one[df_evaluacion_one["Prompt"] == prompt]

    for modelo in df_prompt["Modelo"].unique():
        df_modelo = df_prompt[df_prompt["Modelo"] == modelo]
        plt.plot(
            range(1, len(df_modelo) + 1),
            df_modelo["numero_palabras_respuesta"],
            marker='o',
            linestyle='-',
            label=modelo
        )

    plt.xticks(range(1, len(df_prompt["Pregunta"].unique()) + 1),
               preguntas[:len(df_prompt["Pregunta"].unique())],
               rotation=90)
    plt.xlabel("Preguntas")
    plt.ylabel("Palabras en la respuesta")
    plt.title(f"Comparativa de modelos - {prompt}")
    plt.legend(loc="upper left")
    plt.grid(True, linestyle='--', alpha=0.6)
    plt.tight_layout()
    plt.show()

In [None]:
df_resultados_deberta=pd.read_csv("resultados_mdeberta_two.csv")
df_resultados_deberta

In [None]:
df_deberta_one=df_resultados_deberta.copy()
preguntas = [
    "Pregunta 1", "Pregunta 2", "Pregunta 3", "Pregunta 4", "Pregunta 5",
    "Pregunta 6", "Pregunta 7", "Pregunta 8", "Pregunta 9", "Pregunta 10",
    "Pregunta 11", "Pregunta 12", "Pregunta 13", "Pregunta 14", "Pregunta 15"
]

# === Gráficas comparativas: todos los modelos para un mismo prompt ===
for prompt in prompts:
    df_prompt = df_deberta_one[df_deberta_one["prompt"] == prompt]

    plt.figure(figsize=(12, 6))
    sns.barplot(data=df_prompt, x="pregunta", y="es_correcta", hue="modelo", errorbar=None)

    plt.xticks(range(0, len(df_prompt["pregunta"].unique())),
               preguntas[:len(df_prompt["pregunta"].unique())],
               rotation=90)
    plt.ylabel("Respuesta correcta (1 = Sí, 0 = No)")
    plt.title(f"Comparativa binaria de modelos - {prompt}")
    plt.grid(True, linestyle="--", alpha=0.5)
    plt.tight_layout()
    plt.show()

In [None]:
df_resultados_deberta=pd.read_csv("resultados_xlm_roberta.csv")

df_deberta_one=df_resultados_deberta.copy()
preguntas = [
    "Pregunta 1", "Pregunta 2", "Pregunta 3", "Pregunta 4", "Pregunta 5",
    "Pregunta 6", "Pregunta 7", "Pregunta 8", "Pregunta 9", "Pregunta 10",
    "Pregunta 11", "Pregunta 12", "Pregunta 13", "Pregunta 14", "Pregunta 15"
]

# === Gráficas comparativas: todos los modelos para un mismo prompt ===
for prompt in prompts:
    df_prompt = df_deberta_one[df_deberta_one["prompt"] == prompt]

    plt.figure(figsize=(12, 6))
    sns.barplot(data=df_prompt, x="pregunta", y="es_correcta", hue="modelo", errorbar=None)

    plt.xticks(range(0, len(df_prompt["pregunta"].unique())),
               preguntas[:len(df_prompt["pregunta"].unique())],
               rotation=90)
    plt.ylabel("Respuesta correcta (1 = Sí, 0 = No)")
    plt.title(f"Comparativa binaria de modelos - {prompt}")
    plt.grid(True, linestyle="--", alpha=0.5)
    plt.tight_layout()
    plt.show()

### Otros Analisis

In [None]:
for prompt in prompts:
    plt.figure(figsize=(20, 9))
    df_prompt = df_deberta_one[df_deberta_one["prompt"] == prompt]

    for modelo in df_prompt["modelo"].unique():
        df_modelo = df_prompt[df_prompt["modelo"] == modelo]
        plt.plot(
            range(1, len(df_modelo) + 1),
            df_modelo["confianza"],
            marker='o',
            linestyle='-',
            label=modelo
        )

    plt.xticks(range(0, len(df_prompt["pregunta"].unique())),
               preguntas[:len(df_prompt["pregunta"].unique())],
               rotation=90)
    plt.ylabel("Confianza")
    plt.title(f"Comparativa de modelos - {prompt}")
    plt.legend(loc="upper left")
    plt.grid(True, linestyle='--', alpha=0.6)
    plt.tight_layout()
    plt.show()

In [None]:
for prompt in prompts:
    plt.figure(figsize=(20, 9))
    df_prompt = df_deberta_one[df_deberta_one["prompt"] == prompt]

    for modelo in df_prompt["modelo"].unique():
        df_modelo = df_prompt[df_prompt["modelo"] == modelo]
        plt.plot(
            range(1, len(df_modelo) + 1),
            df_modelo["prob_entailment"],
            marker='o',
            linestyle='-',
            label=modelo
        )

    plt.xticks(range(0, len(df_prompt["pregunta"].unique())),
               preguntas[:len(df_prompt["pregunta"].unique())],
               rotation=90)
    plt.ylabel("Probabilidad entailment")
    plt.title(f"Comparativa de modelos - {prompt}")
    plt.legend(loc="upper left")
    plt.grid(True, linestyle='--', alpha=0.6)
    plt.tight_layout()
    plt.show()

In [None]:
for prompt in prompts:
    plt.figure(figsize=(20, 9))
    df_prompt = df_deberta_one[df_deberta_one["prompt"] == prompt]

    for modelo in df_prompt["modelo"].unique():
        df_modelo = df_prompt[df_prompt["modelo"] == modelo]
        plt.plot(
            range(1, len(df_modelo) + 1),
            df_modelo["prob_neutral"],
            marker='o',
            linestyle='-',
            label=modelo
        )

    plt.xticks(range(0, len(df_prompt["pregunta"].unique())),
               preguntas[:len(df_prompt["pregunta"].unique())],
               rotation=90)
    plt.ylabel("Probabilidad neutral")
    plt.title(f"Comparativa de modelos - {prompt}")
    plt.legend(loc="upper left")
    plt.grid(True, linestyle='--', alpha=0.6)
    plt.tight_layout()
    plt.show()

In [None]:
for prompt in prompts:
    plt.figure(figsize=(20, 9))
    df_prompt = df_deberta_one[df_deberta_one["prompt"] == prompt]

    for modelo in df_prompt["modelo"].unique():
        df_modelo = df_prompt[df_prompt["modelo"] == modelo]
        plt.plot(
            range(1, len(df_modelo) + 1),
            df_modelo["prob_contradiction"],
            marker='o',
            linestyle='-',
            label=modelo
        )

    plt.xticks(range(1, len(df_prompt["pregunta"].unique()) + 1),
               preguntas[:len(df_prompt["pregunta"].unique())],
               rotation=90)
    plt.ylabel("Probabilidad contradiction")
    plt.title(f"Comparativa de modelos - {prompt}")
    plt.legend(loc="upper left")
    plt.grid(True, linestyle='--', alpha=0.6)
    plt.tight_layout()
    plt.show()