En este script evaluamos el rendimiento de los modelos QA.

In [None]:
!pip install pandas bert_score rouge-score



Evaluación de BERT:

In [None]:
import pandas as pd
from bert_score import score
from rouge_score import rouge_scorer

# Cargar datos
df = pd.read_csv("bert_qa_eval.csv").fillna("")

# Filtrar filas sin respuesta correcta
df_filtered = df[df["tweet_text"].str.strip() != ""].copy()

# Preparar listas para evaluación
preds = df_filtered["answer"].tolist()      # Respuestas generadas por el modelo
refs = df_filtered["tweet_text"].tolist()   # Respuestas correctas de referencia

# Calcular BERTScore
P, R, F1 = score(preds, refs, lang="es", verbose=True)

# Guardamos las métricas BERTScore en nuevas columnas del DataFrame filtrado
df_filtered["bert_precision"] = P.tolist()
df_filtered["bert_recall"] = R.tolist()
df_filtered["bert_f1"] = F1.tolist()

# Calcular ROUGE-L
scorer = rouge_scorer.RougeScorer(['rougeL'], use_stemmer=True)

# Calculamos ROUGE-L F1 para cada par referencia-predicción
rouge_l = [scorer.score(ref, pred)['rougeL'].fmeasure for ref, pred in zip(refs, preds)]

# Guardamos la métrica ROUGE-L en una nueva columna
df_filtered["rouge_l_f1"] = rouge_l

# Imprimir métricas promedio
print("\n--- MÉTRICAS PROMEDIO ---")
print(f"BERTScore Precision : {P.mean().item():.4f}")
print(f"BERTScore Recall    : {R.mean().item():.4f}")
print(f"BERTScore F1        : {F1.mean().item():.4f}")
print(f"ROUGE-L F1          : {sum(rouge_l)/len(rouge_l):.4f}")

# Información sobre filtrado
print(f"\nFilas originales: {len(df)}")
print(f"Filas usadas para evaluación (sin referencias vacías): {len(df_filtered)}")

# Guardar resultados
df_filtered.to_csv("evaluacion_qa_bert.csv", index=False)

calculating scores...
computing bert embedding.


  0%|          | 0/6 [00:00<?, ?it/s]

computing greedy matching.


  0%|          | 0/4 [00:00<?, ?it/s]

done in 47.45 seconds, 4.28 sentences/sec

--- MÉTRICAS PROMEDIO ---
BERTScore Precision : 0.7344
BERTScore Recall    : 0.7001
BERTScore F1        : 0.7156
ROUGE-L F1          : 0.2336

Filas originales: 207
Filas usadas para evaluación (sin referencias vacías): 203


Evaluación de DistilBERT:

In [None]:
import pandas as pd
from bert_score import score
from rouge_score import rouge_scorer

# Cargar datos
df = pd.read_csv("distilled_bert_qa_eval.csv").fillna("")

# Filtrar filas sin respuesta correcta
df_filtered = df[df["tweet_text"].str.strip() != ""].copy()

# Preparar listas para evaluación
preds = df_filtered["answer"].tolist()      # Respuestas generadas por el modelo
refs = df_filtered["tweet_text"].tolist()   # Respuestas correctas de referencia

# Calcular BERTScore
P, R, F1 = score(preds, refs, lang="es", verbose=True)

# Guardamos las métricas BERTScore en nuevas columnas del DataFrame filtrado
df_filtered["bert_precision"] = P.tolist()
df_filtered["bert_recall"] = R.tolist()
df_filtered["bert_f1"] = F1.tolist()

# Calcular ROUGE-L
scorer = rouge_scorer.RougeScorer(['rougeL'], use_stemmer=True)

# Calculamos ROUGE-L F1 para cada par referencia-predicción
rouge_l = [scorer.score(ref, pred)['rougeL'].fmeasure for ref, pred in zip(refs, preds)]

# Guardamos la métrica ROUGE-L en una nueva columna
df_filtered["rouge_l_f1"] = rouge_l

# Imprimir métricas promedio
print("\n--- MÉTRICAS PROMEDIO ---")
print(f"BERTScore Precision : {P.mean().item():.4f}")
print(f"BERTScore Recall    : {R.mean().item():.4f}")
print(f"BERTScore F1        : {F1.mean().item():.4f}")
print(f"ROUGE-L F1          : {sum(rouge_l)/len(rouge_l):.4f}")

# Información sobre filtrado
print(f"\nFilas originales: {len(df)}")
print(f"Filas usadas para evaluación (sin referencias vacías): {len(df_filtered)}")

# Guardar resultados
df_filtered.to_csv("evaluacion_qa_distilled_bert.csv", index=False)

calculating scores...
computing bert embedding.


  0%|          | 0/6 [00:00<?, ?it/s]

computing greedy matching.


  0%|          | 0/4 [00:00<?, ?it/s]

done in 37.44 seconds, 5.42 sentences/sec

--- MÉTRICAS PROMEDIO ---
BERTScore Precision : 0.7173
BERTScore Recall    : 0.6842
BERTScore F1        : 0.6991
ROUGE-L F1          : 0.2019

Filas originales: 207
Filas usadas para evaluación (sin referencias vacías): 203


Evaluación de DeBERTa:

In [None]:
import pandas as pd
from bert_score import score
from rouge_score import rouge_scorer

# Cargar datos
df = pd.read_csv("mdeberta_qa_eval.csv").fillna("")

# Filtrar filas sin respuesta correcta
df_filtered = df[df["tweet_text"].str.strip() != ""].copy()

# Preparar listas para evaluación
preds = df_filtered["answer"].tolist()      # Respuestas generadas por el modelo
refs = df_filtered["tweet_text"].tolist()   # Respuestas correctas de referencia

# Calcular BERTScore
P, R, F1 = score(preds, refs, lang="es", verbose=True)

# Guardamos las métricas BERTScore en nuevas columnas del DataFrame filtrado
df_filtered["bert_precision"] = P.tolist()
df_filtered["bert_recall"] = R.tolist()
df_filtered["bert_f1"] = F1.tolist()

# Calcular ROUGE-L
scorer = rouge_scorer.RougeScorer(['rougeL'], use_stemmer=True)

# Calculamos ROUGE-L F1 para cada par referencia-predicción
rouge_l = [scorer.score(ref, pred)['rougeL'].fmeasure for ref, pred in zip(refs, preds)]

# Guardamos la métrica ROUGE-L en una nueva columna
df_filtered["rouge_l_f1"] = rouge_l

# Imprimir métricas promedio
print("\n--- MÉTRICAS PROMEDIO ---")
print(f"BERTScore Precision : {P.mean().item():.4f}")
print(f"BERTScore Recall    : {R.mean().item():.4f}")
print(f"BERTScore F1        : {F1.mean().item():.4f}")
print(f"ROUGE-L F1          : {sum(rouge_l)/len(rouge_l):.4f}")

# Información sobre filtrado
print(f"\nFilas originales: {len(df)}")
print(f"Filas usadas para evaluación (sin referencias vacías): {len(df_filtered)}")

# Guardar resultados
df_filtered.to_csv("evaluacion_qa_mdeberta.csv", index=False)

calculating scores...
computing bert embedding.


  0%|          | 0/7 [00:00<?, ?it/s]

computing greedy matching.


  0%|          | 0/4 [00:00<?, ?it/s]

done in 32.21 seconds, 6.30 sentences/sec

--- MÉTRICAS PROMEDIO ---
BERTScore Precision : 0.7363
BERTScore Recall    : 0.7046
BERTScore F1        : 0.7186
ROUGE-L F1          : 0.2712

Filas originales: 207
Filas usadas para evaluación (sin referencias vacías): 203


Evaluación del modelo por similitud:

In [None]:
import pandas as pd
from bert_score import score
from rouge_score import rouge_scorer

# Cargar datos
df = pd.read_csv("qa_similitud_eval.csv").fillna("")

# Filtrar filas sin respuesta correcta
df_filtered = df[df["tweet_text"].str.strip() != ""].copy()

# Preparar listas para evaluación
preds = df_filtered["answer_text"].tolist()      # Respuestas generadas por el modelo
refs = df_filtered["tweet_text"].tolist()   # Respuestas correctas de referencia

# Calcular BERTScore
P, R, F1 = score(preds, refs, lang="es", verbose=True)

# Guardamos las métricas BERTScore en nuevas columnas del DataFrame filtrado
df_filtered["bert_precision"] = P.tolist()
df_filtered["bert_recall"] = R.tolist()
df_filtered["bert_f1"] = F1.tolist()

# Calcular ROUGE-L
scorer = rouge_scorer.RougeScorer(['rougeL'], use_stemmer=True)

# Calculamos ROUGE-L F1 para cada par referencia-predicción
rouge_l = [scorer.score(ref, pred)['rougeL'].fmeasure for ref, pred in zip(refs, preds)]

# Guardamos la métrica ROUGE-L en una nueva columna
df_filtered["rouge_l_f1"] = rouge_l

# Imprimir métricas promedio
print("\n--- MÉTRICAS PROMEDIO ---")
print(f"BERTScore Precision : {P.mean().item():.4f}")
print(f"BERTScore Recall    : {R.mean().item():.4f}")
print(f"BERTScore F1        : {F1.mean().item():.4f}")
print(f"ROUGE-L F1          : {sum(rouge_l)/len(rouge_l):.4f}")

# Información sobre filtrado
print(f"\nFilas originales: {len(df)}")
print(f"Filas usadas para evaluación (sin referencias vacías): {len(df_filtered)}")

# Guardar resultados
df_filtered.to_csv("evaluacion_qa_similitud.csv", index=False)

calculating scores...
computing bert embedding.


  0%|          | 0/7 [00:00<?, ?it/s]

computing greedy matching.


  0%|          | 0/4 [00:00<?, ?it/s]

done in 144.67 seconds, 1.43 sentences/sec

--- MÉTRICAS PROMEDIO ---
BERTScore Precision : 0.5967
BERTScore Recall    : 0.6767
BERTScore F1        : 0.6326
ROUGE-L F1          : 0.0794

Filas originales: 211
Filas usadas para evaluación (sin referencias vacías): 207
