In [1]:
from transformers import AutoModel, logging
from bert_score import score

# Silenciar warnings de transformers
logging.set_verbosity_error()

# Cargar modelo en español
model_name = "dccuchile/bert-base-spanish-wwm-uncased"
model = AutoModel.from_pretrained(model_name)

# Función para calcular BERTScore
#    P: Precisión - qué tan bien las palabras en la oración candidata son cubiertas por la referencia
#    R: Recall - qué tan bien las palabras en la oración de referencia son cubiertas por la candidata
#    F1: Media armónica de P y R
def compute_bertscore(candidatos, referencias):
    P, R, F1 = score(candidatos, referencias, model_type=model_name, num_layers=12, lang="es")
    return P, R, F1

# Ejemplo de uso
candidatos = [
    "El perro duerme en la cocina.",
    "Bolsa",
    "Optometra"
]
referencias = [
    "Un gato está durmiendo en el sillón.",
    "Chuspa",
    "Optometrista"
]   

P, R, F1 = compute_bertscore(candidatos, referencias)
print(f"Precision: {P}\nRecall: {R}\nF1 Score: {F1}")


Precision: tensor([0.6190, 0.3140, 0.8333])
Recall: tensor([0.6118, 0.2927, 0.8333])
F1 Score: tensor([0.6154, 0.3029, 0.8333])
