modèle : https://huggingface.co/yseop/FNP_T5_D2T_complete
- générer les phrases
- se répartir le travail d'annotation / évaluation
- faire les annotations (omissions, hallucinations)
- calculer les scores BLEU avec nltk.align.bleu_score
- comparer score BLEU et score humain (coefficient de Pearson, dispo dans Google Sheets)
- bilan :
- nombre d’erreurs
- nombre de phrases «conformes»
- votre estimation sur BLEU: est-ce que ce score est utile pour évaluer la génération ?
xao.csv
fichier d'origine, yseop.py
script réalisé à partir du tuto
xao_out.csv
généré avec cette config :
outputs = model.generate(input_ids,
do_sample=True,
top_p=0.82,
top_k=90,
early_stopping=True)
xao_out2.csv
généré avec celle-ci :
outputs = model.generate(input_ids,
max_length=200,
num_beams=2, repetition_penalty=2.5,
top_k=50, top_p=0.98,
length_penalty=1.0,
early_stopping=True)
🤷♀️
Pour créer l'environnement virtuel et installer les requirements :
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
pour sortir de l'environnement virtuel :
deactivate
- Article
- BLEU score - Wikipedia