# Évaluation du modèle avec le score BLEU

Nous avons donc testé 4 configurations différentes pour notre modèle :
- Modèle 1 : Tokenisation et corpus du domaine
- Modèle 2 : Tokenisation et corpus partiellement hors-domaine
- Modèle 3 : Lemmatisation et corpus du domaine
- Modèle 4 : Lemmatisation et corpus partiellement hors-domaine

Nous allons maintenant utiliser le score BLEU pour évaluer nos différents modèles et déterminer lequel est le plus performant.

In [None]:
"""
Ce script calcule le score BLEU d'une traduction par rapport à une référence en utilisant la bibliothèque sacrebleu.

# Utilisation

Ce script prend deux arguments en ligne de commande :
1. Le chemin vers le fichier de référence (path_ref).
2. Le chemin vers le fichier de traduction généré par OPENNMT (path_trad).

Le script lit les deux fichiers, calcule le score BLEU entre la traduction et la référence, puis affiche ce score.

# Exemple

Pour exécuter ce script à partir de la ligne de commande :

    python script.py chemin_vers_fichier_ref chemin_vers_fichier_trad

# Arguments

- path_ref : str
    Chemin vers le fichier de référence. Ce fichier doit contenir le texte de référence, avec chaque phrase sur une ligne séparée.
- path_trad : str
    Chemin vers le fichier de traduction. Ce fichier doit contenir le texte traduit par OPENNMT, avec chaque phrase sur une ligne séparée.

# Bibliothèques nécessaires

- sys : Pour lire les arguments en ligne de commande.
- sacrebleu : Pour calculer le score BLEU.

# Sortie

Le script affiche le score BLEU calculé pour la traduction par rapport à la référence.
"""
#__________MODULES

import sys
import sacrebleu

#__________MAIN

path_ref = sys.argv[1]  # Chemin vers le fichier de référence
path_trad = sys.argv[2]  # Chemin vers le fichier issu de la traduction OPENNMT

# Lire les fichiers
with open(path_ref, 'r', encoding='utf-8') as ref:
    references = [ref.read().strip().split('\n')]

with open(path_trad, 'r', encoding='utf-8') as trad:
    traduction = trad.read().strip().split('\n')

# Calculer le score BLEU
bleu = sacrebleu.corpus_bleu(traduction, references, force=True)
print(bleu.score)


## Modèle 1 : Tokenisation et corpus du domaine

In [9]:
print("Le score BLEU pour le modèle 1 : Tokenisation et corpus du domaine est de :")
!python3 bleu.py ../data/clean/europarl/Europarl_test_500.tok.true.clean.fr ../data/outputs/Europarl_pred_500_run1.tok.true.clean.fr

Le score BLEU pour le modèle 1 : Tokenisation et corpus du domaine est de :
10.839912170150125


## Modèle 2 : Tokenisation et corpus partiellement hors-domaine

In [6]:
print("Le score BLEU pour le modèle 2 EUROPARL : Tokenisation et corpus partiellement hors-domaine est de :")
!python3 bleu.py ../data/clean/europarl/Europarl_test_500.tok.true.clean.fr ../data/outputs/Europarl_pred_500_run2.tok.true.clean.fr

Le score BLEU pour le modèle 2 EUROPARL : Tokenisation et corpus partiellement hors-domaine est de :
6.91370962781569


In [8]:
print("Le score BLEU pour le modèle 2 EMEA : Tokenisation et corpus partiellement hors-domaine est de :")
!python3 bleu.py ../data/clean/emea/Emea_test_50.tok.true.clean.fr ../data/outputs/Emea_pred_50_run2.tok.true.clean.fr

Le score BLEU pour le modèle 2 EMEA : Tokenisation et corpus partiellement hors-domaine est de :
3.5149778745449924


## Modèle 3 : Lemmatisation et corpus du domaine

In [10]:
print("Le score BLEU pour le modèle 3 : Lemmatisation et corpus du domaine est de :")
!python3 bleu.py ../data/clean/europarl/Europarl_test_500.lem.true.clean.fr ../data/outputs/Europarl_pred_500_run3.lem.true.clean.fr

Le score BLEU pour le modèle 3 : Lemmatisation et corpus du domaine est de :
3.9518926146627753


## Modèle 4 : Lemmatisation et corpus partiellement hors-domaine

In [1]:
print("Le score BLEU pour le modèle 4 : Lemmatisation et corpus partiellement hors-domaine est de :")
!python3 bleu.py ../data/clean/europarl/Europarl_test_500.lem.true.clean.fr ../data/outputs/Europarl_pred_500_run4.lem.true.clean.fr

Le score BLEU pour le modèle 4 : Lemmatisation et corpus partiellement hors-domaine est de :
2.618889161951621


In [3]:
print("Le score BLEU pour le modèle 4 EMEA : Lemmatisation et corpus partiellement hors-domaine est de :")
!python3 bleu.py ../data/clean/emea/Emea_test_50.lem.true.clean.fr ../data/outputs/Emea_pred_50_run4.lem.true.clean.fr

Le score BLEU pour le modèle 4 EMEA : Lemmatisation et corpus partiellement hors-domaine est de :
0.3981545434210293
