In [5]:
# %cd /home/rana/Projects/zindi
%cd /root/zindi/
import yaml
with open('common/config.yaml', 'r') as f:
    config = yaml.load(f, Loader=yaml.SafeLoader)

/root/zindi


In [6]:
checkpoint = config.get('checkpoint')
new_model_path=config.get('new_model_path')+checkpoint
ct_model_path=config.get('ct_model_path')+checkpoint

# model_checkpoint="/root/zindi/models/marian/marian_output/"+checkpoint
# model_checkpoint_ct="/root/zindi/models/marian/ct/"+checkpoint

In [13]:
import tqdm as notebook_tqdm
import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from datasets import load_dataset
from sacrebleu.metrics import BLEU
from tqdm import tqdm
import sentencepiece as spm
import ctranslate2

In [8]:
### Eval original model 

def translate(model, tokenizer, text, device):
    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=150).to(device)
    translated = model.generate(**inputs)
    return tokenizer.batch_decode(translated, skip_special_tokens=True)

def calculate_bleu(references, hypotheses):
    bleu = BLEU()
    return bleu.corpus_score(hypotheses, [references]).score

def validate_model(model_name, dataset_name, split):
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    print(f"Using device: {device}")

    # Load model and tokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForSeq2SeqLM.from_pretrained(model_name).to(device)

    # Load dataset
    dataset = load_dataset(dataset_name, split=split)

    # Translate and calculate BLEU score
    hypotheses = []
    references = []

    for batch in tqdm(dataset, desc="Translating"):
        source_text = batch['translation']['dyu']  # Adjust this based on your dataset's column names
        reference = batch['translation']['fr']  # Adjust this based on your dataset's column names
        
        translation = translate(model, tokenizer, source_text, device)[0]
        # print(reference)
        # print(translation)
        
        hypotheses.append(translation)
        references.append(reference)
        # break

    bleu_score = calculate_bleu(references, hypotheses)
    print(f"BLEU Score: {bleu_score:.2f}")

# Run validation with GPU
# validate_model(model_checkpoint, "uvci/Koumankan_mt_dyu_fr", use_gpu=True)

# Run validation without GPU
validate_model(new_model_path, "uvci/Koumankan_mt_dyu_fr", "validation")

Using device: cuda


Translating:   0%|          | 0/1471 [00:00<?, ?it/s]


ValueError: `decoder_start_token_id` or `bos_token_id` has to be defined for encoder-decoder generation.

In [14]:
### Eval ct model

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")

sp_source_model = spm.SentencePieceProcessor(model_file=ct_model_path+'/source.spm')
sp_target_model = spm.SentencePieceProcessor(model_file=ct_model_path+'/target.spm')


def translate(translator, text):
    tokens = sp_source_model.encode(text, out_type=str)
    # print(tokens)
    tokens = ['dyu'] + tokens + ["</s>"] +['fr']
    try:
        results = translator.translate_batch([tokens])
        # The translated results are token strings, so we need to convert them to IDs before decoding
        translations = []
        for translation in results:
            decoded_text = sp_target_model.decode(translation.hypotheses[0])
            translations.append(decoded_text)
    except Exception as e:
        print(f"Translation error: {e}")
        translations = [""]  # Return empty string if translation fails
    return translations

def calculate_bleu(references, hypotheses):
    bleu = BLEU()
    return bleu.corpus_score(hypotheses, [references]).score

def validate_model(model_path, dataset_name, split):
    # Load CTranslate2 model
    translator = ctranslate2.Translator(model_path, device=device)
    # Load dataset
    dataset = load_dataset(dataset_name, split=split)
    # Translate and calculate BLEU score
    hypotheses = []
    references = []

    for batch in tqdm(dataset, desc="Translating"):
        source_text = batch['translation']['dyu']  # Adjust this based on your dataset's column names
        reference = batch['translation']['fr']  # Adjust this based on your dataset's column names
        
        # translation = translate(translator, tokenizer, source_text, device)[0]
        # tokenizer=None
        translation = translate(translator, source_text)[0]
        hypotheses.append(translation)
        references.append(reference)
        # print(translation, "----", reference)
        # break

    bleu_score = calculate_bleu(references, hypotheses)
    print(f"BLEU Score: {bleu_score:.2f}")

validate_model(ct_model_path, "uvci/Koumankan_mt_dyu_fr", "train")

Using device: cuda


Translating:   0%|          | 8/8065 [00:00<03:25, 39.24it/s]

Il boit de l ⁇ eau. ---- Il boit de l’eau.
Il se plaint toujours. ---- Il se plaint toujours.
Quoi ? Quelque chose. ---- Quoi ? Quelque chose.
Tous sortent excepté Gubetta. ---- Tous sortent excepté Gubetta.
Ah ! c ⁇ est lui... il sonne... ---- Ah ! c’est lui… il sonne…
Et sans rapport. ---- Et sans rapport.
J'ai suffisamment d'or. ---- J'ai suffisamment d'or.
Oui ; mais dans quel but ? ---- Oui ; mais dans quel but ?
de grands gars forts. ---- de grands gars forts.
Un civil a été capturé?! ---- Un civil a été capturé?!
D ⁇ autres chaises. ---- D’autres chaises.
Quarante-sept renards. ---- Quarante-sept renards.


Translating:   0%|          | 21/8065 [00:00<02:29, 53.70it/s]

Qui a bouché les toilettes? ---- Qui a bouché les toilettes?
Alors, vous me chassez ? ---- Alors, vous me chassez ?
j'aime ce livre. ---- j'aime ce livre.
C ⁇ est tout le monde. ---- Elle sort par le fond.
Achète les trois couleurs. ---- Achète les trois couleurs.
J'ai fait une erreur. ---- J'ai fait une erreur.
Surtout pas trop tôt. ---- Surtout pas trop tôt.
Et moi, ça me fait des peurs... ---- Et moi, ça me fait des peurs…
Quelle jolie maison ! ---- Quelle jolie maison !
Il s ⁇ en est tiré. ---- Il s’en est tiré.
Qui a éteint la lumière ? ---- Qui a éteint la lumière ?
Il ne peut pas faire plus. ---- Il ne peut pas faire plus.
C ⁇ est un homme précieux. ---- Il est présent en France.


Translating:   0%|          | 35/8065 [00:00<02:12, 60.46it/s]

Il pratiquait le baseball. ---- Il pratiquait le baseball.
Le commissaire lève la tête. ---- Le commissaire lève la tête.
Nous rentrerons dans la nuit. ---- Nous rentrerons dans la nuit.
T ⁇ as encore bien fait... ---- T’as encore bien fait…
Je ne veux pas !... ---- Je ne veux pas !…
Ernest, notre aîné. ---- Nous avions eu peur.
Une vingtaine de joueurs. ---- Une vingtaine de joueurs.
Vous devriez avoir honte. ---- Vous devriez avoir honte.
le temps est froid. ---- le temps est froid.
Il y a de l'eau ? ---- Il y a de l'eau ?
elle est debout. ---- elle est debout.
Quel métier faites-vous ? ---- Quel métier faites-vous ?
Cet enfant a les yeux bleus. ---- Cet enfant a les yeux bleus.
C ⁇ est l ⁇ habitude. ---- C’est l’habitude.


Translating:   1%|          | 48/8065 [00:00<02:18, 57.69it/s]

Tout cela demande du temps. ---- Tout cela demande du temps.
La femme est son sujet favori. ---- La femme est son sujet favori.
Celle-ci a disparu. ---- Celle-ci a disparu.
Va-t'en, je vais m'habiller. ---- Va-t'en, je vais m'habiller.
tu es sûr qu'on aimerait. ---- tu es sûr qu'on aimerait.
À ses risques et périls... ---- À ses risques et périls...
Ce cadeau est à toi et à moi. ---- Ce cadeau est à toi et à moi.
Ce n ⁇ est pas la question. ---- Ce n’est pas la question.
Ce que cela peut faire ?... ---- Ce que cela peut faire ?…
nous chassions donc le canard... ---- nous, nous lisons.
Quel charlatan tu ferais !... ---- Quel charlatan tu ferais !…


Translating:   1%|          | 61/8065 [00:01<02:16, 58.75it/s]

Belle proposition en effet ---- Belle proposition en effet
Il a été très frappé. ---- Il a été très frappé.
Tu peux tenir mon doudou? ---- Tu peux tenir mon doudou?
Delliponti a un petit frère. ---- Delliponti a un petit frère.
Soixante et onze. ---- Soixante et onze.
Rue de la Haute Guais à Dinard ---- Je ferai la route à pied.
Bientôt il éleva le ton. ---- Bientôt il éleva le ton.
On se fait un italien? ---- On se fait un italien?
Quelle négligence, se dit-il. ---- Quelle négligence, se dit-il.
Maxime ne vit pas. ---- Ça ne compte pas.
Je ne comprends pas !... ---- Je ne comprends pas !…
Son siège est Brookings. ---- Son siège est Brookings.


Translating:   1%|          | 74/8065 [00:01<02:10, 61.26it/s]

Micheline m ⁇ a tout dit. ---- Micheline m’a tout dit.
Tu avais promis de m ⁇ attendre. ---- Tu avais promis de m’attendre.
Je pars à Salem demain soir. ---- Je pars à Salem demain soir.
Elle est admirable. ---- Elle est admirable.
Que c ⁇ est froid ! ---- Que c’est froid !
Il jouait avec eux. ---- Il jouait avec eux.
Il met fin à sa saison. ---- Il met fin à sa saison.
Vous êtes très aimable. ---- Vous êtes très aimable.
La jument bondit. ---- La jument bondit.
Quelle est cette femme? ---- Quelle est cette femme?
Voilà vos deux francs ...'. ---- Voilà vos deux francs …'.
Elle ne sait jamais rien ! ---- Elle ne sait jamais rien !
Comment était le voyage ? ---- Comment était le voyage ?


Translating:   1%|          | 81/8065 [00:01<02:24, 55.15it/s]

La vie est parfois si longue. ---- La vie est parfois si longue.
Dans les maisons. ---- Dans les maisons.
Deux points d ⁇ avance. ---- Deux points d’avance.
il est cinq heures. ---- il est cinq heures.
Comment s'appelle votre sœur ? ---- Comment s'appelle votre sœur ?
Une minute cinquante. ---- Une minute cinquante.
Il ne fait pas beau. ---- Il ne fait pas beau.
J'avais le cœur serré. ---- J'avais le cœur serré.
Je suis sûr qu ⁇ il aurait aimé. ---- Je suis sûr qu’il aurait aimé.
La jument bondit. ---- La jument bondit.


Translating:   1%|          | 93/8065 [00:01<02:27, 54.16it/s]

Va-t ⁇ en ! je te chasse. ---- Va-t’en ! je te chasse.
Il peut donc être retiré. ---- Il peut donc être retiré.
T'as eu des étudiants toi? ---- T'as eu des étudiants toi?
C ⁇ est difficile. ---- C’est difficile.
Il parle dans le téléphone. ---- Il parle dans le téléphone.
Audace n'est pas déraison ---- Audace n'est pas déraison
Dis-leur à tous les cinq. ---- Dis-leur à tous les cinq.
Vos trois têtes. ---- Vos trois têtes.
il faut que j'y arrive. ---- il faut que j'y arrive.
Il répond malaisément. ---- Il répond malaisément.
Un autre animal jaune. ---- Un autre animal jaune.
Une jupe quelconque. ---- Une jupe quelconque.
Je clos la parenthèse. ---- Je clos la parenthèse.


Translating:   1%|▏         | 107/8065 [00:01<02:15, 58.91it/s]

Je vous ai donné la balance ? ---- Je vous ai donné la balance ?
Dix-sept maisons. ---- Dix-sept maisons.
J'habite à Londres. ---- J'habite à Londres.
Il s ⁇ assit près du lit. ---- Il s’assit près du lit.
Je cours rassurer nos amis. ---- Je cours rassurer nos amis.
Est-ce qu ⁇ il viendra ? ---- Est-ce qu’il viendra ?
Il est mort à Milan. ---- Il est mort à Milan.
C ⁇ est compréhensible. ---- C’est compréhensible.
Il faut en tenir compte. ---- Il faut en tenir compte.
C ⁇ est toujours comme ça ici ? ---- C’est toujours comme ça ici ?
Vous savez combien il coûte ? ---- Vous savez combien il coûte ?
Je n ⁇ attends personne. ---- Je n’attends personne.
Ce n ⁇ est pas d ⁇ un jeu. ---- Ce n’est pas d’un jeu.


Translating:   2%|▏         | 121/8065 [00:02<02:08, 61.84it/s]

Ne le frappez pas. ---- Ne le frappez pas.
Je vous verrai plus tard. ---- Je vous verrai plus tard.
Je n ⁇ en suis pas prêt. ---- Je n’en suis pas sûre
La chaise est cassée. ---- La chaise est cassée.
Et si on commandait une pizza? ---- Et si on commandait une pizza?
Vous savez comment cuisiner ? ---- Vous savez comment cuisiner ?
J ⁇ aimerais ta sœur. ---- J’aimerais ta sœur.
Le ciel était sombre. ---- Le ciel était sombre.
Quel métier faites-vous ? ---- Quel métier faites-vous ?
Tu reprendras de la viande ? ---- Tu reprendras de la viande ?
Il souffre de calvitie. ---- Il souffre de calvitie.
Tu comprends, maintenant? ---- Tu comprends, maintenant?
Un tout petit petit papillon. ---- Un tout petit petit papillon.
Marcof les calma du geste. ---- Marcof les calma du geste.


Translating:   2%|▏         | 135/8065 [00:02<02:07, 62.21it/s]

Où sont les livres ? ---- Où sont les livres ?
En tout cas, je le souhaite. ---- En tout cas, je le souhaite.
Je ferai deux remarques. ---- Je ferai deux remarques.
C'est un vrai sujet de fond. ---- Ils sont extrèmement connus.
Les autres juges étaient élus. ---- Les autres juges étaient élus.
Cela commence mal ---- Cela commence mal
Mais cet ami est sacré. ---- Mais cet ami est sacré.
Il a dit quelque chose ? ---- Il a dit quelque chose ?
J ⁇ ai une paire de ciseaux. ---- J’ai une paire de ciseaux.
On fait attendre les gens. ---- On fait attendre les gens.
un demi litre de lait ---- un demi litre de lait
C ⁇ est assez bon. ---- C’est assez bon.


Translating:   2%|▏         | 149/8065 [00:02<02:09, 61.11it/s]

Ruiné, il rentre à Paris. ---- Ruiné, il rentre à Paris.
Combien d'enfants ? ---- Combien d'enfants ?
Vous parlez anglais ? ---- Vous parlez anglais ?
N ⁇ importe quoi ! ---- N’importe quoi !
Il n ⁇ aime donc pas sa femme ? ---- Il n’aime donc pas sa femme ?
nous étions en train d'aller. ---- nous étions en train d'aller.
Ils ont chacun un chapeau. ---- Ils ont chacun un chapeau.
Qu ⁇ est-ce que c ⁇ est mauvais ! ---- Qu’est-ce que c’est mauvais !
De quelle couleur il est ? ---- De quelle couleur il est ?
La Vierge Marie. ---- La Vierge Marie.
Cette maison te plaira. ---- Cette maison te plaira.
elles, elles ont aimé. ---- elles, elles ont aimé.


Translating:   2%|▏         | 163/8065 [00:02<02:06, 62.62it/s]

tu es sûr que tu aimes. ---- tu es sûr que tu aimeras.
Où travaillez-vous ? ---- Où travaillez-vous ?
je ne veux pas partir. ---- je ne veux pas partir.
elle est partie. ---- elle est partie.
Vous avez mangé ensemble ? ---- Vous avez mangé ensemble ?
Comment le savez-vous ? ---- Comment le savez-vous ?
C'est à qui de jouer ? ---- C'est à qui de jouer ?
Il se rassit, croisa les bras. ---- Il se rassit, croisa les bras.
tu es sûr que tu aimas. ---- tu es sûr que tu aimas.
Nous y serons attentifs. ---- Nous y serons attentifs.
C'est un centre industriel. ---- C'est un centre industriel.
Les enfants, venez manger. ---- Les enfants, venez manger.
Ils la complimentaient. ---- Ils la complimentaient.
Il sort par la droite. ---- Il sort par la droite.


Translating:   2%|▏         | 170/8065 [00:02<02:11, 60.09it/s]

Il toussa encore. ---- Il toussa encore.
Dans la tête et le cœur. ---- Dans la tête et le cœur.
Respectez le ministre ---- Respectez le ministre
Quel stupide animal ! ---- Quel stupide animal !
Pas un mo sur ça. ---- Pas un mo sur ça.
Quatre éléphants. ---- Quatre éléphants.
J'ai reçu leur offre ce matin. ---- J'ai reçu leur offre ce matin.
Tu le traites quinze jours... ---- Tu le traites quinze jours…
C ⁇ est exact, je vous remercie. ---- C’est exact, je vous remercie.


Translating:   2%|▏         | 174/8065 [00:03<02:19, 56.51it/s]


Entrez, asseyez-vous. ---- Entrez, asseyez-vous.
Tout cela est aléatoire. ---- Tout cela est aléatoire.


KeyboardInterrupt: 