# √âtape 3 : Entra√Ænement et Test de la Cascade de Traduction

Ce notebook permet de lancer l'entra√Ænement ASR (Speech-to-Text) sur CPU et de tester la cha√Æne de traduction finale (Mina ‚ûî √âw√© ‚ûî Fran√ßais).

In [1]:
import sys
import importlib
from pathlib import Path
if str(Path.cwd().parent) not in sys.path:
    sys.path.append(str(Path.cwd().parent))

import pandas as pd
import torch
import torchaudio
from transformers import WhisperForConditionalGeneration, WhisperProcessor, AutoTokenizer, AutoModelForSeq2SeqLM, MarianTokenizer, MarianMTModel
from src.config import settings
import src.models.train_whisper_cpu

# Reload de nos modules persos
import src.models.translation_mina_ewe
import src.models.translation_ewe_fr
import src.pipeline.translate_cascade
importlib.reload(src.models.train_whisper_cpu)
importlib.reload(src.models.translation_mina_ewe)
importlib.reload(src.models.translation_ewe_fr)
importlib.reload(src.pipeline.translate_cascade)

from src.models.train_whisper_cpu import train_whisper_on_cpu
from src.pipeline.translate_cascade import TranslationCascade

  from .autonotebook import tqdm as notebook_tqdm


## 1. Entra√Ænement ASR (Whisper sur CPU)

 (> **Note :** L'entra√Ænement sur CPU est lent. Nous utilisons un gel des couches (freeze) √† 90% pour acc√©l√©rer le processus. Les hyperparam√®tres sont configur√©s dans `src/config/settings.py`.

In [2]:
# Chargement du dataset pr√©par√© √† l'√©tape 2
dataset_path = settings.PROCESSED_DIR / "bible_asr_dataset.csv"

if dataset_path.exists():
    df = pd.read_csv(dataset_path)
    print(f"Dataset charg√© : {len(df)} exemples.")
    
    # Lancement de l'initialisation de l'entra√Ænement
    # Note: assurez-vous d'avoir assez de RAM
    model, processor = train_whisper_on_cpu(None) 
    
    # --- SAUVEGARDE DU MOD√àLE ENTRA√éN√â (EXPORT) ---
    export_dir = settings.PROJECT_ROOT / "models" / "whisper-ewe-mina-final"
    print(f"Exportation du mod√®le ASR vers {export_dir}...")
    model.save_pretrained(export_dir)
    processor.save_pretrained(export_dir)
    print("Mod√®le ASR export√© avec succ√®s !")
else:
    print("Erreur : Le dataset ASR n'a pas encore √©t√© g√©n√©r√©. Veuillez ex√©cuter le notebook 02 d'abord.")

Dataset charg√© : 801 exemples.
--- Initialisation Entra√Ænement Whisper (openai/whisper-base) ---
Chargement du dataset depuis C:\EPL\MTH2321\MTH_2321_APEKE\Projet_traduction_ewe_francais\data\processed\bible_asr_dataset.csv...


Generating train split: 801 examples [00:00, 5634.39 examples/s]


Pr√©paration du dataset (Audio -> Mel Spectrogram + Tokenization)...
Dataset keys before map: dict_keys(['train'])


Map: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 801/801 [01:31<00:00,  8.79 examples/s]
  trainer = Seq2SeqTrainer(


Dataset type after map: <class 'datasets.dataset_dict.DatasetDict'>
Dataset keys after map: dict_keys(['train'])
Mod√®le de 72593920 params. Gel de 90.0% pour CPU...
ATTENTION: 'test' split manquant. Keys actuels : dict_keys(['train'])
Tentative de split de secours...
Mise √† jour des keys : dict_keys(['train', 'test'])
D√©marrage de l'entra√Ænement...


You're using a WhisperTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Step,Training Loss,Validation Loss
10,4.7974,4.315985
20,4.0992,3.867604


There were missing keys in the checkpoint model loaded: ['proj_out.weight'].


Entra√Ænement termin√©.
Exportation du mod√®le ASR vers C:\EPL\MTH2321\MTH_2321_APEKE\Projet_traduction_ewe_francais\models\whisper-ewe-mina-final...
Mod√®le ASR export√© avec succ√®s !


## 2. Exportation des autres mod√®les (NLLB et Opus-MT)

Pour avoir une solution 100% autonome, nous t√©l√©chargeons et sauvegardons localement les mod√®les de traduction.

In [3]:
print("T√©l√©chargement et export des mod√®les de traduction...")

# 1. Export NLLB (Mina -> Ewe)
nllb_model_name = "facebook/nllb-200-distilled-600M"
nllb_path = settings.PROJECT_ROOT / "models" / "nllb-mina-ewe-local"

if not nllb_path.exists():
    print(f"T√©l√©chargement de {nllb_model_name}...")
    tokenizer = AutoTokenizer.from_pretrained(nllb_model_name)
    model = AutoModelForSeq2SeqLM.from_pretrained(nllb_model_name)
    
    print(f"Sauvegarde dans {nllb_path}...")
    model.save_pretrained(nllb_path)
    tokenizer.save_pretrained(nllb_path)
else:
    print(f"Mod√®le NLLB d√©j√† pr√©sent dans {nllb_path}")

# 2. Export Opus-MT (Ewe -> Fran√ßais)
opus_model_name = "Helsinki-NLP/opus-mt-ee-fr"
opus_path = settings.PROJECT_ROOT / "models" / "opus-ewe-fr-local"

if not opus_path.exists():
    print(f"T√©l√©chargement de {opus_model_name}...")
    tokenizer = MarianTokenizer.from_pretrained(opus_model_name)
    model = MarianMTModel.from_pretrained(opus_model_name)
    
    print(f"Sauvegarde dans {opus_path}...")
    model.save_pretrained(opus_path)
    tokenizer.save_pretrained(opus_path)
else:
    print(f"Mod√®le Opus d√©j√† pr√©sent dans {opus_path}")

print("Tous les mod√®les sont pr√™ts localement !")

T√©l√©chargement et export des mod√®les de traduction...
Mod√®le NLLB d√©j√† pr√©sent dans C:\EPL\MTH2321\MTH_2321_APEKE\Projet_traduction_ewe_francais\models\nllb-mina-ewe-local
Mod√®le Opus d√©j√† pr√©sent dans C:\EPL\MTH2321\MTH_2321_APEKE\Projet_traduction_ewe_francais\models\opus-ewe-fr-local
Tous les mod√®les sont pr√™ts localement !


## 3. Test Audio Complet avec les 3 Mod√®les Export√©s (Local)

Nous chargeons maintenant **les 3 mod√®les** uniquement depuis le dossier `models/`.

In [6]:
# Chemins locaux
asr_path = settings.PROJECT_ROOT / "models" / "whisper-ewe-mina-final"
nllb_path = settings.PROJECT_ROOT / "models" / "nllb-mina-ewe-local"
opus_path = settings.PROJECT_ROOT / "models" / "opus-ewe-fr-local"

print("1. Chargement du mod√®le ASR local...")
try:
    loaded_processor = WhisperProcessor.from_pretrained(asr_path)
    loaded_model = WhisperForConditionalGeneration.from_pretrained(asr_path)
    print("   OK.")
except Exception as e:
    print(f"   Erreur ASR (il faut lancer l'entra√Ænement avant) : {e}")
    # Fallback pour ne pas bloquer si pas entra√Æn√© dans cette session
    loaded_processor = processor 
    loaded_model = model

print("2. Initialisation de la Cascade avec les mod√®les locaux...")
cascade = TranslationCascade(nllb_path=str(nllb_path), opus_path=str(opus_path))
print("   OK.")


1. Chargement du mod√®le ASR local...


INFO:src.pipeline.translate_cascade:Initialisation de la cascade de traduction...
INFO:src.models.translation_mina_ewe:Chargement du mod√®le Mina-Ewe : C:\EPL\MTH2321\MTH_2321_APEKE\Projet_traduction_ewe_francais\models\nllb-mina-ewe-local


   OK.
2. Initialisation de la Cascade avec les mod√®les locaux...


The tokenizer you are loading from 'C:\EPL\MTH2321\MTH_2321_APEKE\Projet_traduction_ewe_francais\models\nllb-mina-ewe-local' with an incorrect regex pattern: https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503/discussions/84#69121093e8b480e709447d5e. This will lead to incorrect tokenization. You should set the `fix_mistral_regex=True` flag when loading this tokenizer to fix this issue.
INFO:src.models.translation_ewe_fr:Chargement du mod√®le Transformers C:\EPL\MTH2321\MTH_2321_APEKE\Projet_traduction_ewe_francais\models\opus-ewe-fr-local


   OK.


In [11]:
# --- INFERENCE ---
import soundfile as sf
import scipy.signal
import numpy as np
import torch

sample_audio = settings.PROCESSED_DIR / "audio_16k" / "gegbe_gen_01.wav"

if sample_audio.exists():
    print(f"\nTraitement audio : {sample_audio.name}")
    
    waveform, sr = sf.read(sample_audio)
    
    print(f"Dur√©e originale : {len(waveform) / sr:.2f} secondes")
    print(f"√âchantillons    : {len(waveform):,}")
    print(f"Sample rate lu  : {sr} Hz")
    
    # Mono si st√©r√©o
    if len(waveform.shape) > 1:
        waveform = waveform.mean(axis=1)
        
    # Resample si besoin
    if sr != 16000:
        num_samples = int(round(len(waveform) * 16000 / sr))
        waveform = scipy.signal.resample(waveform, num_samples)
    
    # Pr√©paration Whisper
    input_features = loaded_processor(
        waveform,
        sampling_rate=16000,
        return_tensors="pt"
    ).input_features
    
    # Tr√®s important : d√©placer sur le bon device (GPU si disponible)
    device = next(loaded_model.parameters()).device
    input_features = input_features.to(device)
    
    with torch.no_grad():
        predicted_ids = loaded_model.generate(
            input_features,
            language=None,                     # ou "mina" / None si d√©tection auto
            task="transcribe",
            return_timestamps=True,             # active le d√©coupage automatique 30s + stitching
            condition_on_prev_tokens=True,
            temperature=[0.0, 0.2, 0.4, 0.6, 0.8, 1.0],  # fallback si r√©p√©titions/hallucinations
            compression_ratio_threshold=1.35,
            logprob_threshold=-1.0,
            no_speech_threshold=0.6,
        )
    
    transcription = loaded_processor.batch_decode(
        predicted_ids,
        skip_special_tokens=True
    )[0]
    
    print(f"\nTranscription (ASR) :\n{transcription}\n")
    
    final_result = cascade.translate_mina_to_french(transcription)
    
    print("=== R√âSULTAT 100% LOCAL ===")
    print(f"TEXTE (ASR) : {final_result['mina']}")
    print(f"PIVOT (EWE) : {final_result['ewe']}")
    print(f"TRAD (FR)   : {final_result['french']}")

else:
    print("Fichier audio non trouv√©.")


Traitement audio : gegbe_gen_01.wav
Dur√©e originale : 368.40 secondes
√âchantillons    : 5,894,400
Sample rate lu  : 16000 Hz


INFO:src.pipeline.translate_cascade:Source (Mina):  gone le J√©beho Man …õt…î…õt…ît…î 2gbansihi habe d…îro d…î su hone j√©jai Maod√≥ d…î jynkuti ku annib√£ ayiimala na manh e be le ge bello kyi h√¨ w√¨ t√¨ t√¨r√¨p…î la gone j…î w√¨ d√¨be ap≈´ b√†j…î √† v√≤ma…î h√® b≈ã gb√£n d√¨na sa le se√≤ z√¨f d√¨wo m…î g≈ã manbe k√®ng…î n√® v√®em√© K



Transcription (ASR) :
 gone le J√©beho Man …õt…î…õt…ît…î 2gbansihi habe d…îro d…î su hone j√©jai Maod√≥ d…î jynkuti ku annib√£ ayiimala na manh e be le ge bello kyi h√¨ w√¨ t√¨ t√¨r√¨p…î la gone j…î w√¨ d√¨be ap≈´ b√†j…î √† v√≤ma…î h√® b≈ã gb√£n d√¨na sa le se√≤ z√¨f d√¨wo m…î g≈ã manbe k√®ng…î n√® v√®em√© K



INFO:src.pipeline.translate_cascade:Pivot (Ewe): dzo le Yebeho Man …õt…ît…ît…ît…î 2gbansihi habe d…îro d…î su hone j√©jai Maod√≥ d…î jynkuti ku annib√£ ayiimala na man e be le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le
INFO:src.pipeline.translate_cascade:Cible (Fran√ßais): √Ä Yeho Mansisihi, dans la ville de Madjal√≥ldoa, on trouve aupr√®s d'Adyjal√≥o, o√π se trouve manitia, dans un quartier situ√© √† proximit√© de chez elle, o√π se trouve une maladie grave.


=== R√âSULTAT 100% LOCAL ===
TEXTE (ASR) :  gone le J√©beho Man …õt…î…õt…ît…î 2gbansihi habe d…îro d…î su hone j√©jai Maod√≥ d…î jynkuti ku annib√£ ayiimala na manh e be le ge bello kyi h√¨ w√¨ t√¨ t√¨r√¨p…î la gone j…î w√¨ d√¨be ap≈´ b√†j…î √† v√≤ma…î h√® b≈ã gb√£n d√¨na sa le se√≤ z√¨f d√¨wo m…î g≈ã manbe k√®ng…î n√® v√®em√© K
PIVOT (EWE) : dzo le Yebeho Man …õt…ît…ît…ît…î 2gbansihi habe d…îro d…î su hone j√©jai Maod√≥ d…î jynkuti ku annib√£ ayiimala na man e be le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le le
TRAD (FR)   : √Ä Yeho Mansisihi, dans la ville de Madjal√≥ldoa, on trouve aupr√®s d'Adyjal√≥o, o√π se trouve manitia, dans un quartier situ√© √† proximit√© de chez elle, o√π se trouve une maladie grave.
