<a href="https://colab.research.google.com/github/nathaliemondoukpe12/app_gest_task/blob/main/traduit.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
"""
Entra√Ænement d'un mod√®le de traduction Anglais ‚Üî Fran√ßais
avec MarianMT sur le dataset OPUS Books
"""

from datasets import load_dataset
from transformers import (
    MarianMTModel,
    MarianTokenizer,
    Seq2SeqTrainingArguments,
    Seq2SeqTrainer,
    DataCollatorForSeq2Seq
)
import torch
import numpy as np
from tqdm import tqdm

print("=" * 70)
print("ENTRA√éNEMENT MOD√àLE DE TRADUCTION EN‚ÜíFR avec OPUS Books")
print("=" * 70)

# ==================== √âTAPE 1: CHARGEMENT DU DATASET ====================

def load_opus_books(sample_size=None):
    """
    Charge le dataset OPUS Books (en-fr)

    Args:
        sample_size: nombre d'exemples √† charger (None = tout)

    Returns:
        dataset
    """
    print("\n[√âTAPE 1] Chargement du dataset OPUS Books...")

    try:
        # Chargement du dataset depuis Hugging Face
        dataset = load_dataset("opus_books", "en-fr")

        print(f"  Dataset charg√© avec succ√®s!")
        print(f"  ‚Üí Train: {len(dataset['train'])} paires")

        # √âchantillonnage si n√©cessaire (pour tester rapidement)
        if sample_size:
            dataset['train'] = dataset['train'].select(range(min(sample_size, len(dataset['train']))))
            print(f"  ‚Üí √âchantillon s√©lectionn√©: {len(dataset['train'])} paires")

        # Afficher quelques exemples
        print("\n   Exemples du dataset:")
        for i in range(3):
            example = dataset['train'][i]
            en = example['translation']['en']
            fr = example['translation']['fr']
            print(f"\n  Exemple {i+1}:")
            print(f"    EN: {en[:100]}...")
            print(f"    FR: {fr[:100]}...")

        return dataset

    except Exception as e:
        print(f"   Erreur lors du chargement: {e}")
        return None


# ==================== √âTAPE 2: PR√âPARATION DES DONN√âES ====================

class DataPreprocessor:
    """Pr√©processeur pour le dataset OPUS Books"""

    def __init__(self, model_name="Helsinki-NLP/opus-mt-en-fr", max_length=128):
        self.tokenizer = MarianTokenizer.from_pretrained(model_name)
        self.max_length = max_length

    def preprocess_function(self, examples):
        """Tokenise les paires de traduction"""
        # Extraire les textes anglais et fran√ßais
        inputs = [ex['en'] for ex in examples['translation']]
        targets = [ex['fr'] for ex in examples['translation']]

        # Tokenisation
        model_inputs = self.tokenizer(
            inputs,
            max_length=self.max_length,
            truncation=True,
            padding="max_length"
        )

        # Tokenisation des cibles
        with self.tokenizer.as_target_tokenizer():
            labels = self.tokenizer(
                targets,
                max_length=self.max_length,
                truncation=True,
                padding="max_length"
            )

        model_inputs["labels"] = labels["input_ids"]
        return model_inputs


def prepare_dataset(dataset, preprocessor, test_size=0.1):
    """
    Pr√©pare le dataset pour l'entra√Ænement

    Args:
        dataset: dataset OPUS Books
        preprocessor: instance de DataPreprocessor
        test_size: proportion du set de validation

    Returns:
        train_dataset, eval_dataset
    """
    print("\n[√âTAPE 2] Pr√©paration des donn√©es...")

    # S√©paration train/validation
    split_dataset = dataset['train'].train_test_split(test_size=test_size, seed=42)

    print(f"  ‚Üí Train: {len(split_dataset['train'])} exemples")
    print(f"  ‚Üí Validation: {len(split_dataset['test'])} exemples")

    # Tokenisation
    print("  ‚Üí Tokenisation en cours...")
    tokenized_train = split_dataset['train'].map(
        preprocessor.preprocess_function,
        batched=True,
        remove_columns=split_dataset['train'].column_names
    )

    tokenized_eval = split_dataset['test'].map(
        preprocessor.preprocess_function,
        batched=True,
        remove_columns=split_dataset['test'].column_names
    )

    print("  ‚úÖ Donn√©es pr√©par√©es!")

    return tokenized_train, tokenized_eval


# ==================== √âTAPE 3: CONFIGURATION DU MOD√àLE ====================

def setup_model_and_trainer(tokenized_train, tokenized_eval, output_dir="./marian-en-fr"):
    """
    Configure le mod√®le et le trainer

    Args:
        tokenized_train: dataset d'entra√Ænement tokenis√©
        tokenized_eval: dataset de validation tokenis√©
        output_dir: dossier de sortie

    Returns:
        model, trainer
    """
    print("\n[√âTAPE 3] Configuration du mod√®le...")

    # Chargement du mod√®le pr√©-entra√Æn√©
    model_name = "Helsinki-NLP/opus-mt-en-fr"
    model = MarianMTModel.from_pretrained(model_name)
    tokenizer = MarianTokenizer.from_pretrained(model_name)

    print(f"  ‚úÖ Mod√®le {model_name} charg√©")

    # Configuration de l'entra√Ænement
    training_args = Seq2SeqTrainingArguments(
        output_dir=output_dir,
        evaluation_strategy="epoch",
        learning_rate=5e-5,
        per_device_train_batch_size=8,
        per_device_eval_batch_size=8,
        num_train_epochs=3,
        weight_decay=0.01,
        save_total_limit=2,
        predict_with_generate=True,
        fp16=torch.cuda.is_available(),  # Utilise FP16 si GPU disponible
        push_to_hub=False,
        logging_steps=100,
        save_steps=500,
    )

    print(f"  ‚Üí Epochs: {training_args.num_train_epochs}")
    print(f"  ‚Üí Batch size: {training_args.per_device_train_batch_size}")
    print(f"  ‚Üí Learning rate: {training_args.learning_rate}")
    print(f"  ‚Üí Device: {'GPU (FP16)' if training_args.fp16 else 'CPU'}")

    # Data collator
    data_collator = DataCollatorForSeq2Seq(tokenizer, model=model)

    # Cr√©ation du trainer
    trainer = Seq2SeqTrainer(
        model=model,
        args=training_args,
        train_dataset=tokenized_train,
        eval_dataset=tokenized_eval,
        tokenizer=tokenizer,
        data_collator=data_collator,
    )

    return model, trainer, tokenizer


# ==================== √âTAPE 4: ENTRA√éNEMENT ====================

def train_model(trainer):
    """
    Entra√Æne le mod√®le

    Args:
        trainer: instance de Seq2SeqTrainer
    """
    print("\n[√âTAPE 4] Entra√Ænement du mod√®le...")
    print("  ‚è≥ Ceci peut prendre plusieurs heures selon votre mat√©riel...")

    try:
        # Entra√Ænement
        train_result = trainer.train()

        print("\n  ‚úÖ Entra√Ænement termin√©!")
        print(f"  ‚Üí Loss finale: {train_result.training_loss:.4f}")

        # Sauvegarde du mod√®le
        trainer.save_model()
        print("  ‚úÖ Mod√®le sauvegard√©!")

        return train_result

    except Exception as e:
        print(f"   Erreur pendant l'entra√Ænement: {e}")
        return None


# ==================== √âTAPE 5: √âVALUATION ====================

def evaluate_model(trainer, tokenizer, test_sentences):
    """
    √âvalue le mod√®le sur des exemples

    Args:
        trainer: instance de Seq2SeqTrainer
        tokenizer: tokenizer
        test_sentences: phrases de test
    """
    print("\n[√âTAPE 5] √âvaluation du mod√®le...")

    # √âvaluation sur le set de validation
    eval_results = trainer.evaluate()
    print(f"\n  üìä R√©sultats sur le set de validation:")
    print(f"  ‚Üí Loss: {eval_results['eval_loss']:.4f}")

    # Test sur des phrases personnalis√©es
    print("\n  üß™ Test sur des phrases personnalis√©es:")

    model = trainer.model
    model.eval()

    for sentence in test_sentences:
        inputs = tokenizer(sentence, return_tensors="pt", padding=True)

        with torch.no_grad():
            translated = model.generate(**inputs)

        translation = tokenizer.decode(translated[0], skip_special_tokens=True)

        print(f"\n  EN: {sentence}")
        print(f"  FR: {translation}")


# ==================== FONCTION PRINCIPALE ====================

def main(sample_size=5000):
    """
    Pipeline complet d'entra√Ænement

    Args:
        sample_size: nombre d'exemples √† utiliser (None = tous)
    """

    # 1. Charger le dataset
    dataset = load_opus_books(sample_size=sample_size)
    if dataset is None:
        return

    # 2. Pr√©parer les donn√©es
    preprocessor = DataPreprocessor(max_length=128)
    tokenized_train, tokenized_eval = prepare_dataset(dataset, preprocessor)

    # 3. Configurer le mod√®le
    model, trainer, tokenizer = setup_model_and_trainer(
        tokenized_train,
        tokenized_eval,
        output_dir="./marian-en-fr-finetuned"
    )

    # 4. Entra√Æner
    train_result = train_model(trainer)

    if train_result is None:
        return

    # 5. √âvaluer
    test_sentences = [
        "Hello, how are you?",
        "I love reading books.",
        "The weather is beautiful today.",
        "Machine learning is fascinating.",
        "Thank you very much for your help."
    ]

    evaluate_model(trainer, tokenizer, test_sentences)

    print("\n" + "=" * 70)
    print("‚úÖ ENTRA√éNEMENT TERMIN√â!")
    print("=" * 70)
    print(f"\nMod√®le sauvegard√© dans: ./marian-en-fr-finetuned")
    print("\nPour utiliser le mod√®le:")
    print("  model = MarianMTModel.from_pretrained('./marian-en-fr-finetuned')")
    print("  tokenizer = MarianTokenizer.from_pretrained('./marian-en-fr-finetuned')")


# ==================== GUIDE D'UTILISATION ====================

print("""
üì¶ PR√âREQUIS - INSTALLATION:

pip install transformers datasets torch sentencepiece sacremoses

üí° UTILISATION:

1. ENTRA√éNEMENT RAPIDE (√©chantillon de 5000 exemples):
   main(sample_size=5000)

2. ENTRA√éNEMENT COMPLET (tout le dataset):
   main(sample_size=None)

‚öôÔ∏è PARAM√àTRES √Ä AJUSTER:

- sample_size: nombre d'exemples (5000 pour test rapide)
- num_train_epochs: nombre d'√©poques (3 par d√©faut)
- per_device_train_batch_size: taille du batch (8 par d√©faut)
- learning_rate: taux d'apprentissage (5e-5 par d√©faut)
- max_length: longueur max des s√©quences (128 par d√©faut)

‚è±Ô∏è TEMPS D'ENTRA√éNEMENT ESTIM√â:

- CPU: ~6-8 heures pour 5000 exemples
- GPU (NVIDIA): ~30-60 min pour 5000 exemples
- Dataset complet: plusieurs heures m√™me avec GPU

üíæ ESPACE DISQUE N√âCESSAIRE:

- Dataset: ~500 MB
- Mod√®le: ~300 MB
- Total: ~1 GB

  POUR D√âBUTER:
   Commencez avec sample_size=1000 pour tester rapidement!
""")

print("\n" + "=" * 70)
print("üöÄ LANCER L'ENTRA√éNEMENT")
print("=" * 70)
print("\nPour d√©marrer avec un √©chantillon de 5000 exemples:")
print(">>> main(sample_size=5000)")
print("\nPour utiliser tout le dataset:")
print(">>> main(sample_size=None)")

# D√©commenter pour lancer l'entra√Ænement automatiquement:
# if __name__ == "__main__":
#     main(sample_size=5000)

ENTRA√éNEMENT MOD√àLE DE TRADUCTION EN‚ÜíFR avec OPUS Books

üì¶ PR√âREQUIS - INSTALLATION:

pip install transformers datasets torch sentencepiece sacremoses

üí° UTILISATION:

1. ENTRA√éNEMENT RAPIDE (√©chantillon de 5000 exemples):
   main(sample_size=5000)

2. ENTRA√éNEMENT COMPLET (tout le dataset):
   main(sample_size=None)

‚öôÔ∏è PARAM√àTRES √Ä AJUSTER:

- sample_size: nombre d'exemples (5000 pour test rapide)
- num_train_epochs: nombre d'√©poques (3 par d√©faut)
- per_device_train_batch_size: taille du batch (8 par d√©faut)
- learning_rate: taux d'apprentissage (5e-5 par d√©faut)
- max_length: longueur max des s√©quences (128 par d√©faut)

‚è±Ô∏è TEMPS D'ENTRA√éNEMENT ESTIM√â:

- CPU: ~6-8 heures pour 5000 exemples
- GPU (NVIDIA): ~30-60 min pour 5000 exemples
- Dataset complet: plusieurs heures m√™me avec GPU

üíæ ESPACE DISQUE N√âCESSAIRE:

- Dataset: ~500 MB
- Mod√®le: ~300 MB
- Total: ~1 GB

üéØ POUR D√âBUTER:
   Commencez avec sample_size=1000 pour tester rapidement!

