In [None]:
# ============================================================================
# CELLULE 1 : PR√âPARATION DONN√âES CONVERSATIONNELLES GYM-EXERCISE
# ============================================================================

print("üöÄ CELLULE 1 : Donn√©es conversationnelles GYM-Exercise")
print("=" * 50)

# === INSTALLATION AUTO ===
import subprocess
import sys

def install_if_missing(package):
    try:
        __import__(package)
    except ImportError:
        print(f"üì• Installation de {package}...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", package])
        print(f"‚úÖ {package} install√©")

required_packages = ["datasets", "accelerate", "evaluate"]
for pkg in required_packages:
    install_if_missing(pkg)

# === IMPORTS ===
import torch
import pandas as pd
import numpy as np
from transformers import (
    MT5ForConditionalGeneration, 
    MT5Tokenizer,
    TrainingArguments,
    Trainer,
    DataCollatorForSeq2Seq
)
from datasets import Dataset
import json
from pathlib import Path
import logging
import re
from sklearn.model_selection import train_test_split
import random
import shutil

# Configuration
logging.basicConfig(level=logging.INFO)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"üîß Device utilis√©: {device}")

# === CHARGEMENT DATASET CONVERSATIONNEL ===
print(f"\nüì• Chargement du dataset GYM-Exercise conversationnel...")
gym_df = pd.read_parquet("hf://datasets/onurSakar/GYM-Exercise/data/train-00000-of-00001.parquet")
print(f"‚úÖ Dataset charg√©: {len(gym_df)} conversations")

# === PARSING DU FORMAT CONVERSATIONNEL ===
print(f"\nüîÑ Parsing du format conversationnel...")

def parse_conversational_format(df):
    """Parse le format [INST]...[/INST] en questions-r√©ponses"""
    parsed_data = []
    
    for idx, row in df.iterrows():
        text = str(row['text'])
        
        # Pattern pour extraire question et r√©ponse
        # Format: <s>[INST] <<SYS>>...<<</SYS>> QUESTION [/INST]R√âPONSE</s>
        
        # Extraction de la question
        question_match = re.search(r'<<</SYS>>\s*(.*?)\s*\[/INST\]', text, re.DOTALL)
        if not question_match:
            continue
        
        question = question_match.group(1).strip()
        
        # Extraction de la r√©ponse
        response_match = re.search(r'\[/INST\]\s*(.*?)(?:</s>|$)', text, re.DOTALL)
        if not response_match:
            continue
        
        response = response_match.group(1).strip()
        
        # Filtrage des questions/r√©ponses de qualit√©
        if (len(question) > 10 and len(response) > 20 and 
            len(question) < 200 and len(response) < 1000):
            
            parsed_data.append({
                "input": question,
                "output": response
            })
    
    return parsed_data

# Parse du dataset
gym_parsed_data = parse_conversational_format(gym_df)
print(f"‚úÖ {len(gym_parsed_data)} conversations pars√©es avec succ√®s")

# √âchantillon du parsing
print(f"\nüéØ Exemples de conversations pars√©es :")
for i in range(min(3, len(gym_parsed_data))):
    example = gym_parsed_data[i]
    print(f"\n--- Exemple {i+1} ---")
    print(f"‚ùì Question: {example['input'][:80]}...")
    print(f"ü§ñ R√©ponse: {example['output'][:100]}...")

# === AM√âLIORATION DES R√âPONSES POUR LE COACHING ===
print(f"\nüèãÔ∏è Transformation en style coaching professionnel...")

def enhance_gym_responses(parsed_data, max_examples=800):
    """Am√©liore les r√©ponses avec un style coaching professionnel"""
    enhanced_data = []
    
    for example in parsed_data[:max_examples]:
        question = example['input']
        original_response = example['output']
        
        # D√©tection du type de question
        question_lower = question.lower()
        
        # Style coaching adapt√© selon le type
        if any(kw in question_lower for kw in ['build muscle', 'gain muscle', 'muscle building']):
            enhanced_response = f"""üí™ **PRISE DE MUSCLE - R√©ponse Coach :**

{original_response}

‚úÖ **Conseils additionnels :**
‚Ä¢ Progression graduelle : +2.5kg/semaine
‚Ä¢ Repos 48-72h entre s√©ances m√™me muscle
‚Ä¢ Nutrition : 1.8-2.2g prot√©ines/kg de poids"""
        
        elif any(kw in question_lower for kw in ['lose weight', 'weight loss', 'fat loss']):
            enhanced_response = f"""üî• **PERTE DE POIDS - R√©ponse Coach :**

{original_response}

‚úÖ **Strat√©gie compl√®te :**
‚Ä¢ D√©ficit calorique mod√©r√© (-300-500 cal/jour)
‚Ä¢ Combinaison cardio + musculation
‚Ä¢ Patience : 0.5-1kg/semaine = durable"""
        
        elif any(kw in question_lower for kw in ['exercise', 'workout', 'training']):
            enhanced_response = f"""üèãÔ∏è **ENTRA√éNEMENT - R√©ponse Coach :**

{original_response}

‚úÖ **Points cl√©s s√©curit√© :**
‚Ä¢ √âchauffement 5-10min obligatoire
‚Ä¢ Technique avant charge
‚Ä¢ √âcouter son corps = priorit√©"""
        
        elif any(kw in question_lower for kw in ['nutrition', 'diet', 'eating']):
            enhanced_response = f"""üçé **NUTRITION - R√©ponse Coach :**

{original_response}

‚úÖ **R√®gles d'or :**
‚Ä¢ R√©gularit√© > perfection
‚Ä¢ Hydratation : 35ml/kg de poids
‚Ä¢ L√©gumes √† chaque repas"""
        
        else:
            # Format g√©n√©ral coaching
            enhanced_response = f"""üí° **CONSEIL COACH :**

{original_response}

‚úÖ **Rappel important :** Consistance et patience sont vos meilleurs alli√©s !"""
        
        enhanced_data.append({
            "input": question,
            "output": enhanced_response
        })
    
    return enhanced_data

# Am√©lioration des r√©ponses
gym_enhanced_data = enhance_gym_responses(gym_parsed_data)
print(f"‚úÖ {len(gym_enhanced_data)} r√©ponses am√©lior√©es en style coaching")

# === EXPERTISE COACHING ADDITIONNELLE ===
print(f"\nüß† Ajout d'expertise coaching sp√©cialis√©e...")

expert_coaching_data = [
    {
        "input": "Je d√©bute compl√®tement en sport, par o√π commencer ?",
        "output": """üöÄ **PLAN DE D√âMARRAGE D√âBUTANT COMPLET :**

**üìÖ SEMAINES 1-2 : Cr√©ation de l'habitude**
‚Ä¢ 3 s√©ances de 20 minutes (lundi, mercredi, vendredi)
‚Ä¢ Marche rapide 15min + √©tirements 5min
‚Ä¢ Objectif : R√âGULARIT√â, pas performance

**üìÖ SEMAINES 3-4 : Introduction exercices**
‚Ä¢ Ajoutez 5 exercices au poids du corps
‚Ä¢ Squats, pompes (genoux), planche, fentes, jumping jacks
‚Ä¢ 2 s√©ries de 8-12 r√©p√©titions chacun

**üéØ CL√âS DU SUCC√àS :**
‚úÖ Commencez PETIT mais soyez CONSTANT
‚úÖ Hydratation : 2L d'eau minimum/jour
‚úÖ Sommeil : 7-8h pour r√©cup√©ration
‚úÖ C√©l√©brez chaque petite victoire !

üí™ **MOTIVATION :** Vous venez de prendre la MEILLEURE d√©cision de votre vie !"""
    },
    
    {
        "input": "Programme sp√©cial femme d√©butante perte de poids",
        "output": """üë©‚Äçüí™ **PROGRAMME FEMME PERTE DE POIDS OPTIMIS√â :**

**üî• CARDIO ADAPT√â (3x/semaine) :**
‚Ä¢ Lundi : Marche rapide 30min + escaliers 10min
‚Ä¢ Mercredi : Danse/Zumba 45min (fun + efficace)
‚Ä¢ Vendredi : V√©lo/elliptique 35min intensit√© mod√©r√©e

**üí™ RENFORCEMENT CIBL√â (2x/semaine) :**
‚Ä¢ Mardi : Haut du corps + core (focus tonification)
‚Ä¢ Jeudi : Bas du corps + fessiers (sculpter)

**üçé NUTRITION SIMPLE ET EFFICACE :**
‚Ä¢ Petit-d√©j : Prot√©ines + fruits + c√©r√©ales compl√®tes
‚Ä¢ D√©jeuner : L√©gumes + prot√©ines maigres + f√©culents
‚Ä¢ D√Æner : L√©ger, privil√©gier l√©gumes + prot√©ines
‚Ä¢ Collations : Fruits, yaourt grec, amandes

**üìà OBJECTIFS R√âALISTES :**
‚Ä¢ Perte : 0.5-1kg/semaine maximum
‚Ä¢ Mesures : Tour de taille, cuisses (+ important que balance)
‚Ä¢ Photos : 1x/semaine m√™me tenue, m√™me pose

üåü **VOUS √äTES CAPABLE DE R√âUSSIR !**"""
    },
    
    {
        "input": "Je stagne depuis 2 mois, comment relancer ?",
        "output": """üîÑ **STRAT√âGIE ANTI-PLATEAU COMPL√àTE :**

**üéØ POURQUOI √áA STAGNE :**
‚Ä¢ Votre corps s'adapte = SIGNE DE PROGR√àS !
‚Ä¢ Routine trop r√©p√©titive
‚Ä¢ Possible sous-alimentation ou surentra√Ænement

**üí• SOLUTIONS IMM√âDIATES :**

**1. SHOCK TRAINING (1 semaine) :**
‚Ä¢ Changez COMPL√àTEMENT votre routine
‚Ä¢ Nouveaux exercices, nouvelles amplitudes
‚Ä¢ Intensit√© diff√©rente (force ‚Üí endurance)

**2. SEMAINE DE D√âCHARGE :**
‚Ä¢ R√©duisez volume de 50%
‚Ä¢ Gardez intensit√© mais moins de s√©ries
‚Ä¢ Plus de mobilit√©/√©tirements

**3. NUTRITION RESET :**
‚Ä¢ Calculez vos calories r√©elles
‚Ä¢ +200 cal si sous-alimentation
‚Ä¢ V√©rifiez prot√©ines : 1.8-2g/kg

**4. PROGRESSION FORC√âE :**
‚Ä¢ Techniques avanc√©es : drop sets, rest-pause
‚Ä¢ +2.5kg ou +2 reps OBLIGATOIRE chaque semaine

üí° **PATIENCE + PERSISTENCE = VICTOIRE GARANTIE !**"""
    },
    
    {
        "input": "Mal au dos apr√®s squats, que faire ?",
        "output": """‚ö†Ô∏è **PROTOCOLE URGENCE MAL DE DOS :**

**üö® IMM√âDIATEMENT :**
‚Ä¢ ARR√äT complet des squats
‚Ä¢ Pas de charge sur le dos pendant 1 semaine
‚Ä¢ Marche l√©g√®re uniquement

**üîç CAUSES PROBABLES :**
‚Ä¢ Technique incorrecte (genoux qui rentrent)
‚Ä¢ Manque mobilit√© chevilles/hanches
‚Ä¢ Core trop faible
‚Ä¢ Progression trop rapide

**ü©∫ PLAN DE R√âCUP√âRATION (2 semaines) :**

**Semaine 1 - Repos actif :**
‚Ä¢ √âtirements doux : psoas, ischio-jambiers
‚Ä¢ Renforcement core : planche, dead bug
‚Ä¢ Mobilit√© hanches : 10min/jour

**Semaine 2 - Reprise progressive :**
‚Ä¢ Goblet squats (poids devant) l√©gers
‚Ä¢ Amplitude partielle puis compl√®te
‚Ä¢ Focus TECHNIQUE avant charge

**üîÑ PR√âVENTION FUTURE :**
‚úÖ √âchauffement 10min minimum
‚úÖ Mobilit√© quotidienne hanches/chevilles
‚úÖ Renforcement core 3x/semaine
‚úÖ Progression +5% max par semaine

**üö® SI DOULEUR PERSISTE ‚Üí Kin√©sith√©rapeute OBLIGATOIRE**

üí° **Rappel :** 2 semaines de repos > 6 mois de blessure !"""
    },
    
    {
        "input": "Plus motiv√©, je veux tout abandonner",
        "output": """üî• **RECONQU√äTE MOTIVATION - STRAT√âGIE PSYCHOLOGIQUE :**

**üß† R√âALIT√â CHECK :**
‚Ä¢ La motivation FLUCTUE chez TOUT LE MONDE
‚Ä¢ Les champions ont des jours difficiles aussi
‚Ä¢ Les HABITUDES battent la motivation

**üí™ TECHNIQUES ANTI-ABANDON :**

**1. R√àGLE DES 2 MINUTES :**
‚Ä¢ "Je fais juste 2 pompes"
‚Ä¢ 90% du temps, vous continuerez !
‚Ä¢ Maintenir l'habitude > performance

**2. SYST√àME R√âCOMPENSES :**
‚Ä¢ 1 semaine compl√®te = film/massage
‚Ä¢ 2 semaines = nouveau v√™tement sport
‚Ä¢ 1 mois = week-end d√©tente
‚Ä¢ 3 mois = objectif √âNORME

**3. ACCOUNTABILITY POWER :**
‚Ä¢ Partenaire d'entra√Ænement
‚Ä¢ Photos de progression
‚Ä¢ Journal de victoires (m√™me petites)

**4. RAPPEL PUISSANT :**
‚Ä¢ Listez POURQUOI vous avez commenc√©
‚Ä¢ Visualisez la version FORTE de vous-m√™me
‚Ä¢ Vous ne regrettez JAMAIS une s√©ance faite

**üèÜ MANTRA COACH :**
"Chaque jour, je choisis entre la version forte et faible de moi.
Aujourd'hui, je choisis la FORCE !"

üí• **VOUS AVEZ LE POUVOIR ! REPRENEZ-LE !**"""
    }
]

print(f"‚úÖ {len(expert_coaching_data)} exemples d'expertise coaching ajout√©s")

# === FUSION FINALE OPTIMIS√âE ===
print(f"\nüîó Fusion optimis√©e des datasets...")

# V√©rification des donn√©es pars√©es
print(f"üîç V√©rification des donn√©es :")
print(f"   ‚Ä¢ Conversations GYM pars√©es : {len(gym_enhanced_data)}")
print(f"   ‚Ä¢ Expertise coaching : {len(expert_coaching_data)}")

if len(gym_enhanced_data) == 0:
    print(f"‚ö†Ô∏è Aucune conversation GYM pars√©e ! Utilisation expertise uniquement.")
    gym_sample = []
    final_dataset = expert_coaching_data
else:
    # √âquilibrage intelligent : 70% GYM pars√© + 30% expertise
    total_expert = len(expert_coaching_data)
    target_gym_count = int(total_expert * 2.33)  # Pour ratio 70/30
    
    if len(gym_enhanced_data) > target_gym_count:
        gym_sample = random.sample(gym_enhanced_data, target_gym_count)
    else:
        gym_sample = gym_enhanced_data
    
    # Fusion et m√©lange
    final_dataset = expert_coaching_data + gym_sample

random.shuffle(final_dataset)

print(f"üìä Dataset final optimis√© :")
print(f"   ‚Ä¢ Expertise coaching sp√©cialis√©e : {len(expert_coaching_data)} exemples")
print(f"   ‚Ä¢ GYM conversationnel am√©lior√© : {len(gym_sample)} exemples")
print(f"   ‚Ä¢ TOTAL : {len(final_dataset)} exemples")

# Calcul du ratio s√©curis√©
if len(gym_sample) > 0:
    ratio_expertise = (len(expert_coaching_data) / len(gym_sample)) * 100
    print(f"   ‚Ä¢ Ratio expertise/gym : {len(expert_coaching_data)}/{len(gym_sample)} = {ratio_expertise:.0f}%/70%")
else:
    print(f"   ‚Ä¢ Ratio : 100% expertise (pas de donn√©es GYM pars√©es)")

# Diagnostic si probl√®me de parsing
if len(gym_enhanced_data) == 0:
    print(f"\nüîç DIAGNOSTIC PARSING :")
    print(f"   ‚Ä¢ Dataset original : {len(gym_df)} lignes")
    print(f"   ‚Ä¢ Parsing r√©ussi : {len(gym_parsed_data)} conversations")
    print(f"   ‚Ä¢ Am√©lioration r√©ussie : {len(gym_enhanced_data)} conversations")
    
    if len(gym_parsed_data) == 0:
        print(f"   ‚ùå Probl√®me : Aucune conversation pars√©e du format [INST]...[/INST]")
        print(f"   üí° Solution : V√©rification du format des donn√©es")
        
        # Affichage d'un √©chantillon pour debug
        print(f"\nüìÑ √âchantillon des donn√©es brutes :")
        for i in range(min(2, len(gym_df))):
            sample_text = str(gym_df.iloc[i]['text'])[:200]
            print(f"   Ligne {i+1}: {sample_text}...")
    
    print(f"   üí™ Pas de probl√®me ! L'expertise coaching suffit pour l'entra√Ænement.")

# === VALIDATION QUALIT√â (suite du code inchang√©e) ===
print(f"\nüéØ Validation de la qualit√© :")

# Analyse des mots-cl√©s coaching
coaching_keywords = ['coach', 'conseil', 'progression', 's√©curit√©', 'technique', 'motivation']
keyword_coverage = 0

sample_size = min(50, len(final_dataset))
for example in final_dataset[:sample_size]:
    response_lower = example['output'].lower()
    if any(kw in response_lower for kw in coaching_keywords):
        keyword_coverage += 1

if sample_size > 0:
    coverage_percentage = (keyword_coverage / sample_size) * 100
    print(f"   ‚Ä¢ Couverture mots-cl√©s coaching : {coverage_percentage:.0f}%")
    print(f"   ‚Ä¢ Longueur moyenne r√©ponses : {np.mean([len(ex['output']) for ex in final_dataset]):.0f} caract√®res")
    print(f"   ‚Ä¢ Qualit√© : {'‚úÖ Excellente' if coverage_percentage > 70 else '‚ö†Ô∏è √Ä am√©liorer'}")
else:
    print(f"   ‚ùå Aucune donn√©e √† valider")

# Aper√ßu final
if len(final_dataset) > 0:
    print(f"\nüéØ Aper√ßu du dataset final :")
    for i in range(min(2, len(final_dataset))):
        example = final_dataset[i]
        print(f"\n--- Exemple {i+1} ---")
        print(f"‚ùì Question: {example['input'][:70]}...")
        print(f"ü§ñ R√©ponse: {example['output'][:120]}...")

    print(f"\n‚úÖ CELLULE 1 TERMIN√âE - Dataset conversationnel pr√™t pour l'entra√Ænement !")
    print(f"üéØ {len(final_dataset)} exemples de coaching de haute qualit√© pr√©par√©s")
else:
    print(f"\n‚ùå PROBL√àME : Dataset final vide")
    print(f"üí° V√©rifiez le parsing ou utilisez uniquement l'expertise coaching")

In [None]:
# ============================================================================
# CELLULE 2 : CONFIGURATION ET ENTRA√éNEMENT MT5
# ============================================================================

print("ü§ñ CELLULE 2 : Configuration et entra√Ænement MT5")
print("=" * 50)

# === PR√âPARATION POUR MT5 ===
print("\nüîÑ Pr√©paration des donn√©es pour MT5...")

def create_mt5_prompts(dataset):
    """Cr√©e des prompts optimis√©s pour MT5"""
    mt5_dataset = []
    
    for example in dataset:
        # Prompt structur√© pour MT5 avec pr√©fixe coaching
        mt5_prompt = f"coach fitness expert: {example['input']}"
        
        mt5_dataset.append({
            "input": mt5_prompt,
            "output": example['output']
        })
    
    return mt5_dataset

# Conversion des donn√©es
mt5_dataset = create_mt5_prompts(final_dataset)

# Division train/validation stratifi√©e
train_data, val_data = train_test_split(mt5_dataset, test_size=0.15, random_state=42)

print(f"üìä Donn√©es MT5 pr√©par√©es :")
print(f"   ‚Ä¢ Entra√Ænement : {len(train_data)} exemples")
print(f"   ‚Ä¢ Validation : {len(val_data)} exemples")

# V√©rification de la qualit√© des donn√©es
if len(train_data) < 10:
    print(f"‚ö†Ô∏è Dataset petit ({len(train_data)} exemples d'entra√Ænement)")
    print(f"üí° L'entra√Ænement sera rapide mais moins robuste")
else:
    print(f"‚úÖ Dataset suffisant pour un bon entra√Ænement")

# === CHARGEMENT MOD√àLE MT5 ===
print(f"\nü§ñ Chargement du mod√®le MT5...")

model_name = "google/mt5-base"
try:
    tokenizer = MT5Tokenizer.from_pretrained(model_name)
    model = MT5ForConditionalGeneration.from_pretrained(model_name)
    print(f"‚úÖ Mod√®le {model_name} charg√© avec succ√®s")
except Exception as e:
    print(f"‚ùå Erreur chargement mod√®le : {e}")
    print(f"üí° V√©rifiez votre connexion internet")
    raise

# Param√®tres optimis√©s pour coaching
max_input_length = 512
max_target_length = 400  # Plus long pour r√©ponses d√©taill√©es

print(f"‚öôÔ∏è Configuration :")
print(f"   ‚Ä¢ Input max : {max_input_length} tokens")
print(f"   ‚Ä¢ Output max : {max_target_length} tokens")
print(f"   ‚Ä¢ Device : {device}")

# Transfert du mod√®le sur le device appropri√©
model.to(device)
print(f"‚úÖ Mod√®le transf√©r√© sur {device}")

# === PR√âPROCESSING POUR ENTRA√éNEMENT ===
print(f"\nüîÑ Configuration du preprocessing...")

def preprocess_mt5_coaching(examples):
    """Pr√©processing optimis√© pour coaching MT5"""
    
    inputs = examples["input"]
    targets = examples["output"]
    
    # Tokenisation inputs
    model_inputs = tokenizer(
        inputs,
        max_length=max_input_length,
        truncation=True,
        padding=True
    )
    
    # Tokenisation targets
    labels = tokenizer(
        targets,
        max_length=max_target_length,
        truncation=True,
        padding=True
    )
    
    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

# Conversion en datasets Hugging Face
print("üîÑ Tokenisation des donn√©es...")
try:
    train_dataset = Dataset.from_pandas(pd.DataFrame(train_data))
    val_dataset = Dataset.from_pandas(pd.DataFrame(val_data))
    
    tokenized_train = train_dataset.map(preprocess_mt5_coaching, batched=True)
    tokenized_val = val_dataset.map(preprocess_mt5_coaching, batched=True)
    print("‚úÖ Tokenisation termin√©e")
except Exception as e:
    print(f"‚ùå Erreur tokenisation : {e}")
    raise

# === CONFIGURATION ENTRA√éNEMENT ===
print("\n‚öôÔ∏è Configuration de l'entra√Ænement...")

# Arguments d'entra√Ænement optimis√©s pour coaching
# Adaptation selon la taille du dataset
if len(train_data) < 50:
    # Dataset tr√®s petit
    num_epochs = 8
    batch_size = 1
    eval_steps = 10
    save_steps = 20
    warmup_steps = 5
    print("üìä Configuration adapt√©e : Dataset tr√®s petit")
elif len(train_data) < 200:
    # Dataset petit
    num_epochs = 6
    batch_size = 2
    eval_steps = 25
    save_steps = 50
    warmup_steps = 20
    print("üìä Configuration adapt√©e : Dataset petit")
else:
    # Dataset standard
    num_epochs = 4
    batch_size = 2
    eval_steps = 100
    save_steps = 200
    warmup_steps = 100
    print("üìä Configuration adapt√©e : Dataset standard")

training_args = TrainingArguments(
    output_dir="./mt5-expert-fitness-coach",
    num_train_epochs=num_epochs,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    warmup_steps=warmup_steps,
    weight_decay=0.01,
    learning_rate=3e-5,  # Learning rate optimal pour fine-tuning
    logging_dir="./logs",
    logging_steps=max(10, len(train_data) // 10),  # Adaptatif
    evaluation_strategy="steps",
    eval_steps=eval_steps,
    save_steps=save_steps,
    save_total_limit=3,
    load_best_model_at_end=True,
    metric_for_best_model="eval_loss",
    greater_is_better=False,
    gradient_accumulation_steps=max(1, 4 // batch_size),  # Simule batch_size plus grand
    fp16=torch.cuda.is_available(),  # Optimisation GPU si disponible
    dataloader_pin_memory=False,
    remove_unused_columns=False,
    report_to=None,  # D√©sactive wandb
    disable_tqdm=False,  # Affichage des barres de progression
)

print(f"‚úÖ Configuration termin√©e :")
print(f"   ‚Ä¢ √âpoques : {training_args.num_train_epochs}")
print(f"   ‚Ä¢ Batch size : {training_args.per_device_train_batch_size}")
print(f"   ‚Ä¢ Learning rate : {training_args.learning_rate}")
print(f"   ‚Ä¢ Gradient accumulation : {training_args.gradient_accumulation_steps}")
print(f"   ‚Ä¢ √âvaluation toutes les {training_args.eval_steps} √©tapes")

# Data collator
try:
    data_collator = DataCollatorForSeq2Seq(
        tokenizer=tokenizer,
        model=model,
        padding=True
    )
    print("‚úÖ Data collator configur√©")
except Exception as e:
    print(f"‚ùå Erreur data collator : {e}")
    raise

# === INITIALISATION TRAINER ===
print(f"\nüèãÔ∏è Initialisation du Trainer...")

try:
    trainer = Trainer(
        model=model,
        args=training_args,
        train_dataset=tokenized_train,
        eval_dataset=tokenized_val,
        data_collator=data_collator,
        tokenizer=tokenizer
    )
    print("‚úÖ Trainer configur√© et pr√™t")
except Exception as e:
    print(f"‚ùå Erreur configuration Trainer : {e}")
    raise

# Estimation du temps d'entra√Ænement
steps_per_epoch = len(tokenized_train) // (training_args.per_device_train_batch_size * training_args.gradient_accumulation_steps)
total_steps = steps_per_epoch * training_args.num_train_epochs
estimated_time_gpu = total_steps * 2 / 60  # ~2 secondes par step sur GPU
estimated_time_cpu = total_steps * 10 / 60  # ~10 secondes par step sur CPU

print(f"\nüìä Estimation entra√Ænement :")
print(f"   ‚Ä¢ Steps par √©poque : {steps_per_epoch}")
print(f"   ‚Ä¢ Steps total : {total_steps}")
if torch.cuda.is_available():
    print(f"   ‚Ä¢ Temps estim√© (GPU) : {estimated_time_gpu:.1f} minutes")
else:
    print(f"   ‚Ä¢ Temps estim√© (CPU) : {estimated_time_cpu:.1f} minutes")

# === ENTRA√éNEMENT ===
print(f"\nüöÄ D√âBUT DE L'ENTRA√éNEMENT DU COACH EXPERT")
print("=" * 50)
print("‚è±Ô∏è L'entra√Ænement va commencer...")
print("üí° Surveillez eval_loss : doit diminuer progressivement")
print("üîÑ Vous pouvez interrompre avec Ctrl+C si n√©cessaire")

try:
    # Lancement de l'entra√Ænement
    trainer.train()
    print("\nüéâ ENTRA√éNEMENT TERMIN√â AVEC SUCC√àS !")
    
except KeyboardInterrupt:
    print("\n‚èπÔ∏è Entra√Ænement interrompu par l'utilisateur")
    print("üíæ Sauvegarde du mod√®le en cours d'entra√Ænement...")
    
except Exception as e:
    print(f"\n‚ùå Erreur pendant l'entra√Ænement : {e}")
    print("üíæ Tentative de sauvegarde...")

# === SAUVEGARDE ===
print(f"\nüíæ Sauvegarde du mod√®le expert...")

model_save_path = "./mt5-expert-fitness-coach"

try:
    # Cr√©ation du dossier si n√©cessaire
    Path(model_save_path).mkdir(exist_ok=True)
    
    # Sauvegarde du mod√®le et tokenizer
    trainer.save_model(model_save_path)
    tokenizer.save_pretrained(model_save_path)
    
    # Configuration de l'entra√Ænement
    training_config = {
        "model_name": "mt5-expert-fitness-coach",
        "base_model": "google/mt5-base",
        "training_examples": len(train_data),
        "validation_examples": len(val_data),
        "total_examples": len(final_dataset),
        "max_input_length": max_input_length,
        "max_target_length": max_target_length,
        "epochs": training_args.num_train_epochs,
        "batch_size": training_args.per_device_train_batch_size,
        "learning_rate": training_args.learning_rate,
        "training_date": pd.Timestamp.now().isoformat(),
        "device_used": str(device),
        "performance_notes": "Coach expert avec dataset conversationnel + expertise professionnelle"
    }
    
    with open(f"{model_save_path}/training_config.json", "w", encoding='utf-8') as f:
        json.dump(training_config, f, indent=2, ensure_ascii=False)
    
    print(f"‚úÖ Mod√®le expert sauvegard√© dans : {model_save_path}")
    print("‚úÖ Configuration sauvegard√©e")
    
    # Affichage du chemin absolu pour r√©f√©rence
    absolute_path = Path(model_save_path).resolve()
    print(f"üìÅ Chemin absolu : {absolute_path}")
    
except Exception as e:
    print(f"‚ùå Erreur sauvegarde : {e}")

# === V√âRIFICATION POST-ENTRA√éNEMENT ===
print(f"\nüîç V√©rification post-entra√Ænement...")

# V√©rification des fichiers sauvegard√©s
expected_files = ["config.json", "pytorch_model.bin", "tokenizer.json", "training_config.json"]
missing_files = []

for file in expected_files:
    file_path = Path(model_save_path) / file
    if file_path.exists():
        file_size = file_path.stat().st_size / (1024*1024)  # MB
        print(f"   ‚úÖ {file} ({file_size:.1f} MB)")
    else:
        missing_files.append(file)
        print(f"   ‚ùå {file} manquant")

if missing_files:
    print(f"‚ö†Ô∏è Fichiers manquants : {missing_files}")
    print(f"üí° L'entra√Ænement a peut-√™tre √©t√© interrompu")
else:
    print(f"‚úÖ Tous les fichiers essentiels pr√©sents")

print(f"\n‚úÖ CELLULE 2 TERMIN√âE - Mod√®le expert entra√Æn√© et sauvegard√© !")
print(f"üéØ Pr√™t pour les tests et l'export Django (Cellule 3)")

message.txt