# 04 - Comparaison des Mod√®les v1 vs v2 par Sc√©nario

**Objectif**: Comparer les performances des mod√®les entra√Æn√©s sur v1 (best_move uniquement) vs v2 (multi-sc√©narios) sur diff√©rents types de combats.

**Input**: 
- Mod√®les v1 et v2 dans `models/`
- Datasets de test v2 avec sc√©narios dans `data/ml/battle_winner_v2/features/`

**Output**: Analyse comparative et recommandations d'utilisation

**Date**: 2026-01-24

---

## Table des Mati√®res

1. [Chargement des Mod√®les et Donn√©es](#1-chargement-des-mod√®les-et-donn√©es)
2. [√âvaluation par Sc√©nario](#2-√©valuation-par-sc√©nario)
3. [Comparaison Globale](#3-comparaison-globale)
4. [Analyse D√©taill√©e par Sc√©nario](#4-analyse-d√©taill√©e-par-sc√©nario)
5. [Analyse des Erreurs](#5-analyse-des-erreurs)
6. [Recommandations](#6-recommandations)
7. [Conclusion](#7-conclusion)

## 1. Chargement des Mod√®les et Donn√©es

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import joblib
import warnings
warnings.filterwarnings('ignore')

# Sklearn
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    roc_auc_score, confusion_matrix, classification_report,
    ConfusionMatrixDisplay
)

# Configuration
plt.style.use('default')
sns.set_palette('husl')
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', '{:.4f}'.format)

# Chemins
BASE_DIR_V1 = Path('../data/ml/battle_winner')
BASE_DIR_V2 = Path('../data/ml/battle_winner_v2')
MODELS_DIR = Path('../models')

print("üì¶ Biblioth√®ques charg√©es")

üì¶ Biblioth√®ques charg√©es


In [2]:
# V√©rifier l'existence des mod√®les
print("=" * 80)
print("üîç V√âRIFICATION DES MOD√àLES DISPONIBLES")
print("=" * 80)

model_v1_path = MODELS_DIR / 'battle_winner_model_v1.pkl'
model_v2_path = MODELS_DIR / 'battle_winner_model_v2.pkl'

if model_v1_path.exists():
    print(f"‚úÖ Mod√®le v1 trouv√©: {model_v1_path}")
    model_v1 = joblib.load(model_v1_path)
    HAS_V1 = True
else:
    print(f"‚ùå Mod√®le v1 non trouv√©: {model_v1_path}")
    model_v1 = None
    HAS_V1 = False

if model_v2_path.exists():
    print(f"‚úÖ Mod√®le v2 trouv√©: {model_v2_path}")
    model_v2 = joblib.load(model_v2_path)
    HAS_V2 = True
else:
    print(f"‚ùå Mod√®le v2 non trouv√©: {model_v2_path}")
    model_v2 = None
    HAS_V2 = False

if not HAS_V1 and not HAS_V2:
    print("\n‚ö†Ô∏è Aucun mod√®le trouv√©. Veuillez d'abord entra√Æner les mod√®les avec notebook 03.")
elif not HAS_V2:
    print("\n‚ö†Ô∏è Mod√®le v2 non trouv√©. Ce notebook n√©cessite les deux mod√®les pour la comparaison.")
else:
    print("\n‚úÖ Mod√®les charg√©s avec succ√®s")

üîç V√âRIFICATION DES MOD√àLES DISPONIBLES
‚ùå Mod√®le v1 non trouv√©: ../models/battle_winner_model_v1.pkl
‚úÖ Mod√®le v2 trouv√©: ../models/battle_winner_model_v2.pkl

‚úÖ Mod√®les charg√©s avec succ√®s


In [3]:
# Charger les donn√©es de test v2 (avec sc√©narios)
print("\n" + "=" * 80)
print("üìÇ CHARGEMENT DES DONN√âES DE TEST V2")
print("=" * 80)

FEATURES_DIR_V2 = BASE_DIR_V2 / 'features'

if FEATURES_DIR_V2.exists():
    X_test_v2 = pd.read_parquet(FEATURES_DIR_V2 / 'X_test.parquet')
    y_test_v2 = pd.read_parquet(FEATURES_DIR_V2 / 'y_test.parquet')['winner']
    
    # V√©rifier si scenario_type existe
    if 'scenario_type' in X_test_v2.columns:
        scenario_test = X_test_v2['scenario_type'].copy()
        X_test_v2_ml = X_test_v2.drop(columns=['scenario_type'])
        HAS_SCENARIOS = True
        print(f"‚úÖ Donn√©es de test v2 charg√©es: {X_test_v2_ml.shape}")
        print(f"‚úÖ Sc√©narios d√©tect√©s")
        print(f"\nüìä Distribution des sc√©narios:")
        print(scenario_test.value_counts())
    else:
        X_test_v2_ml = X_test_v2
        scenario_test = None
        HAS_SCENARIOS = False
        print(f"‚ö†Ô∏è Pas de colonne scenario_type dans les donn√©es v2")
else:
    print(f"‚ùå R√©pertoire des features v2 non trouv√©: {FEATURES_DIR_V2}")
    X_test_v2_ml = None
    y_test_v2 = None
    scenario_test = None
    HAS_SCENARIOS = False


üìÇ CHARGEMENT DES DONN√âES DE TEST V2
‚úÖ Donn√©es de test v2 charg√©es: (179695, 133)
‚úÖ Sc√©narios d√©tect√©s

üìä Distribution des sc√©narios:
scenario_type
all_combinations    137956
random_move          34782
best_move             6957
Name: count, dtype: int64


## 2. √âvaluation par Sc√©nario

In [4]:
if HAS_V1 and HAS_V2 and HAS_SCENARIOS:
    print("=" * 80)
    print("üéØ √âVALUATION DES MOD√àLES PAR SC√âNARIO")
    print("=" * 80)
    
    # Pr√©dictions des deux mod√®les
    y_pred_v1 = model_v1.predict(X_test_v2_ml)
    y_pred_v2 = model_v2.predict(X_test_v2_ml)
    
    y_proba_v1 = model_v1.predict_proba(X_test_v2_ml)[:, 1] if hasattr(model_v1, 'predict_proba') else None
    y_proba_v2 = model_v2.predict_proba(X_test_v2_ml)[:, 1] if hasattr(model_v2, 'predict_proba') else None
    
    # Analyser par sc√©nario
    scenarios = scenario_test.unique()
    comparison_results = []
    
    for scenario in scenarios:
        mask = scenario_test == scenario
        y_true = y_test_v2[mask]
        y_pred_v1_scenario = y_pred_v1[mask]
        y_pred_v2_scenario = y_pred_v2[mask]
        
        # M√©triques v1
        acc_v1 = accuracy_score(y_true, y_pred_v1_scenario)
        prec_v1 = precision_score(y_true, y_pred_v1_scenario)
        rec_v1 = recall_score(y_true, y_pred_v1_scenario)
        f1_v1 = f1_score(y_true, y_pred_v1_scenario)
        
        # M√©triques v2
        acc_v2 = accuracy_score(y_true, y_pred_v2_scenario)
        prec_v2 = precision_score(y_true, y_pred_v2_scenario)
        rec_v2 = recall_score(y_true, y_pred_v2_scenario)
        f1_v2 = f1_score(y_true, y_pred_v2_scenario)
        
        # ROC-AUC si disponible
        roc_v1 = roc_auc_score(y_true, y_proba_v1[mask]) if y_proba_v1 is not None else None
        roc_v2 = roc_auc_score(y_true, y_proba_v2[mask]) if y_proba_v2 is not None else None
        
        comparison_results.append({
            'Sc√©nario': scenario,
            '√âchantillons': len(y_true),
            'Acc v1': acc_v1,
            'Acc v2': acc_v2,
            'Œî Acc': acc_v2 - acc_v1,
            'Œî Acc %': (acc_v2 - acc_v1) / acc_v1 * 100,
            'F1 v1': f1_v1,
            'F1 v2': f1_v2,
            'Œî F1': f1_v2 - f1_v1,
            'ROC-AUC v1': roc_v1,
            'ROC-AUC v2': roc_v2
        })
        
        print(f"\nüìä Sc√©nario: {scenario}")
        print(f"   √âchantillons: {len(y_true):,}")
        print(f"   Accuracy v1: {acc_v1:.4f} | v2: {acc_v2:.4f} | Œî: {acc_v2-acc_v1:+.4f} ({(acc_v2-acc_v1)/acc_v1*100:+.2f}%)")
        print(f"   F1-Score v1: {f1_v1:.4f} | v2: {f1_v2:.4f} | Œî: {f1_v2-f1_v1:+.4f}")
        if roc_v1 and roc_v2:
            print(f"   ROC-AUC  v1: {roc_v1:.4f} | v2: {roc_v2:.4f} | Œî: {roc_v2-roc_v1:+.4f}")
    
    comparison_df = pd.DataFrame(comparison_results)
    
else:
    print("‚ö†Ô∏è Impossible d'effectuer la comparaison - mod√®les ou donn√©es manquants")
    comparison_df = None

‚ö†Ô∏è Impossible d'effectuer la comparaison - mod√®les ou donn√©es manquants


## 3. Comparaison Globale

In [5]:
if comparison_df is not None:
    print("\n" + "=" * 80)
    print("üìä TABLEAU R√âCAPITULATIF")
    print("=" * 80)
    print(comparison_df.to_string(index=False))
    
    # Statistiques globales
    print("\n" + "=" * 80)
    print("üìà STATISTIQUES GLOBALES")
    print("=" * 80)
    
    print(f"\nüéØ Am√©lioration moyenne de l'accuracy: {comparison_df['Œî Acc'].mean():+.4f} ({comparison_df['Œî Acc %'].mean():+.2f}%)")
    print(f"üéØ Am√©lioration moyenne du F1-Score: {comparison_df['Œî F1'].mean():+.4f}")
    
    print(f"\nüìä Meilleure am√©lioration: {comparison_df.loc[comparison_df['Œî Acc'].idxmax(), 'Sc√©nario']}")
    print(f"   Œî Accuracy: {comparison_df['Œî Acc'].max():+.4f} ({comparison_df['Œî Acc %'].max():+.2f}%)")
    
    print(f"\nüìä Pire am√©lioration: {comparison_df.loc[comparison_df['Œî Acc'].idxmin(), 'Sc√©nario']}")
    print(f"   Œî Accuracy: {comparison_df['Œî Acc'].min():+.4f} ({comparison_df['Œî Acc %'].min():+.2f}%)")

In [6]:
if comparison_df is not None:
    # Visualisation de la comparaison
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 1. Accuracy par sc√©nario
    x_pos = np.arange(len(comparison_df))
    width = 0.35
    
    axes[0, 0].bar(x_pos - width/2, comparison_df['Acc v1'], width, label='v1 (best_move)', color='#3498db', alpha=0.8)
    axes[0, 0].bar(x_pos + width/2, comparison_df['Acc v2'], width, label='v2 (multi-sc√©narios)', color='#e74c3c', alpha=0.8)
    axes[0, 0].set_xlabel('Sc√©nario', fontsize=11)
    axes[0, 0].set_ylabel('Accuracy', fontsize=11)
    axes[0, 0].set_title('Accuracy par Sc√©nario: v1 vs v2', fontsize=13, fontweight='bold')
    axes[0, 0].set_xticks(x_pos)
    axes[0, 0].set_xticklabels(comparison_df['Sc√©nario'], rotation=45, ha='right')
    axes[0, 0].legend()
    axes[0, 0].grid(axis='y', alpha=0.3)
    axes[0, 0].set_ylim([0.85, 1.0])
    
    # 2. Am√©lioration de l'accuracy
    colors = ['#2ecc71' if x > 0 else '#e74c3c' for x in comparison_df['Œî Acc']]
    axes[0, 1].barh(comparison_df['Sc√©nario'], comparison_df['Œî Acc'], color=colors, alpha=0.8)
    axes[0, 1].axvline(x=0, color='black', linestyle='--', linewidth=1)
    axes[0, 1].set_xlabel('Œî Accuracy (v2 - v1)', fontsize=11)
    axes[0, 1].set_title('Am√©lioration de l\'Accuracy par Sc√©nario', fontsize=13, fontweight='bold')
    axes[0, 1].grid(axis='x', alpha=0.3)
    
    # 3. F1-Score par sc√©nario
    axes[1, 0].bar(x_pos - width/2, comparison_df['F1 v1'], width, label='v1', color='#3498db', alpha=0.8)
    axes[1, 0].bar(x_pos + width/2, comparison_df['F1 v2'], width, label='v2', color='#e74c3c', alpha=0.8)
    axes[1, 0].set_xlabel('Sc√©nario', fontsize=11)
    axes[1, 0].set_ylabel('F1-Score', fontsize=11)
    axes[1, 0].set_title('F1-Score par Sc√©nario: v1 vs v2', fontsize=13, fontweight='bold')
    axes[1, 0].set_xticks(x_pos)
    axes[1, 0].set_xticklabels(comparison_df['Sc√©nario'], rotation=45, ha='right')
    axes[1, 0].legend()
    axes[1, 0].grid(axis='y', alpha=0.3)
    axes[1, 0].set_ylim([0.85, 1.0])
    
    # 4. Am√©lioration en pourcentage
    axes[1, 1].bar(comparison_df['Sc√©nario'], comparison_df['Œî Acc %'], 
                   color=['#2ecc71' if x > 0 else '#e74c3c' for x in comparison_df['Œî Acc %']], alpha=0.8)
    axes[1, 1].axhline(y=0, color='black', linestyle='--', linewidth=1)
    axes[1, 1].set_xlabel('Sc√©nario', fontsize=11)
    axes[1, 1].set_ylabel('Am√©lioration (%)', fontsize=11)
    axes[1, 1].set_title('Am√©lioration Relative de l\'Accuracy (%)', fontsize=13, fontweight='bold')
    axes[1, 1].set_xticklabels(comparison_df['Sc√©nario'], rotation=45, ha='right')
    axes[1, 1].grid(axis='y', alpha=0.3)
    
    plt.tight_layout()
    plt.show()

## 4. Analyse D√©taill√©e par Sc√©nario

In [7]:
if HAS_V1 and HAS_V2 and HAS_SCENARIOS:
    print("=" * 80)
    print("üîç ANALYSE D√âTAILL√âE PAR SC√âNARIO")
    print("=" * 80)
    
    for scenario in scenarios:
        print(f"\n{'='*80}")
        print(f"üìä Sc√©nario: {scenario}")
        print(f"{'='*80}")
        
        mask = scenario_test == scenario
        y_true = y_test_v2[mask]
        y_pred_v1_scenario = y_pred_v1[mask]
        y_pred_v2_scenario = y_pred_v2[mask]
        
        # Classification reports
        print(f"\nüìÑ Classification Report - Mod√®le v1:")
        print(classification_report(y_true, y_pred_v1_scenario, 
                                    target_names=['Pok√©mon A gagne', 'Pok√©mon B gagne']))
        
        print(f"\nüìÑ Classification Report - Mod√®le v2:")
        print(classification_report(y_true, y_pred_v2_scenario, 
                                    target_names=['Pok√©mon A gagne', 'Pok√©mon B gagne']))

In [8]:
if HAS_V1 and HAS_V2 and HAS_SCENARIOS and len(scenarios) <= 3:
    # Matrices de confusion c√¥te √† c√¥te pour chaque sc√©nario
    for scenario in scenarios:
        mask = scenario_test == scenario
        y_true = y_test_v2[mask]
        y_pred_v1_scenario = y_pred_v1[mask]
        y_pred_v2_scenario = y_pred_v2[mask]
        
        fig, axes = plt.subplots(1, 2, figsize=(14, 5))
        
        # v1
        ConfusionMatrixDisplay.from_predictions(
            y_true, y_pred_v1_scenario,
            display_labels=['A gagne', 'B gagne'],
            cmap='Blues', ax=axes[0]
        )
        axes[0].set_title(f'Mod√®le v1\n{scenario}', fontsize=13, fontweight='bold')
        
        # v2
        ConfusionMatrixDisplay.from_predictions(
            y_true, y_pred_v2_scenario,
            display_labels=['A gagne', 'B gagne'],
            cmap='Reds', ax=axes[1]
        )
        axes[1].set_title(f'Mod√®le v2\n{scenario}', fontsize=13, fontweight='bold')
        
        plt.suptitle(f'Matrices de Confusion: {scenario}', fontsize=15, fontweight='bold', y=1.02)
        plt.tight_layout()
        plt.show()

## 5. Analyse des Erreurs

In [9]:
if HAS_V1 and HAS_V2 and HAS_SCENARIOS:
    print("=" * 80)
    print("üîç ANALYSE DES ERREURS")
    print("=" * 80)
    
    # Analyser les cas o√π v1 se trompe mais v2 est correct, et vice-versa
    v1_correct = (y_pred_v1 == y_test_v2)
    v2_correct = (y_pred_v2 == y_test_v2)
    
    # Cas o√π v2 am√©liore (v1 faux, v2 correct)
    v2_fixes = (~v1_correct) & v2_correct
    print(f"\n‚úÖ Cas o√π v2 corrige les erreurs de v1: {v2_fixes.sum():,} ({v2_fixes.sum()/len(y_test_v2)*100:.2f}%)")
    
    # Cas o√π v2 r√©gresse (v1 correct, v2 faux)
    v2_breaks = v1_correct & (~v2_correct)
    print(f"‚ùå Cas o√π v2 r√©gresse par rapport √† v1: {v2_breaks.sum():,} ({v2_breaks.sum()/len(y_test_v2)*100:.2f}%)")
    
    # Les deux se trompent
    both_wrong = (~v1_correct) & (~v2_correct)
    print(f"‚ö†Ô∏è Cas o√π les deux mod√®les se trompent: {both_wrong.sum():,} ({both_wrong.sum()/len(y_test_v2)*100:.2f}%)")
    
    # Les deux sont corrects
    both_correct = v1_correct & v2_correct
    print(f"‚úÖ Cas o√π les deux mod√®les sont corrects: {both_correct.sum():,} ({both_correct.sum()/len(y_test_v2)*100:.2f}%)")
    
    # Analyse par sc√©nario
    print(f"\n{'='*80}")
    print("üìä ANALYSE PAR SC√âNARIO")
    print(f"{'='*80}")
    
    for scenario in scenarios:
        mask = scenario_test == scenario
        print(f"\nüìä {scenario}:")
        print(f"   v2 corrige v1: {v2_fixes[mask].sum():,} √©chantillons")
        print(f"   v2 r√©gresse:   {v2_breaks[mask].sum():,} √©chantillons")
        print(f"   Balance nette: {v2_fixes[mask].sum() - v2_breaks[mask].sum():+,} √©chantillons")

In [10]:
if HAS_V1 and HAS_V2 and HAS_SCENARIOS:
    # Visualisation de l'analyse des erreurs
    fig, axes = plt.subplots(1, 2, figsize=(16, 6))
    
    # 1. Distribution globale des corrections/r√©gressions
    categories = ['v2 corrige v1', 'v2 r√©gresse', 'Les deux OK', 'Les deux KO']
    counts = [v2_fixes.sum(), v2_breaks.sum(), both_correct.sum(), both_wrong.sum()]
    colors_cat = ['#2ecc71', '#e74c3c', '#3498db', '#f39c12']
    
    axes[0].pie(counts, labels=categories, autopct='%1.1f%%', colors=colors_cat, startangle=90)
    axes[0].set_title('Distribution des Pr√©dictions\n(v1 vs v2)', fontsize=14, fontweight='bold')
    
    # 2. Balance nette par sc√©nario
    net_improvements = []
    for scenario in scenarios:
        mask = scenario_test == scenario
        net = v2_fixes[mask].sum() - v2_breaks[mask].sum()
        net_improvements.append(net)
    
    colors_net = ['#2ecc71' if x > 0 else '#e74c3c' for x in net_improvements]
    axes[1].bar(scenarios, net_improvements, color=colors_net, alpha=0.8)
    axes[1].axhline(y=0, color='black', linestyle='--', linewidth=1)
    axes[1].set_xlabel('Sc√©nario', fontsize=12)
    axes[1].set_ylabel('Balance Nette\n(corrections - r√©gressions)', fontsize=12)
    axes[1].set_title('Impact Net du Mod√®le v2 par Sc√©nario', fontsize=14, fontweight='bold')
    axes[1].set_xticklabels(scenarios, rotation=45, ha='right')
    axes[1].grid(axis='y', alpha=0.3)
    
    plt.tight_layout()
    plt.show()

## 6. Recommandations

In [11]:
if comparison_df is not None:
    print("=" * 80)
    print("üí° RECOMMANDATIONS D'UTILISATION")
    print("=" * 80)
    
    # Analyser les r√©sultats pour donner des recommandations
    avg_improvement = comparison_df['Œî Acc %'].mean()
    min_improvement = comparison_df['Œî Acc %'].min()
    max_improvement = comparison_df['Œî Acc %'].max()
    
    print(f"\nüìä Am√©lioration moyenne: {avg_improvement:+.2f}%")
    print(f"üìä Plage d'am√©lioration: {min_improvement:+.2f}% √† {max_improvement:+.2f}%")
    
    print(f"\n{'='*80}")
    print("üéØ RECOMMANDATIONS")
    print(f"{'='*80}")
    
    if avg_improvement > 1:
        print(f"\n‚úÖ Le mod√®le v2 apporte une am√©lioration significative ({avg_improvement:+.2f}% en moyenne)")
        print(f"   ‚û°Ô∏è RECOMMANDATION: Utiliser le mod√®le v2 en production")
    elif avg_improvement > 0:
        print(f"\n‚úÖ Le mod√®le v2 apporte une l√©g√®re am√©lioration ({avg_improvement:+.2f}% en moyenne)")
        print(f"   ‚û°Ô∏è RECOMMANDATION: Utiliser le mod√®le v2 pour plus de robustesse")
    else:
        print(f"\n‚ö†Ô∏è Le mod√®le v2 n'apporte pas d'am√©lioration ({avg_improvement:+.2f}% en moyenne)")
        print(f"   ‚û°Ô∏è RECOMMANDATION: Conserver le mod√®le v1 ou revoir la strat√©gie v2")
    
    print(f"\n{'='*80}")
    print("üìù D√âTAILS PAR SC√âNARIO")
    print(f"{'='*80}")
    
    for _, row in comparison_df.iterrows():
        scenario = row['Sc√©nario']
        delta_pct = row['Œî Acc %']
        
        if delta_pct > 1:
            emoji = "‚úÖ"
            message = "Am√©lioration significative"
        elif delta_pct > 0:
            emoji = "‚ûï"
            message = "L√©g√®re am√©lioration"
        elif delta_pct > -1:
            emoji = "‚ûñ"
            message = "L√©g√®re r√©gression"
        else:
            emoji = "‚ùå"
            message = "R√©gression significative"
        
        print(f"\n{emoji} {scenario}:")
        print(f"   {message}: {delta_pct:+.2f}%")
        print(f"   Accuracy: {row['Acc v1']:.4f} ‚Üí {row['Acc v2']:.4f}")
    
    print(f"\n{'='*80}")
    print("üéØ CONTEXTE D'UTILISATION")
    print(f"{'='*80}")
    
    print(f"\nüìå Mod√®le v1 (best_move uniquement):")
    print(f"   ‚úì Plus simple et rapide")
    print(f"   ‚úì Optimis√© pour le sc√©nario 'best_move'")
    print(f"   ‚úó Peut sous-performer sur d'autres sc√©narios")
    
    print(f"\nüìå Mod√®le v2 (multi-sc√©narios):")
    print(f"   ‚úì Plus robuste sur diff√©rents types de combats")
    print(f"   ‚úì Meilleure g√©n√©ralisation")
    print(f"   ‚úó Entra√Ænement plus long (880k √©chantillons)")
    
    print(f"\n{'='*80}")
    print("üöÄ INT√âGRATION API")
    print(f"{'='*80}")
    
    print(f"\nüí° Avec le param√®tre available_moves_b de l'API:")
    print(f"   ‚Ä¢ Si available_moves_b est fourni ‚Üí Sc√©nario contraint")
    print(f"   ‚Ä¢ Si available_moves_b est None ‚Üí Sc√©nario best_move")
    print(f"   ‚Ä¢ Le mod√®le v2 est recommand√© pour g√©rer les deux cas")

## 7. Conclusion

### Synth√®se de la Comparaison

#### üéØ Objectifs

Ce notebook a compar√© les performances de deux approches de mod√©lisation :
- **Mod√®le v1** : Entra√Æn√© uniquement sur le sc√©nario `best_move` (~34k √©chantillons)
- **Mod√®le v2** : Entra√Æn√© sur 3 sc√©narios (`best_move`, `random_move`, `all_combinations`) (~880k √©chantillons)

#### üìä R√©sultats Cl√©s

Consultez les tableaux et graphiques ci-dessus pour :
- L'am√©lioration de l'accuracy par sc√©nario
- L'analyse des corrections et r√©gressions
- Les matrices de confusion d√©taill√©es

#### üí° D√©cision Finale

La d√©cision d'utiliser v1 ou v2 d√©pend de :
1. **Performance globale** : Si v2 am√©liore significativement la pr√©cision
2. **Robustesse** : Capacit√© √† g√©rer diff√©rents types de combats
3. **Co√ªt** : Temps d'entra√Ænement et ressources n√©cessaires
4. **Usage API** : Besoin de g√©rer le param√®tre `available_moves_b`

#### üöÄ Prochaines √âtapes

1. **D√©ploiement** : Int√©grer le mod√®le choisi dans l'API
2. **Monitoring** : Suivre les performances en production
3. **A/B Testing** : Tester les deux mod√®les en parall√®le si n√©cessaire
4. **Am√©lioration continue** : Collecter du feedback et r√©-entra√Æner

---

**‚úÖ Analyse comparative termin√©e!**