# Exploration de la dérive du modèle ML
Ce notebook permet d'explorer manuellement les distributions des features entre les datasets **train** et **production** .

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import ks_2samp

# Charger les données
train_df = pd.read_csv('train_data.csv')
prod_df = pd.read_csv('prod_data.csv')

# Liste des features à analyser
features = ['age', 'income', 'country', 'gender', 'transaction_amount']

## Comparaison des distributions numériques

In [None]:
num_features = ['age', 'income', 'transaction_amount']
    
for feature in num_features:
    plt.figure(figsize=(10,4))
    sns.kdeplot(train_df[feature], label='Train', fill=True)
    sns.kdeplot(prod_df[feature], label='Prod', fill=True)
    plt.title(f'Distribution de {feature}')
    plt.legend()
    plt.show()
    
    # Test KS pour dérive statistique
    ks_stat, p_value = ks_2samp(train_df[feature], prod_df[feature])
    print(f'{feature} - KS Statistic: {ks_stat:.4f}, p-value: {p_value:.4f}')

## Comparaison des distributions catégorielles

In [None]:
cat_features = ['country', 'gender']
    
for feature in cat_features:
    train_counts = train_df[feature].value_counts(normalize=True)
    prod_counts = prod_df[feature].value_counts(normalize=True)
    df_compare = pd.concat([train_counts, prod_counts], axis=1, keys=['Train', 'Prod']).fillna(0)
    df_compare.plot(kind='bar', figsize=(10,4))
    plt.title(f'Distribution catégorielle de {feature}')
    plt.show()
    
    # KS test pour les distributions codées numériquement
    merged = pd.get_dummies(pd.concat([train_df[feature], prod_df[feature]], axis=0))
    print(f'Distribution de {feature}:')
    print(df_compare)

## Conclusion
Cette analyse permet de détecter visuellement et statistiquement les dérives des features et d'identifier les features critiques à surveiller dans la production.