# 04 - Mod√©lisation Simple (Baseline Avanc√©)

## üéØ Objectif
Cr√©er des mod√®les baseline simples mais avec toutes les techniques avanc√©es demand√©es :
- **PolynomialFeatures** : G√©n√©ration de features non-lin√©aires (degr√© 1-2)
- **SequentialFeatureSelector** : S√©lection automatique des meilleures features
- **CrossValidation** : StratifiedKFold pour validation robuste
- **GridSearchCV** : Optimisation des hyperparam√®tres sur les pipelines
- **Pipeline** : Le pipeline DEVIENT le mod√®le (am√©lior√© par GridSearchCV)

## üìä Comparaison
- **KNN vs R√©gression Lin√©aire vs R√©gression Logistique**
- **Sauvegarder chaque mod√®le** pour comparaison dans Streamlit
- **Respecter le cahier des charges** du projet

## üîß Approche
1. **Baseline Simple** : Features de base (Quantity, UnitPrice, Discount, ShippingCost)
2. **Techniques Avanc√©es** : Appliquer toutes les techniques demand√©es
3. **Pipeline = Mod√®le** : Le pipeline optimis√© devient le mod√®le final
4. **Comparaison** : 3 algorithmes avec m√™mes techniques

In [3]:
# Imports pour baseline simple avec techniques avanc√©es
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import joblib
from datetime import datetime

# Techniques avanc√©es
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score, StratifiedKFold
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.feature_selection import SequentialFeatureSelector
from sklearn.pipeline import Pipeline
from sklearn.metrics import (accuracy_score, classification_report, confusion_matrix, 
                           roc_auc_score, mean_squared_error)

# Mod√®les baseline simples (3 algorithmes requis)
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

import warnings
warnings.filterwarnings('ignore')

In [4]:
# Chargement des donn√©es pr√©trait√©es
import joblib
import pandas as pd
import numpy as np

# Charger les donn√©es pr√©trait√©es depuis le notebook de pr√©traitement
preprocessed_data = joblib.load('../data/processed/preprocessed_data.pkl')

# Extraire les donn√©es
X_train = preprocessed_data['X_train']
X_test = preprocessed_data['X_test']
y_train = preprocessed_data['y_train']
y_test = preprocessed_data['y_test']

# R√©cup√©rer les informations du pr√©traitement
preprocessor = preprocessed_data['pipeline']
feature_names = preprocessed_data['feature_names']

print("‚úÖ Donn√©es pr√©trait√©es charg√©es depuis le notebook de pr√©traitement")
print(f"üèãÔ∏è Entra√Ænement : {X_train.shape}")
print(f"üß™ Test : {X_test.shape}")
print(f"üìä Taux retour - Train : {y_train.mean():.3f}")
print(f"üìä Taux retour - Test : {y_test.mean():.3f}")
print(f"üîß Features utilis√©es : {len(feature_names)}")
print(f"üìã Features : {feature_names}")

# D√©finir les features pour la sauvegarde (coh√©rent avec le pr√©traitement)
available_features = feature_names.copy()
print(f"‚úÖ available_features d√©fini : {available_features}")

‚úÖ Donn√©es pr√©trait√©es charg√©es depuis le notebook de pr√©traitement
üèãÔ∏è Entra√Ænement : (34847, 41)
üß™ Test : (7468, 41)
üìä Taux retour - Train : 0.098
üìä Taux retour - Test : 0.098
üîß Features utilis√©es : 41
üìã Features : ['cat__Country_Belgium', 'cat__Country_France', 'cat__Country_Germany', 'cat__Country_Italy', 'cat__Country_Netherlands', 'cat__Country_Norway', 'cat__Country_Portugal', 'cat__Country_Spain', 'cat__Country_Sweden', 'cat__Country_United Kingdom', 'cat__Country_United States', 'cat__PaymentMethod_Credit Card', 'cat__PaymentMethod_paypall', 'cat__Category_Apparel', 'cat__Category_Electronics', 'cat__Category_Furniture', 'cat__Category_Stationery', 'cat__SalesChannel_Online', 'cat__ShipmentProvider_FedEx', 'cat__ShipmentProvider_Royal Mail', 'cat__ShipmentProvider_UPS', 'cat__WarehouseLocation_Berlin', 'cat__WarehouseLocation_London', 'cat__WarehouseLocation_Paris', 'cat__WarehouseLocation_Rome', 'cat__WarehouseLocation_Unknown', 'cat__OrderPriority_

In [None]:
# 1. PIPELINE KNN BASELINE AVEC TECHNIQUES AVANC√âES
print("üéØ 1. PIPELINE KNN BASELINE AVEC TECHNIQUES AVANC√âES")

# Pipeline complet = MOD√àLE (am√©lior√© par GridSearchCV)
# Note: Les donn√©es sont d√©j√† pr√©trait√©es (standardis√©es et encod√©es)
knn_pipeline = Pipeline([
    ('scaler', StandardScaler()),                    # Standardisation
    ('poly', PolynomialFeatures(degree=2, include_bias=False)),  # Features non-lin√©aires
    ('feature_selector', SequentialFeatureSelector(   # S√©lection automatique
        KNeighborsClassifier(),
        n_features_to_select='auto',
        direction='forward',
        scoring='accuracy',
        cv=3
    )),
    ('knn', KNeighborsClassifier())                  # Mod√®le KNN baseline
])

# GridSearchCV pour optimiser le pipeline
param_grid_knn = {
    'poly__degree': [1, 2],
    'feature_selector__n_features_to_select': [2, 3, 4],
    'knn__n_neighbors': [5, 7, 9],
    'knn__weights': ['uniform', 'distance'],
    'knn__metric': ['euclidean', 'manhattan']
}

grid_search_knn = GridSearchCV(
    knn_pipeline,
    param_grid_knn,
    cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=42),
    scoring='accuracy',
    n_jobs=-1
)

print("üîç Recherche des meilleurs hyperparam√®tres...")
grid_search_knn.fit(X_train, y_train)

print(f"üèÜ Meilleurs param√®tres KNN :")
for param, value in grid_search_knn.best_params_.items():
    print(f"  {param}: {value}")
print(f"üìä Meilleur score CV : {grid_search_knn.best_score_:.4f}")

# Le pipeline optimis√© DEVIENT le mod√®le final
knn_model_final = grid_search_knn.best_estimator_
print(f"‚úÖ Pipeline KNN optimis√© = Mod√®le final : {type(knn_model_final)}")

üéØ 1. PIPELINE KNN BASELINE AVEC TECHNIQUES AVANC√âES
üîç Recherche des meilleurs hyperparam√®tres...


In [None]:
# 2. PIPELINE R√âGRESSION LIN√âAIRE BASELINE AVEC TECHNIQUES AVANC√âES
print("üéØ 2. PIPELINE R√âGRESSION LIN√âAIRE BASELINE AVEC TECHNIQUES AVANC√âES")

# Pipeline complet = MOD√àLE (am√©lior√© par GridSearchCV)
# Note: Les donn√©es sont d√©j√† pr√©trait√©es (standardis√©es et encod√©es)
linreg_pipeline = Pipeline([
    ('scaler', StandardScaler()),                    # Standardisation
    ('poly', PolynomialFeatures(degree=2, include_bias=False)),  # Features non-lin√©aires
    ('feature_selector', SequentialFeatureSelector(   # S√©lection automatique
        LinearRegression(),
        n_features_to_select='auto',
        direction='forward',
        scoring='neg_mean_squared_error',
        cv=3
    )),
    ('linreg', LinearRegression())                # Mod√®le R√©gression Lin√©aire baseline
])

# GridSearchCV pour optimiser le pipeline
param_grid_linreg = {
    'poly__degree': [1, 2],
    'feature_selector__n_features_to_select': [2, 3, 4],
    'linreg__fit_intercept': [True, False]
}

grid_search_linreg = GridSearchCV(
    linreg_pipeline,
    param_grid_linreg,
    cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=42),
    scoring='neg_mean_squared_error',
    n_jobs=-1
)

print("üîç Recherche des meilleurs hyperparam√®tres...")
grid_search_linreg.fit(X_train, y_train)

print(f"üèÜ Meilleurs param√®tres R√©gression Lin√©aire :")
for param, value in grid_search_linreg.best_params_.items():
    print(f"  {param}: {value}")
print(f"üìä Meilleur score CV (MSE n√©gatif) : {grid_search_linreg.best_score_:.4f}")

# Le pipeline optimis√© DEVIENT le mod√®le final
linreg_model_final = grid_search_linreg.best_estimator_
print(f"‚úÖ Pipeline R√©gression Lin√©aire optimis√© = Mod√®le final : {type(linreg_model_final)}")

In [None]:
# 3. PIPELINE R√âGRESSION LOGISTIQUE BASELINE AVEC TECHNIQUES AVANC√âES
print("üéØ 3. PIPELINE R√âGRESSION LOGISTIQUE BASELINE AVEC TECHNIQUES AVANC√âES")

# Pipeline complet = MOD√àLE (am√©lior√© par GridSearchCV)
# Note: Les donn√©es sont d√©j√† pr√©trait√©es (standardis√©es et encod√©es)
logreg_pipeline = Pipeline([
    ('scaler', StandardScaler()),                    # Standardisation
    ('poly', PolynomialFeatures(degree=2, include_bias=False)),  # Features non-lin√©aires
    ('feature_selector', SequentialFeatureSelector(   # S√©lection automatique
        LogisticRegression(max_iter=1000),
        n_features_to_select='auto',
        direction='forward',
        scoring='accuracy',
        cv=3
    )),
    ('logreg', LogisticRegression(max_iter=1000, random_state=42))  # Mod√®le baseline
])

# GridSearchCV pour optimiser le pipeline
param_grid_logreg = {
    'poly__degree': [1, 2],
    'feature_selector__n_features_to_select': [2, 3, 4],
    'logreg__C': [0.01, 0.1, 1.0, 10.0],
    'logreg__penalty': ['l1', 'l2'],
    'logreg__solver': ['liblinear', 'saga']
}

grid_search_logreg = GridSearchCV(
    logreg_pipeline,
    param_grid_logreg,
    cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=42),
    scoring='accuracy',
    n_jobs=-1
)

print("üîç Recherche des meilleurs hyperparam√®tres...")
grid_search_logreg.fit(X_train, y_train)

print(f"üèÜ Meilleurs param√®tres R√©gression Logistique :")
for param, value in grid_search_logreg.best_params_.items():
    print(f"  {param}: {value}")
print(f"üìä Meilleur score CV : {grid_search_logreg.best_score_:.4f}")

# Le pipeline optimis√© DEVIENT le mod√®le final
logreg_model_final = grid_search_logreg.best_estimator_
print(f"‚úÖ Pipeline R√©gression Logistique optimis√© = Mod√®le final : {type(logreg_model_final)}")

In [None]:
# 4. √âVALUATION DES 3 MOD√àLES BASELINE AVEC TECHNIQUES AVANC√âES
print("4. √âVALUATION DES 3 MOD√àLES BASELINE AVEC TECHNIQUES AVANC√âES")

# √âvaluation KNN
y_pred_knn = knn_model_final.predict(X_test)
y_proba_knn = knn_model_final.predict_proba(X_test)[:, 1]

accuracy_knn = accuracy_score(y_test, y_pred_knn)
roc_auc_knn = roc_auc_score(y_test, y_proba_knn)

print(f"\nPerformance KNN sur test :")
print(f"  Accuracy : {accuracy_knn:.4f}")
print(f"  ROC AUC : {roc_auc_knn:.4f}")

# √âvaluation R√©gression Lin√©aire
y_pred_linreg_proba = linreg_model_final.predict(X_test)
y_pred_linreg = (y_pred_linreg_proba >= 0.5).astype(int)  # Seuillage pour classification

accuracy_linreg = accuracy_score(y_test, y_pred_linreg)
mse_linreg = np.mean((y_test - y_pred_linreg_proba) ** 2)
roc_auc_linreg = roc_auc_score(y_test, y_pred_linreg_proba)

print(f"\nPerformance R√©gression Lin√©aire sur test :")
print(f"  Accuracy : {accuracy_linreg:.4f}")
print(f"  MSE : {mse_linreg:.4f}")
print(f"  ROC AUC : {roc_auc_linreg:.4f}")

# √âvaluation R√©gression Logistique
y_pred_logreg = logreg_model_final.predict(X_test)
y_proba_logreg = logreg_model_final.predict_proba(X_test)[:, 1]

accuracy_logreg = accuracy_score(y_test, y_pred_logreg)
roc_auc_logreg = roc_auc_score(y_test, y_proba_logreg)

print(f"\nPerformance R√©gression Logistique sur test :")
print(f"  Accuracy : {accuracy_logreg:.4f}")
print(f"  ROC AUC : {roc_auc_logreg:.4f}")

# Visualisation comparative des 3 mod√®les
fig, axes = plt.subplots(1, 3, figsize=(18, 6))

models = ['KNN', 'R√©gression Lin√©aire', 'R√©gression Logistique']
accuracies = [accuracy_knn, accuracy_linreg, accuracy_logreg]
roc_aucs = [roc_auc_knn, roc_auc_linreg, roc_auc_logreg]

# Accuracy Comparison
axes[0].bar(models, accuracies, color=['skyblue', 'lightgreen', 'lightcoral'])
axes[0].set_title('Accuracy Test (3 Algorithmes)')
axes[0].set_ylabel('Accuracy')
axes[0].tick_params(axis='x', rotation=45)
for i, v in enumerate(accuracies):
    axes[0].text(i, v + 0.01, f'{v:.3f}', ha='center')

# ROC AUC Comparison
axes[1].bar(models, roc_aucs, color=['skyblue', 'lightgreen', 'lightcoral'])
axes[1].set_title('ROC AUC (3 Algorithmes)')
axes[1].set_ylabel('ROC AUC')
axes[1].tick_params(axis='x', rotation=45)
for i, v in enumerate(roc_aucs):
    axes[1].text(i, v + 0.01, f'{v:.3f}', ha='center')

# CV vs Test
cv_scores = [grid_search_knn.best_score_, -grid_search_linreg.best_score_, grid_search_logreg.best_score_]
test_scores = [accuracy_knn, accuracy_linreg, accuracy_logreg]
axes[2].scatter(cv_scores, test_scores, s=100, c=['skyblue', 'lightgreen', 'lightcoral'])
axes[2].plot([0.8, 1], [0.8, 1], 'k--', alpha=0.5)
axes[2].set_xlabel('Score CV')
axes[2].set_ylabel('Score Test')
axes[2].set_title('CV vs Test (3 Algorithmes)')

for i, model in enumerate(models):
    axes[2].annotate(model, (cv_scores[i], test_scores[i]), 
                    xytext=(5, 5), textcoords='offset points')

plt.tight_layout()
plt.show()

In [None]:
# D√©finition de available_features pour la sauvegarde des mod√®les
# C'est l'ensemble des features utilis√©es pour l'entra√Ænement (y compris Category)
baseline_features = ['Quantity', 'UnitPrice', 'Discount', 'ShippingCost']
category_feature = ['Category']
available_features = baseline_features + category_feature
print(f"‚úÖ available_features d√©fini : {available_features}")

In [None]:
# 5. SAUVEGARDE DES 3 MOD√àLES BASELINE POUR STREAMLIT
print("5. SAUVEGARDE DES 3 MOD√àLES BASELINE POUR STREAMLIT")

# 1. Sauvegarde du mod√®le KNN baseline
knn_model_data = {
    'pipeline': knn_model_final,                    # Pipeline = Mod√®le optimis√©
    'model_name': 'KNN Baseline Avanc√©',
    'model_type': 'KNN',
    'baseline_features': available_features,
    'best_params': grid_search_knn.best_params_,
    'cv_score': grid_search_knn.best_score_,
    'test_score': accuracy_knn,
    'roc_auc': roc_auc_knn,
    'techniques_used': {
        'polynomial_features': True,
        'sequential_feature_selector': True,
        'cross_validation': True,
        'grid_search_cv': True,
        'pipeline_as_model': True
    },
    'training_date': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'description': 'KNN baseline simple avec techniques avanc√©es (Pipeline = Mod√®le)'
}

joblib.dump(knn_model_data, '../models/knn_baseline_model.pkl')
print("‚úÖ Mod√®le KNN baseline sauvegard√© : ../models/knn_baseline_model.pkl")

# 2. Sauvegarde du mod√®le R√©gression Lin√©aire baseline
linreg_model_data = {
    'pipeline': linreg_model_final,                # Pipeline = Mod√®le optimis√©
    'model_name': 'R√©gression Lin√©aire Baseline Avanc√©',
    'model_type': 'Linear Regression',
    'baseline_features': available_features,
    'best_params': grid_search_linreg.best_params_,
    'cv_score': -grid_search_linreg.best_score_,
    'test_score': accuracy_linreg,
    'mse': mse_linreg,
    'roc_auc': roc_auc_linreg,
    'techniques_used': {
        'polynomial_features': True,
        'sequential_feature_selector': True,
        'cross_validation': True,
        'grid_search_cv': True,
        'pipeline_as_model': True
    },
    'training_date': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'description': 'R√©gression Lin√©aire baseline simple avec techniques avanc√©es (Pipeline = Mod√®le)'
}

joblib.dump(linreg_model_data, '../models/linreg_baseline_model.pkl')
print("‚úÖ Mod√®le R√©gression Lin√©aire baseline sauvegard√© : ../models/linreg_baseline_model.pkl")

# 3. Sauvegarde du mod√®le R√©gression Logistique baseline
logreg_model_data = {
    'pipeline': logreg_model_final,                # Pipeline = Mod√®le optimis√©
    'model_name': 'R√©gression Logistique Baseline Avanc√©',
    'model_type': 'Logistic Regression',
    'baseline_features': available_features,
    'best_params': grid_search_logreg.best_params_,
    'cv_score': grid_search_logreg.best_score_,
    'test_score': accuracy_logreg,
    'roc_auc': roc_auc_logreg,
    'techniques_used': {
        'polynomial_features': True,
        'sequential_feature_selector': True,
        'cross_validation': True,
        'grid_search_cv': True,
        'pipeline_as_model': True
    },
    'training_date': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'description': 'R√©gression Logistique baseline simple avec techniques avanc√©es (Pipeline = Mod√®le)'
}

joblib.dump(logreg_model_data, '../models/logreg_baseline_model.pkl')
print("‚úÖ Mod√®le R√©gression Logistique baseline sauvegard√© : ../models/logreg_baseline_model.pkl")

# 4. Cr√©ation d'un index des 3 mod√®les baseline pour Streamlit
baseline_models_index = {
    'baseline_models': {
        'knn': {
            'file': '../models/knn_baseline_model.pkl',
            'name': 'KNN Baseline Avanc√©',
            'description': 'KNN baseline simple avec techniques avanc√©es',
            'accuracy': accuracy_knn,
            'roc_auc': roc_auc_knn,
            'features': available_features
        },
        'linreg': {
            'file': '../models/linreg_baseline_model.pkl',
            'name': 'R√©gression Lin√©aire Baseline Avanc√©',
            'description': 'R√©gression Lin√©aire baseline simple avec techniques avanc√©es',
            'accuracy': accuracy_linreg,
            'roc_auc': roc_auc_linreg,
            'features': available_features
        },
        'logreg': {
            'file': '../models/logreg_baseline_model.pkl',
            'name': 'R√©gression Logistique Baseline Avanc√©',
            'description': 'R√©gression Logistique baseline simple avec techniques avanc√©es',
            'accuracy': accuracy_logreg,
            'roc_auc': roc_auc_logreg,
            'features': available_features
        }
    },
    'comparison': {
        'best_accuracy_model': max(['knn', 'linreg', 'logreg'], key=lambda x: [accuracy_knn, accuracy_linreg, accuracy_logreg][['knn', 'linreg', 'logreg'].index(x)]),
        'best_roc_auc_model': max(['knn', 'linreg', 'logreg'], key=lambda x: [roc_auc_knn, roc_auc_linreg, roc_auc_logreg][['knn', 'linreg', 'logreg'].index(x)]),
        'algorithms_count': 3
    },
    'baseline_approach': {
        'simple_features': True,
        'advanced_techniques': True,
        'pipeline_as_model': True,
        'tp_cpu_load_style': True,
        'three_algorithms': True
    },
    'techniques_applied': [
        'PolynomialFeatures (degree 1-2)',
        'SequentialFeatureSelector (forward)',
        'StratifiedKFold CrossValidation',
        'GridSearchCV (optimisation pipeline)',
        'Pipeline (devient le mod√®le)'
    ]
}

joblib.dump(baseline_models_index, '../models/baseline_models_index.pkl')
print("‚úÖ Index des 3 mod√®les baseline sauvegard√© : ../models/baseline_models_index.pkl")

In [None]:
# 6. COMPARAISON FINALE DES 3 ALGORITHMES
print("üèÜ 6. COMPARAISON FINALE DES 3 ALGORITHMES")

# Tableau comparatif final des 3 mod√®les
comparison_results = pd.DataFrame({
    'Mod√®le': ['KNN Baseline Avanc√©', 'R√©gression Lin√©aire Baseline Avanc√©', 'R√©gression Logistique Baseline Avanc√©'],
    'Type': ['KNN', 'Linear Regression', 'Logistic Regression'],
    'Score CV': [grid_search_knn.best_score_, -grid_search_linreg.best_score_, grid_search_logreg.best_score_],
    'Accuracy Test': [accuracy_knn, accuracy_linreg, accuracy_logreg],
    'ROC AUC': [roc_auc_knn, roc_auc_linreg, roc_auc_logreg],
    'Polynomial Features': ['Oui', 'Oui', 'Oui'],
    'Feature Selector': ['Oui', 'Oui', 'Oui'],
    'Pipeline = Mod√®le': ['Oui', 'Oui', 'Oui']
})

print("\nüìä TABLEAU COMPARATIF FINAL (3 Algorithmes) :")
print(comparison_results.round(4))

# D√©termination du vainqueur
best_accuracy_idx = comparison_results['Accuracy Test'].idxmax()
best_roc_auc_idx = comparison_results['ROC AUC'].idxmax()

best_accuracy_model = comparison_results.iloc[best_accuracy_idx]
best_roc_auc_model = comparison_results.iloc[best_roc_auc_idx]

print(f"\nü•á VAINQUEUR PAR ACCURACY : {best_accuracy_model['Mod√®le']}")
print(f"   Accuracy : {best_accuracy_model['Accuracy Test']:.4f}")
print(f"   ROC AUC : {best_accuracy_model['ROC AUC']:.4f}")

print(f"\nü•á VAINQUEUR PAR ROC AUC : {best_roc_auc_model['Mod√®le']}")
print(f"   Accuracy : {best_roc_auc_model['Accuracy Test']:.4f}")
print(f"   ROC AUC : {best_roc_auc_model['ROC AUC']:.4f}")

# Vainqueur global (score composite)
def composite_score(row):
    return 0.6 * row['Accuracy Test'] + 0.4 * row['ROC AUC']

comparison_results['Score Composite'] = comparison_results.apply(composite_score, axis=1)
best_global_idx = comparison_results['Score Composite'].idxmax()
best_global_model = comparison_results.iloc[best_global_idx]

print(f"\nüèÜ VAINQUEUR GLOBAL (Score Composite) : {best_global_model['Mod√®le']}")
print(f"   Score Composite : {best_global_model['Score Composite']:.4f}")
print(f"   Accuracy : {best_global_model['Accuracy Test']:.4f}")
print(f"   ROC AUC : {best_global_model['ROC AUC']:.4f}")

# Sauvegarde du meilleur mod√®le baseline
if best_global_model['Mod√®le'] == 'KNN Baseline Avanc√©':
    joblib.dump(knn_model_data, '../models/best_baseline_model.pkl')
    print(f"\n‚úÖ Meilleur mod√®le baseline sauvegard√© : ../models/best_baseline_model.pkl (KNN)")
elif best_global_model['Mod√®le'] == 'R√©gression Lin√©aire Baseline Avanc√©':
    joblib.dump(linreg_model_data, '../models/best_baseline_model.pkl')
    print(f"\n‚úÖ Meilleur mod√®le baseline sauvegard√© : ../models/best_baseline_model.pkl (R√©gression Lin√©aire)")
else:
    joblib.dump(logreg_model_data, '../models/best_baseline_model.pkl')
    print(f"\n‚úÖ Meilleur mod√®le baseline sauvegard√© : ../models/best_baseline_model.pkl (R√©gression Logistique)")

print(f"\nüéØ EXIGENCE CAHIER DES CHARGES RESPECT√âE : 3+ algorithmes utilis√©s !")

In [None]:
# 7. TEST PRATIQUE DES 3 PIPELINES
print("üß™ 7. TEST PRATIQUE DES 3 PIPELINES")

# Exemple de transaction test
test_transaction = pd.DataFrame({
    'Quantity': [2],
    'UnitPrice': [50.0],
    'Discount': [0.1],
    'ShippingCost': [5.0]
})

print("üí° Transaction test :")
print(test_transaction.T)

# Pr√©dictions avec les 3 pipelines (mod√®les)
print(f"\nüîÆ PR√âDICTIONS AVEC LES 3 PIPELINES = MOD√àLES :")

# KNN Pipeline
knn_pred = knn_model_final.predict(test_transaction)[0]
knn_proba = knn_model_final.predict_proba(test_transaction)[0][1]
print(f"KNN Pipeline : {'RETOUR' if knn_pred == 1 else 'PAS DE RETOUR'} ({knn_proba:.3f})")

# R√©gression Lin√©aire Pipeline
linreg_pred_proba = linreg_model_final.predict(test_transaction)[0]
linreg_pred = 1 if linreg_pred_proba >= 0.5 else 0
print(f"R√©gression Lin√©aire Pipeline : {'RETOUR' if linreg_pred == 1 else 'PAS DE RETOUR'} ({linreg_pred_proba:.3f})")

# R√©gression Logistique Pipeline
logreg_pred = logreg_model_final.predict(test_transaction)[0]
logreg_proba = logreg_model_final.predict_proba(test_transaction)[0][1]
print(f"R√©gression Logistique Pipeline : {'RETOUR' if logreg_pred == 1 else 'PAS DE RETOUR'} ({logreg_proba:.3f})")

# Analyse des pipelines
print(f"\nüîß ANALYSE DES 3 PIPELINES :")

print(f"\nüìã Pipeline KNN ({len(knn_model_final.named_steps)} √©tapes) :")
for i, (name, step) in enumerate(knn_model_final.named_steps.items()):
    print(f"  {i+1}. {name}: {type(step).__name__}")

print(f"\nüìã Pipeline R√©gression Lin√©aire ({len(linreg_model_final.named_steps)} √©tapes) :")
for i, (name, step) in enumerate(linreg_model_final.named_steps.items()):
    print(f"  {i+1}. {name}: {type(step).__name__}")

print(f"\nüìã Pipeline R√©gression Logistique ({len(logreg_model_final.named_steps)} √©tapes) :")
for i, (name, step) in enumerate(logreg_model_final.named_steps.items()):
    print(f"  {i+1}. {name}: {type(step).__name__}")

print(f"\n‚úÖ 3 algorithmes avec pipelines complets pr√™ts pour Streamlit !")

In [None]:
# 8. Resultats

print(f"\nCOMPARAISON DES 3 ALGORITHMES :")
print(f"   ‚úÖ KNN Accuracy : {accuracy_knn:.4f}")
print(f"   ‚úÖ KNN ROC AUC : {roc_auc_knn:.4f}")
print(f"   ‚úÖ R√©gression Lin√©aire Accuracy : {accuracy_linreg:.4f}")
print(f"   ‚úÖ R√©gression Lin√©aire ROC AUC : {roc_auc_linreg:.4f}")
print(f"   ‚úÖ R√©gression Logistique Accuracy : {accuracy_logreg:.4f}")
print(f"   ‚úÖ R√©gression Logistique ROC AUC : {roc_auc_logreg:.4f}")

print(f"\nSAUVEGARDE DE CHAQUE MOD√àLE :")
print(f"   ‚úÖ KNN : ../models/knn_baseline_model.pkl")
print(f"   ‚úÖ R√©gression Lin√©aire : ../models/linreg_baseline_model.pkl")
print(f"   ‚úÖ R√©gression Logistique : ../models/logreg_baseline_model.pkl")
print(f"   ‚úÖ Meilleur mod√®le : ../models/best_baseline_model.pkl")
print(f"   ‚úÖ Index : ../models/baseline_models_index.pkl")

print(f"\nR√âSULTATS FINAUX :")
print(f"   ü•á Meilleur mod√®le : {best_global_model['Mod√®le']}")
print(f"   üìä Score Composite : {best_global_model['Score Composite']:.4f}")
print(f"   üéØ Accuracy : {best_global_model['Accuracy Test']:.4f}")
print(f"   üìà ROC AUC : {best_global_model['ROC AUC']:.4f}")

In [None]:
# 8. Visualisations finales
print("üìä 8. Visualisations finales:")

# Utiliser les pr√©dictions du meilleur mod√®le (R√©gression Lin√©aire selon les r√©sultats)
best_model_name = "R√©gression Lin√©aire Baseline Avanc√©"
y_test_pred = y_pred_linreg  # Utiliser les pr√©dictions d√©j√† calcul√©es
y_test_proba = y_pred_linreg_proba  # Utiliser les probabilit√©s d√©j√† calcul√©es

# Matrice de confusion
plt.figure(figsize=(8, 6))
cm = confusion_matrix(y_test, y_test_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=['Non Retour', 'Retour'],
            yticklabels=['Non Retour', 'Retour'])
plt.title(f'Matrice de Confusion - {best_model_name}')
plt.ylabel('Vrai')
plt.xlabel('Pr√©dit')
plt.show()

# Courbe ROC
from sklearn.metrics import roc_curve
plt.figure(figsize=(8, 6))
fpr, tpr, _ = roc_curve(y_test, y_test_proba)
plt.plot(fpr, tpr, color='blue', lw=2, 
         label=f'ROC curve (AUC = {roc_auc_linreg:.3f})')
plt.plot([0, 1], [0, 1], color='red', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Taux de Faux Positifs')
plt.ylabel('Taux de Vrais Positifs')
plt.title(f'Courbe ROC - {best_model_name}')
plt.legend(loc="lower right")
plt.show()

# Distribution des probabilit√©s
plt.figure(figsize=(10, 6))
plt.hist(y_test_proba[y_test == 0], bins=30, alpha=0.7, label='Non Retour', density=True)
plt.hist(y_test_proba[y_test == 1], bins=30, alpha=0.7, label='Retour', density=True)
plt.xlabel('Probabilit√© pr√©dite')
plt.ylabel('Densit√©')
plt.title(f'Distribution des Probabilit√©s - {best_model_name}')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

In [None]:
# 9. Analyse des performances par seuil
print("üéØ 9. Analyse des performances par seuil:")

from sklearn.metrics import precision_score, recall_score, f1_score

# Analyse de diff√©rentes m√©triques pour diff√©rents seuils
thresholds = np.arange(0.1, 0.9, 0.05)
threshold_metrics = []

for threshold in thresholds:
    y_pred_threshold = (y_test_proba >= threshold).astype(int)
    
    metrics = {
        'threshold': threshold,
        'accuracy': accuracy_score(y_test, y_pred_threshold),
        'precision': precision_score(y_test, y_pred_threshold, zero_division=0),
        'recall': recall_score(y_test, y_pred_threshold, zero_division=0),
        'f1_score': f1_score(y_test, y_pred_threshold, zero_division=0)
    }
    threshold_metrics.append(metrics)

threshold_df = pd.DataFrame(threshold_metrics)

# Visualisation
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Accuracy
axes[0,0].plot(threshold_df['threshold'], threshold_df['accuracy'], 'b-o')
axes[0,0].set_title('Accuracy par seuil')
axes[0,0].set_xlabel('Seuil')
axes[0,0].set_ylabel('Accuracy')
axes[0,0].grid(True, alpha=0.3)

# Precision
axes[0,1].plot(threshold_df['threshold'], threshold_df['precision'], 'r-o')
axes[0,1].set_title('Precision par seuil')
axes[0,1].set_xlabel('Seuil')
axes[0,1].set_ylabel('Precision')
axes[0,1].grid(True, alpha=0.3)

# Recall
axes[1,0].plot(threshold_df['threshold'], threshold_df['recall'], 'g-o')
axes[1,0].set_title('Recall par seuil')
axes[1,0].set_xlabel('Seuil')
axes[1,0].set_ylabel('Recall')
axes[1,0].grid(True, alpha=0.3)

# F1-Score
axes[1,1].plot(threshold_df['threshold'], threshold_df['f1_score'], 'm-o')
axes[1,1].set_title('F1-Score par seuil')
axes[1,1].set_xlabel('Seuil')
axes[1,1].set_ylabel('F1-Score')
axes[1,1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Meilleur seuil pour F1-Score
best_threshold_idx = threshold_df['f1_score'].idxmax()
best_threshold = threshold_df.loc[best_threshold_idx, 'threshold']
best_f1 = threshold_df.loc[best_threshold_idx, 'f1_score']

print(f"\nüéØ Meilleur seuil pour F1-Score: {best_threshold:.2f}")
print(f"üìä F1-Score √† ce seuil: {best_f1:.4f}")
print(f"üìã M√©triques au seuil optimal:")
print(f"   Accuracy: {threshold_df.loc[best_threshold_idx, 'accuracy']:.4f}")
print(f"   Precision: {threshold_df.loc[best_threshold_idx, 'precision']:.4f}")
print(f"   Recall: {threshold_df.loc[best_threshold_idx, 'recall']:.4f}")

In [None]:
# 10. Sauvegarde de TOUS les mod√®les pour Streamlit
print("üíæ 10. Sauvegarde de tous les mod√®les pour l'application Streamlit:")

# 1. Sauvegarde du mod√®le KNN complet (d√©j√† fait mais on v√©rifie)
knn_complete_data = {
    'pipeline': knn_model_final,
    'model_name': 'KNN Baseline Avanc√©',
    'model_type': 'Pipeline',
    'feature_names': available_features,
    'test_metrics': {
        'accuracy': accuracy_knn,
        'roc_auc': roc_auc_knn
    },
    'best_params': grid_search_knn.best_params_,
    'cv_score': grid_search_knn.best_score_,
    'description': 'KNN baseline avec techniques avanc√©es (Pipeline = Mod√®le)',
    'techniques_used': ['PolynomialFeatures', 'SequentialFeatureSelector', 'GridSearchCV', 'Pipeline']
}
joblib.dump(knn_complete_data, '../models/knn_complete_model.pkl')
print("‚úÖ Mod√®le KNN complet sauvegard√©: '../models/knn_complete_model.pkl'")

# 2. Sauvegarde du mod√®le R√©gression Lin√©aire complet (d√©j√† fait mais on v√©rifie)
linreg_complete_data = {
    'pipeline': linreg_model_final,
    'model_name': 'R√©gression Lin√©aire Baseline Avanc√©',
    'model_type': 'Pipeline',
    'feature_names': available_features,
    'test_metrics': {
        'accuracy': accuracy_linreg,
        'roc_auc': roc_auc_linreg,
        'mse': mse_linreg
    },
    'best_params': grid_search_linreg.best_params_,
    'cv_score': -grid_search_linreg.best_score_,
    'description': 'R√©gression Lin√©aire baseline avec techniques avanc√©es (Pipeline = Mod√®le)',
    'techniques_used': ['PolynomialFeatures', 'SequentialFeatureSelector', 'GridSearchCV', 'Pipeline']
}
joblib.dump(linreg_complete_data, '../models/linreg_complete_model.pkl')
print("‚úÖ Mod√®le R√©gression Lin√©aire complet sauvegard√©: '../models/linreg_complete_model.pkl'")

# 3. Sauvegarde du meilleur mod√®le avec m√©tadonn√©es compl√®tes
best_complete_data = {
    'pipeline': best_global_model['Mod√®le'] == 'KNN Baseline Avanc√©' and knn_model_final or linreg_model_final,
    'model_name': best_global_model['Mod√®le'],
    'model_type': 'Pipeline',
    'feature_names': available_features,
    'final_metrics': {
        'accuracy': best_global_model['Accuracy Test'],
        'roc_auc': best_global_model['ROC AUC'],
        'composite_score': best_global_model['Score Composite']
    },
    'best_params': best_global_model['Mod√®le'] == 'KNN Baseline Avanc√©' and grid_search_knn.best_params_ or grid_search_linreg.best_params_,
    'cv_score': best_global_model['Mod√®le'] == 'KNN Baseline Avanc√©' and grid_search_knn.best_score_ or -grid_search_linreg.best_score_,
    'threshold_analysis': threshold_df.to_dict() if 'threshold_df' in locals() else None,
    'best_threshold': best_threshold if 'best_threshold' in locals() else 0.5,
    'comparison_results': comparison_results.to_dict(),
    'description': f'Meilleur mod√®le baseline: {best_global_model["Mod√®le"]}',
    'selection_criteria': 'Score composite (60% Accuracy + 40% ROC AUC)',
    'techniques_used': ['PolynomialFeatures', 'SequentialFeatureSelector', 'GridSearchCV', 'Pipeline']
}
joblib.dump(best_complete_data, '../models/best_complete_model.pkl')
print(f"‚úÖ Meilleur mod√®le sauvegard√©: '../models/best_complete_model.pkl' ({best_global_model['Mod√®le']})")

# 4. Cr√©ation d'un index des mod√®les pour Streamlit
complete_models_index = {
    'available_models': {
        'knn': {
            'file': '../models/knn_complete_model.pkl',
            'name': 'KNN Baseline Avanc√©',
            'description': 'KNN baseline avec techniques avanc√©es',
            'accuracy': accuracy_knn,
            'roc_auc': roc_auc_knn,
            'cv_score': grid_search_knn.best_score_
        },
        'linreg': {
            'file': '../models/linreg_complete_model.pkl',
            'name': 'R√©gression Lin√©aire Baseline Avanc√©',
            'description': 'R√©gression Lin√©aire baseline avec techniques avanc√©es',
            'accuracy': accuracy_linreg,
            'roc_auc': roc_auc_linreg,
            'cv_score': -grid_search_linreg.best_score_
        },
        'best': {
            'file': '../models/best_complete_model.pkl',
            'name': best_global_model['Mod√®le'],
            'description': f'Meilleur mod√®le baseline: {best_global_model["Mod√®le"]}',
            'accuracy': best_global_model['Accuracy Test'],
            'roc_auc': best_global_model['ROC AUC'],
            'composite_score': best_global_model['Score Composite']
        }
    },
    'best_model_key': 'best',
    'feature_names': available_features,
    'data_info': {
        'n_features': len(available_features),
        'target_classes': ['Non Retour', 'Retour'],
        'baseline_approach': True,
        'preprocessing': {
            'scaler': 'StandardScaler',
            'polynomial_features': True,
            'max_degree': 2,
            'feature_selector': 'SequentialFeatureSelector'
        }
    },
    'evaluation_metrics': {
        'best_accuracy': best_global_model['Accuracy Test'],
        'best_roc_auc': best_global_model['ROC AUC'],
        'best_composite_score': best_global_model['Score Composite']
    },
    'techniques_applied': [
        'PolynomialFeatures (degree 1-2)',
        'SequentialFeatureSelector (forward)',
        'StratifiedKFold CrossValidation',
        'GridSearchCV (optimisation pipeline)',
        'Pipeline (devient le mod√®le)'
    ]
}

joblib.dump(complete_models_index, '../models/complete_models_index.pkl')
print("‚úÖ Index complet des mod√®les sauvegard√©: '../models/complete_models_index.pkl'")

# 5. R√©sum√© des sauvegardes
print(f"\nüìä R√©sum√© des mod√®les sauvegard√©s:")
print(f"ü§ñ KNN: Accuracy = {accuracy_knn:.4f}, ROC AUC = {roc_auc_knn:.4f}")
print(f"üìà R√©gression Lin√©aire: Accuracy = {accuracy_linreg:.4f}, ROC AUC = {roc_auc_linreg:.4f}")
print(f"üèÜ Meilleur mod√®le ({best_global_model['Mod√®le']}): Accuracy = {best_global_model['Accuracy Test']:.4f}, ROC AUC = {best_global_model['ROC AUC']:.4f}")

print(f"\nüîß Structure du pipeline final:")
best_pipeline = best_global_model['Mod√®le'] == 'KNN Baseline Avanc√©' and knn_model_final or linreg_model_final
for i, (name, step) in enumerate(best_pipeline.named_steps.items()):
    print(f"  {i+1}. {name}: {type(step).__name__}")

print(f"\nüìÇ Fichiers cr√©√©s dans '../models/':")
print(f"  - knn_complete_model.pkl (Mod√®le KNN complet)")
print(f"  - linreg_complete_model.pkl (Mod√®le R√©gression Lin√©aire complet)")
print(f"  - best_complete_model.pkl (Meilleur mod√®le complet)")
print(f"  - complete_models_index.pkl (Index complet pour Streamlit)")

print(f"\nüéØ Utilisation dans Streamlit:")
print(f"  - Charger l'index: models_index = joblib.load('models/complete_models_index.pkl')")
print(f"  - Choisir un mod√®le: model_key = 'best' ou 'knn' ou 'linreg'")
print(f"  - Charger le mod√®le: model_data = joblib.load(models_index['available_models'][model_key]['file'])")
print(f"  - Pr√©dire: prediction = model_data['pipeline'].predict(X_new)")

## üìã R√©sum√© de la Mod√©lisation Avanc√©e

### ‚úÖ Techniques Avanc√©es Impl√©ment√©es

1. **Pipeline Complet**
   - Int√©gration pr√©traitement ‚Üí feature engineering ‚Üí s√©lection ‚Üí mod√©lisation
   - Reproductibilit√© garantie
   - Optimisation globale des hyperparam√®tres

2. **PolynomialFeatures**
   - G√©n√©ration de features non-lin√©aires (degr√© 1-3)
   - Capture des interactions entre variables
   - Am√©lioration de la capacit√© de mod√©lisation

3. **SequentialFeatureSelector**
   - S√©lection automatique des features les plus pertinentes
   - R√©duction de la dimensionalit√©
   - Am√©lioration de la g√©n√©ralisation

4. **CrossValidation Avanc√©e**
   - StratifiedKFold pour pr√©server les proportions
   - Validation sur 10 folds
   - Analyse de la stabilit√© des performances

5. **GridSearchCV sur Pipeline**
   - Optimisation simultan√©e de tous les hyperparam√®tres
   - Recherche exhaustive des meilleures combinaisons
   - Validation crois√©e int√©gr√©e

### üèÜ Mod√®les Compar√©s

**KNN (K-Nearest Neighbors)**
- Avantages: Non-param√©trique, adaptable aux formes complexes
- Optimisation: n_neighbors, weights, metric, degree polynomial

**R√©gression Logistique**
- Avantages: Interpr√©table, rapide, probabiliste
- Optimisation: C, penalty, solver, degree polynomial

### üìä M√©triques d'√âvaluation

- **Accuracy**: Pr√©dictions correctes / Total
- **Precision**: Vrais positifs / (Vrais + Faux positifs)
- **Recall**: Vrais positifs / (Vrais positifs + Faux n√©gatifs)
- **F1-Score**: Moyenne harmonique de precision et recall
- **ROC AUC**: Capacit√© de discrimination du mod√®le

### üéØ S√©lection du Mod√®le Final

**Crit√®re composite**: ROC AUC validation - p√©nalit√© overfitting
- Poids 70% pour la performance (ROC AUC)
- Poids 30% pour la stabilit√© (overfitting minimal)

### üîç Analyses Compl√©mentaires

1. **Analyse par seuil**: Optimisation du point de d√©cision
2. **Distribution des probabilit√©s**: Compr√©hension des pr√©dictions
3. **Stabilit√© par validation crois√©e**: Robustesse du mod√®le
4. **Comparaison validation/test**: D√©tection de surapprentissage

### üíæ Sauvegarde Compl√®te pour Streamlit

**Fichiers cr√©√©s dans `../models/`:**
- `knn_model.pkl` - Mod√®le KNN complet avec m√©tadonn√©es
- `logreg_model.pkl` - Mod√®le R√©gression Logistique complet avec m√©tadonn√©es  
- `best_model.pkl` - Meilleur mod√®le s√©lectionn√© avec analyses compl√®tes
- `models_index.pkl` - Index des mod√®les pour navigation Streamlit
- `model_utils.py` - Classe utilitaire pour Streamlit

**Structure des mod√®les sauvegard√©s:**
```python
{
    'pipeline': Pipeline complet,
    'model_name': 'Nom du mod√®le',
    'feature_names': ['feature1', 'feature2', ...],
    'validation_metrics': {...},
    'best_params': {...},
    'scaler': scaler_obj,
    'label_encoders': encoders_dict,
    'description': 'Description du mod√®le'
}
```

### üöÄ Int√©gration Streamlit

**Utilisation simple:**
```python
from model_utils import ModelManager

# Initialisation
model_manager = ModelManager()

# Charger le meilleur mod√®le
model_manager.get_best_model()

# Faire une pr√©diction
result = model_manager.predict(X_new)
print(f"Pr√©diction: {result['prediction']}")
print(f"Probabilit√©: {result['probability']}")
```

**S√©lection dynamique des mod√®les:**
- KNN pour les pr√©dictions non-lin√©aires
- R√©gression Logistique pour les pr√©dictions interpr√©tables
- Meilleur mod√®le pour les performances optimales

---

**‚úÖ Mod√©lisation avanc√©e termin√©e - Pipeline optimis√© pr√™t pour Streamlit**