# 📊 Entrainement des modèles et Prédiction des prix des voitures 

In [2]:
# Librairies


import os
import joblib
import pandas as pd
import numpy as np  
import seaborn as sns 
import plotly.express as px
import matplotlib.pyplot as plt

from pathlib import Path 

from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.linear_model import Ridge
from sklearn.neural_network import MLPRegressor
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import KFold, cross_val_score
from scipy.optimize import minimize_scalar
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score


sns.set_theme(style="whitegrid", palette="muted")
from matplotlib import rcParams
palette = sns.color_palette("pastel")

import warnings
warnings.filterwarnings("ignore")

**Les données**

In [3]:
BASE_DIR = Path().resolve()
DATA_DIR = BASE_DIR / 'Donnees'

#print(f"BASE_DIR: {BASE_DIR}")
#print(f"DATA_DIR: {DATA_DIR}")


df = pd.read_csv(DATA_DIR / 'vehicules.csv')
df.head(4)

Unnamed: 0,Modèle,Prix,Transmission,Version,Kilométrage,Carburant,Puissance,Évaluations,Vendeur,Nom de la Voiture,Date
0,audi,€ 74 999,Boîte automatique,55 TFSI Quattro Tiptronic S-Line INDIVIDUAL!,34 000 km,Essence,250 kW (340 CH),121,Kristof D'herde • BE-9300 Aalst,Audi Q855 TFSI Quattro Tiptronic S-Line INDIVI...,01/2021
1,audi,€ 118 900,Boîte automatique,60 Hybride 49 CO2 BlackPack B&O 23' Leather,10 km,Electrique/Essence,340 kW (462 CH),107,Frederik Rik Maxime Jorn Hendrik • BE-8710 Wie...,Audi Q860 Hybride 49 CO2 BlackPack B&O 23' Lea...,01/2024
2,audi,€ 118 900,Boîte automatique,60 Hybr 49gr Sline BlackPack B&O Leather 23',10 km,Electrique/Essence,340 kW (462 CH),107,Frederik Rik Maxime Jorn Hendrik • BE-8710 Wie...,Audi Q860 Hybr 49gr Sline BlackPack B&O Leathe...,01/2024
3,audi,€ 59 995,Boîte automatique,50 TDi S-Line Quattro Tiptronic,95 702 km,Diesel,210 kW (286 CH),75,Mhr Jannick Lazoore • BE-8620 Nieuwpoort,Audi Q850 TDi S-Line Quattro Tiptronic,04/2019


**Preprocessing des données**

In [4]:
from cleaning_data.cleaning import clean_preprocess
df = clean_preprocess(df)
df.head(4)

Unnamed: 0,prix,kilométrage,puissance,évaluations,modèle_Unknown,modèle_audi,modèle_bentley,modèle_ferrari,modèle_fiat,modèle_ford,...,modèle_renault,modèle_toyota,modèle_volkswagen,carburant_Diesel,carburant_Electrique,carburant_Electrique/Diesel,carburant_Electrique/Essence,carburant_Essence,transmission_Boîte automatique,transmission_Boîte manuelle
0,74999.0,34000.0,340.0,121.0,False,True,False,False,False,False,...,False,False,False,False,False,False,False,True,True,False
1,118900.0,10.0,462.0,107.0,False,True,False,False,False,False,...,False,False,False,False,False,False,True,False,True,False
2,118900.0,10.0,462.0,107.0,False,True,False,False,False,False,...,False,False,False,False,False,False,True,False,True,False
3,59995.0,95702.0,286.0,75.0,False,True,False,False,False,False,...,False,False,False,True,False,False,False,False,True,False


In [10]:
#df.info()

dtypes: bool(20), float64(4)

**Variables numériques (4)**
- prix : float64
- kilométrage : float64
- puissance : float64
- évaluations : float64

**Variables catégorielles encodées(20)**
- Modèles (13 booléennes) :
modèle_audi, modèle_bentley, ..., modèle_volkswagen, etc.

modèle_Unknown : sûrement les véhicules où le modèle n’était pas identifié.

- Carburants (5 booléennes) :
Diesel, Essence, Electrique, ou des combinaisons (Electric/Essence, etc.)

- Transmission (2 booléennes) :
Boîte automatique / manuelle


In [5]:
print(f"la dimension de notre table  est : {df.shape}")

la dimension de notre table  est : (2670, 24)


In [6]:
print(f"Le nombre de valeurs manquantes : {df.isnull().sum().sum()}")

Le nombre de valeurs manquantes : 0


### I- **Entrainement, tuning et optimisation des paramètres des modèles**

In [7]:
X = df.drop('prix', axis=1)
y = df['prix']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"X_train shape: {X_train.shape}")
print(f"y_train shape: {y_train.shape}")

print(f"X_test shape: {X_test.shape}")
print(f"y_test shape: {y_test.shape}")

X_train shape: (2136, 23)
y_train shape: (2136,)
X_test shape: (534, 23)
y_test shape: (534,)


In [14]:
from machine_learning.machine_learn import train_best_models

ridge_model, knr_model, svr_model, rfr_model, gbr_model, mlp_model = train_best_models(X_train, y_train)


In [38]:
# Chargement des modèles sauvegardés 

def load_all_models(models_dir="Modeles"):
    """
    Charge tous les modèles sauvegardés au format joblib (.pkl) dans un dossier donné.
    
    Retourne :
        dict {nom_du_modele: objet GridSearchCV}
    """
    loaded_models = {}

    if not os.path.exists(models_dir):
        print(f"📁 Dossier '{models_dir}' introuvable.")
        return loaded_models

    for file in os.listdir(models_dir):
        if file.endswith("_model.pkl"):
            model_name = file.replace("_model.pkl", "")
            model_path = os.path.join(models_dir, file)
            loaded_models[model_name] = joblib.load(model_path)
    
    return loaded_models

## recuperation des best parametres des models

def get_all_best_params(loaded_models: dict):
    """
    Extrait les meilleurs hyperparamètres depuis des objets GridSearchCV.

    Paramètres :
        loaded_models : dict {nom_du_modele: objet GridSearchCV}

    Retourne :
        dict {nom_du_modele: dict des meilleurs paramètres}
    """
    best_params_dict = {}

    for name, model in loaded_models.items():
        if hasattr(model, "best_params_"):
            best_params_dict[name] = model.best_params_
        else:
            print(f"⚠️ Le modèle '{name}' n'a pas d'attribut best_params_.")
    
    return best_params_dict



In [None]:
# Chargement des modèles sauvegardés
loaded_models = load_all_models()

# Extraire les meilleurs paramètres
best_params = get_all_best_params(loaded_models)


In [42]:
# Afficher les meilleurs paramètres de chaque modèle
for name, params in best_params.items():
    print(f"\n🔧 {name.upper()} - Best params:")
    for k, v in params.items():
        print(f"  {k} : {v}")


🔧 GRADIENT_BOOSTING - Best params:
  entrainement__learning_rate : 0.5
  entrainement__n_estimators : 400
  imputation__strategy : mean

🔧 KNEIGHBORS - Best params:
  entrainement__n_neighbors : 2
  imputation__strategy : mean

🔧 MLP - Best params:
  entrainement__hidden_layer_sizes : (50, 50)
  entrainement__max_iter : 1000
  imputation__strategy : median

🔧 RANDOM_FOREST - Best params:
  entrainement__max_features : None
  entrainement__n_estimators : 180
  imputation__strategy : mean

🔧 RIDGE - Best params:
  entrainement__alpha : 2
  imputation__strategy : mean

🔧 SVR - Best params:
  entrainement__C : 65536.0
  entrainement__epsilon : 0.7
  imputation__strategy : mean


### II- Le réentraînement des modèles avec les meilleurs parametres

In [47]:
def extract_best_params_dict(gridsearch_models: dict) -> dict:
    """
    Extrait les classes de modèles + meilleurs hyperparamètres depuis GridSearchCV.

    Paramètres :
        gridsearch_models : dict {nom_modele: GridSearchCV}

    Retourne :
        dict {nom_modele: {"model": class, "best_params": dict}}
    """
    models_dict = {}

    for name, gridsearch in gridsearch_models.items():
        model_class = gridsearch.estimator.named_steps["entrainement"].__class__
        best_params = gridsearch.best_params_

        models_dict[name] = {
            "model": model_class,
            "best_params": best_params
        }

    return models_dict


In [None]:
# 1. Charger les modèles
loaded_models = load_all_models()

# 2. Construire un dictionnaire complet avec model + params
models_dict = extract_best_params_dict(loaded_models)
#models_dict


{'gradient_boosting': {'model': sklearn.ensemble._gb.GradientBoostingRegressor,
  'best_params': {'entrainement__learning_rate': 0.5,
   'entrainement__n_estimators': 400,
   'imputation__strategy': 'mean'}},
 'kneighbors': {'model': sklearn.neighbors._regression.KNeighborsRegressor,
  'best_params': {'entrainement__n_neighbors': 2,
   'imputation__strategy': 'mean'}},
 'mlp': {'model': sklearn.neural_network._multilayer_perceptron.MLPRegressor,
  'best_params': {'entrainement__hidden_layer_sizes': (50, 50),
   'entrainement__max_iter': 1000,
   'imputation__strategy': 'median'}},
 'random_forest': {'model': sklearn.ensemble._forest.RandomForestRegressor,
  'best_params': {'entrainement__max_features': None,
   'entrainement__n_estimators': 180,
   'imputation__strategy': 'mean'}},
 'ridge': {'model': sklearn.linear_model._ridge.Ridge,
  'best_params': {'entrainement__alpha': 2, 'imputation__strategy': 'mean'}},
 'svr': {'model': sklearn.svm._classes.SVR,
  'best_params': {'entrainemen

In [None]:
from machine_learning.selection_train import train_models_with_best_params_models_with_best_params 

In [52]:
trained_models = train_models_with_best_params(models_dict, X_train, y_train)

TypeError: GradientBoostingRegressor.__init__() got an unexpected keyword argument 'entrainement__learning_rate'