## G√©n√©ration de donn√©es synth√©tiques pour la pr√©diction du revenu annuel

Dans cette section, nous g√©n√©rons un dataset synth√©tique de 40 000 individus pour mod√©liser le revenu annuel des Marocains. Les variables simul√©es incluent des informations d√©mographiques (√¢ge, sexe, milieu de r√©sidence), √©ducatives, professionnelles et patrimoniales.

Les √©tapes principales sont :
- Cr√©ation al√©atoire de variables r√©alistes comme l'√¢ge, le sexe, le niveau d'√©ducation, l'exp√©rience, etc.
- Construction d'une variable cible `revenu_annuel` influenc√©e par diff√©rents facteurs socio-√©conomiques avec un ajout de bruit pour simuler la variabilit√© r√©elle.
- Introduction de valeurs manquantes (5%) dans certaines colonnes pour refl√©ter les donn√©es incompl√®tes du monde r√©el.
- Injection de valeurs aberrantes dans le revenu pour simuler des cas extr√™mes.
- Cr√©ation finale d‚Äôun DataFrame Pandas, avec exportation au format CSV sous le nom `dataset_revenu_marocains.csv`.

Ce dataset servira de base √† l'entra√Ænement et √† l'√©valuation de mod√®les de machine learning pour la pr√©diction du revenu.


In [2]:
import pandas as pd
import numpy as np
import random

# Fixer la seed pour la reproductibilit√©
np.random.seed(42)

# Nombre d‚Äôenregistrements
n = 40000

# Variables de base simul√©es
ages = np.random.randint(18, 70, size=n)
sexes = np.random.choice(["Homme", "Femme"], size=n, p=[0.55, 0.45])
milieux = np.random.choice(["Urbain", "Rural"], size=n, p=[0.65, 0.35])
education_levels = np.random.choice(["Sans niveau", "Fondamental", "Secondaire", "Sup√©rieur"], size=n, p=[0.25, 0.35, 0.25, 0.15])
experience = np.clip(ages - np.random.randint(16, 25, size=n), 0, None)
etat_matrimonial = np.random.choice(["C√©libataire", "Mari√©", "Divorc√©", "Veuf"], size=n, p=[0.4, 0.45, 0.1, 0.05])
possession_voiture = np.random.choice([0, 1], size=n, p=[0.7, 0.3])
possession_logement = np.random.choice([0, 1], size=n, p=[0.6, 0.4])
possession_terrain = np.random.choice([0, 1], size=n, p=[0.85, 0.15])
socio_group = np.random.choice([1, 2, 3, 4, 5, 6], size=n, p=[0.05, 0.15, 0.2, 0.25, 0.2, 0.15])

# Variables ajout√©es
nbr_enfants = np.random.poisson(2, size=n)
charge_parentale = np.random.choice([0, 1], size=n, p=[0.6, 0.4])
travail_secondaire = np.random.choice([0, 1], size=n, p=[0.85, 0.15])

# Cat√©gorie d‚Äô√¢ge
def categoriser_age(age):
    if age < 26:
        return "Jeune"
    elif age < 40:
        return "Adulte"
    elif age < 60:
        return "S√©nior"
    else:
        return "√Çg√©"

categorie_age = np.array([categoriser_age(a) for a in ages])

# G√©n√©ration du revenu avec bruit
base_revenu = (
    12000 +
    (ages * 100) +
    (experience * 150) +
    (np.where(sexes == "Homme", 2000, -1000)) +
    (np.where(milieux == "Urbain", 6000, -3000)) +
    (np.array([{"Sans niveau": 0, "Fondamental": 2000, "Secondaire": 5000, "Sup√©rieur": 10000}[e] for e in education_levels])) +
    (np.array([8000 - g * 1000 for g in socio_group])) +
    (possession_voiture * 3000 + possession_logement * 5000 + possession_terrain * 2000)
)

revenus = base_revenu + np.random.normal(0, 3000, size=n)
revenus = np.clip(revenus, 2000, None)  # Minimum revenu

# Injecter valeurs manquantes (5% al√©atoirement)
for col in ["education_levels", "etat_matrimonial", "revenus"]:
    mask = np.random.rand(n) < 0.05
    vars()[col][mask] = None

# Cr√©er le DataFrame
df = pd.DataFrame({
    "age": ages,
    "categorie_age": categorie_age,
    "sexe": sexes,
    "milieu": milieux,
    "niveau_education": education_levels,
    "experience": experience,
    "etat_matrimonial": etat_matrimonial,
    "possede_voiture": possession_voiture,
    "possede_logement": possession_logement,
    "possede_terrain": possession_terrain,
    "socio_pro_group": socio_group,
    "revenu_annuel": revenus,
    "nombre_enfants": nbr_enfants,
    "charge_parentale": charge_parentale,
    "travail_secondaire": travail_secondaire,
    "colonne_redundante": ages,  # Redondante
    "non_pertinente": "N/A"  # Non pertinente
})

# Injecter quelques valeurs aberrantes
df.loc[df.sample(frac=0.005).index, "revenu_annuel"] *= 5

# Sauvegarder le CSV
csv_path = "dataset_revenu_marocains.csv"
df.to_csv(csv_path, index=False)

csv_path
# Aper√ßu des 10 premi√®res lignes
df.head(10)

Unnamed: 0,age,categorie_age,sexe,milieu,niveau_education,experience,etat_matrimonial,possede_voiture,possede_logement,possede_terrain,socio_pro_group,revenu_annuel,nombre_enfants,charge_parentale,travail_secondaire,colonne_redundante,non_pertinente
0,56,S√©nior,Femme,Rural,Sans niveau,36,Mari√©,0,0,0,5,17280.125152,1,1,0,56,
1,69,√Çg√©,Homme,Urbain,Sans niveau,53,Mari√©,0,1,0,4,42914.143442,1,1,0,69,
2,46,S√©nior,Femme,Rural,Secondaire,22,C√©libataire,1,1,0,5,34253.521168,2,0,0,46,
3,32,Adulte,Homme,Rural,Fondamental,15,Mari√©,0,0,0,3,23291.704608,2,1,1,32,
4,60,√Çg√©,Homme,Rural,Secondaire,43,C√©libataire,0,0,0,2,35530.245679,3,0,0,60,
5,25,Jeune,Homme,Rural,Fondamental,4,C√©libataire,0,1,0,4,28870.819392,3,0,0,25,
6,38,Adulte,Homme,Urbain,Sans niveau,15,Mari√©,0,0,0,2,33985.541853,1,0,0,38,
7,56,S√©nior,Femme,Rural,Secondaire,35,Mari√©,0,0,1,4,27741.266025,2,1,1,56,
8,36,Adulte,Homme,Rural,Sans niveau,19,C√©libataire,1,0,0,3,24213.745398,2,0,0,36,
9,40,S√©nior,Homme,Urbain,Sans niveau,20,Mari√©,0,1,0,3,35895.048484,4,1,0,40,


## üìã Exploration initiale du dataset

Dans cette section, nous effectuons une premi√®re exploration du dataset g√©n√©r√© afin de mieux comprendre sa structure et son contenu. Les actions r√©alis√©es sont les suivantes :

- üìä Affichage du **nombre total d'observations** (lignes) et de **variables** (colonnes).
- üîç Inspection des **types de donn√©es** (num√©riques, cat√©gorielles, bool√©ennes, etc.) pour chaque colonne.
- üìà G√©n√©ration de **statistiques descriptives** pour les variables num√©riques (moyenne, √©cart-type, min, max, quartiles).
- üìä G√©n√©ration de statistiques pour les **variables cat√©gorielles** (nombre de valeurs uniques, valeur la plus fr√©quente, fr√©quence associ√©e).

Ces √©tapes permettent d‚Äôidentifier rapidement les variables cl√©s, les √©ventuelles anomalies, et de poser les bases pour les √©tapes de nettoyage et de visualisation.


In [2]:
# üìä Volume et dimensions
print(f"‚úÖ Nombre d‚Äôinstances : {df.shape[0]}")
print(f"‚úÖ Nombre de colonnes : {df.shape[1]}")

# üîç Types des donn√©es
print("\nüìå Types de donn√©es :")
print(df.dtypes)

# üìà Statistiques descriptives globales
print("\nüìå Statistiques descriptives (valeurs num√©riques) :")
display(df.describe())

print("\nüìå Statistiques descriptives (valeurs cat√©gorielles) :")
display(df.describe(include='object'))


‚úÖ Nombre d‚Äôinstances : 40000
‚úÖ Nombre de colonnes : 17

üìå Types de donn√©es :
age                     int64
categorie_age          object
sexe                   object
milieu                 object
niveau_education       object
experience              int64
etat_matrimonial       object
possede_voiture         int64
possede_logement        int64
possede_terrain         int64
socio_pro_group         int64
revenu_annuel         float64
nombre_enfants          int64
charge_parentale        int64
travail_secondaire      int64
colonne_redundante      int64
non_pertinente         object
dtype: object

üìå Statistiques descriptives (valeurs num√©riques) :


Unnamed: 0,age,experience,possede_voiture,possede_logement,possede_terrain,socio_pro_group,revenu_annuel,nombre_enfants,charge_parentale,travail_secondaire,colonne_redundante
count,40000.0,40000.0,40000.0,40000.0,40000.0,40000.0,37993.0,40000.0,40000.0,40000.0,40000.0
mean,43.491175,23.628675,0.30085,0.399925,0.14885,3.837275,34881.745127,2.005275,0.40155,0.150975,43.491175
std,14.976835,14.989533,0.458633,0.489889,0.355945,1.419999,12872.564645,1.42007,0.490218,0.358029,14.976835
min,18.0,0.0,0.0,0.0,0.0,1.0,3975.246759,0.0,0.0,0.0,18.0
25%,31.0,11.0,0.0,0.0,0.0,3.0,28701.094523,1.0,0.0,0.0,31.0
50%,43.0,23.0,0.0,0.0,0.0,4.0,34273.345282,2.0,0.0,0.0,43.0
75%,56.0,37.0,1.0,1.0,0.0,5.0,39797.197853,3.0,1.0,0.0,56.0
max,69.0,53.0,1.0,1.0,1.0,6.0,289898.277678,9.0,1.0,1.0,69.0



üìå Statistiques descriptives (valeurs cat√©gorielles) :


Unnamed: 0,categorie_age,sexe,milieu,niveau_education,etat_matrimonial,non_pertinente
count,40000,40000,40000,40000,40000,40000.0
unique,4,2,2,5,5,1.0
top,S√©nior,Homme,Urbain,Fondamental,Mari√©,
freq,15325,22026,25987,13223,17045,40000.0


In [3]:
!pip install sweetviz



## ü§ñ Analyse exploratoire automatis√©e avec Sweetviz

Pour compl√©ter l‚Äôexploration manuelle du dataset, nous utilisons **Sweetviz**, une biblioth√®que Python qui g√©n√®re automatiquement un rapport visuel interactif sur les donn√©es.

L‚Äôanalyse comprend :
- Les distributions des variables num√©riques et cat√©gorielles.
- La d√©tection des valeurs manquantes.
- Les corr√©lations entre variables.
- Les comparaisons entre classes si une variable cible est d√©finie (dans notre cas, ce sera utile plus tard).

Un fichier HTML nomm√© `rapport_complet_sweetviz.html` est g√©n√©r√©. Il peut √™tre ouvert dans un navigateur pour explorer facilement les caract√©ristiques du dataset.

> ‚ö†Ô∏è Assurez-vous que le fichier est bien g√©n√©r√© dans le m√™me r√©pertoire que le notebook pour pouvoir le consulter sans probl√®me.


In [4]:
# üìä Analyse exploratoire automatis√©e avec Sweetviz
import sweetviz as sv

rapport = sv.analyze(df)
rapport.show_html("rapport_complet_sweetviz.html")

print("‚úÖ Rapport Sweetviz g√©n√©r√© : rapport_complet_sweetviz.html")


                                             |          | [  0%]   00:00 -> (? left)

Report rapport_complet_sweetviz.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.
‚úÖ Rapport Sweetviz g√©n√©r√© : rapport_complet_sweetviz.html


## üßº Nettoyage des donn√©es

Avant d'entra√Æner un mod√®le de machine learning, il est essentiel de nettoyer le dataset afin d'am√©liorer la qualit√© des donn√©es et la fiabilit√© des r√©sultats.

Les √©tapes suivantes sont effectu√©es :

1. **Suppression des lignes avec un revenu manquant** (`revenu_annuel`) : comme cette variable est notre cible pour la pr√©diction, les lignes sans cette information sont retir√©es.
2. **Suppression des doublons** : les entr√©es dupliqu√©es sont supprim√©es pour √©viter les biais dans l‚Äôanalyse ou l'entra√Ænement du mod√®le.
3. **Correction des valeurs aberrantes dans le revenu annuel** :  
   - Utilisation de la m√©thode de l'√©cart interquartile (IQR) pour d√©tecter les revenus excessivement √©lev√©s.
   - Les valeurs au-dessus de `Q3 + 3*IQR` sont plafonn√©es √† cette limite sup√©rieure.

Ces op√©rations permettent d‚Äôassurer la **coh√©rence**, la **qualit√©** et la **pertinence statistique** des donn√©es.


In [5]:
# üßº 6.2 ‚Äì Nettoyage des donn√©es

# 1Ô∏è‚É£ Supprimer les lignes avec un revenu manquant
df = df[df["revenu_annuel"].notna()].copy()

# 2Ô∏è‚É£ Supprimer les doublons
initial_count = df.shape[0]
df.drop_duplicates(inplace=True)
print(f"‚úÖ Doublons supprim√©s : {initial_count - df.shape[0]}")

# 3Ô∏è‚É£ Correction des valeurs aberrantes sur revenu_annuel
q1 = df["revenu_annuel"].quantile(0.25)
q3 = df["revenu_annuel"].quantile(0.75)
iqr = q3 - q1
upper_bound = q3 + 3 * iqr

aberrant_mask = df["revenu_annuel"] > upper_bound
nb_aberrants = aberrant_mask.sum()
df.loc[aberrant_mask, "revenu_annuel"] = upper_bound

print(f"‚úÖ Valeurs aberrantes corrig√©es : {nb_aberrants}")


‚úÖ Doublons supprim√©s : 0
‚úÖ Valeurs aberrantes corrig√©es : 190


## üîÅ Transformation des donn√©es avec pipelines

Dans cette section, nous pr√©parons les donn√©es pour l'entra√Ænement des mod√®les de machine learning. Cela inclut la suppression de variables inutiles, la s√©paration des variables explicatives de la variable cible, ainsi que la d√©finition d‚Äôun pipeline de transformation.

### √âtapes effectu√©es :

1. **Suppression des colonnes inutiles** :
   - `colonne_redundante` et `non_pertinente` sont supprim√©es car elles n‚Äôapportent aucune information pertinente pour la mod√©lisation.

2. **S√©paration des variables** :
   - `X` contient les variables explicatives.
   - `y` contient la variable cible : `revenu_annuel`.

3. **Identification des types de variables** :
   - Les colonnes num√©riques et cat√©gorielles sont automatiquement d√©tect√©es pour appliquer des traitements adapt√©s.

4. **Construction des pipelines** :
   - üßÆ Pour les **variables num√©riques** : imputation des valeurs manquantes par la m√©diane + standardisation.
   - üè∑Ô∏è Pour les **variables cat√©gorielles** : imputation par la modalit√© la plus fr√©quente + encodage one-hot (avec gestion des modalit√©s inconnues).

L‚Äôensemble est int√©gr√© dans un `ColumnTransformer` pour garantir une transformation coh√©rente et automatis√©e des donn√©es en amont de la mod√©lisation.


In [6]:
# üîÅ 6.3 ‚Äì Transformation des donn√©es

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder

# 1Ô∏è‚É£ Suppression des colonnes redondantes et non pertinentes
df.drop(columns=["colonne_redundante", "non_pertinente"], inplace=True, errors="ignore")
print("‚úÖ Colonnes redondantes et non pertinentes supprim√©es.")

# 2Ô∏è‚É£ S√©parer X et y
X = df.drop("revenu_annuel", axis=1)
y = df["revenu_annuel"]

# 3Ô∏è‚É£ Identifier les colonnes num√©riques et cat√©gorielles
numerical_cols = X.select_dtypes(include=["int64", "float64"]).columns
categorical_cols = X.select_dtypes(include=["object"]).columns

# 4Ô∏è‚É£ Construire le pipeline de transformation
num_pipeline = Pipeline([
    ("imputer", SimpleImputer(strategy="median")),
    ("scaler", StandardScaler())
])

cat_pipeline = Pipeline([
    ("imputer", SimpleImputer(strategy="most_frequent")),
    ("encoder", OneHotEncoder(handle_unknown="ignore", sparse_output=False))
])

preprocessor_final = ColumnTransformer(transformers=[
    ("num", num_pipeline, numerical_cols),
    ("cat", cat_pipeline, categorical_cols)
])

print("‚úÖ Pipeline de transformation pr√™t.")


‚úÖ Colonnes redondantes et non pertinentes supprim√©es.
‚úÖ Pipeline de transformation pr√™t.


## ‚úÇÔ∏è S√©paration des donn√©es en ensembles d'entra√Ænement et de test

Avant d'entra√Æner un mod√®le, il est essentiel de diviser le dataset en deux sous-ensembles distincts :

- **Ensemble d'entra√Ænement (train)** : utilis√© pour ajuster les param√®tres du mod√®le.
- **Ensemble de test (test)** : utilis√© pour √©valuer la performance du mod√®le sur des donn√©es jamais vues.

Dans notre cas :
- 70 % des donn√©es sont utilis√©es pour l'entra√Ænement.
- 30 % sont r√©serv√©es pour le test.
- La s√©paration est **al√©atoire mais reproductible** gr√¢ce √† l‚Äôargument `random_state=42`.

Cette s√©paration permet une **√©valuation fiable** de la capacit√© du mod√®le √† g√©n√©raliser √† de nouvelles donn√©es.


In [7]:
# ‚úÇÔ∏è 6.4 ‚Äì S√©paration des donn√©es

from sklearn.model_selection import train_test_split

# 70% train, 30% test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

print(f"‚úÖ S√©paration des donn√©es effectu√©e :")
print(f"   ‚û§ Train : {X_train.shape[0]} lignes")
print(f"   ‚û§ Test  : {X_test.shape[0]} lignes")


‚úÖ S√©paration des donn√©es effectu√©e :
   ‚û§ Train : 26595 lignes
   ‚û§ Test  : 11398 lignes


## üß† Mod√©lisation et recherche d‚Äôhyperparam√®tres

Nous testons plusieurs mod√®les de r√©gression afin de pr√©dire le **revenu annuel**. Pour chaque mod√®le, nous utilisons un pipeline complet incluant la transformation des donn√©es (`preprocessor_final`) et la recherche des **meilleurs hyperparam√®tres** √† l‚Äôaide de `RandomizedSearchCV`.

### Mod√®les √©valu√©s :
- üîπ `LinearRegression` : mod√®le de base, sans hyperparam√®tres.
- üå≤ `DecisionTreeRegressor` : arbre de d√©cision avec recherche sur la profondeur, le crit√®re, etc.
- üå≥ `RandomForestRegressor` : for√™t al√©atoire avec ajustement du nombre d‚Äôarbres et de leur profondeur.
- üî∫ `GradientBoostingRegressor` : boosting par gradient avec tuning du taux d‚Äôapprentissage, du nombre d‚Äôarbres, etc.
- üß† `MLPRegressor` : r√©seau de neurones avec arr√™t anticip√© et ajustement de plusieurs param√®tres (couches, activation, taux d‚Äôapprentissage...).

### M√©thodologie :
- Utilisation de `RandomizedSearchCV` avec 3 **folds** pour validation crois√©e.
- **Score d‚Äôoptimisation** : `R¬≤` sur les donn√©es de validation.
- **√âvaluation finale** sur l‚Äôensemble de test √† l‚Äôaide des m√©triques :
  - R¬≤ (coefficient de d√©termination)
  - MAE (erreur absolue moyenne)
  - RMSE (racine de l‚Äôerreur quadratique moyenne)

√Ä la fin, un **r√©sum√© comparatif** pr√©sente les performances et les meilleurs param√®tres pour chaque mod√®le.

> ‚öôÔ∏è N_iter est fix√© √† 5 pour acc√©l√©rer les recherches, mais il peut √™tre augment√© pour am√©liorer les r√©sultats.


In [12]:
from sklearn.model_selection import RandomizedSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.pipeline import make_pipeline
import numpy as np
import pandas as pd

# Mod√®les et hyperparam√®tres
models = {
    "LinearRegression": {
        "estimator": make_pipeline(preprocessor_final, LinearRegression()),
        "params": {}
    },
    "DecisionTreeRegressor": {
        "estimator": make_pipeline(preprocessor_final, DecisionTreeRegressor(random_state=42)),
        "params": {
            "decisiontreeregressor__criterion": ["squared_error", "absolute_error"],
            "decisiontreeregressor__max_depth": [None, 5, 6, 7, 10],
            "decisiontreeregressor__min_samples_split": [2, 3, 4, 5, 10]
        }
    },
    "RandomForestRegressor": {
        "estimator": make_pipeline(preprocessor_final, RandomForestRegressor(random_state=42)),
        "params": {
            "randomforestregressor__n_estimators": [50, 100, 150, 200],
            "randomforestregressor__criterion": ["squared_error", "absolute_error"],
            "randomforestregressor__max_depth": [None, 5, 10, 15, 20]
        }
    },
    "GradientBoostingRegressor": {
        "estimator": make_pipeline(preprocessor_final, GradientBoostingRegressor(random_state=42)),
        "params": {
            "gradientboostingregressor__loss": ["squared_error", "absolute_error"],
            "gradientboostingregressor__learning_rate": [0.01, 0.1, 0.2],
            "gradientboostingregressor__n_estimators": [100, 200, 300],
            "gradientboostingregressor__subsample": [0.5, 0.8, 1]
        }
    },
    "MLPRegressor": {
    "estimator": make_pipeline(
        preprocessor_final,
        MLPRegressor(
            random_state=42,
            early_stopping=True,     # ‚úÖ stoppe si pas d‚Äôam√©lioration
            tol=1e-4,                # ‚úÖ tol√©rance plus stricte
            max_fun=15000            # ‚úÖ emp√™che trop d‚Äôappels internes
        )
    ),
    "params": {
        "mlpregressor__hidden_layer_sizes": [(50,), (100,), (100, 50), (100, 100)],
        "mlpregressor__activation": ["relu", "tanh", "logistic"],
        "mlpregressor__solver": ["adam", "sgd"],
        "mlpregressor__alpha": [0.0001, 0.001, 0.01],
        "mlpregressor__learning_rate": ["constant", "invscaling", "adaptive"],
        "mlpregressor__learning_rate_init": [0.001, 0.01, 0.1],
        "mlpregressor__max_iter": [100, 200, 300]
    }
}
}

# R√©sultats
results = []

for name, config in models.items():
    print(f"üîÑ Entra√Ænement (RandomizedSearchCV) pour : {name}")
    search = RandomizedSearchCV(
        estimator=config["estimator"],
        param_distributions=config["params"],
        n_iter=5,  # üü° Tu peux ajuster √† 5 ou 3 si c‚Äôest encore lent
        scoring="r2",
        cv=3,
        n_jobs=-1,
        random_state=42
    )
    
    search.fit(X_train, y_train)
    y_pred = search.predict(X_test)
    
    mae = mean_absolute_error(y_test, y_pred)
    rmse = mean_squared_error(y_test, y_pred, squared=False)
    r2 = r2_score(y_test, y_pred)
    print("üìä R√©sultats :")
    print(f"   ‚û§ R2 (test)  : {r2:.4f}")
    print(f"   ‚û§ MAE (test) : {mae:.2f}")
    print(f"   ‚û§ RMSE (test): {rmse:.2f}")
    print(f"   ‚û§ Meilleurs hyperparam√®tres : {search.best_params_}")
    results.append({
        "Mod√®le": name,
        "Meilleurs param√®tres": search.best_params_,
        "R2 (validation)": search.best_score_,
        "MAE (test)": mae,
        "RMSE (test)": rmse,
        "R2 (test)": r2,
        "Pipeline": search.best_estimator_
    })

# R√©sum√© des r√©sultats
results_df = pd.DataFrame(results).sort_values(by="R2 (test)", ascending=False)
results_df[["Mod√®le", "R2 (test)", "MAE (test)", "RMSE (test)", "Meilleurs param√®tres"]]


üîÑ Entra√Ænement (RandomizedSearchCV) pour : LinearRegression




üìä R√©sultats :
   ‚û§ R2 (test)  : 0.7663
   ‚û§ MAE (test) : 2608.12
   ‚û§ RMSE (test): 4069.83
   ‚û§ Meilleurs hyperparam√®tres : {}
üîÑ Entra√Ænement (RandomizedSearchCV) pour : DecisionTreeRegressor
üìä R√©sultats :
   ‚û§ R2 (test)  : 0.6982
   ‚û§ MAE (test) : 3070.21
   ‚û§ RMSE (test): 4624.90
   ‚û§ Meilleurs hyperparam√®tres : {'decisiontreeregressor__min_samples_split': 2, 'decisiontreeregressor__max_depth': 10, 'decisiontreeregressor__criterion': 'absolute_error'}
üîÑ Entra√Ænement (RandomizedSearchCV) pour : RandomForestRegressor
üìä R√©sultats :
   ‚û§ R2 (test)  : 0.7203
   ‚û§ MAE (test) : 2921.76
   ‚û§ RMSE (test): 4452.03
   ‚û§ Meilleurs hyperparam√®tres : {'randomforestregressor__n_estimators': 200, 'randomforestregressor__max_depth': 15, 'randomforestregressor__criterion': 'squared_error'}
üîÑ Entra√Ænement (RandomizedSearchCV) pour : GradientBoostingRegressor
üìä R√©sultats :
   ‚û§ R2 (test)  : 0.7623
   ‚û§ MAE (test) : 2645.78
   ‚û§ RMSE (test): 41



üìä R√©sultats :
   ‚û§ R2 (test)  : 0.7331
   ‚û§ MAE (test) : 2879.04
   ‚û§ RMSE (test): 4348.77
   ‚û§ Meilleurs hyperparam√®tres : {'mlpregressor__solver': 'adam', 'mlpregressor__max_iter': 200, 'mlpregressor__learning_rate_init': 0.1, 'mlpregressor__learning_rate': 'adaptive', 'mlpregressor__hidden_layer_sizes': (50,), 'mlpregressor__alpha': 0.01, 'mlpregressor__activation': 'tanh'}


Unnamed: 0,Mod√®le,R2 (test),MAE (test),RMSE (test),Meilleurs param√®tres
0,LinearRegression,0.766278,2608.115165,4069.831167,{}
3,GradientBoostingRegressor,0.762289,2645.779093,4104.411564,"{'gradientboostingregressor__subsample': 0.8, ..."
4,MLPRegressor,0.733142,2879.037074,4348.77492,"{'mlpregressor__solver': 'adam', 'mlpregressor..."
2,RandomForestRegressor,0.720319,2921.762837,4452.028848,"{'randomforestregressor__n_estimators': 200, '..."
1,DecisionTreeRegressor,0.698177,3070.214191,4624.904614,{'decisiontreeregressor__min_samples_split': 2...


## ‚úÖ Test final du meilleur mod√®le

Apr√®s l‚Äô√©valuation de plusieurs mod√®les, nous s√©lectionnons **celui qui pr√©sente le meilleur score R¬≤** sur les donn√©es de test.

### √âtapes r√©alis√©es :
1. **Identification automatique** du mod√®le le plus performant (`best_model`) selon le R¬≤.
2. **Pr√©diction** sur l‚Äôensemble de test (`X_test`) avec ce mod√®le.
3. **√âvaluation finale** √† l‚Äôaide des m√©triques :
   - MAE (Erreur absolue moyenne)
   - RMSE (Racine de l‚Äôerreur quadratique moyenne)
   - R¬≤ (Coefficient de d√©termination)

> üéØ Ce test final permet de valider que le mod√®le s√©lectionn√© est capable de **g√©n√©raliser correctement** √† de nouvelles donn√©es.


In [13]:
# 6.6 ‚Äì Test final du meilleur mod√®le

# 1Ô∏è‚É£ Identifier le mod√®le le plus performant (meilleur R¬≤)
best_model_info = results_df.sort_values(by="R2 (test)", ascending=False).iloc[0]
best_model_name = best_model_info["Mod√®le"]
best_model = best_model_info["Pipeline"]

print(f"\n‚úÖ Test du mod√®le s√©lectionn√© : {best_model_name}")

# 2Ô∏è‚É£ Pr√©diction sur X_test
y_pred = best_model.predict(X_test)

# 3Ô∏è‚É£ √âvaluation finale
mae_final = mean_absolute_error(y_test, y_pred)
rmse_final = mean_squared_error(y_test, y_pred, squared=False)
r2_final = r2_score(y_test, y_pred)

print("üìä R√©sultats finaux du mod√®le s√©lectionn√© :")
print(f"   ‚û§ MAE  : {mae_final:.2f}")
print(f"   ‚û§ RMSE : {rmse_final:.2f}")
print(f"   ‚û§ R¬≤   : {r2_final:.4f}")



‚úÖ Test du mod√®le s√©lectionn√© : LinearRegression
üìä R√©sultats finaux du mod√®le s√©lectionn√© :
   ‚û§ MAE  : 2608.12
   ‚û§ RMSE : 4069.83
   ‚û§ R¬≤   : 0.7663


## üíæ Sauvegarde des meilleurs mod√®les

Afin de pouvoir **r√©utiliser les mod√®les sans devoir les r√©entra√Æner**, nous sauvegardons les **3 meilleurs mod√®les** (selon leur score R¬≤ sur l‚Äôensemble de test) au format `.joblib`.

### Pourquoi sauvegarder les mod√®les ?
- Pour une utilisation dans une **application web** ou une **API de pr√©diction**.
- Pour **partager** le mod√®le avec d'autres utilisateurs.
- Pour **gagner du temps** lors de futures pr√©dictions.

> üìÇ Les fichiers g√©n√©r√©s peuvent ensuite √™tre recharg√©s avec `joblib.load("nom_du_fichier.joblib")`.


In [14]:
import joblib

# Sauvegarder les 3 meilleurs mod√®les dans des fichiers .joblib
top_3 = results_df.sort_values(by="R2 (test)", ascending=False).head(3)

saved_models = []
for i, row in top_3.iterrows():
    model_name = row["Mod√®le"].lower().replace(" ", "_")
    filename = f"{model_name}_model.joblib"
    joblib.dump(row["Pipeline"], filename)
    saved_models.append((row["Mod√®le"], filename))

saved_models


[('LinearRegression', 'linearregression_model.joblib'),
 ('GradientBoostingRegressor', 'gradientboostingregressor_model.joblib'),
 ('MLPRegressor', 'mlpregressor_model.joblib')]