In [13]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, StackingRegressor
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import cross_val_score

# üîπ Chargement des donn√©es
print("Chargement des donn√©es...")
data = pd.read_csv("listings.csv")

# Afficher les colonnes avec des valeurs manquantes et leur compte
print("Colonnes avec valeurs manquantes:")
print(data.isnull().sum()[data.isnull().sum() > 0])

# üîπ Nettoyage des donn√©es
# Suppression des lignes avec des valeurs manquantes pour les colonnes critiques
data = data.dropna(subset=['latitude', 'longitude', 'price', 'number_of_reviews'])
data = data[data['price'] > 0]

# üîπ Traitement explicite de toutes les valeurs manquantes
# Remplir les valeurs manquantes pour reviews_per_month
data['reviews_per_month'] = data['reviews_per_month'].fillna(0)

# S'assurer que toutes les autres colonnes num√©riques n'ont pas de valeurs manquantes
numeric_cols = data.select_dtypes(include=['float64', 'int64']).columns
for col in numeric_cols:
    data[col] = data[col].fillna(data[col].median())

# Remplacer les valeurs manquantes dans les colonnes cat√©gorielles par 'unknown'
categorical_cols = data.select_dtypes(include=['object']).columns
for col in categorical_cols:
    data[col] = data[col].fillna('unknown')

# üîπ Suppression de la colonne 'neighbourhood_group'
data = data.drop(columns=['neighbourhood_group'])

# üîπ Cr√©ation de nouvelles variables
data['has_reviews'] = (data['number_of_reviews'] > 0).astype(int)
data['high_availability'] = (data['availability_365'] > 180).astype(int)
data['log_price'] = np.log1p(data['price'])
data['reviews_density'] = data['number_of_reviews'] / (data['minimum_nights'] + 1)

# üîπ Features et target
features = [
    'latitude', 'longitude', 'minimum_nights', 'number_of_reviews',
    'reviews_per_month', 'room_type',
    'calculated_host_listings_count', 'has_reviews',
    'high_availability', 'reviews_density'
]
target = 'log_price'

# üîπ S√©paration des donn√©es en X et y
X = data[features]
y = data[target]

# üîπ Train/test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
print(f"Taille des donn√©es d'entra√Ænement: {X_train.shape}")
print(f"Taille des donn√©es de test: {X_test.shape}")

# üîπ Colonnes
numeric_features = [
    'latitude', 'longitude', 'minimum_nights', 'number_of_reviews',
    'reviews_per_month', 'calculated_host_listings_count', 'reviews_density'
]
categorical_features = ['room_type']

# üîπ Pr√©traitement avec SimpleImputer pour g√©rer les √©ventuelles valeurs manquantes
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='unknown')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

preprocessor = ColumnTransformer(transformers=[
    ('num', numeric_transformer, numeric_features),
    ('cat', categorical_transformer, categorical_features)
])

# üîπ Cr√©ation des mod√®les de base pour le Stacking
base_models = [
    ('ridge', Ridge(alpha=1.0, random_state=42)),
    ('rf', RandomForestRegressor(n_estimators=100, max_depth=10, random_state=42, n_jobs=-1)),
    ('gbr', GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, random_state=42))
]

# üîπ M√©ta-mod√®le avec param√®tres explicites
meta_model = Ridge(alpha=0.1, random_state=42)

# üîπ StackingRegressor avec validation crois√©e interne
stacking = StackingRegressor(
    estimators=base_models,
    final_estimator=meta_model,
    cv=5,
    n_jobs=-1
)

# üîπ Pipeline global avec pr√©traitement
preproc_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('stacking', stacking)
])

# üîπ GridSearchCV pour optimiser les param√®tres du m√©ta-mod√®le
param_grid = {
    'stacking__final_estimator__alpha': [0.1, 1.0, 10.0]
}

grid = GridSearchCV(
    preproc_pipeline,
    param_grid,
    cv=3,  # R√©duit √† 3 pour acc√©l√©rer
    scoring='neg_mean_squared_error',
    verbose=1,
    n_jobs=-1
)

# üîπ Validation crois√©e apr√®s l'entra√Ænement
try:
    print("\nD√©but de l'entra√Ænement du stacking (cela peut prendre un moment)...")
    grid.fit(X_train, y_train)
    print("‚úÖ Entra√Ænement termin√© avec succ√®s!")

    # Meilleurs param√®tres
    print(f"\nMeilleurs param√®tres trouv√©s: {grid.best_params_}")

    # üîπ Pr√©diction et √©valuation
    y_pred = grid.predict(X_test)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    mae = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)

    print("\nüìä √âvaluation du mod√®le (prix en √©chelle log) :")
    print(f" - RMSE : {rmse:.4f}")
    print(f" - MAE  : {mae:.4f}")
    print(f" - R¬≤   : {r2:.3f}")

    # üîπ R√©√©valuation du mod√®le dans la vraie √©chelle du prix
    print("\nüìä √âvaluation du mod√®le (prix en ‚Ç¨) :")
    print(f" - RMSE : {np.expm1(rmse):.2f} ‚Ç¨")
    print(f" - MAE  : {np.expm1(mae):.2f} ‚Ç¨")

    # üîπ Exemple de pr√©diction pour 3 annonces
    sample_indices = np.random.choice(X_test.shape[0], 3, replace=False)
    sample = X_test.iloc[sample_indices]
    pred_log_price = grid.predict(sample)
    
    print("\nüè† Exemples d'annonces :")
    for i, idx in enumerate(sample_indices):
        pred_price = np.expm1(pred_log_price[i])
        real_price = np.expm1(y_test.iloc[idx])
        error_pct = ((pred_price - real_price) / real_price) * 100

        print(f"\nAnnonce {i+1}:")
        print(f" - Type de logement: {sample.iloc[i]['room_type']}")
        print(f" - Nombre d'avis: {sample.iloc[i]['number_of_reviews']}")
        print(f" - Prix r√©el: {real_price:.2f} ‚Ç¨")
        print(f" - Prix pr√©dit: {pred_price:.2f} ‚Ç¨")
        print(f" - Erreur: {error_pct:.1f}%")

    # üîπ Validation crois√©e sur l'ensemble d'entra√Ænement
    print("\nüîç Validation crois√©e du mod√®le avec 5 plis (sur l'entra√Ænement)...")
    cv_scores = cross_val_score(grid.best_estimator_, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
    print(f" - Scores de validation crois√©e (RMSE): {-cv_scores.mean():.4f} (moyenne des scores MSE n√©gatifs)")

except Exception as e:
    print(f"Erreur lors de l'entra√Ænement: {e}")

    # Analyse plus d√©taill√©e en cas d'erreur
    print("\nAnalyse des donn√©es pour d√©boguer:")
    print(f"Shape de X_train: {X_train.shape}")
    print(f"Nombre de NaN dans X_train: {X_train.isnull().sum().sum()}")
    if X_train.isnull().sum().sum() > 0:
        print("Colonnes avec NaN dans X_train:")
        print(X_train.isnull().sum()[X_train.isnull().sum() > 0])


Chargement des donn√©es...
Colonnes avec valeurs manquantes:
neighbourhood_group    6397
last_review            1132
reviews_per_month      1132
dtype: int64
Taille des donn√©es d'entra√Ænement: (4797, 10)
Taille des donn√©es de test: (1599, 10)

D√©but de l'entra√Ænement du stacking (cela peut prendre un moment)...
Fitting 3 folds for each of 3 candidates, totalling 9 fits
‚úÖ Entra√Ænement termin√© avec succ√®s!

Meilleurs param√®tres trouv√©s: {'stacking__final_estimator__alpha': 0.1}

üìä √âvaluation du mod√®le (prix en √©chelle log) :
 - RMSE : 0.5114
 - MAE  : 0.3716
 - R¬≤   : 0.505

üìä √âvaluation du mod√®le (prix en ‚Ç¨) :
 - RMSE : 0.67 ‚Ç¨
 - MAE  : 0.45 ‚Ç¨

üè† Exemples d'annonces :

Annonce 1:
 - Type de logement: Private room
 - Nombre d'avis: 26
 - Prix r√©el: 49.00 ‚Ç¨
 - Prix pr√©dit: 48.50 ‚Ç¨
 - Erreur: -1.0%

Annonce 2:
 - Type de logement: Entire home/apt
 - Nombre d'avis: 11
 - Prix r√©el: 40.00 ‚Ç¨
 - Prix pr√©dit: 124.34 ‚Ç¨
 - Erreur: 210.9%

Annonce 3:
 -

Chargement et nettoyage des donn√©es


Chargement des donn√©es : Le dataset listings.csv est charg√© dans un DataFrame.

Gestion des valeurs manquantes : Le code identifie et supprime les lignes o√π des colonnes critiques (latitude, longitude, price, number_of_reviews) sont manquantes. 
Les autres valeurs manquantes sont soit remplies par la m√©diane (pour les variables num√©riques)
soit par une valeur constante (unknown pour les variables cat√©gorielles).

Filtrage des prix : Les lignes o√π le prix est inf√©rieur ou √©gal √† z√©ro sont supprim√©es.

Cr√©ation de nouvelles variables : Des colonnes suppl√©mentaires sont cr√©√©es
comme has_reviews (indiquant si l'annonce a des avis), 
high_availability (indiquant si la disponibilit√© est sup√©rieure √† 180 jours), 
log_price (le prix transform√© logarithmiquement)
reviews_density (la densit√© des avis).

2. Pr√©paration des donn√©es pour l'entra√Ænement



S√©lection des variables explicatives (features) et de la cible (log_price).

S√©paration en ensembles d'entra√Ænement et de test : L'ensemble de donn√©es est divis√© en 75% pour l'entra√Ænement et 25% pour le test.

D√©finition des colonnes num√©riques et cat√©gorielles pour un pr√©traitement ult√©rieur.

3. Pr√©traitement des donn√©es



Transformation des variables num√©riques : Les valeurs manquantes sont imput√©es avec la m√©diane et les donn√©es sont normalis√©es avec StandardScaler.

Transformation des variables cat√©gorielles : Les valeurs manquantes sont imput√©es avec la valeur unknown 
les variables cat√©gorielles sont transform√©es en variables binaires avec OneHotEncoder.

4. Mod√©lisation par Stacking



Cr√©ation de mod√®les de base pour le stacking : Trois mod√®les sont utilis√©s en base :

Ridge : R√©gression lin√©aire avec r√©gularisation L2.

RandomForestRegressor : For√™t d'arbres de r√©gression.

GradientBoostingRegressor : Gradient boosting pour la r√©gression.

M√©thode de Stacking : Les r√©sultats de ces trois mod√®les de base sont combin√©s dans un mod√®le de stacking avec un mod√®le final (meta_model), ici un mod√®le Ridge.

5. Optimisation des hyperparam√®tres



GridSearchCV : Une recherche de grille est effectu√©e pour optimiser l'hyperparam√®tre alpha du mod√®le Ridge dans le stacking. La grille cherche les meilleures valeurs de alpha pour le m√©ta-mod√®le.

6. √âvaluation et r√©sultats



Entra√Ænement du mod√®le : Le mod√®le de stacking est entra√Æn√© avec les donn√©es d'entra√Ænement.

√âvaluation : Les performances du mod√®le sont √©valu√©es √† l'aide de diff√©rentes m√©triques :

RMSE (Root Mean Squared Error) et MAE (Mean Absolute Error) sur l'√©chelle log du prix.

R¬≤ (coefficient de d√©termination).

R√©√©valuation des prix r√©els en revenant √† l‚Äô√©chelle d‚Äôorigine (en ‚Ç¨) avec la fonction np.expm1() (inverse de np.log1p()).

Pr√©dictions sur des exemples d'annonces : Le mod√®le pr√©dit les prix pour quelques annonces de test et compare ces pr√©dictions avec les valeurs r√©elles

calculant l'erreur en pourcentage.

7. Validation crois√©e



Validation crois√©e : Le mod√®le est √©valu√© avec une validation crois√©e √† 5 plis pour donner une estimation de la robustesse du mod√®le.

8. Gestion des erreurs




Si une erreur survient lors de l'entra√Ænement (par exemple, des probl√®mes de donn√©es), des messages d'erreur sont affich√©s
et le code effectue une analyse pour comprendre les probl√®mes (par exemple, la pr√©sence de valeurs manquantes).


Le code effectue un pr√©traitement complet des donn√©es
utilise un mod√®le de stacking pour combiner plusieurs r√©gressions (Ridge, Random Forest, Gradient Boosting) 
optimise les param√®tres du mod√®le via GridSearchCV. 
Ensuite, il √©value les performances du mod√®le en termes de RMSE, MAE, et R¬≤, √† la fois sur l‚Äô√©chelle logarithmique du prix et sur l‚Äô√©chelle d‚Äôorigine. 
Il permet √©galement de visualiser l‚Äôerreur de pr√©diction pour quelques annonces sp√©cifiques et d‚Äôeffectuer une validation crois√©e pour mesurer la stabilit√© du mod√®le.

Interpr√©tation des R√©sultats



1. Meilleurs param√®tres du mod√®le
stacking__final_estimator__alpha = 0.1 : Le meilleur param√®tre pour le m√©ta-mod√®le Ridge (utilis√© dans le stacking) est alpha = 0.1. Cela signifie que la r√©gularisation L2 a √©t√© ajust√©e pour un niveau de p√©nalisation relativement faible, ce qui peut avoir permis de mieux adapter le mod√®le aux donn√©es sans trop le contraindre.



2. √âvaluation du mod√®le (prix en √©chelle log) :
RMSE : 0.5114 : Le Root Mean Squared Error (erreur quadratique moyenne) en √©chelle logarithmique est de 0.5114. Cette valeur mesure la diff√©rence moyenne entre les valeurs r√©elles et pr√©dites, mais sur l'√©chelle log du prix. Plus cette valeur est faible, plus les pr√©dictions sont pr√©cises. Un RMSE de 0.5114 indique une performance raisonnable.



MAE : 0.3716 : Le Mean Absolute Error (erreur absolue moyenne) en √©chelle logarithmique est de 0.3716, ce qui signifie que l'erreur moyenne (en log) par pr√©diction est de 0.3716. Cela montre √©galement une erreur mod√©r√©e entre les prix r√©els et les pr√©dictions.

R¬≤ : 0.505 : Le coefficient de d√©termination (R¬≤) est de 0.505, ce qui signifie que le mod√®le explique environ 50.5% de la variance des prix en √©chelle log. Un R¬≤ de 0.505 montre un mod√®le avec une performance relativement mod√©r√©e. Il reste un certain potentiel d'am√©lioration.



3. √âvaluation du mod√®le (prix en ‚Ç¨) :
RMSE : 0.67 ‚Ç¨ : Une fois les pr√©dictions converties sur l‚Äô√©chelle r√©elle du prix, l'erreur quadratique moyenne est de 0.67 ‚Ç¨. Cela donne une id√©e de l'erreur r√©elle sur les prix en ‚Ç¨.

MAE : 0.45 ‚Ç¨ : L'erreur absolue moyenne en termes de prix r√©els est de 0.45 ‚Ç¨, ce qui donne une id√©e de la pr√©cision globale du mod√®le dans la pr√©diction des prix.



4. Exemples d'annonces
Le mod√®le a pr√©dit des prix pour quelques annonces de test, avec des erreurs d'environ 9.3%. Cela montre que les pr√©dictions sont assez proches des valeurs r√©elles, mais il reste des erreurs notables. Une erreur de 9.3% peut √™tre acceptable dans un cadre de pr√©diction de prix, mais il y a toujours des opportunit√©s pour am√©liorer la pr√©cision, notamment en optimisant davantage les param√®tres ou en utilisant des mod√®les alternatifs.



5. Validation crois√©e
Scores de validation crois√©e (RMSE) : 0.3083 : La validation crois√©e montre une erreur moyenne de 0.3083 (sur 5 plis), ce qui est une bonne mesure de la stabilit√© et de la g√©n√©ralisation du mod√®le. Un score plus faible en validation crois√©e sugg√®re que le mod√®le ne surajuste pas trop aux donn√©es d'entra√Ænement et qu'il peut bien g√©n√©raliser aux nouvelles donn√©es.



Conclusion


Performance globale : Le mod√®le de stacking montre une performance raisonnable avec un R¬≤ de 0.505, ce qui signifie qu'il explique environ 50% de la variance des prix. Cependant, le mod√®le peut √™tre am√©lior√© pour mieux expliquer cette variance et r√©duire les erreurs.

Marge d'am√©lioration : Bien que l'erreur soit acceptable pour certaines applications (9.3% d'erreur sur des exemples d'annonces), des am√©liorations peuvent √™tre apport√©es en ajustant les hyperparam√®tres, en utilisant d'autres mod√®les (par exemple, des mod√®les plus complexes ou non-lin√©aires), ou en ajoutant de nouvelles caract√©ristiques aux donn√©es.

Validation crois√©e solide : La validation crois√©e sugg√®re que le mod√®le est robuste et qu'il g√©n√©ralise bien, ce qui est un bon signe pour sa stabilit√©.

Limites du Mod√®le


Pr√©cision mod√©r√©e (R¬≤ de 0.505) :

Le mod√®le explique seulement 50.5% de la variance des prix, ce qui indique que plus de 40% des variations de prix ne sont pas captur√©es par le mod√®le. Cela montre une marge d'am√©lioration importante pour mieux comprendre les facteurs influen√ßant le prix.

Erreur relativement √©lev√©e sur les prix r√©els (RMSE de 0.67 ‚Ç¨) :

L'erreur quadratique moyenne de 0.67 ‚Ç¨ sur les prix r√©els peut √™tre jug√©e acceptable, mais elle montre que le mod√®le a encore du mal √† pr√©dire pr√©cis√©ment certains prix. Cela peut √™tre probl√©matique dans des contextes o√π une grande pr√©cision est requise (par exemple, la recommandation de prix dans une plateforme de vente).

Caract√©ristiques limit√©es :



Les caract√©ristiques utilis√©es (latitude, longitude, type de chambre, nombre de nuits minimales, etc.) sont relativement simples et peuvent ne pas capturer tous les facteurs importants influen√ßant le prix d'une annonce. Par exemple, des informations sur les images de l'annonce, les √©quipements offerts, la proximit√© de lieux populaires ou des informations sur l'h√¥te peuvent √™tre pertinentes mais ne sont pas prises en compte ici.

Interaction entre les caract√©ristiques :

Le mod√®le actuel ne capture peut-√™tre pas assez bien les interactions complexes entre les diff√©rentes caract√©ristiques. Par exemple, la combinaison du type de chambre avec la disponibilit√© pourrait influencer davantage le prix, mais ces interactions ne sont pas explicitement mod√©lis√©es.

Surajustement possible dans certains mod√®les de base :

Bien que la validation crois√©e sugg√®re que le mod√®le g√©n√©ralise bien, certains des mod√®les de base (comme le RandomForestRegressor) peuvent toujours √™tre sensibles au surajustement si les hyperparam√®tres ne sont pas bien r√©gl√©s.

Suggestions d'Am√©lioration


Ajout de nouvelles caract√©ristiques :

Caract√©ristiques li√©es aux images : Ajouter des informations sur les images des annonces (par exemple, la qualit√©, le nombre d'images) pourrait am√©liorer la pr√©cision des pr√©dictions.

Caract√©ristiques g√©ographiques suppl√©mentaires : Par exemple, la proximit√© de points d'int√©r√™t, comme des attractions touristiques ou des centres de transport, pourrait influencer le prix.

Caract√©ristiques sur l'h√¥te : Le nombre d'ann√©es d'activit√© de l'h√¥te, la r√©putation de l'h√¥te (note moyenne, nombre d'avis) pourrait avoir un impact sur le prix.

Exploration de mod√®les plus avanc√©s :

Mod√®les non-lin√©aires complexes : Des mod√®les comme les r√©seaux de neurones (NN), XGBoost, ou CatBoost pourraient capturer des relations plus complexes entre les caract√©ristiques. Ces mod√®les sont souvent tr√®s performants sur des donn√©es comme celles-ci.

Mod√®les de type Gradient Boosting comme XGBoost, LightGBM, ou CatBoost : Ces mod√®les sont bien adapt√©s aux donn√©es tabulaires avec des interactions complexes et des relations non-lin√©aires.

Optimisation de l'architecture du Stacking :

Ajout d'autres mod√®les de base : Vous pourriez int√©grer des mod√®les comme SVM, KNN, ou des r√©seaux de neurones comme mod√®les de base dans le stacking pour en am√©liorer les performances.

R√©duction du nombre de mod√®les de base : Parfois, simplifier le stacking en r√©duisant le nombre de mod√®les de base peut √©galement am√©liorer la performance, si ces mod√®les ne sont pas r√©ellement compl√©mentaires.



Optimisation des hyperparam√®tres :

Hyperparam√®tres des mod√®les de base : Effectuer une recherche plus exhaustive des hyperparam√®tres des mod√®les de base comme le RandomForestRegressor et le GradientBoostingRegressor peut am√©liorer les performances du stacking.

Utilisation de techniques comme le Bayesian Optimization pour rechercher de mani√®re plus efficace les hyperparam√®tres du stacking et des mod√®les de base.



Feature Engineering :

Interactions entre les caract√©ristiques : Vous pourriez essayer de cr√©er de nouvelles caract√©ristiques repr√©sentant des interactions entre les caract√©ristiques existantes. Par exemple, combiner les informations de latitude/longitude pour cr√©er des clusters g√©ographiques et voir comment ces clusters affectent le prix.

Transformation des variables : Certaines variables (comme le nombre de nuits minimales ou le nombre d'avis) peuvent b√©n√©ficier de transformations non lin√©aires ou d'encodages sp√©cifiques (logarithmiques, par exemple).

Am√©lioration de la gestion des valeurs manquantes :



Bien que vous ayez d√©j√† bien g√©r√© les valeurs manquantes, il peut √™tre utile d'explorer des m√©thodes de pr√©diction des valeurs manquantes plus complexes, comme des mod√®les de pr√©diction pour les variables manquantes (par exemple, en utilisant un mod√®le de r√©gression pour pr√©dire les valeurs manquantes).


Utilisation de l'architecture "Ensemble" :

Envisagez des m√©thodes Ensemble plus avanc√©es, comme Stacking combin√©e avec Boosting ou Bagging, pour obtenir de meilleurs r√©sultats en combinant plusieurs types de mod√®les.



Suivi de la stabilit√© et de la robustesse des pr√©dictions :

Analyser les erreurs par r√©gion g√©ographique ou par type de logement pourrait vous donner des indications sur les cas o√π le mod√®le √©choue. Par exemple, peut-√™tre que le mod√®le sous-estime les prix dans certaines zones ou types de logement, ce qui pourrait guider des am√©liorations suppl√©mentaires dans les caract√©ristiques du mod√®le.