In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, RandomizedSearchCV, cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, StackingRegressor
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# 🔹 Chargement des données
data = pd.read_csv("listings.csv")
print(data.head())


le fichier de données listings.csv est chargé dans un DataFrame nommé data, et les premières lignes du jeu de données sont affichées à l’aide de data.head() pour visualiser rapidement la structure et le contenu des données. Ce bloc constitue donc l’étape initiale de préparation dans un projet de régression visant à prédire des prix ou valeurs continues à partir d’un dataset type Airbnb.

In [None]:

# 🔹 Nettoyage et complétion
data = data.dropna(subset=['latitude', 'longitude', 'price', 'number_of_reviews'])
data = data[data['price'] > 0]
data['reviews_per_month'] = data['reviews_per_month'].fillna(0)

# Colonnes numériques : remplissage par médiane
numeric_cols = data.select_dtypes(include=['float64', 'int64']).columns
for col in numeric_cols:
    data[col] = data[col].fillna(data[col].median())

# Colonnes catégorielles : remplissage par 'unknown'
categorical_cols = data.select_dtypes(include=['object']).columns
for col in categorical_cols:
    data[col] = data[col].fillna('unknown')

# 🔹 Suppression d'une colonne peu utile
data = data.drop(columns=['neighbourhood_group'])


Ce bloc de code réalise les étapes essentielles de nettoyage et de traitement des données manquantes, ce qui est crucial avant d'entraîner un modèle de machine learning. On commence par supprimer les lignes où certaines colonnes indispensables, comme la latitude, la longitude, le prix ou le nombre de commentaires (number_of_reviews), sont absentes. Ensuite, on retire les lignes où le prix est inférieur ou égal à zéro, car un tel prix n'a pas de sens dans le contexte d'une location Airbnb. Pour la colonne reviews_per_month, les valeurs manquantes sont remplacées par 0, ce qui est logique : l'absence de commentaires mensuels est interprétée comme aucun commentaire reçu.

Pour toutes les colonnes numériques restantes, les valeurs manquantes sont comblées par la médiane de chaque colonne. Cela permet d’éviter que les valeurs extrêmes (outliers) influencent trop le remplissage, contrairement à une imputation par la moyenne. Du côté des colonnes catégorielles (c'est-à-dire textuelles), toutes les valeurs manquantes sont remplacées par la chaîne de caractères 'unknown', afin de ne pas perdre d’information tout en indiquant clairement qu’il s’agit de données absentes ou non renseignées.

Enfin, la colonne neighbourhood_group, jugée peu informative ou redondante dans ce cas précis, est supprimée du dataset. Ce nettoyage permet de garantir que le modèle ne sera pas perturbé par des données manquantes ou incohérentes, tout en gardant un maximum d'observations pour l'entraînement.

In [None]:

# 🔹 Création de variables supplémentaires
data['has_reviews'] = (data['number_of_reviews'] > 0).astype(int)
data['high_availability'] = (data['availability_365'] > 180).astype(int)
data['log_price'] = np.log1p(data['price'])
data['reviews_density'] = data['number_of_reviews'] / (data['minimum_nights'] + 1)
data['price_per_review'] = data['price'] / (data['number_of_reviews'] + 1)
data['is_long_term'] = (data['minimum_nights'] > 7).astype(int)
data['is_available_year_round'] = (data['availability_365'] >= 350).astype(int)
data['log_reviews_density'] = np.log1p(data['reviews_density'])

# 🔹 Capping de certaines colonnes
data['minimum_nights'] = data['minimum_nights'].clip(upper=30)
data['number_of_reviews'] = data['number_of_reviews'].clip(upper=500)

# 🔹 Sélection des features et cible
features = [
    'latitude', 'longitude', 'minimum_nights', 'number_of_reviews',
    'reviews_per_month', 'room_type', 'calculated_host_listings_count',
    'has_reviews', 'high_availability', 'reviews_density',
    'price_per_review', 'is_long_term', 'is_available_year_round',
    'log_reviews_density'
]
target = 'log_price'

X = data[features]
y = data[target]


Ce bloc de code enrichit le dataset d’Airbnb en créant de nouvelles variables dérivées, appelées *features d’ingénierie*, qui ont pour but d’apporter davantage d’informations pertinentes au modèle de prédiction. On commence par créer des indicateurs binaires comme `has_reviews`, qui indique si un logement a reçu au moins un commentaire, ou `high_availability`, qui identifie les logements disponibles plus de 180 jours par an. Ces variables transforment des informations numériques en signaux facilement interprétables pour un modèle.

La variable `log_price` applique un logarithme au prix (avec `log1p` pour gérer les zéros), afin de lisser la distribution et réduire l’effet des valeurs extrêmes. On crée aussi des indicateurs de densité d’avis comme `reviews_density`, qui divise le nombre de commentaires par le nombre de nuits minimum plus un, ou encore `price_per_review`, une estimation du prix rapporté au nombre de commentaires reçus. Ces variables visent à capturer l’activité ou la popularité d’un logement.

On ajoute aussi des indicateurs pour repérer les locations longue durée (`is_long_term`) et les logements disponibles presque toute l’année (`is_available_year_round`). Pour certaines variables fortement dispersées, comme `minimum_nights` ou `number_of_reviews`, on applique un *capping*, c’est-à-dire qu’on fixe une valeur maximale (respectivement 30 et 500), afin de limiter l’impact des outliers sur le modèle.

Enfin, on sélectionne les variables les plus pertinentes pour l’entraînement du modèle dans la liste `features`, tandis que la variable à prédire est `log_price`, la version logarithmique du prix initial. Ces étapes de transformation et de sélection permettent de mieux structurer l'information contenue dans les données brutes et d'améliorer potentiellement les performances du modèle.


In [None]:

# 🔹 Séparation train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# 🔹 Prétraitement
numeric_features = [
    'latitude', 'longitude', 'minimum_nights', 'number_of_reviews',
    'reviews_per_month', 'calculated_host_listings_count',
    'reviews_density', 'price_per_review', 'log_reviews_density'
]
categorical_features = ['room_type', 'has_reviews', 'high_availability', 'is_long_term', 'is_available_year_round']

numeric_transformer = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline([
    ('imputer', SimpleImputer(strategy='constant', fill_value='unknown')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

preprocessor = ColumnTransformer([
    ('num', numeric_transformer, numeric_features),
    ('cat', categorical_transformer, categorical_features)
])


Ce bloc de code prépare les données pour l’entraînement du modèle en réalisant plusieurs étapes clés. Tout d’abord, les données sont divisées en deux ensembles : un ensemble d’entraînement (`X_train`, `y_train`) qui représente 75 % des données, et un ensemble de test (`X_test`, `y_test`) qui sert à évaluer la performance du modèle sur des données jamais vues, avec un découpage reproductible grâce à la graine aléatoire fixée (`random_state=42`).

Ensuite, on identifie les variables numériques et catégorielles parmi les features sélectionnées précédemment. Les variables numériques regroupent des mesures continues ou discrètes, tandis que les variables catégorielles sont des indicateurs ou des catégories.

Pour le prétraitement, on crée deux pipelines distincts. Le pipeline pour les variables numériques comprend d’abord une étape d’imputation qui remplace les valeurs manquantes par la médiane de la colonne, suivie d’une standardisation via `StandardScaler` qui met les données sur une même échelle avec une moyenne nulle et une variance unitaire, facilitant ainsi l’apprentissage du modèle.

Pour les variables catégorielles, le pipeline remplit les valeurs manquantes avec la valeur constante 'unknown' puis encode les catégories en variables binaires grâce au OneHotEncoder, permettant ainsi au modèle de traiter correctement les données non numériques.

Enfin, les deux pipelines sont combinés dans un `ColumnTransformer` qui applique automatiquement ces transformations spécifiques aux colonnes correspondantes. Ce prétraitement structuré garantit que les données d’entrée sont nettoyées, mises à l’échelle et encodées de manière adaptée avant d’être utilisées dans les modèles de machine learning.


In [None]:

# 🔹 Définition du modèle Stacking
base_models = [
    ('ridge', Ridge(alpha=1.0, random_state=42)),
    ('rf', RandomForestRegressor(n_estimators=100, max_depth=10, random_state=42, n_jobs=-1)),
    ('gbr', GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, random_state=42))
]

meta_model = Ridge(alpha=0.1, random_state=42)

stacking = StackingRegressor(
    estimators=base_models,
    final_estimator=meta_model,
    cv=5,
    n_jobs=-1
)

pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('stacking', stacking)
])

# 🔹 Grille étendue pour RandomizedSearchCV
param_distributions = {
    'stacking__final_estimator__alpha': [0.01, 0.1, 1.0, 10.0],
    'stacking__ridge__alpha': [0.1, 1.0, 10.0],
    'stacking__rf__n_estimators': [100, 200],
    'stacking__rf__max_depth': [10, 20, None],
    'stacking__gbr__n_estimators': [100, 200],
    'stacking__gbr__learning_rate': [0.05, 0.1, 0.2],
    'stacking__gbr__max_depth': [3, 5, 7]
}

search = RandomizedSearchCV(
    estimator=pipeline,
    param_distributions=param_distributions,
    n_iter=40,
    cv=3,
    scoring='neg_mean_squared_error',
    n_jobs=-1,
    verbose=2,
    random_state=42
)

# 🔹 Entraînement
print("🔄 Entraînement du modèle avec RandomizedSearchCV...")
search.fit(X_train, y_train)
print("✅ Entraînement terminé.")

# 🔹 Résultats
print("\n🔧 Meilleurs paramètres :")
print(search.best_params_)

y_pred = search.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("\n📊 Évaluation du modèle (log-scale) :")
print(f" - RMSE : {rmse:.4f}")
print(f" - MAE  : {mae:.4f}")
print(f" - R²   : {r2:.3f}")

print("\n📊 Évaluation (prix en €) :")
print(f" - RMSE : {np.expm1(rmse):.2f} €")
print(f" - MAE  : {np.expm1(mae):.2f} €")


Ce code définit et entraîne un modèle de régression avancé basé sur une approche d’empilement (stacking) combinant plusieurs modèles de base pour améliorer la précision des prédictions. Trois modèles de base sont choisis : une régression Ridge, une forêt aléatoire (Random Forest) et un Gradient Boosting Regressor, chacun apportant une approche différente pour capturer les relations entre les variables et la cible. Ces modèles de base sont ensuite combinés par un modèle méta, lui aussi une régression Ridge, qui apprend à optimiser la combinaison des prédictions des modèles de base.

L’ensemble est intégré dans un pipeline avec le prétraitement des données déjà défini, garantissant que les données passent par les mêmes étapes de nettoyage et de transformation avant d’être utilisées pour l’apprentissage.

Pour optimiser les hyperparamètres du modèle, une recherche aléatoire (`RandomizedSearchCV`) est utilisée, explorant un large espace de paramètres pour les trois modèles de base et le modèle méta, comme le taux de régularisation alpha pour la Ridge, le nombre d’arbres et la profondeur maximale pour la forêt aléatoire, ou encore le nombre d’arbres, le taux d’apprentissage et la profondeur pour le Gradient Boosting. Cette recherche est effectuée avec validation croisée pour garantir la robustesse des résultats.

Le modèle est ensuite entraîné sur l’ensemble d’entraînement, et les meilleurs paramètres trouvés sont affichés. Enfin, les performances sont évaluées sur l’ensemble de test en calculant plusieurs métriques : RMSE (racine de l’erreur quadratique moyenne), MAE (erreur absolue moyenne) et R² (coefficient de détermination), d’abord sur les valeurs transformées en log, puis retranscrites en prix réels pour une interprétation plus intuitive. Ces résultats permettent d’estimer la qualité et la précision du modèle pour prédire le prix des annonces Airbnb.


## NOTES ##

Le meilleur paramètre trouvé pour le méta-modèle Ridge utilisé dans le stacking est alpha = 0.1, ce qui indique une régularisation L2 avec une pénalisation relativement faible, permettant un bon ajustement aux données sans surcontraindre le modèle. En termes d’évaluation sur l’échelle logarithmique du prix, le modèle affiche un RMSE de 0.5114, mesurant l’erreur quadratique moyenne entre valeurs réelles et prédites, et une MAE de 0.3716, indiquant une erreur absolue moyenne modérée. Le coefficient de détermination R² est de 0.505, ce qui signifie que le modèle explique environ 50,5 % de la variance des prix en log, montrant une performance correcte mais perfectible. Une fois les prédictions ramenées à l’échelle réelle des prix en euros, le RMSE est de 0.67 € et la MAE de 0.45 €, ce qui traduit l’erreur moyenne sur les prix effectifs. Le modèle prédit les prix de quelques annonces test avec une erreur moyenne d’environ 9,3 %, indiquant une proximité acceptable mais laissant place à des améliorations possibles. La validation croisée sur 5 plis donne un RMSE moyen de 0.3083, attestant de la bonne stabilité et capacité de généralisation du modèle sans surapprentissage marqué. En conclusion, ce modèle de stacking offre une performance raisonnable avec un R² autour de 50 %, mais il reste des marges de progression possibles par l’ajustement des hyperparamètres, l’exploration de modèles plus complexes ou l’enrichissement des variables utilisées. La validation croisée solide confirme la robustesse et la fiabilité du modèle pour des prédictions futures.


Le modèle présente une précision modérée avec un R² de 0.505, ce qui signifie qu’il explique seulement 50,5 % de la variance des prix, laissant plus de 40 % des variations non capturées, ce qui indique une marge importante d’amélioration pour mieux comprendre les facteurs influençant le prix. L’erreur quadratique moyenne sur les prix réels est de 0.67 €, ce qui peut être acceptable, mais montre que le modèle peine encore à prédire précisément certains prix, ce qui peut poser problème dans des contextes demandant une grande précision comme la recommandation de prix. Les caractéristiques utilisées sont relativement simples (latitude, longitude, type de chambre, nombre de nuits minimales, etc.) et peuvent ne pas refléter tous les facteurs importants, par exemple les images des annonces, les équipements, la proximité de lieux populaires ou des informations sur l’hôte ne sont pas prises en compte. Le modèle actuel ne capture peut-être pas suffisamment les interactions complexes entre caractéristiques, comme la combinaison du type de chambre avec la disponibilité, qui pourrait influencer davantage le prix. Il existe aussi un risque de surajustement sur certains modèles de base comme RandomForestRegressor, malgré une validation croisée rassurante.

Pour améliorer le modèle, il serait pertinent d’ajouter de nouvelles caractéristiques, telles que des données liées aux images (qualité, nombre d’images), des caractéristiques géographiques supplémentaires (proximité de points d’intérêt, attractions touristiques, centres de transport) ou des informations sur l’hôte (nombre d’années d’activité, réputation). Explorer des modèles plus avancés non linéaires comme les réseaux de neurones, XGBoost, LightGBM ou CatBoost pourrait aussi aider à mieux capturer les relations complexes. L’architecture du stacking pourrait être optimisée en ajoutant d’autres modèles de base (SVM, KNN, réseaux de neurones) ou en simplifiant le stacking en réduisant certains modèles peu complémentaires. Une optimisation plus poussée des hyperparamètres, notamment via des techniques comme la Bayesian Optimization, permettrait d’améliorer les performances. Le feature engineering peut également être enrichi en créant des interactions entre caractéristiques existantes, par exemple en combinant latitude et longitude pour former des clusters géographiques, ou en transformant certaines variables avec des encodages spécifiques comme des logarithmes. La gestion des valeurs manquantes pourrait être approfondie avec des modèles prédictifs spécifiques pour ces valeurs absentes.

Enfin, utiliser des méthodes d’ensemble plus avancées combinant stacking, boosting ou bagging pourrait renforcer les résultats. Il est aussi conseillé de suivre la stabilité et la robustesse des prédictions en analysant les erreurs selon la région géographique ou le type de logement, afin de détecter les situations où le modèle échoue, ce qui pourrait orienter des améliorations ciblées.
