In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, RandomizedSearchCV, cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, StackingRegressor
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# üîπ Chargement des donn√©es
data = pd.read_csv("listings.csv")
print(data.head())


le fichier de donn√©es listings.csv est charg√© dans un DataFrame nomm√© data, et les premi√®res lignes du jeu de donn√©es sont affich√©es √† l‚Äôaide de data.head() pour visualiser rapidement la structure et le contenu des donn√©es. Ce bloc constitue donc l‚Äô√©tape initiale de pr√©paration dans un projet de r√©gression visant √† pr√©dire des prix ou valeurs continues √† partir d‚Äôun dataset type Airbnb.

In [None]:

# üîπ Nettoyage et compl√©tion
data = data.dropna(subset=['latitude', 'longitude', 'price', 'number_of_reviews'])
data = data[data['price'] > 0]
data['reviews_per_month'] = data['reviews_per_month'].fillna(0)

# Colonnes num√©riques : remplissage par m√©diane
numeric_cols = data.select_dtypes(include=['float64', 'int64']).columns
for col in numeric_cols:
    data[col] = data[col].fillna(data[col].median())

# Colonnes cat√©gorielles : remplissage par 'unknown'
categorical_cols = data.select_dtypes(include=['object']).columns
for col in categorical_cols:
    data[col] = data[col].fillna('unknown')

# üîπ Suppression d'une colonne peu utile
data = data.drop(columns=['neighbourhood_group'])


Ce bloc de code r√©alise les √©tapes essentielles de nettoyage et de traitement des donn√©es manquantes, ce qui est crucial avant d'entra√Æner un mod√®le de machine learning. On commence par supprimer les lignes o√π certaines colonnes indispensables, comme la latitude, la longitude, le prix ou le nombre de commentaires (number_of_reviews), sont absentes. Ensuite, on retire les lignes o√π le prix est inf√©rieur ou √©gal √† z√©ro, car un tel prix n'a pas de sens dans le contexte d'une location Airbnb. Pour la colonne reviews_per_month, les valeurs manquantes sont remplac√©es par 0, ce qui est logique : l'absence de commentaires mensuels est interpr√©t√©e comme aucun commentaire re√ßu.

Pour toutes les colonnes num√©riques restantes, les valeurs manquantes sont combl√©es par la m√©diane de chaque colonne. Cela permet d‚Äô√©viter que les valeurs extr√™mes (outliers) influencent trop le remplissage, contrairement √† une imputation par la moyenne. Du c√¥t√© des colonnes cat√©gorielles (c'est-√†-dire textuelles), toutes les valeurs manquantes sont remplac√©es par la cha√Æne de caract√®res 'unknown', afin de ne pas perdre d‚Äôinformation tout en indiquant clairement qu‚Äôil s‚Äôagit de donn√©es absentes ou non renseign√©es.

Enfin, la colonne neighbourhood_group, jug√©e peu informative ou redondante dans ce cas pr√©cis, est supprim√©e du dataset. Ce nettoyage permet de garantir que le mod√®le ne sera pas perturb√© par des donn√©es manquantes ou incoh√©rentes, tout en gardant un maximum d'observations pour l'entra√Ænement.

In [None]:

# üîπ Cr√©ation de variables suppl√©mentaires
data['has_reviews'] = (data['number_of_reviews'] > 0).astype(int)
data['high_availability'] = (data['availability_365'] > 180).astype(int)
data['log_price'] = np.log1p(data['price'])
data['reviews_density'] = data['number_of_reviews'] / (data['minimum_nights'] + 1)
data['price_per_review'] = data['price'] / (data['number_of_reviews'] + 1)
data['is_long_term'] = (data['minimum_nights'] > 7).astype(int)
data['is_available_year_round'] = (data['availability_365'] >= 350).astype(int)
data['log_reviews_density'] = np.log1p(data['reviews_density'])

# üîπ Capping de certaines colonnes
data['minimum_nights'] = data['minimum_nights'].clip(upper=30)
data['number_of_reviews'] = data['number_of_reviews'].clip(upper=500)

# üîπ S√©lection des features et cible
features = [
    'latitude', 'longitude', 'minimum_nights', 'number_of_reviews',
    'reviews_per_month', 'room_type', 'calculated_host_listings_count',
    'has_reviews', 'high_availability', 'reviews_density',
    'price_per_review', 'is_long_term', 'is_available_year_round',
    'log_reviews_density'
]
target = 'log_price'

X = data[features]
y = data[target]


Ce bloc de code enrichit le dataset d‚ÄôAirbnb en cr√©ant de nouvelles variables d√©riv√©es, appel√©es *features d‚Äôing√©nierie*, qui ont pour but d‚Äôapporter davantage d‚Äôinformations pertinentes au mod√®le de pr√©diction. On commence par cr√©er des indicateurs binaires comme `has_reviews`, qui indique si un logement a re√ßu au moins un commentaire, ou `high_availability`, qui identifie les logements disponibles plus de 180 jours par an. Ces variables transforment des informations num√©riques en signaux facilement interpr√©tables pour un mod√®le.

La variable `log_price` applique un logarithme au prix (avec `log1p` pour g√©rer les z√©ros), afin de lisser la distribution et r√©duire l‚Äôeffet des valeurs extr√™mes. On cr√©e aussi des indicateurs de densit√© d‚Äôavis comme `reviews_density`, qui divise le nombre de commentaires par le nombre de nuits minimum plus un, ou encore `price_per_review`, une estimation du prix rapport√© au nombre de commentaires re√ßus. Ces variables visent √† capturer l‚Äôactivit√© ou la popularit√© d‚Äôun logement.

On ajoute aussi des indicateurs pour rep√©rer les locations longue dur√©e (`is_long_term`) et les logements disponibles presque toute l‚Äôann√©e (`is_available_year_round`). Pour certaines variables fortement dispers√©es, comme `minimum_nights` ou `number_of_reviews`, on applique un *capping*, c‚Äôest-√†-dire qu‚Äôon fixe une valeur maximale (respectivement 30 et 500), afin de limiter l‚Äôimpact des outliers sur le mod√®le.

Enfin, on s√©lectionne les variables les plus pertinentes pour l‚Äôentra√Ænement du mod√®le dans la liste `features`, tandis que la variable √† pr√©dire est `log_price`, la version logarithmique du prix initial. Ces √©tapes de transformation et de s√©lection permettent de mieux structurer l'information contenue dans les donn√©es brutes et d'am√©liorer potentiellement les performances du mod√®le.


In [None]:

# üîπ S√©paration train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# üîπ Pr√©traitement
numeric_features = [
    'latitude', 'longitude', 'minimum_nights', 'number_of_reviews',
    'reviews_per_month', 'calculated_host_listings_count',
    'reviews_density', 'price_per_review', 'log_reviews_density'
]
categorical_features = ['room_type', 'has_reviews', 'high_availability', 'is_long_term', 'is_available_year_round']

numeric_transformer = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline([
    ('imputer', SimpleImputer(strategy='constant', fill_value='unknown')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

preprocessor = ColumnTransformer([
    ('num', numeric_transformer, numeric_features),
    ('cat', categorical_transformer, categorical_features)
])


Ce bloc de code pr√©pare les donn√©es pour l‚Äôentra√Ænement du mod√®le en r√©alisant plusieurs √©tapes cl√©s. Tout d‚Äôabord, les donn√©es sont divis√©es en deux ensembles : un ensemble d‚Äôentra√Ænement (`X_train`, `y_train`) qui repr√©sente 75 % des donn√©es, et un ensemble de test (`X_test`, `y_test`) qui sert √† √©valuer la performance du mod√®le sur des donn√©es jamais vues, avec un d√©coupage reproductible gr√¢ce √† la graine al√©atoire fix√©e (`random_state=42`).

Ensuite, on identifie les variables num√©riques et cat√©gorielles parmi les features s√©lectionn√©es pr√©c√©demment. Les variables num√©riques regroupent des mesures continues ou discr√®tes, tandis que les variables cat√©gorielles sont des indicateurs ou des cat√©gories.

Pour le pr√©traitement, on cr√©e deux pipelines distincts. Le pipeline pour les variables num√©riques comprend d‚Äôabord une √©tape d‚Äôimputation qui remplace les valeurs manquantes par la m√©diane de la colonne, suivie d‚Äôune standardisation via `StandardScaler` qui met les donn√©es sur une m√™me √©chelle avec une moyenne nulle et une variance unitaire, facilitant ainsi l‚Äôapprentissage du mod√®le.

Pour les variables cat√©gorielles, le pipeline remplit les valeurs manquantes avec la valeur constante 'unknown' puis encode les cat√©gories en variables binaires gr√¢ce au OneHotEncoder, permettant ainsi au mod√®le de traiter correctement les donn√©es non num√©riques.

Enfin, les deux pipelines sont combin√©s dans un `ColumnTransformer` qui applique automatiquement ces transformations sp√©cifiques aux colonnes correspondantes. Ce pr√©traitement structur√© garantit que les donn√©es d‚Äôentr√©e sont nettoy√©es, mises √† l‚Äô√©chelle et encod√©es de mani√®re adapt√©e avant d‚Äô√™tre utilis√©es dans les mod√®les de machine learning.


In [None]:

# üîπ D√©finition du mod√®le Stacking
base_models = [
    ('ridge', Ridge(alpha=1.0, random_state=42)),
    ('rf', RandomForestRegressor(n_estimators=100, max_depth=10, random_state=42, n_jobs=-1)),
    ('gbr', GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, random_state=42))
]

meta_model = Ridge(alpha=0.1, random_state=42)

stacking = StackingRegressor(
    estimators=base_models,
    final_estimator=meta_model,
    cv=5,
    n_jobs=-1
)

pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('stacking', stacking)
])

# üîπ Grille √©tendue pour RandomizedSearchCV
param_distributions = {
    'stacking__final_estimator__alpha': [0.01, 0.1, 1.0, 10.0],
    'stacking__ridge__alpha': [0.1, 1.0, 10.0],
    'stacking__rf__n_estimators': [100, 200],
    'stacking__rf__max_depth': [10, 20, None],
    'stacking__gbr__n_estimators': [100, 200],
    'stacking__gbr__learning_rate': [0.05, 0.1, 0.2],
    'stacking__gbr__max_depth': [3, 5, 7]
}

search = RandomizedSearchCV(
    estimator=pipeline,
    param_distributions=param_distributions,
    n_iter=40,
    cv=3,
    scoring='neg_mean_squared_error',
    n_jobs=-1,
    verbose=2,
    random_state=42
)

# üîπ Entra√Ænement
print("üîÑ Entra√Ænement du mod√®le avec RandomizedSearchCV...")
search.fit(X_train, y_train)
print("‚úÖ Entra√Ænement termin√©.")

# üîπ R√©sultats
print("\nüîß Meilleurs param√®tres :")
print(search.best_params_)

y_pred = search.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("\nüìä √âvaluation du mod√®le (log-scale) :")
print(f" - RMSE : {rmse:.4f}")
print(f" - MAE  : {mae:.4f}")
print(f" - R¬≤   : {r2:.3f}")

print("\nüìä √âvaluation (prix en ‚Ç¨) :")
print(f" - RMSE : {np.expm1(rmse):.2f} ‚Ç¨")
print(f" - MAE  : {np.expm1(mae):.2f} ‚Ç¨")


Ce code d√©finit et entra√Æne un mod√®le de r√©gression avanc√© bas√© sur une approche d‚Äôempilement (stacking) combinant plusieurs mod√®les de base pour am√©liorer la pr√©cision des pr√©dictions. Trois mod√®les de base sont choisis : une r√©gression Ridge, une for√™t al√©atoire (Random Forest) et un Gradient Boosting Regressor, chacun apportant une approche diff√©rente pour capturer les relations entre les variables et la cible. Ces mod√®les de base sont ensuite combin√©s par un mod√®le m√©ta, lui aussi une r√©gression Ridge, qui apprend √† optimiser la combinaison des pr√©dictions des mod√®les de base.

L‚Äôensemble est int√©gr√© dans un pipeline avec le pr√©traitement des donn√©es d√©j√† d√©fini, garantissant que les donn√©es passent par les m√™mes √©tapes de nettoyage et de transformation avant d‚Äô√™tre utilis√©es pour l‚Äôapprentissage.

Pour optimiser les hyperparam√®tres du mod√®le, une recherche al√©atoire (`RandomizedSearchCV`) est utilis√©e, explorant un large espace de param√®tres pour les trois mod√®les de base et le mod√®le m√©ta, comme le taux de r√©gularisation alpha pour la Ridge, le nombre d‚Äôarbres et la profondeur maximale pour la for√™t al√©atoire, ou encore le nombre d‚Äôarbres, le taux d‚Äôapprentissage et la profondeur pour le Gradient Boosting. Cette recherche est effectu√©e avec validation crois√©e pour garantir la robustesse des r√©sultats.

Le mod√®le est ensuite entra√Æn√© sur l‚Äôensemble d‚Äôentra√Ænement, et les meilleurs param√®tres trouv√©s sont affich√©s. Enfin, les performances sont √©valu√©es sur l‚Äôensemble de test en calculant plusieurs m√©triques : RMSE (racine de l‚Äôerreur quadratique moyenne), MAE (erreur absolue moyenne) et R¬≤ (coefficient de d√©termination), d‚Äôabord sur les valeurs transform√©es en log, puis retranscrites en prix r√©els pour une interpr√©tation plus intuitive. Ces r√©sultats permettent d‚Äôestimer la qualit√© et la pr√©cision du mod√®le pour pr√©dire le prix des annonces Airbnb.


## NOTES ##

Le meilleur param√®tre trouv√© pour le m√©ta-mod√®le Ridge utilis√© dans le stacking est alpha = 0.1, ce qui indique une r√©gularisation L2 avec une p√©nalisation relativement faible, permettant un bon ajustement aux donn√©es sans surcontraindre le mod√®le. En termes d‚Äô√©valuation sur l‚Äô√©chelle logarithmique du prix, le mod√®le affiche un RMSE de 0.5114, mesurant l‚Äôerreur quadratique moyenne entre valeurs r√©elles et pr√©dites, et une MAE de 0.3716, indiquant une erreur absolue moyenne mod√©r√©e. Le coefficient de d√©termination R¬≤ est de 0.505, ce qui signifie que le mod√®le explique environ 50,5 % de la variance des prix en log, montrant une performance correcte mais perfectible. Une fois les pr√©dictions ramen√©es √† l‚Äô√©chelle r√©elle des prix en euros, le RMSE est de 0.67 ‚Ç¨ et la MAE de 0.45 ‚Ç¨, ce qui traduit l‚Äôerreur moyenne sur les prix effectifs. Le mod√®le pr√©dit les prix de quelques annonces test avec une erreur moyenne d‚Äôenviron 9,3 %, indiquant une proximit√© acceptable mais laissant place √† des am√©liorations possibles. La validation crois√©e sur 5 plis donne un RMSE moyen de 0.3083, attestant de la bonne stabilit√© et capacit√© de g√©n√©ralisation du mod√®le sans surapprentissage marqu√©. En conclusion, ce mod√®le de stacking offre une performance raisonnable avec un R¬≤ autour de 50 %, mais il reste des marges de progression possibles par l‚Äôajustement des hyperparam√®tres, l‚Äôexploration de mod√®les plus complexes ou l‚Äôenrichissement des variables utilis√©es. La validation crois√©e solide confirme la robustesse et la fiabilit√© du mod√®le pour des pr√©dictions futures.


Le mod√®le pr√©sente une pr√©cision mod√©r√©e avec un R¬≤ de 0.505, ce qui signifie qu‚Äôil explique seulement 50,5 % de la variance des prix, laissant plus de 40 % des variations non captur√©es, ce qui indique une marge importante d‚Äôam√©lioration pour mieux comprendre les facteurs influen√ßant le prix. L‚Äôerreur quadratique moyenne sur les prix r√©els est de 0.67 ‚Ç¨, ce qui peut √™tre acceptable, mais montre que le mod√®le peine encore √† pr√©dire pr√©cis√©ment certains prix, ce qui peut poser probl√®me dans des contextes demandant une grande pr√©cision comme la recommandation de prix. Les caract√©ristiques utilis√©es sont relativement simples (latitude, longitude, type de chambre, nombre de nuits minimales, etc.) et peuvent ne pas refl√©ter tous les facteurs importants, par exemple les images des annonces, les √©quipements, la proximit√© de lieux populaires ou des informations sur l‚Äôh√¥te ne sont pas prises en compte. Le mod√®le actuel ne capture peut-√™tre pas suffisamment les interactions complexes entre caract√©ristiques, comme la combinaison du type de chambre avec la disponibilit√©, qui pourrait influencer davantage le prix. Il existe aussi un risque de surajustement sur certains mod√®les de base comme RandomForestRegressor, malgr√© une validation crois√©e rassurante.

Pour am√©liorer le mod√®le, il serait pertinent d‚Äôajouter de nouvelles caract√©ristiques, telles que des donn√©es li√©es aux images (qualit√©, nombre d‚Äôimages), des caract√©ristiques g√©ographiques suppl√©mentaires (proximit√© de points d‚Äôint√©r√™t, attractions touristiques, centres de transport) ou des informations sur l‚Äôh√¥te (nombre d‚Äôann√©es d‚Äôactivit√©, r√©putation). Explorer des mod√®les plus avanc√©s non lin√©aires comme les r√©seaux de neurones, XGBoost, LightGBM ou CatBoost pourrait aussi aider √† mieux capturer les relations complexes. L‚Äôarchitecture du stacking pourrait √™tre optimis√©e en ajoutant d‚Äôautres mod√®les de base (SVM, KNN, r√©seaux de neurones) ou en simplifiant le stacking en r√©duisant certains mod√®les peu compl√©mentaires. Une optimisation plus pouss√©e des hyperparam√®tres, notamment via des techniques comme la Bayesian Optimization, permettrait d‚Äôam√©liorer les performances. Le feature engineering peut √©galement √™tre enrichi en cr√©ant des interactions entre caract√©ristiques existantes, par exemple en combinant latitude et longitude pour former des clusters g√©ographiques, ou en transformant certaines variables avec des encodages sp√©cifiques comme des logarithmes. La gestion des valeurs manquantes pourrait √™tre approfondie avec des mod√®les pr√©dictifs sp√©cifiques pour ces valeurs absentes.

Enfin, utiliser des m√©thodes d‚Äôensemble plus avanc√©es combinant stacking, boosting ou bagging pourrait renforcer les r√©sultats. Il est aussi conseill√© de suivre la stabilit√© et la robustesse des pr√©dictions en analysant les erreurs selon la r√©gion g√©ographique ou le type de logement, afin de d√©tecter les situations o√π le mod√®le √©choue, ce qui pourrait orienter des am√©liorations cibl√©es.
