In [3]:
# =====================
# 1. IMPORTS ESSENTIELS
# =====================
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler, RobustScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.feature_selection import SelectKBest, f_regression, RFE
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import random
import seaborn as sns
import matplotlib.pyplot as plt

# =====================
# 2. CHARGEMENT DES DONNÉES
# =====================
data = pd.read_csv('listings.csv')

print("🧾 Colonnes du dataset :", data.columns.tolist())
print(data.head())

🧾 Colonnes du dataset : ['id', 'name', 'host_id', 'host_name', 'neighbourhood_group', 'neighbourhood', 'latitude', 'longitude', 'room_type', 'price', 'minimum_nights', 'number_of_reviews', 'last_review', 'reviews_per_month', 'calculated_host_listings_count', 'availability_365']
      id                                               name  host_id  \
0   2384  Hyde Park - Walk to UChicago, 10 min to McCormick     2613   
1   4505  394 Great Reviews. 127 y/o House. 40 yds to tr...     5775   
2   7126                Tiny Studio Apartment 94 Walk Score    17928   
3   9811                      Barbara's Hideaway - Old Town    33004   
4  10610                   3 Comforts of Cooperative Living     2140   

          host_name  neighbourhood_group   neighbourhood  latitude  longitude  \
0           Rebecca                  NaN       Hyde Park  41.78790  -87.58780   
1  Craig & Kathleen                  NaN  South Lawndale  41.85495  -87.69696   
2             Sarah                  NaN     

Cela permet d’explorer la structure du jeu de données, d’identifier les variables disponibles (numériques, catégorielles, prix, localisation…) et de préparer les étapes suivantes : nettoyage, sélection des features et modélisation.

In [None]:

# =====================
# 3. DÉFINITION DES VARIABLES
# =====================

# Variables numériques et catégorielles utilisées pour la prédiction
numeric_features = ['latitude', 'longitude', 'minimum_nights', 'number_of_reviews', 'reviews_per_month']
categorical_features = ['neighbourhood', 'room_type']

# =====================
# 4. PIPELINES DE PRÉTRAITEMENT
# =====================

# Transformer numérique avec imputation et normalisation robuste
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),  # Imputer les valeurs manquantes
    ('scaler', RobustScaler())  # Utiliser RobustScaler pour limiter l'impact des outliers
])

# Transformer catégorielle avec imputation et encodage one-hot
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Imputer les valeurs manquantes
    ('encoder', OneHotEncoder(handle_unknown='ignore'))  # Encoder les variables catégorielles
])

# Combinaison des transformations
preprocessor = ColumnTransformer(transformers=[
    ('num', numeric_transformer, numeric_features),
    ('cat', categorical_transformer, categorical_features)
])


Sélection des variables pertinentes
Dans cette étape, on sélectionne les variables jugées utiles pour prédire la variable cible (probablement le prix d’une location Airbnb). Ces variables sont séparées en deux types :
Variables numériques : latitude, longitude, minimum_nights, number_of_reviews, reviews_per_month. Ces variables ont des valeurs continues, souvent sujettes à des valeurs manquantes ou aberrantes.
Variables catégorielles : neighbourhood, room_type, qui sont des libellés ou catégories non numériques mais très informatives sur le logement.

Construction des pipelines de prétraitement
Pour préparer les données, on utilise deux pipelines parallèles selon le type de variable :
Pipeline numérique :
Imputation : remplacement des valeurs manquantes par la moyenne (SimpleImputer(strategy='mean')).
Normalisation robuste : on applique un RobustScaler, qui est moins sensible aux valeurs extrêmes que le StandardScaler. Cela permet de centrer et réduire les données tout en limitant l’influence des outliers.

Pipeline catégoriel :
Imputation : les catégories manquantes sont remplacées par la modalité la plus fréquente (most_frequent).
Encodage one-hot : chaque catégorie devient une colonne binaire (0 ou 1), ce qui permet de rendre les variables catégorielles exploitables par les modèles linéaires et autres algorithmes.

Fusion des deux pipelines
Avec ColumnTransformer, on applique chaque pipeline aux colonnes concernées (numériques ou catégorielles) et on les combine. Ce bloc constitue le prétraitement automatique des données, qui sera intégré dans un pipeline global avec le modèle de régression plus tard.


In [None]:

# =====================
# 5. PIPELINE COMPLET AVEC MODÈLE
# =====================

# Ajouter la sélection des caractéristiques avec RFE
regressor = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('feature_selection', RFE(LinearRegression(), n_features_to_select=5)),  # Sélection des meilleures caractéristiques
    ('regressor', LinearRegression())  # Régression linéaire
])

# =====================
# 6. SÉPARATION DES DONNÉES
# =====================
X = data[numeric_features + categorical_features]
y = np.log1p(data['price'])  # On prédit log(1 + prix) pour stabiliser la variance

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


Dans cette partie, on construit un pipeline complet de modélisation combinant toutes les étapes nécessaires : prétraitement, sélection de variables et apprentissage du modèle.

Pipeline de régression
Le pipeline regressor intègre trois étapes clés :

Prétraitement : on applique le preprocessor précédemment défini, qui nettoie et transforme les variables numériques et catégorielles.

Sélection de caractéristiques (RFE) : on utilise la méthode RFE (Recursive Feature Elimination) avec un modèle de régression linéaire pour sélectionner automatiquement les 5 variables les plus pertinentes. Cela permet de simplifier le modèle tout en gardant un bon pouvoir prédictif.

Modèle de régression : une régression linéaire classique est entraînée sur les variables sélectionnées pour prédire le prix du logement.

Préparation des données d’apprentissage
Ensuite, on définit les entrées X comme les variables explicatives (numériques + catégorielles) et la cible y comme le logarithme du prix + 1 (np.log1p(data['price'])). Ce choix permet de réduire l’impact des valeurs extrêmes et de stabiliser la variance du prix, qui est souvent très dispersé dans les données Airbnb.

Séparation train/test
On divise les données en un jeu d'entraînement (80 %) et un jeu de test (20 %), ce qui permet de construire le modèle sur un sous-ensemble et d’évaluer sa performance sur des données jamais vues, garantissant une évaluation plus fiable.

In [None]:

# =====================
# 7. GRID SEARCH POUR RÉGLAGE D’HYPERPARAMÈTRES
# =====================
param_grid = {
    'regressor__fit_intercept': [True, False]  # Tester si on inclut l'intercept dans le modèle
}

grid_search = GridSearchCV(regressor, param_grid, cv=10, n_jobs=-1, verbose=2)
grid_search.fit(X_train, y_train)

print(f"\n✅ Meilleurs paramètres trouvés : {grid_search.best_params_}")

# =====================
# 8. ÉVALUATION DU MODÈLE
# =====================
y_pred = grid_search.predict(X_test)

rmse = np.sqrt(mean_squared_error(y_test, y_pred))
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"\n📊 Évaluation du modèle :")
print(f" - RMSE (Root Mean Squared Error) : {rmse:.2f}")
print(f" - MSE  (Mean Squared Error)      : {mse:.2f}")
print(f" - MAE  (Mean Absolute Error)     : {mae:.2f}")
print(f" - R²   (Coefficient de détermination) : {r2:.3f}")

# Affichage de la matrice de corrélation des variables numériques
corr_matrix = data[numeric_features].corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Matrice de Corrélation des Variables Numériques')
plt.show()

# =====================
# 9. ✅ PRÉDICTION D’UN NOUVEL AIRBNB
# =====================
# Génération d'une annonce aléatoire à partir des distributions du dataset
nouvelle_annonce = pd.DataFrame([{
    'latitude': round(random.uniform(data['latitude'].min(), data['latitude'].max()), 4),
    'longitude': round(random.uniform(data['longitude'].min(), data['longitude'].max()), 4),
    'minimum_nights': random.randint(1, 30),
    'number_of_reviews': random.randint(0, 100),
    'reviews_per_month': round(random.uniform(0, 5), 2),
    'neighbourhood': random.choice(data['neighbourhood'].dropna().unique()),
    'room_type': random.choice(data['room_type'].dropna().unique())
}])

print("🏠 Nouvelle annonce générée aléatoirement :\n", nouvelle_annonce)

# Prédiction du log(prix)
log_price_pred = grid_search.predict(nouvelle_annonce)
prix_estime = np.expm1(log_price_pred[0])  # Inverse de log1p → on retrouve le prix réel


print(f"\n💰 Prix estimé pour la nouvelle annonce : {prix_estime:.2f} €")


Dans cette dernière partie, on affine le modèle, on l’évalue, puis on l’utilise pour estimer le prix d’une nouvelle annonce Airbnb.

Réglage des hyperparamètres (GridSearchCV)
Un grid search est effectué pour tester automatiquement différentes valeurs de l’hyperparamètre fit_intercept du modèle de régression linéaire (True ou False). Cela permet de déterminer si l’ajout d’un terme constant (l’intercept) améliore les performances du modèle. La recherche est faite avec une validation croisée à 10 plis (cv=10), assurant une évaluation fiable de chaque configuration. Le meilleur paramètre est ensuite affiché.

Évaluation des performances
Après entraînement, le modèle est testé sur le jeu de test. Plusieurs indicateurs de performance sont calculés :

RMSE : erreur quadratique moyenne racine, qui pénalise fortement les grosses erreurs.
MAE : erreur absolue moyenne, qui donne une idée de l’erreur moyenne en euros.
MSE : erreur quadratique moyenne brute.
R² : coefficient de détermination, qui mesure la part de variance expliquée par le modèle (proche de 1 = bon modèle).

Un heatmap de la matrice de corrélation des variables numériques est également généré, permettant de visualiser les relations linéaires entre les variables (utile pour comprendre l'influence potentielle sur le prix).

Prédiction sur une nouvelle annonce
Enfin, une nouvelle annonce est générée aléatoirement en s’inspirant des distributions présentes dans le dataset. Cette annonce fictive est ensuite passée dans le pipeline entraîné, et le modèle prédit le logarithme du prix. On applique alors la transformation inverse (expm1) pour retrouver un prix en euros, que l’on affiche comme estimation finale du loyer.

## NOTES ##

L’analyse des résultats du modèle de régression linéaire montre que le meilleur paramètre trouvé via la recherche par grille est `fit_intercept = True`, ce qui signifie que le modèle inclut un terme constant. Cela permet de mieux ajuster la droite de régression aux données, en tenant compte d’un décalage éventuel de la moyenne des prix. En termes de performance, plusieurs métriques ont été utilisées pour évaluer la qualité des prédictions. Le RMSE est de 0.62, ce qui indique une erreur moyenne modérée entre les prix prédits et réels. Le MSE est de 0.38, ce qui va dans le même sens. Le MAE, qui mesure l’erreur absolue moyenne, est de 0.47. Ces valeurs sont relativement correctes mais laissent entendre que le modèle peut être amélioré. Le R² est de 0.294, ce qui signifie que seulement 29,4 % de la variance des prix est expliquée par le modèle. Cette valeur est assez faible, ce qui suggère que des facteurs importants affectant le prix ne sont pas inclus dans le modèle.

Pour tester la prédiction, une nouvelle annonce a été générée avec des caractéristiques aléatoires. Elle correspond à une chambre partagée située dans le quartier de Pullman, à Chicago, avec 11 avis, 1.49 avis par mois, et une durée minimale de séjour de 27 nuits. Le modèle a estimé son prix à 57.82 €, ce qui semble cohérent avec une chambre partagée dans un quartier peu central, adaptée à un public recherchant une solution économique.

Cependant, plusieurs limites sont apparentes. Le faible R² indique que le modèle est trop simple pour capturer la complexité des facteurs influençant les prix Airbnb. Il pourrait être amélioré en ajoutant des variables plus pertinentes, comme la qualité des photos, la description de l’annonce, la saisonnalité ou encore la proximité des attractions touristiques. De plus, bien que la sélection des caractéristiques via RFE soit utile, elle peut ne pas suffire si certaines interactions entre variables ou non-linéarités ne sont pas prises en compte. Enfin, l’utilisation de modèles plus avancés comme les forêts aléatoires ou le gradient boosting pourrait permettre d’augmenter la précision des prédictions en tenant compte de relations plus complexes dans les données. En somme, bien que le modèle fournisse des résultats cohérents et une base solide, il existe une marge significative d’amélioration pour mieux modéliser les dynamiques de prix sur la plateforme Airbnb.
