In [3]:
# =====================
# 1. IMPORTS ESSENTIELS
# =====================
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler, RobustScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.feature_selection import SelectKBest, f_regression, RFE
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import random
import seaborn as sns
import matplotlib.pyplot as plt

# =====================
# 2. CHARGEMENT DES DONN√âES
# =====================
data = pd.read_csv('listings.csv')

print("üßæ Colonnes du dataset :", data.columns.tolist())
print(data.head())

üßæ Colonnes du dataset : ['id', 'name', 'host_id', 'host_name', 'neighbourhood_group', 'neighbourhood', 'latitude', 'longitude', 'room_type', 'price', 'minimum_nights', 'number_of_reviews', 'last_review', 'reviews_per_month', 'calculated_host_listings_count', 'availability_365']
      id                                               name  host_id  \
0   2384  Hyde Park - Walk to UChicago, 10 min to McCormick     2613   
1   4505  394 Great Reviews. 127 y/o House. 40 yds to tr...     5775   
2   7126                Tiny Studio Apartment 94 Walk Score    17928   
3   9811                      Barbara's Hideaway - Old Town    33004   
4  10610                   3 Comforts of Cooperative Living     2140   

          host_name  neighbourhood_group   neighbourhood  latitude  longitude  \
0           Rebecca                  NaN       Hyde Park  41.78790  -87.58780   
1  Craig & Kathleen                  NaN  South Lawndale  41.85495  -87.69696   
2             Sarah                  NaN  

Cela permet d‚Äôexplorer la structure du jeu de donn√©es, d‚Äôidentifier les variables disponibles (num√©riques, cat√©gorielles, prix, localisation‚Ä¶) et de pr√©parer les √©tapes suivantes : nettoyage, s√©lection des features et mod√©lisation.

In [None]:

# =====================
# 3. D√âFINITION DES VARIABLES
# =====================

# Variables num√©riques et cat√©gorielles utilis√©es pour la pr√©diction
numeric_features = ['latitude', 'longitude', 'minimum_nights', 'number_of_reviews', 'reviews_per_month']
categorical_features = ['neighbourhood', 'room_type']

# =====================
# 4. PIPELINES DE PR√âTRAITEMENT
# =====================

# Transformer num√©rique avec imputation et normalisation robuste
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),  # Imputer les valeurs manquantes
    ('scaler', RobustScaler())  # Utiliser RobustScaler pour limiter l'impact des outliers
])

# Transformer cat√©gorielle avec imputation et encodage one-hot
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Imputer les valeurs manquantes
    ('encoder', OneHotEncoder(handle_unknown='ignore'))  # Encoder les variables cat√©gorielles
])

# Combinaison des transformations
preprocessor = ColumnTransformer(transformers=[
    ('num', numeric_transformer, numeric_features),
    ('cat', categorical_transformer, categorical_features)
])


S√©lection des variables pertinentes
Dans cette √©tape, on s√©lectionne les variables jug√©es utiles pour pr√©dire la variable cible (probablement le prix d‚Äôune location Airbnb). Ces variables sont s√©par√©es en deux types :
Variables num√©riques : latitude, longitude, minimum_nights, number_of_reviews, reviews_per_month. Ces variables ont des valeurs continues, souvent sujettes √† des valeurs manquantes ou aberrantes.
Variables cat√©gorielles : neighbourhood, room_type, qui sont des libell√©s ou cat√©gories non num√©riques mais tr√®s informatives sur le logement.

Construction des pipelines de pr√©traitement
Pour pr√©parer les donn√©es, on utilise deux pipelines parall√®les selon le type de variable :
Pipeline num√©rique :
Imputation : remplacement des valeurs manquantes par la moyenne (SimpleImputer(strategy='mean')).
Normalisation robuste : on applique un RobustScaler, qui est moins sensible aux valeurs extr√™mes que le StandardScaler. Cela permet de centrer et r√©duire les donn√©es tout en limitant l‚Äôinfluence des outliers.

Pipeline cat√©goriel :
Imputation : les cat√©gories manquantes sont remplac√©es par la modalit√© la plus fr√©quente (most_frequent).
Encodage one-hot : chaque cat√©gorie devient une colonne binaire (0 ou 1), ce qui permet de rendre les variables cat√©gorielles exploitables par les mod√®les lin√©aires et autres algorithmes.

Fusion des deux pipelines
Avec ColumnTransformer, on applique chaque pipeline aux colonnes concern√©es (num√©riques ou cat√©gorielles) et on les combine. Ce bloc constitue le pr√©traitement automatique des donn√©es, qui sera int√©gr√© dans un pipeline global avec le mod√®le de r√©gression plus tard.


In [None]:

# =====================
# 5. PIPELINE COMPLET AVEC MOD√àLE
# =====================

# Ajouter la s√©lection des caract√©ristiques avec RFE
regressor = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('feature_selection', RFE(LinearRegression(), n_features_to_select=5)),  # S√©lection des meilleures caract√©ristiques
    ('regressor', LinearRegression())  # R√©gression lin√©aire
])

# =====================
# 6. S√âPARATION DES DONN√âES
# =====================
X = data[numeric_features + categorical_features]
y = np.log1p(data['price'])  # On pr√©dit log(1 + prix) pour stabiliser la variance

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


Dans cette partie, on construit un pipeline complet de mod√©lisation combinant toutes les √©tapes n√©cessaires : pr√©traitement, s√©lection de variables et apprentissage du mod√®le.

Pipeline de r√©gression
Le pipeline regressor int√®gre trois √©tapes cl√©s :

Pr√©traitement : on applique le preprocessor pr√©c√©demment d√©fini, qui nettoie et transforme les variables num√©riques et cat√©gorielles.

S√©lection de caract√©ristiques (RFE) : on utilise la m√©thode RFE (Recursive Feature Elimination) avec un mod√®le de r√©gression lin√©aire pour s√©lectionner automatiquement les 5 variables les plus pertinentes. Cela permet de simplifier le mod√®le tout en gardant un bon pouvoir pr√©dictif.

Mod√®le de r√©gression : une r√©gression lin√©aire classique est entra√Æn√©e sur les variables s√©lectionn√©es pour pr√©dire le prix du logement.

Pr√©paration des donn√©es d‚Äôapprentissage
Ensuite, on d√©finit les entr√©es X comme les variables explicatives (num√©riques + cat√©gorielles) et la cible y comme le logarithme du prix + 1 (np.log1p(data['price'])). Ce choix permet de r√©duire l‚Äôimpact des valeurs extr√™mes et de stabiliser la variance du prix, qui est souvent tr√®s dispers√© dans les donn√©es Airbnb.

S√©paration train/test
On divise les donn√©es en un jeu d'entra√Ænement (80‚ÄØ%) et un jeu de test (20‚ÄØ%), ce qui permet de construire le mod√®le sur un sous-ensemble et d‚Äô√©valuer sa performance sur des donn√©es jamais vues, garantissant une √©valuation plus fiable.

In [None]:

# =====================
# 7. GRID SEARCH POUR R√âGLAGE D‚ÄôHYPERPARAM√àTRES
# =====================
param_grid = {
    'regressor__fit_intercept': [True, False]  # Tester si on inclut l'intercept dans le mod√®le
}

grid_search = GridSearchCV(regressor, param_grid, cv=10, n_jobs=-1, verbose=2)
grid_search.fit(X_train, y_train)

print(f"\n‚úÖ Meilleurs param√®tres trouv√©s : {grid_search.best_params_}")

# =====================
# 8. √âVALUATION DU MOD√àLE
# =====================
y_pred = grid_search.predict(X_test)

rmse = np.sqrt(mean_squared_error(y_test, y_pred))
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"\nüìä √âvaluation du mod√®le :")
print(f" - RMSE (Root Mean Squared Error) : {rmse:.2f}")
print(f" - MSE  (Mean Squared Error)      : {mse:.2f}")
print(f" - MAE  (Mean Absolute Error)     : {mae:.2f}")
print(f" - R¬≤   (Coefficient de d√©termination) : {r2:.3f}")

# Affichage de la matrice de corr√©lation des variables num√©riques
corr_matrix = data[numeric_features].corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Matrice de Corr√©lation des Variables Num√©riques')
plt.show()

# =====================
# 9. ‚úÖ PR√âDICTION D‚ÄôUN NOUVEL AIRBNB
# =====================
# G√©n√©ration d'une annonce al√©atoire √† partir des distributions du dataset
nouvelle_annonce = pd.DataFrame([{
    'latitude': round(random.uniform(data['latitude'].min(), data['latitude'].max()), 4),
    'longitude': round(random.uniform(data['longitude'].min(), data['longitude'].max()), 4),
    'minimum_nights': random.randint(1, 30),
    'number_of_reviews': random.randint(0, 100),
    'reviews_per_month': round(random.uniform(0, 5), 2),
    'neighbourhood': random.choice(data['neighbourhood'].dropna().unique()),
    'room_type': random.choice(data['room_type'].dropna().unique())
}])

print("üè† Nouvelle annonce g√©n√©r√©e al√©atoirement :\n", nouvelle_annonce)

# Pr√©diction du log(prix)
log_price_pred = grid_search.predict(nouvelle_annonce)
prix_estime = np.expm1(log_price_pred[0])  # Inverse de log1p ‚Üí on retrouve le prix r√©el


print(f"\nüí∞ Prix estim√© pour la nouvelle annonce : {prix_estime:.2f} ‚Ç¨")


Dans cette derni√®re partie, on affine le mod√®le, on l‚Äô√©value, puis on l‚Äôutilise pour estimer le prix d‚Äôune nouvelle annonce Airbnb.

R√©glage des hyperparam√®tres (GridSearchCV)
Un grid search est effectu√© pour tester automatiquement diff√©rentes valeurs de l‚Äôhyperparam√®tre fit_intercept du mod√®le de r√©gression lin√©aire (True ou False). Cela permet de d√©terminer si l‚Äôajout d‚Äôun terme constant (l‚Äôintercept) am√©liore les performances du mod√®le. La recherche est faite avec une validation crois√©e √† 10 plis (cv=10), assurant une √©valuation fiable de chaque configuration. Le meilleur param√®tre est ensuite affich√©.

√âvaluation des performances
Apr√®s entra√Ænement, le mod√®le est test√© sur le jeu de test. Plusieurs indicateurs de performance sont calcul√©s :

RMSE : erreur quadratique moyenne racine, qui p√©nalise fortement les grosses erreurs.
MAE : erreur absolue moyenne, qui donne une id√©e de l‚Äôerreur moyenne en euros.
MSE : erreur quadratique moyenne brute.
R¬≤ : coefficient de d√©termination, qui mesure la part de variance expliqu√©e par le mod√®le (proche de 1 = bon mod√®le).

Un heatmap de la matrice de corr√©lation des variables num√©riques est √©galement g√©n√©r√©, permettant de visualiser les relations lin√©aires entre les variables (utile pour comprendre l'influence potentielle sur le prix).

Pr√©diction sur une nouvelle annonce
Enfin, une nouvelle annonce est g√©n√©r√©e al√©atoirement en s‚Äôinspirant des distributions pr√©sentes dans le dataset. Cette annonce fictive est ensuite pass√©e dans le pipeline entra√Æn√©, et le mod√®le pr√©dit le logarithme du prix. On applique alors la transformation inverse (expm1) pour retrouver un prix en euros, que l‚Äôon affiche comme estimation finale du loyer.

## NOTES ##

L‚Äôanalyse des r√©sultats du mod√®le de r√©gression lin√©aire montre que le meilleur param√®tre trouv√© via la recherche par grille est `fit_intercept = True`, ce qui signifie que le mod√®le inclut un terme constant. Cela permet de mieux ajuster la droite de r√©gression aux donn√©es, en tenant compte d‚Äôun d√©calage √©ventuel de la moyenne des prix. En termes de performance, plusieurs m√©triques ont √©t√© utilis√©es pour √©valuer la qualit√© des pr√©dictions. Le RMSE est de 0.62, ce qui indique une erreur moyenne mod√©r√©e entre les prix pr√©dits et r√©els. Le MSE est de 0.38, ce qui va dans le m√™me sens. Le MAE, qui mesure l‚Äôerreur absolue moyenne, est de 0.47. Ces valeurs sont relativement correctes mais laissent entendre que le mod√®le peut √™tre am√©lior√©. Le R¬≤ est de 0.294, ce qui signifie que seulement 29,4 % de la variance des prix est expliqu√©e par le mod√®le. Cette valeur est assez faible, ce qui sugg√®re que des facteurs importants affectant le prix ne sont pas inclus dans le mod√®le.

Pour tester la pr√©diction, une nouvelle annonce a √©t√© g√©n√©r√©e avec des caract√©ristiques al√©atoires. Elle correspond √† une chambre partag√©e situ√©e dans le quartier de Pullman, √† Chicago, avec 11 avis, 1.49 avis par mois, et une dur√©e minimale de s√©jour de 27 nuits. Le mod√®le a estim√© son prix √† 57.82 ‚Ç¨, ce qui semble coh√©rent avec une chambre partag√©e dans un quartier peu central, adapt√©e √† un public recherchant une solution √©conomique.

Cependant, plusieurs limites sont apparentes. Le faible R¬≤ indique que le mod√®le est trop simple pour capturer la complexit√© des facteurs influen√ßant les prix Airbnb. Il pourrait √™tre am√©lior√© en ajoutant des variables plus pertinentes, comme la qualit√© des photos, la description de l‚Äôannonce, la saisonnalit√© ou encore la proximit√© des attractions touristiques. De plus, bien que la s√©lection des caract√©ristiques via RFE soit utile, elle peut ne pas suffire si certaines interactions entre variables ou non-lin√©arit√©s ne sont pas prises en compte. Enfin, l‚Äôutilisation de mod√®les plus avanc√©s comme les for√™ts al√©atoires ou le gradient boosting pourrait permettre d‚Äôaugmenter la pr√©cision des pr√©dictions en tenant compte de relations plus complexes dans les donn√©es. En somme, bien que le mod√®le fournisse des r√©sultats coh√©rents et une base solide, il existe une marge significative d‚Äôam√©lioration pour mieux mod√©liser les dynamiques de prix sur la plateforme Airbnb.
