### 📌 Partie 1 : Préparation des données

In [29]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.metrics import mean_squared_error, r2_score



- Lecture du dataset brut

In [30]:
df = pd.read_csv("7_data_regression.csv",encoding="utf-8")

- Gestion des valeurs manquantes

In [31]:
# Variables numériques : médiane
df['superficie'] = df['superficie'].fillna(df['superficie'].median())
df['nombre_chambres'] = df['nombre_chambres'].fillna(df['nombre_chambres'].median())
df['loyer_mensuel'] = df['loyer_mensuel'].fillna(df['loyer_mensuel'].median())

# Variables catégorielles : mode ou valeur par défaut
df['douche_wc'] = df['douche_wc'].fillna(df['douche_wc'].mode()[0])
df['type_d_acces'] = df['type_d_acces'].fillna(df['type_d_acces'].mode()[0])
df['meuble'] = df['meuble'].fillna('non')
df['etat_general'] = df['etat_general'].fillna(df['etat_general'].mode()[0])

- Encodage des variables catégorielles

In [32]:
num_features = ['superficie', 'nombre_chambres']
cat_features = ['quartier', 'douche_wc', 'type_d_acces', 'meuble', 'etat_general']
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), num_features),
        ('cat', OneHotEncoder(drop='first', handle_unknown='ignore'), cat_features)
    ]
)

- Création de variables dérivées

In [33]:
# Prix par m²
df["prix_par_m2"] = df["loyer_mensuel"] / df["superficie"]

# Classification des quartiers
quartiers_residentiels = ["Ivandry", "Ankorondrano", "Ambatobe"]
df["quartier_type"] = df["quartier"].apply(
lambda x: "residentiel" if x in quartiers_residentiels else "populaire"
)

- Détection et suppression des variables fortement corrélées

In [None]:
X = df.drop('loyer_mensuel', axis=1)
y = df['loyer_mensuel']

all_numerique_cols = ['superficie', 'nombre_chambres', 'prix_par_m2']
all_cat_features = ['quartier', 'douche_wc', 'type_d_acces', 'meuble', 'etat_general','quartier_type']



ValueError: could not convert string to float: 'Antaninarenina'

- Standardisation et normalisation

### 📌 Partie 2 : Modélisation

- Séparation train/test

In [None]:
X = df.drop("loyer_mensuel", axis=1)
y = df["loyer_mensuel"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

- Implémentation de la régression linéaire multiple

- Évaluation : R², RMSE

In [None]:
# 🔹 Pipeline de prétraitement
preprocessor = ColumnTransformer(transformers=[
    ('num', StandardScaler(), num_features),
    ('cat', OneHotEncoder(drop='first', handle_unknown='ignore'), cat_features)
])

# 🔹 Pipeline complet
pipeline = Pipeline([
    ('preprocessing', preprocessor),
    ('regressor', LinearRegression())
])

# 🔹 Entraînement du modèle
pipeline.fit(X_train, y_train)

# 🔹 Prédiction et évaluation
y_pred = pipeline.predict(X_test)
rmse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("✅ RMSE :", round(rmse, 2))
print("✅ R² :", round(r2, 4))

✅ RMSE : 4453125468.37
✅ R² : 0.9755
