# Projet : Comparaison de Modèles de Régression (California Housing)

In [5]:
# Importation des librairies essentielles
import pandas as pd
import numpy as np
import math # Pour le calcul du RMSE 

# Outils de Scikit-learn
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn import metrics

Préparation des données

In [6]:
# Charger le jeu de données
housing = fetch_california_housing(as_frame=True)

# Créer un DataFrame complet à partir de l'objet 'Bunch' (stocke tout)
data = housing.frame 

# Séparer les features (X) et la cible (Y)
# housing.feature_names contient les noms des colonnes d'entrée
X = data[housing.feature_names] 
Y = data['MedHouseVal'] # La valeur cible est la valeur médiane des maisons (en 100 000 USD)

# Afficher un aperçu des données et leurs dimensions
print("Aperçu des données (5 premières lignes) :", data.head())
print("Taille initiale de X (Features) :", X.shape)
print("Taille initiale de Y (Cible) :", Y.shape)

Aperçu des données (5 premières lignes) :    MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
0  8.3252      41.0  6.984127   1.023810       322.0  2.555556     37.88   
1  8.3014      21.0  6.238137   0.971880      2401.0  2.109842     37.86   
2  7.2574      52.0  8.288136   1.073446       496.0  2.802260     37.85   
3  5.6431      52.0  5.817352   1.073059       558.0  2.547945     37.85   
4  3.8462      52.0  6.281853   1.081081       565.0  2.181467     37.85   

   Longitude  MedHouseVal  
0    -122.23        4.526  
1    -122.22        3.585  
2    -122.24        3.521  
3    -122.25        3.413  
4    -122.25        3.422  
Taille initiale de X (Features) : (20640, 8)
Taille initiale de Y (Cible) : (20640,)


Séparation des Ensembles (Train/Test Split)

In [7]:
# Séparation des données : 80% Entraînement, 20% Test
x_train, x_test, y_train, y_test = train_test_split(
    X, 
    Y, 
    test_size=0.2, 
    random_state=42 
)

print("\nTaille de l'ensemble d'entraînement X :", x_train.shape)
print("Taille de l'ensemble de test X :", x_test.shape)


Taille de l'ensemble d'entraînement X : (16512, 8)
Taille de l'ensemble de test X : (4128, 8)


Entraînement et évalution des modèles

Fonction d'évaluation des performances

In [8]:
def evaluete_model(model, x_test, y_test):
    """""Calcule le MSE, le RMSE et le R2 Score pour un modèle donné."""
    # Prédictions
    predictions = model.predict(x_test)

    # Calcul des métriques
    mse = metrics.mean_squared_error(y_test, predictions)
    rmse = math.sqrt(mse)
    r2 = metrics.r2_score(y_test, predictions)

    return { 
        "MSE": round(mse, 4),
        "RMSE": round(rmse, 4),
        "R2 Score": round(r2, 4)
    }

Régression linéaire

In [9]:
# Instancier et entraîner le modèle de régression linéaire
linear_model = LinearRegression()
linear_model.fit(x_train, y_train)

# Évaluer le modèle de régression linéaire
linear_results= evaluete_model(linear_model, x_test, y_test)

print("REGRESSION LINÉAIRE")
print(linear_results)

REGRESSION LINÉAIRE
{'MSE': 0.5559, 'RMSE': 0.7456, 'R2 Score': 0.5758}
