##**Cellule 1 : Importation des bibliothèques**

In [1]:
# Import des bibliothèques nécessaires
import pandas as pd
import numpy as np
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score


##**Cellule 2 : Chargement du dataset**


In [2]:
# Charger le dataset California Housing
housing = fetch_california_housing(as_frame=True)
X = housing.data
y = housing.target  # Prix médian des maisons en centaines de milliers de dollars

# Aperçu des données
print("Aperçu des caractéristiques :")
print(X.head())
print("\nAperçu de la cible (prix des maisons) :")
print(y.head())


Aperçu des caractéristiques :
   MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
0  8.3252      41.0  6.984127   1.023810       322.0  2.555556     37.88   
1  8.3014      21.0  6.238137   0.971880      2401.0  2.109842     37.86   
2  7.2574      52.0  8.288136   1.073446       496.0  2.802260     37.85   
3  5.6431      52.0  5.817352   1.073059       558.0  2.547945     37.85   
4  3.8462      52.0  6.281853   1.081081       565.0  2.181467     37.85   

   Longitude  
0    -122.23  
1    -122.22  
2    -122.24  
3    -122.25  
4    -122.25  

Aperçu de la cible (prix des maisons) :
0    4.526
1    3.585
2    3.521
3    3.413
4    3.422
Name: MedHouseVal, dtype: float64


##**Cellule 3 : Prétraitement des données**

In [3]:
# Standardisation des caractéristiques
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Séparation des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Vérification des tailles
print("\nTaille des ensembles :")
print(f"Entraînement : {len(X_train)} échantillons, Test : {len(X_test)} échantillons")



Taille des ensembles :
Entraînement : 16512 échantillons, Test : 4128 échantillons


##**Cellule 4 : Construction et entraînement du modèle**

In [4]:
# Construction du modèle
model = LinearRegression()

# Entraînement du modèle
model.fit(X_train, y_train)


In [5]:
# Prédictions
y_pred = model.predict(X_test)


## Évaluation des Performances du Modèle

Nous utilisons deux métriques pour évaluer les performances de notre modèle de régression :

- **MAE (Mean Absolute Error)** : Mesure la moyenne des écarts absolus entre les valeurs prédites et les valeurs réelles. Elle est moins sensible aux grandes erreurs et aux valeurs aberrantes.

- **MSE (Mean Squared Error)** : Mesure la moyenne des carrés des écarts entre les valeurs prédites et les valeurs réelles. Elle pénalise davantage les grandes erreurs, ce qui la rend plus sensible aux valeurs aberrantes.

Le choix entre MAE et MSE dépend de l'importance que nous souhaitons accorder aux grandes erreurs dans notre modèle.


In [7]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

# Calcul du MAE et du MSE
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)

print(f"Mean Absolute Error (MAE) : {mae}")
print(f"Mean Squared Error (MSE) : {mse}")


Mean Absolute Error (MAE) : 0.5332001304956565
Mean Squared Error (MSE) : 0.555891598695244


In [6]:
# Exemple de prédiction
example_data = X_test[0].reshape(1, -1)  # Exemple avec une maison de l'ensemble de test
predicted_price = model.predict(example_data)
print(example_data)
print(f"\nExemple : Le modèle prédit un prix de maison de {predicted_price[0]:.2f} (en centaines de milliers de dollars).")



[[-1.15248922 -0.2891866  -0.49989596 -0.15697642 -0.02956174  0.07768129
   0.20044873  0.27936569]]

Exemple : Le modèle prédit un prix de maison de 0.72 (en centaines de milliers de dollars).


#**Random Forest Model**

In [8]:
from sklearn.ensemble import RandomForestRegressor

# Construction et entraînement du modèle Random Forest
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# Prédictions
y_pred_rf = rf_model.predict(X_test)

# Évaluation
mse_rf = mean_squared_error(y_test, y_pred_rf)
mae_rf = mean_absolute_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print("\nÉvaluation du modèle Random Forest :")
print(f"MSE (Erreur quadratique moyenne) : {mse_rf:.2f}")
print(f"MAE (Erreur absolue moyenne) : {mae_rf:.2f}")
print(f"R² (Score de détermination) : {r2_rf:.2f}")



Évaluation du modèle Random Forest :
MSE (Erreur quadratique moyenne) : 0.26
MAE (Erreur absolue moyenne) : 0.33
R² (Score de détermination) : 0.81
