# Régression Boston Housing Dataset avec LinearRegression

In [None]:
# 1. Import des librairies
import pandas as pd
import numpy as np
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# 2. Chargement du dataset California Housing (remplace Boston)
data = fetch_california_housing(as_frame=True)
X = data.data
y = data.target  # Prix médian (en centaines de milliers de dollars)

print("Premières lignes du dataset :")
print(X.head())
print("Description du dataset :")
print(data.DESCR)

In [None]:
# 3. Exploration rapide
print(X.info())
print(X.describe())
plt.hist(y, bins=30)
plt.title("Distribution des prix (cible)")
plt.xlabel("Prix (centaines de milliers $)")
plt.show()

In [None]:
# 4. Séparation train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# 5. Standardisation des features
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
# 6. Modélisation
model = LinearRegression()
model.fit(X_train, y_train)

In [None]:
# 7. Prédiction
y_pred = model.predict(X_test)

In [None]:
# 8. Évaluation
print("MAE :", mean_absolute_error(y_test, y_pred))
print("MSE :", mean_squared_error(y_test, y_pred))
print("RMSE :", np.sqrt(mean_squared_error(y_test, y_pred)))
print("R² score :", r2_score(y_test, y_pred))

In [None]:
# 9. Visualisation des résultats
plt.figure(figsize=(7, 5))
plt.scatter(y_test, y_pred, alpha=0.6)
plt.xlabel("Valeurs réelles")
plt.ylabel("Prédictions")
plt.title("Valeurs réelles vs Prédictions")
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], "r--")
plt.show()

In [None]:
# 10. Analyse des résidus
residus = y_test - y_pred
plt.figure(figsize=(7, 4))
sns.histplot(residus, bins=30, kde=True)
plt.title("Distribution des résidus (erreurs)")
plt.xlabel("Résidu")
plt.show()

In [None]:
# 11. Interprétation
# À compléter :
# - Les erreurs sont-elles bien centrées autour de zéro ?
# - Existe-t-il des tendances dans les résidus ?
# - Quelle est la qualité du modèle (R², RMSE) ?
# - Que pourrait-on améliorer ? (feature engineering, modèles non-linéaires...)