# Partie B – Régression : California Housing
Ce notebook applique la régression linéaire sur le dataset `California Housing` pour prédire la valeur médiane des maisons en fonction de plusieurs caractéristiques démographiques et géographiques.

In [None]:
# 1. Monter Google Drive (optionnel si fichier local dans sklearn)
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# 2. Importer les bibliothèques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
sns.set(style="darkgrid")
%matplotlib inline

In [None]:
# 3. Charger le dataset California Housing
data = fetch_california_housing(as_frame=True)
df = data.frame.copy()
df.head()

### Analyse exploratoire des données

In [None]:
# 4. Statistiques et valeurs manquantes
print(df.describe())
print("\nValeurs manquantes par colonne :")
print(df.isnull().sum())
df = df.dropna()

In [None]:
# 5. Séparation des features et de la cible
target_col = 'MedHouseVal'
X = df.drop(target_col, axis=1)
y = df[target_col]

In [None]:
# 6. Séparation en train et test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# 7. Standardisation
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

### Régression linéaire

In [None]:
# 8. Entraînement du modèle
model = LinearRegression()
model.fit(X_train_scaled, y_train)

In [None]:
# 9. Prédictions
y_pred = model.predict(X_test_scaled)

### Évaluation du modèle

In [None]:
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error (MSE): {mse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"R² score: {r2:.4f}")

In [None]:
# 10. Visualisation : Prédictions vs Valeurs réelles
plt.figure(figsize=(8,6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
plt.xlabel("Valeurs réelles")
plt.ylabel("Prédictions")
plt.title("Prédictions vs Valeurs réelles")
plt.show()

### Importance des variables

In [None]:
coefficients = pd.DataFrame({'Feature': X.columns, 'Coefficient': model.coef_})
coefficients = coefficients.reindex(coefficients.Coefficient.abs().sort_values(ascending=False).index)

plt.figure(figsize=(8,5))
sns.barplot(x='Coefficient', y='Feature', data=coefficients)
plt.title("Importance des features selon la régression linéaire")
plt.show()