
# 🏠 EXERCICE PRATIQUE - Régression avec California Housing Dataset

**Formation IA & ML - SupNum Nouakchott**  
**Formateur:** Mohamed Beydia - Vela Learning

---

## 🎯 Objectifs de cet Exercice

Dans cet exercice, vous allez appliquer les concepts de régression appris en cours sur un **dataset réel** : 
le California Housing Dataset qui contient des informations sur les prix des maisons en Californie.

**🎯 Vos missions :**
- [ ] Charger et explorer le dataset California Housing
- [ ] Effectuer une analyse exploratoire des données (EDA)
- [ ] Préparer les données (nettoyage, train/test split)
- [ ] Construire plusieurs modèles de régression
- [ ] Comparer les performances des modèles
- [ ] Interpréter les résultats et faire des recommandations

**📊 Dataset :** 20,640 observations de districts californiens avec 8 caractéristiques
**🎯 Target :** Prix médian des maisons (en centaines de milliers de dollars)

---

## 📋 Instructions Générales

- Suivez les étapes dans l'ordre
- Complétez le code là où vous voyez `# VOTRE CODE ICI`
- Répondez aux questions dans les cellules markdown
- Justifiez vos choix de modèles et d'hyperparamètres
- N'hésitez pas à ajouter des visualisations supplémentaires

---

============================================================================
ÉTAPE 1: IMPORTS ET CHARGEMENT DES DONNÉES
============================================================================

In [None]:
print("🚀 ÉTAPE 1: IMPORTS ET CHARGEMENT DES DONNÉES")
print("="*60)

In [None]:
# VOTRE CODE ICI - Importez les librairies nécessaires
# Indice: numpy, pandas, matplotlib, seaborn, sklearn
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Configuration des graphiques
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (12, 8)
sns.set_palette("husl")

In [None]:
print("✅ Librairies importées avec succès!")

In [None]:
# Chargement du dataset California Housing
print("\n📊 Chargement du dataset California Housing...")

In [None]:
# VOTRE CODE ICI - Chargez le dataset avec fetch_california_housing()
# Indice: utilisez return_X_y=False pour avoir les noms des features
california_housing = fetch_california_housing(as_frame=True)

In [None]:
# Création du DataFrame complet
data = california_housing.frame

In [None]:
print(f"✅ Dataset chargé: {data.shape[0]} observations, {data.shape[1]} variables")
print("\n📋 Aperçu des premières lignes:")
print(data.head())

In [None]:
print("\n📊 Informations sur le dataset:")
print(data.info())

============================================================================
ÉTAPE 2: EXPLORATION DES DONNÉES (EDA)
============================================================================

In [None]:
print("\n\n🔍 ÉTAPE 2: EXPLORATION DES DONNÉES (EDA)")
print("="*60)

In [None]:
print("📈 Description statistique du dataset:")
print(data.describe())

In [None]:
# QUESTION 1: Analysez les statistiques descriptives
"""
❓ QUESTION 1: 
Analysez les statistiques descriptives ci-dessus. 
- Quelles variables ont les plus grandes variations (écart-type) ?
- Y a-t-il des valeurs qui semblent aberrantes ?
- Quelle est la distribution des prix (MedHouseVal) ?

VOTRE RÉPONSE ICI:
[Répondez ici en analysant les statistiques]
"""

In [None]:
# VOTRE CODE ICI - Créez un graphique de distribution de la variable cible
# Indice: utilisez plt.hist() ou sns.histplot()
print("\n📊 Distribution de la variable cible (MedHouseVal):")

In [None]:
# VOTRE CODE ICI
plt.figure(figsize=(10, 6))
# Créez l'histogramme de MedHouseVal
plt.show()

In [None]:
# VOTRE CODE ICI - Créez une matrice de corrélation
print("\n🔗 Matrice de corrélation entre toutes les variables:")

In [None]:
# VOTRE CODE ICI
# Calculez la matrice de corrélation et affichez-la avec un heatmap
correlation_matrix = data.corr()

In [None]:
plt.figure(figsize=(12, 10))
# Créez le heatmap
plt.show()

In [None]:
# QUESTION 2: Analyse des corrélations
"""
❓ QUESTION 2:
En observant la matrice de corrélation:
- Quelles variables sont le plus corrélées avec MedHouseVal (notre target) ?
- Y a-t-il des variables très corrélées entre elles (multicolinéarité) ?
- Quelles sont vos hypothèses sur les relations observées ?

VOTRE RÉPONSE ICI:
[Analysez les corrélations et donnez vos hypothèses]
"""

============================================================================
ÉTAPE 3: PRÉPARATION DES DONNÉES
============================================================================

In [None]:
print("\n\n🛠️ ÉTAPE 3: PRÉPARATION DES DONNÉES")
print("="*60)

In [None]:
# Séparation des features et du target
print("📊 Séparation des variables explicatives (X) et de la cible (y)")

In [None]:
# VOTRE CODE ICI - Séparez X (features) et y (target)
# Indice: toutes les colonnes sauf 'MedHouseVal' pour X, et 'MedHouseVal' pour y
X = # VOTRE CODE ICI
y = # VOTRE CODE ICI

In [None]:
print(f"✅ X shape: {X.shape}")
print(f"✅ y shape: {y.shape}")

In [None]:
# Train/Test Split
print("\n🔄 Division train/test (80%/20%)")

In [None]:
# VOTRE CODE ICI - Divisez les données en train/test
# Indice: utilisez train_test_split avec test_size=0.2 et random_state=42
X_train, X_test, y_train, y_test = # VOTRE CODE ICI

In [None]:
print(f"✅ Train set: {X_train.shape[0]} observations")
print(f"✅ Test set: {X_test.shape[0]} observations")

In [None]:
# Standardisation des données (optionnel mais recommandé)
print("\n📏 Standardisation des features")

In [None]:
# VOTRE CODE ICI - Créez un StandardScaler et transformez X_train et X_test
# Indice: fit sur train, transform sur train et test
scaler = StandardScaler()
# VOTRE CODE ICI

In [None]:
print("✅ Standardisation terminée")

============================================================================
ÉTAPE 4: MODÉLISATION - RÉGRESSION LINÉAIRE SIMPLE
============================================================================

In [None]:
print("\n\n🤖 ÉTAPE 4: MODÉLISATION - RÉGRESSION LINÉAIRE")
print("="*60)

In [None]:
print("🏠 Construction du modèle de régression linéaire")

In [None]:
# VOTRE CODE ICI - Créez et entraînez un modèle LinearRegression
model_linear = # VOTRE CODE ICI
# Entraînez le modèle

In [None]:
print("✅ Modèle linéaire entraîné")

In [None]:
# Prédictions
# VOTRE CODE ICI - Faites des prédictions sur train et test
y_train_pred_linear = # VOTRE CODE ICI
y_test_pred_linear = # VOTRE CODE ICI

In [None]:
# Évaluation
print("\n📊 Évaluation du modèle linéaire:")

In [None]:
# VOTRE CODE ICI - Calculez MAE, RMSE et R² pour train et test
# Train
train_mae_linear = # VOTRE CODE ICI
train_rmse_linear = # VOTRE CODE ICI
train_r2_linear = # VOTRE CODE ICI

In [None]:
# Test
test_mae_linear = # VOTRE CODE ICI
test_rmse_linear = # VOTRE CODE ICI
test_r2_linear = # VOTRE CODE ICI

In [None]:
print(f"📈 TRAIN - MAE: {train_mae_linear:.3f}, RMSE: {train_rmse_linear:.3f}, R²: {train_r2_linear:.3f}")
print(f"📉 TEST  - MAE: {test_mae_linear:.3f}, RMSE: {test_rmse_linear:.3f}, R²: {test_r2_linear:.3f}")

============================================================================
ÉTAPE 5: MODÈLES AVANCÉS
============================================================================

In [None]:
print("\n\n🚀 ÉTAPE 5: MODÈLES AVANCÉS")
print("="*60)

VOTRE CODE ICI - Créez et entraînez les modèles suivants:
1. Ridge Regression (alpha=1.0)
2. Lasso Regression (alpha=0.1)  
3. Random Forest (n_estimators=100, random_state=42)

In [None]:
print("🌲 Construction des modèles avancés...")

In [None]:
# Ridge
model_ridge = # VOTRE CODE ICI

In [None]:
# Lasso  
model_lasso = # VOTRE CODE ICI

In [None]:
# Random Forest
model_rf = # VOTRE CODE ICI

In [None]:
print("✅ Tous les modèles sont entraînés")

============================================================================
ÉTAPE 6: COMPARAISON DES MODÈLES
============================================================================

In [None]:
print("\n\n⚖️ ÉTAPE 6: COMPARAISON DES MODÈLES")
print("="*60)

VOTRE CODE ICI - Créez un DataFrame pour comparer les performances
Calculez les métriques pour tous les modèles et créez un tableau comparatif

In [None]:
models = {
    'Linear': model_linear,
    'Ridge': model_ridge, 
    'Lasso': model_lasso,
    'Random Forest': model_rf
}

In [None]:
results = []

In [None]:
for name, model in models.items():
    # VOTRE CODE ICI - Calculez les métriques pour chaque modèle
    # Prédictions
    y_train_pred = # VOTRE CODE ICI
    y_test_pred = # VOTRE CODE ICI
    
    # Métriques
    train_r2 = # VOTRE CODE ICI
    test_r2 = # VOTRE CODE ICI
    train_rmse = # VOTRE CODE ICI  
    test_rmse = # VOTRE CODE ICI
    
    results.append({
        'Model': name,
        'Train_R2': train_r2,
        'Test_R2': test_r2,
        'Train_RMSE': train_rmse,
        'Test_RMSE': test_rmse,
        'Overfitting': train_r2 - test_r2
    })

In [None]:
results_df = pd.DataFrame(results)
print("📊 Comparaison des performances:")
print(results_df.round(4))

In [None]:
# QUESTION 3: Analyse des résultats
"""
❓ QUESTION 3:
En analysant le tableau de comparaison:
- Quel modèle performe le mieux sur les données de test ?
- Y a-t-il des signes d'overfitting ? Comment le détectez-vous ?
- Quel modèle recommanderiez-vous et pourquoi ?

VOTRE RÉPONSE ICI:
[Analysez les résultats et justifiez votre choix]
"""

============================================================================
ÉTAPE 7: VISUALISATION DES RÉSULTATS
============================================================================

In [None]:
print("\n\n📊 ÉTAPE 7: VISUALISATION DES RÉSULTATS")
print("="*60)

VOTRE CODE ICI - Créez des visualisations pour analyser les modèles
1. Graphique des prédictions vs réalité pour le meilleur modèle
2. Distribution des résidus
3. Importance des features (pour Random Forest)

In [None]:
# Sélectionnez votre meilleur modèle
best_model = # VOTRE CODE ICI (ex: model_rf)
best_model_name = # VOTRE CODE ICI (ex: "Random Forest")

In [None]:
# Graphique 1: Prédictions vs Réalité
plt.figure(figsize=(15, 5))

In [None]:
plt.subplot(1, 3, 1)
# VOTRE CODE ICI - Créez un scatter plot prédictions vs réalité
plt.title(f'{best_model_name}: Prédictions vs Réalité')

In [None]:
# Graphique 2: Distribution des résidus
plt.subplot(1, 3, 2)
# VOTRE CODE ICI - Calculez les résidus et créez un histogramme
residuals = # VOTRE CODE ICI
plt.title('Distribution des Résidus')

In [None]:
# Graphique 3: Importance des features (si Random Forest)
plt.subplot(1, 3, 3)
if hasattr(best_model, 'feature_importances_'):
    # VOTRE CODE ICI - Affichez l'importance des features
    importances = # VOTRE CODE ICI
    feature_names = # VOTRE CODE ICI
    plt.title('Importance des Features')

In [None]:
plt.tight_layout()
plt.show()

============================================================================
ÉTAPE 8: INTERPRÉTATION BUSINESS ET RECOMMANDATIONS
============================================================================

In [None]:
print("\n\n💼 ÉTAPE 8: INTERPRÉTATION BUSINESS")
print("="*60)

In [None]:
print("🎯 Résumé de l'analyse:")
print(f"✅ Meilleur modèle: {best_model_name}")
print(f"✅ R² sur test: {# VOTRE CODE ICI:.3f}")
print(f"✅ RMSE sur test: {# VOTRE CODE ICI:.3f} (en centaines de milliers de $)")

In [None]:
# QUESTION 4: Recommandations business
"""
❓ QUESTION 4 - RECOMMANDATIONS BUSINESS:

Basé sur votre analyse, répondez aux questions suivantes:

1. **Précision du modèle**: Votre modèle est-il suffisamment précis pour être utilisé en production ? 
   Justifiez avec les métriques.

2. **Variables importantes**: Quelles sont les 3 variables les plus importantes pour prédire le prix ? 
   Que cela signifie-t-il en termes business ?

3. **Limitations**: Quelles sont les principales limitations de votre modèle ? 
   Quelles améliorations proposeriez-vous ?

4. **Recommandations**: Si vous étiez consultant pour une agence immobilière californienne, 
   quelles recommandations donneriez-vous basées sur cette analyse ?

VOTRE RÉPONSE ICI:
[Rédigez vos recommandations business détaillées]
"""

============================================================================
BONUS: PRÉDICTIONS SUR NOUVEAUX EXEMPLES
============================================================================

In [None]:
print("\n\n🎁 BONUS: PRÉDICTIONS SUR NOUVEAUX EXEMPLES")
print("="*60)

VOTRE CODE ICI - Créez quelques exemples fictifs et faites des prédictions
Exemple: une maison avec des caractéristiques moyennes, une maison de luxe, etc.

In [None]:
print("🏠 Exemples de prédictions:")

In [None]:
# Exemple 1: Maison moyenne
exemple_moyen = # VOTRE CODE ICI - Créez un exemple avec des valeurs moyennes
prix_predit_moyen = # VOTRE CODE ICI - Prédiction

In [None]:
# Exemple 2: Maison de luxe  
exemple_luxe = # VOTRE CODE ICI - Créez un exemple avec des valeurs élevées
prix_predit_luxe = # VOTRE CODE ICI - Prédiction

In [None]:
print(f"💰 Maison moyenne: {prix_predit_moyen[0]:.2f} centaines de milliers de $")
print(f"💎 Maison de luxe: {prix_predit_luxe[0]:.2f} centaines de milliers de $")

In [None]:
print("\n🎉 FÉLICITATIONS ! Vous avez terminé l'exercice de régression !")
print("📝 N'oubliez pas de répondre à toutes les questions dans les cellules markdown.")

============================================================================
AIDE-MÉMOIRE
============================================================================

📚 AIDE-MÉMOIRE - Fonctions utiles:

CHARGEMENT DE DONNÉES:
- fetch_california_housing(as_frame=True)
- pd.DataFrame()

EXPLORATION:
- data.describe()
- data.corr()
- plt.hist(data['column'])
- sns.heatmap(correlation_matrix, annot=True)

PRÉPARATION:
- train_test_split(X, y, test_size=0.2, random_state=42)
- StandardScaler().fit_transform()

MODÈLES:
- LinearRegression().fit(X_train, y_train)
- Ridge(alpha=1.0).fit(X_train, y_train)
- Lasso(alpha=0.1).fit(X_train, y_train)
- RandomForestRegressor(n_estimators=100).fit(X_train, y_train)

MÉTRIQUES:
- mean_absolute_error(y_true, y_pred)
- mean_squared_error(y_true, y_pred, squared=False)  # RMSE
- r2_score(y_true, y_pred)

VISUALISATION:
- plt.scatter(y_true, y_pred)
- plt.hist(residuals)
- plt.barh(feature_names, importances)
