
# üè† EXERCICE PRATIQUE - R√©gression avec California Housing Dataset

**Formation IA & ML - SupNum Nouakchott**  
**Formateur:** Mohamed Beydia - Vela Learning

---

## üéØ Objectifs de cet Exercice

Dans cet exercice, vous allez appliquer les concepts de r√©gression appris en cours sur un **dataset r√©el** : 
le California Housing Dataset qui contient des informations sur les prix des maisons en Californie.

**üéØ Vos missions :**
- [ ] Charger et explorer le dataset California Housing
- [ ] Effectuer une analyse exploratoire des donn√©es (EDA)
- [ ] Pr√©parer les donn√©es (nettoyage, train/test split)
- [ ] Construire plusieurs mod√®les de r√©gression
- [ ] Comparer les performances des mod√®les
- [ ] Interpr√©ter les r√©sultats et faire des recommandations

**üìä Dataset :** 20,640 observations de districts californiens avec 8 caract√©ristiques
**üéØ Target :** Prix m√©dian des maisons (en centaines de milliers de dollars)

---

## üìã Instructions G√©n√©rales

- Suivez les √©tapes dans l'ordre
- Compl√©tez le code l√† o√π vous voyez `# VOTRE CODE ICI`
- R√©pondez aux questions dans les cellules markdown
- Justifiez vos choix de mod√®les et d'hyperparam√®tres
- N'h√©sitez pas √† ajouter des visualisations suppl√©mentaires

---

============================================================================
√âTAPE 1: IMPORTS ET CHARGEMENT DES DONN√âES
============================================================================

In [None]:
print("üöÄ √âTAPE 1: IMPORTS ET CHARGEMENT DES DONN√âES")
print("="*60)

In [None]:
# VOTRE CODE ICI - Importez les librairies n√©cessaires
# Indice: numpy, pandas, matplotlib, seaborn, sklearn
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Configuration des graphiques
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (12, 8)
sns.set_palette("husl")

In [None]:
print("‚úÖ Librairies import√©es avec succ√®s!")

In [None]:
# Chargement du dataset California Housing
print("\nüìä Chargement du dataset California Housing...")

In [None]:
# VOTRE CODE ICI - Chargez le dataset avec fetch_california_housing()
# Indice: utilisez return_X_y=False pour avoir les noms des features
california_housing = fetch_california_housing(as_frame=True)

In [None]:
# Cr√©ation du DataFrame complet
data = california_housing.frame

In [None]:
print(f"‚úÖ Dataset charg√©: {data.shape[0]} observations, {data.shape[1]} variables")
print("\nüìã Aper√ßu des premi√®res lignes:")
print(data.head())

In [None]:
print("\nüìä Informations sur le dataset:")
print(data.info())

============================================================================
√âTAPE 2: EXPLORATION DES DONN√âES (EDA)
============================================================================

In [None]:
print("\n\nüîç √âTAPE 2: EXPLORATION DES DONN√âES (EDA)")
print("="*60)

In [None]:
print("üìà Description statistique du dataset:")
print(data.describe())

In [None]:
# QUESTION 1: Analysez les statistiques descriptives
"""
‚ùì QUESTION 1: 
Analysez les statistiques descriptives ci-dessus. 
- Quelles variables ont les plus grandes variations (√©cart-type) ?
- Y a-t-il des valeurs qui semblent aberrantes ?
- Quelle est la distribution des prix (MedHouseVal) ?

VOTRE R√âPONSE ICI:
[R√©pondez ici en analysant les statistiques]
"""

In [None]:
# VOTRE CODE ICI - Cr√©ez un graphique de distribution de la variable cible
# Indice: utilisez plt.hist() ou sns.histplot()
print("\nüìä Distribution de la variable cible (MedHouseVal):")

In [None]:
# VOTRE CODE ICI
plt.figure(figsize=(10, 6))
# Cr√©ez l'histogramme de MedHouseVal
plt.show()

In [None]:
# VOTRE CODE ICI - Cr√©ez une matrice de corr√©lation
print("\nüîó Matrice de corr√©lation entre toutes les variables:")

In [None]:
# VOTRE CODE ICI
# Calculez la matrice de corr√©lation et affichez-la avec un heatmap
correlation_matrix = data.corr()

In [None]:
plt.figure(figsize=(12, 10))
# Cr√©ez le heatmap
plt.show()

In [None]:
# QUESTION 2: Analyse des corr√©lations
"""
‚ùì QUESTION 2:
En observant la matrice de corr√©lation:
- Quelles variables sont le plus corr√©l√©es avec MedHouseVal (notre target) ?
- Y a-t-il des variables tr√®s corr√©l√©es entre elles (multicolin√©arit√©) ?
- Quelles sont vos hypoth√®ses sur les relations observ√©es ?

VOTRE R√âPONSE ICI:
[Analysez les corr√©lations et donnez vos hypoth√®ses]
"""

============================================================================
√âTAPE 3: PR√âPARATION DES DONN√âES
============================================================================

In [None]:
print("\n\nüõ†Ô∏è √âTAPE 3: PR√âPARATION DES DONN√âES")
print("="*60)

In [None]:
# S√©paration des features et du target
print("üìä S√©paration des variables explicatives (X) et de la cible (y)")

In [None]:
# VOTRE CODE ICI - S√©parez X (features) et y (target)
# Indice: toutes les colonnes sauf 'MedHouseVal' pour X, et 'MedHouseVal' pour y
X = # VOTRE CODE ICI
y = # VOTRE CODE ICI

In [None]:
print(f"‚úÖ X shape: {X.shape}")
print(f"‚úÖ y shape: {y.shape}")

In [None]:
# Train/Test Split
print("\nüîÑ Division train/test (80%/20%)")

In [None]:
# VOTRE CODE ICI - Divisez les donn√©es en train/test
# Indice: utilisez train_test_split avec test_size=0.2 et random_state=42
X_train, X_test, y_train, y_test = # VOTRE CODE ICI

In [None]:
print(f"‚úÖ Train set: {X_train.shape[0]} observations")
print(f"‚úÖ Test set: {X_test.shape[0]} observations")

In [None]:
# Standardisation des donn√©es (optionnel mais recommand√©)
print("\nüìè Standardisation des features")

In [None]:
# VOTRE CODE ICI - Cr√©ez un StandardScaler et transformez X_train et X_test
# Indice: fit sur train, transform sur train et test
scaler = StandardScaler()
# VOTRE CODE ICI

In [None]:
print("‚úÖ Standardisation termin√©e")

============================================================================
√âTAPE 4: MOD√âLISATION - R√âGRESSION LIN√âAIRE SIMPLE
============================================================================

In [None]:
print("\n\nü§ñ √âTAPE 4: MOD√âLISATION - R√âGRESSION LIN√âAIRE")
print("="*60)

In [None]:
print("üè† Construction du mod√®le de r√©gression lin√©aire")

In [None]:
# VOTRE CODE ICI - Cr√©ez et entra√Ænez un mod√®le LinearRegression
model_linear = # VOTRE CODE ICI
# Entra√Ænez le mod√®le

In [None]:
print("‚úÖ Mod√®le lin√©aire entra√Æn√©")

In [None]:
# Pr√©dictions
# VOTRE CODE ICI - Faites des pr√©dictions sur train et test
y_train_pred_linear = # VOTRE CODE ICI
y_test_pred_linear = # VOTRE CODE ICI

In [None]:
# √âvaluation
print("\nüìä √âvaluation du mod√®le lin√©aire:")

In [None]:
# VOTRE CODE ICI - Calculez MAE, RMSE et R¬≤ pour train et test
# Train
train_mae_linear = # VOTRE CODE ICI
train_rmse_linear = # VOTRE CODE ICI
train_r2_linear = # VOTRE CODE ICI

In [None]:
# Test
test_mae_linear = # VOTRE CODE ICI
test_rmse_linear = # VOTRE CODE ICI
test_r2_linear = # VOTRE CODE ICI

In [None]:
print(f"üìà TRAIN - MAE: {train_mae_linear:.3f}, RMSE: {train_rmse_linear:.3f}, R¬≤: {train_r2_linear:.3f}")
print(f"üìâ TEST  - MAE: {test_mae_linear:.3f}, RMSE: {test_rmse_linear:.3f}, R¬≤: {test_r2_linear:.3f}")

============================================================================
√âTAPE 5: MOD√àLES AVANC√âS
============================================================================

In [None]:
print("\n\nüöÄ √âTAPE 5: MOD√àLES AVANC√âS")
print("="*60)

VOTRE CODE ICI - Cr√©ez et entra√Ænez les mod√®les suivants:
1. Ridge Regression (alpha=1.0)
2. Lasso Regression (alpha=0.1)  
3. Random Forest (n_estimators=100, random_state=42)

In [None]:
print("üå≤ Construction des mod√®les avanc√©s...")

In [None]:
# Ridge
model_ridge = # VOTRE CODE ICI

In [None]:
# Lasso  
model_lasso = # VOTRE CODE ICI

In [None]:
# Random Forest
model_rf = # VOTRE CODE ICI

In [None]:
print("‚úÖ Tous les mod√®les sont entra√Æn√©s")

============================================================================
√âTAPE 6: COMPARAISON DES MOD√àLES
============================================================================

In [None]:
print("\n\n‚öñÔ∏è √âTAPE 6: COMPARAISON DES MOD√àLES")
print("="*60)

VOTRE CODE ICI - Cr√©ez un DataFrame pour comparer les performances
Calculez les m√©triques pour tous les mod√®les et cr√©ez un tableau comparatif

In [None]:
models = {
    'Linear': model_linear,
    'Ridge': model_ridge, 
    'Lasso': model_lasso,
    'Random Forest': model_rf
}

In [None]:
results = []

In [None]:
for name, model in models.items():
    # VOTRE CODE ICI - Calculez les m√©triques pour chaque mod√®le
    # Pr√©dictions
    y_train_pred = # VOTRE CODE ICI
    y_test_pred = # VOTRE CODE ICI
    
    # M√©triques
    train_r2 = # VOTRE CODE ICI
    test_r2 = # VOTRE CODE ICI
    train_rmse = # VOTRE CODE ICI  
    test_rmse = # VOTRE CODE ICI
    
    results.append({
        'Model': name,
        'Train_R2': train_r2,
        'Test_R2': test_r2,
        'Train_RMSE': train_rmse,
        'Test_RMSE': test_rmse,
        'Overfitting': train_r2 - test_r2
    })

In [None]:
results_df = pd.DataFrame(results)
print("üìä Comparaison des performances:")
print(results_df.round(4))

In [None]:
# QUESTION 3: Analyse des r√©sultats
"""
‚ùì QUESTION 3:
En analysant le tableau de comparaison:
- Quel mod√®le performe le mieux sur les donn√©es de test ?
- Y a-t-il des signes d'overfitting ? Comment le d√©tectez-vous ?
- Quel mod√®le recommanderiez-vous et pourquoi ?

VOTRE R√âPONSE ICI:
[Analysez les r√©sultats et justifiez votre choix]
"""

============================================================================
√âTAPE 7: VISUALISATION DES R√âSULTATS
============================================================================

In [None]:
print("\n\nüìä √âTAPE 7: VISUALISATION DES R√âSULTATS")
print("="*60)

VOTRE CODE ICI - Cr√©ez des visualisations pour analyser les mod√®les
1. Graphique des pr√©dictions vs r√©alit√© pour le meilleur mod√®le
2. Distribution des r√©sidus
3. Importance des features (pour Random Forest)

In [None]:
# S√©lectionnez votre meilleur mod√®le
best_model = # VOTRE CODE ICI (ex: model_rf)
best_model_name = # VOTRE CODE ICI (ex: "Random Forest")

In [None]:
# Graphique 1: Pr√©dictions vs R√©alit√©
plt.figure(figsize=(15, 5))

In [None]:
plt.subplot(1, 3, 1)
# VOTRE CODE ICI - Cr√©ez un scatter plot pr√©dictions vs r√©alit√©
plt.title(f'{best_model_name}: Pr√©dictions vs R√©alit√©')

In [None]:
# Graphique 2: Distribution des r√©sidus
plt.subplot(1, 3, 2)
# VOTRE CODE ICI - Calculez les r√©sidus et cr√©ez un histogramme
residuals = # VOTRE CODE ICI
plt.title('Distribution des R√©sidus')

In [None]:
# Graphique 3: Importance des features (si Random Forest)
plt.subplot(1, 3, 3)
if hasattr(best_model, 'feature_importances_'):
    # VOTRE CODE ICI - Affichez l'importance des features
    importances = # VOTRE CODE ICI
    feature_names = # VOTRE CODE ICI
    plt.title('Importance des Features')

In [None]:
plt.tight_layout()
plt.show()

============================================================================
√âTAPE 8: INTERPR√âTATION BUSINESS ET RECOMMANDATIONS
============================================================================

In [None]:
print("\n\nüíº √âTAPE 8: INTERPR√âTATION BUSINESS")
print("="*60)

In [None]:
print("üéØ R√©sum√© de l'analyse:")
print(f"‚úÖ Meilleur mod√®le: {best_model_name}")
print(f"‚úÖ R¬≤ sur test: {# VOTRE CODE ICI:.3f}")
print(f"‚úÖ RMSE sur test: {# VOTRE CODE ICI:.3f} (en centaines de milliers de $)")

In [None]:
# QUESTION 4: Recommandations business
"""
‚ùì QUESTION 4 - RECOMMANDATIONS BUSINESS:

Bas√© sur votre analyse, r√©pondez aux questions suivantes:

1. **Pr√©cision du mod√®le**: Votre mod√®le est-il suffisamment pr√©cis pour √™tre utilis√© en production ? 
   Justifiez avec les m√©triques.

2. **Variables importantes**: Quelles sont les 3 variables les plus importantes pour pr√©dire le prix ? 
   Que cela signifie-t-il en termes business ?

3. **Limitations**: Quelles sont les principales limitations de votre mod√®le ? 
   Quelles am√©liorations proposeriez-vous ?

4. **Recommandations**: Si vous √©tiez consultant pour une agence immobili√®re californienne, 
   quelles recommandations donneriez-vous bas√©es sur cette analyse ?

VOTRE R√âPONSE ICI:
[R√©digez vos recommandations business d√©taill√©es]
"""

============================================================================
BONUS: PR√âDICTIONS SUR NOUVEAUX EXEMPLES
============================================================================

In [None]:
print("\n\nüéÅ BONUS: PR√âDICTIONS SUR NOUVEAUX EXEMPLES")
print("="*60)

VOTRE CODE ICI - Cr√©ez quelques exemples fictifs et faites des pr√©dictions
Exemple: une maison avec des caract√©ristiques moyennes, une maison de luxe, etc.

In [None]:
print("üè† Exemples de pr√©dictions:")

In [None]:
# Exemple 1: Maison moyenne
exemple_moyen = # VOTRE CODE ICI - Cr√©ez un exemple avec des valeurs moyennes
prix_predit_moyen = # VOTRE CODE ICI - Pr√©diction

In [None]:
# Exemple 2: Maison de luxe  
exemple_luxe = # VOTRE CODE ICI - Cr√©ez un exemple avec des valeurs √©lev√©es
prix_predit_luxe = # VOTRE CODE ICI - Pr√©diction

In [None]:
print(f"üí∞ Maison moyenne: {prix_predit_moyen[0]:.2f} centaines de milliers de $")
print(f"üíé Maison de luxe: {prix_predit_luxe[0]:.2f} centaines de milliers de $")

In [None]:
print("\nüéâ F√âLICITATIONS ! Vous avez termin√© l'exercice de r√©gression !")
print("üìù N'oubliez pas de r√©pondre √† toutes les questions dans les cellules markdown.")

============================================================================
AIDE-M√âMOIRE
============================================================================

üìö AIDE-M√âMOIRE - Fonctions utiles:

CHARGEMENT DE DONN√âES:
- fetch_california_housing(as_frame=True)
- pd.DataFrame()

EXPLORATION:
- data.describe()
- data.corr()
- plt.hist(data['column'])
- sns.heatmap(correlation_matrix, annot=True)

PR√âPARATION:
- train_test_split(X, y, test_size=0.2, random_state=42)
- StandardScaler().fit_transform()

MOD√àLES:
- LinearRegression().fit(X_train, y_train)
- Ridge(alpha=1.0).fit(X_train, y_train)
- Lasso(alpha=0.1).fit(X_train, y_train)
- RandomForestRegressor(n_estimators=100).fit(X_train, y_train)

M√âTRIQUES:
- mean_absolute_error(y_true, y_pred)
- mean_squared_error(y_true, y_pred, squared=False)  # RMSE
- r2_score(y_true, y_pred)

VISUALISATION:
- plt.scatter(y_true, y_pred)
- plt.hist(residuals)
- plt.barh(feature_names, importances)
