# üè† Analyse Exploratoire et Pr√©diction des Prix Immobiliers

## Projet d'Analyse de Donn√©es - Math IA

**Auteur:** Projet Math IA  
**Date:** Juin 2025  
**Objectif:** D√©velopper un mod√®le de r√©gression multiple pour pr√©dire les prix des biens immobiliers

---

## üìã Objectifs du Projet

1. **Collecte des donn√©es** : Scraper les annonces immobili√®res
2. **Nettoyage des donn√©es** : Construire une pipeline de traitement
3. **Analyse exploratoire** : Explorer les relations entre variables
4. **Mod√©lisation** : D√©velopper un mod√®le de r√©gression multiple
5. **√âvaluation** : Analyser les performances et l'importance des variables

---

## üìä Structure du Notebook

1. Import des biblioth√®ques requises
2. Chargement et inspection des donn√©es
3. Pr√©traitement des donn√©es
4. Ing√©nierie des features
5. S√©lection et entra√Ænement des mod√®les
6. √âvaluation des mod√®les
7. Optimisation des hyperparam√®tres
8. Sauvegarde et chargement du mod√®le

## 1. Import des Biblioth√®ques Requises

Importation de toutes les biblioth√®ques n√©cessaires pour l'analyse de donn√©es, la visualisation et la mod√©lisation.

In [None]:
# Manipulation de donn√©es
import pandas as pd
import numpy as np
import os
import sys
import warnings
warnings.filterwarnings('ignore')

# Visualisation
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Machine Learning
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.preprocessing import StandardScaler, OneHotEncoder, LabelEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Statistiques
from scipy import stats
from scipy.stats import pearsonr

# Utilitaires
import joblib
from typing import Dict, List, Tuple
from tqdm import tqdm

# Configuration des graphiques
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = [12, 8]
plt.rcParams['font.size'] = 10

# Ajout du r√©pertoire parent au path pour importer nos modules
sys.path.append('..')

print("‚úÖ Toutes les biblioth√®ques ont √©t√© import√©es avec succ√®s!")
print(f"üìä Pandas version: {pd.__version__}")
print(f"üî¢ NumPy version: {np.__version__}")
print(f"ü§ñ Scikit-learn version: {sklearn.__version__}")

## 2. Chargement et Inspection des Donn√©es

Dans cette section, nous chargeons les donn√©es immobili√®res et effectuons une inspection initiale pour comprendre la structure et la qualit√© des donn√©es.

In [None]:
# Chargement des donn√©es
data_path = '../data/raw_properties.csv'

# V√©rification de l'existence du fichier
if not os.path.exists(data_path):
    print("‚ùå Fichier de donn√©es non trouv√©!")
    print("Ex√©cutez d'abord le script de collecte de donn√©es ou le script principal.")
    print("Alternative: g√©n√©ration de donn√©es d'exemple...")
    
    # G√©n√©ration de donn√©es d'exemple si le fichier n'existe pas
    from src.data_scraper import generate_sample_data
    df_raw = generate_sample_data(200)
    os.makedirs('../data', exist_ok=True)
    df_raw.to_csv(data_path, index=False)
    print("‚úÖ Donn√©es d'exemple g√©n√©r√©es et sauvegard√©es!")
else:
    # Chargement des donn√©es existantes
    df_raw = pd.read_csv(data_path)
    print("‚úÖ Donn√©es charg√©es avec succ√®s!")

print(f"üìä Nombre de propri√©t√©s: {len(df_raw)}")
print(f"üìà Nombre de variables: {len(df_raw.columns)}")
print(f"üìÖ P√©riode de donn√©es: {pd.Timestamp.now().strftime('%Y-%m-%d')}")

# Affichage des premi√®res lignes
print("\nüîç Aper√ßu des donn√©es:")
df_raw.head()

In [None]:
# Inspection d√©taill√©e des donn√©es
print("üìã INFORMATIONS SUR LE DATASET")
print("=" * 50)

# Informations g√©n√©rales
print(f"Forme du dataset: {df_raw.shape}")
print(f"Taille m√©moire: {df_raw.memory_usage(deep=True).sum() / 1024:.1f} KB")

print("\nüìä TYPES DE DONN√âES:")
print(df_raw.dtypes)

print("\nüîç INFORMATIONS D√âTAILL√âES:")
df_raw.info()

print("\nüìà STATISTIQUES DESCRIPTIVES:")
df_raw.describe()

In [None]:
# Analyse des valeurs manquantes
print("üö® ANALYSE DES VALEURS MANQUANTES")
print("=" * 50)

missing_values = df_raw.isnull().sum()
missing_percent = (missing_values / len(df_raw)) * 100

missing_df = pd.DataFrame({
    'Colonnes': missing_values.index,
    'Valeurs_manquantes': missing_values.values,
    'Pourcentage': missing_percent.values
}).sort_values('Pourcentage', ascending=False)

print(missing_df)

# Visualisation des valeurs manquantes
if missing_values.sum() > 0:
    plt.figure(figsize=(12, 6))
    
    # Graphique en barres des valeurs manquantes
    plt.subplot(1, 2, 1)
    missing_cols = missing_df[missing_df['Valeurs_manquantes'] > 0]
    plt.bar(missing_cols['Colonnes'], missing_cols['Pourcentage'], color='red', alpha=0.7)
    plt.title('Pourcentage de Valeurs Manquantes par Colonne')
    plt.ylabel('Pourcentage (%)')
    plt.xticks(rotation=45)
    
    # Heatmap des valeurs manquantes
    plt.subplot(1, 2, 2)
    sns.heatmap(df_raw.isnull(), cbar=True, yticklabels=False, cmap='viridis')
    plt.title('Heatmap des Valeurs Manquantes')
    
    plt.tight_layout()
    plt.show()
else:
    print("‚úÖ Aucune valeur manquante d√©tect√©e!")

## 3. Pr√©traitement des Donn√©es

Le pr√©traitement est une √©tape cruciale qui inclut:
- Nettoyage des donn√©es (suppression des doublons, gestion des outliers)
- Gestion des valeurs manquantes
- Validation des donn√©es selon des r√®gles m√©tier
- Normalisation et standardisation

In [None]:
# Utilisation de notre pipeline de nettoyage personnalis√©
from src.data_pipeline import DataCleaner

print("üßπ NETTOYAGE DES DONN√âES")
print("=" * 50)

# Initialisation du nettoyeur
cleaner = DataCleaner()

# Nettoyage des donn√©es
df_cleaned = cleaner.clean_data(df_raw)

# Rapport de nettoyage
cleaning_report = cleaner.generate_cleaning_report(df_raw, df_cleaned)

print("üìä RAPPORT DE NETTOYAGE:")
print(f"‚Ä¢ Lignes originales: {cleaning_report['original_rows']}")
print(f"‚Ä¢ Lignes nettoy√©es: {cleaning_report['cleaned_rows']}")
print(f"‚Ä¢ Lignes supprim√©es: {cleaning_report['rows_removed']} ({cleaning_report['removal_percentage']:.1f}%)")
print(f"‚Ä¢ Nouvelles features cr√©√©es: {len(cleaning_report['new_features'])}")

if cleaning_report['new_features']:
    print("‚Ä¢ Features ajout√©es:")
    for feature in cleaning_report['new_features']:
        print(f"  - {feature}")

print("\n‚úÖ Donn√©es nettoy√©es avec succ√®s!")
print(f"üìä Nouvelles dimensions: {df_cleaned.shape}")

# Aper√ßu des donn√©es nettoy√©es
print("\nüîç Aper√ßu des donn√©es nettoy√©es:")
df_cleaned.head()

## 4. Analyse Exploratoire des Donn√©es (EDA)

L'analyse exploratoire nous permet de:
- Comprendre la distribution des variables
- Identifier les corr√©lations entre variables
- D√©tecter les patterns et tendances du march√© immobilier
- Pr√©parer les insights pour la mod√©lisation

In [None]:
# 4.1 Distribution des prix
print("üí∞ ANALYSE DE LA DISTRIBUTION DES PRIX")
print("=" * 50)

fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('Distribution des Prix Immobiliers', fontsize=16, fontweight='bold')

# Histogramme des prix
axes[0, 0].hist(df_cleaned['prix_dh'], bins=50, color='skyblue', alpha=0.7, edgecolor='black')
axes[0, 0].set_title('Histogramme des Prix')
axes[0, 0].set_xlabel('Prix (DH)')
axes[0, 0].set_ylabel('Fr√©quence')
axes[0, 0].ticklabel_format(style='scientific', axis='x', scilimits=(0,0))

# Box plot des prix
bp = axes[0, 1].boxplot(df_cleaned['prix_dh'], patch_artist=True)
bp['boxes'][0].set_facecolor('lightcoral')
axes[0, 1].set_title('Box Plot des Prix')
axes[0, 1].set_ylabel('Prix (DH)')
axes[0, 1].ticklabel_format(style='scientific', axis='y', scilimits=(0,0))

# Distribution log des prix
prix_log = np.log10(df_cleaned['prix_dh'])
axes[1, 0].hist(prix_log, bins=50, color='lightgreen', alpha=0.7, edgecolor='black')
axes[1, 0].set_title('Distribution des Prix (√©chelle log)')
axes[1, 0].set_xlabel('Log10(Prix)')
axes[1, 0].set_ylabel('Fr√©quence')

# Q-Q plot
stats.probplot(df_cleaned['prix_dh'], dist="norm", plot=axes[1, 1])
axes[1, 1].set_title('Q-Q Plot (Distribution normale)')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Statistiques de prix
print(f"üìä Statistiques des prix:")
print(f"‚Ä¢ Prix moyen: {df_cleaned['prix_dh'].mean():,.0f} DH")
print(f"‚Ä¢ Prix m√©dian: {df_cleaned['prix_dh'].median():,.0f} DH")
print(f"‚Ä¢ Prix minimum: {df_cleaned['prix_dh'].min():,.0f} DH")
print(f"‚Ä¢ Prix maximum: {df_cleaned['prix_dh'].max():,.0f} DH")
print(f"‚Ä¢ √âcart-type: {df_cleaned['prix_dh'].std():,.0f} DH")
print(f"‚Ä¢ Coefficient de variation: {(df_cleaned['prix_dh'].std() / df_cleaned['prix_dh'].mean()):.2%}")

In [None]:
# 4.2 Analyse des corr√©lations
print("\nüîó ANALYSE DES CORR√âLATIONS")
print("=" * 50)

# S√©lection des variables num√©riques
numeric_cols = df_cleaned.select_dtypes(include=[np.number]).columns
correlation_matrix = df_cleaned[numeric_cols].corr()

plt.figure(figsize=(12, 10))

# Cr√©ation de la heatmap
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
sns.heatmap(correlation_matrix, 
           mask=mask,
           annot=True, 
           cmap='RdBu_r', 
           center=0,
           square=True,
           fmt='.2f',
           cbar_kws={"shrink": .8})

plt.title('Matrice de Corr√©lation des Variables Num√©riques', 
         fontsize=16, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

# Corr√©lations avec le prix
price_correlations = correlation_matrix['prix_dh'].abs().sort_values(ascending=False)
print("üìä Corr√©lations avec le prix (valeurs absolues):")
for var, corr in price_correlations.items():
    if var != 'prix_dh':
        print(f"‚Ä¢ {var}: {corr:.3f}")

# Variables les plus corr√©l√©es avec le prix
top_correlations = price_correlations.drop('prix_dh').head(5)
print(f"\nüèÜ Top 5 des variables les plus corr√©l√©es avec le prix:")
for i, (var, corr) in enumerate(top_correlations.items(), 1):
    print(f"{i}. {var}: {corr:.3f}")

In [None]:
# 4.3 Analyse par localisation et type de bien
print("\nüó∫Ô∏è ANALYSE PAR LOCALISATION ET TYPE DE BIEN")
print("=" * 50)

fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('Analyse par Localisation et Type de Bien', fontsize=16, fontweight='bold')

# Prix moyen par ville
prix_par_ville = df_cleaned.groupby('localisation')['prix_dh'].agg(['mean', 'count']).sort_values('mean', ascending=False)

bars1 = axes[0, 0].bar(range(len(prix_par_ville)), prix_par_ville['mean'], 
                      color='steelblue', alpha=0.7)
axes[0, 0].set_title('Prix Moyen par Ville')
axes[0, 0].set_xlabel('Ville')
axes[0, 0].set_ylabel('Prix Moyen (DH)')
axes[0, 0].set_xticks(range(len(prix_par_ville)))
axes[0, 0].set_xticklabels(prix_par_ville.index, rotation=45)
axes[0, 0].ticklabel_format(style='scientific', axis='y', scilimits=(0,0))

# Nombre de propri√©t√©s par ville
bars2 = axes[0, 1].bar(range(len(prix_par_ville)), prix_par_ville['count'], 
                      color='orange', alpha=0.7)
axes[0, 1].set_title('Nombre de Propri√©t√©s par Ville')
axes[0, 1].set_xlabel('Ville')
axes[0, 1].set_ylabel('Nombre de Propri√©t√©s')
axes[0, 1].set_xticks(range(len(prix_par_ville)))
axes[0, 1].set_xticklabels(prix_par_ville.index, rotation=45)

# Distribution par type de bien
if 'type_bien' in df_cleaned.columns:
    type_counts = df_cleaned['type_bien'].value_counts()
    wedges, texts, autotexts = axes[1, 0].pie(type_counts.values, labels=type_counts.index, 
                                             autopct='%1.1f%%', startangle=90)
    axes[1, 0].set_title('R√©partition par Type de Bien')
    
    # Prix moyen par type de bien
    prix_par_type = df_cleaned.groupby('type_bien')['prix_dh'].mean().sort_values(ascending=True)
    bars3 = axes[1, 1].barh(range(len(prix_par_type)), prix_par_type.values,
                           color='lightcoral', alpha=0.7)
    axes[1, 1].set_title('Prix Moyen par Type de Bien')
    axes[1, 1].set_xlabel('Prix Moyen (DH)')
    axes[1, 1].set_yticks(range(len(prix_par_type)))
    axes[1, 1].set_yticklabels(prix_par_type.index)
    axes[1, 1].ticklabel_format(style='scientific', axis='x', scilimits=(0,0))

plt.tight_layout()
plt.show()

# Insights par localisation
print("üèôÔ∏è Insights par localisation:")
ville_plus_chere = prix_par_ville.index[0]
prix_plus_cher = prix_par_ville['mean'].iloc[0]
ville_moins_chere = prix_par_ville.index[-1]
prix_moins_cher = prix_par_ville['mean'].iloc[-1]

print(f"‚Ä¢ Ville la plus ch√®re: {ville_plus_chere} ({prix_plus_cher:,.0f} DH)")
print(f"‚Ä¢ Ville la moins ch√®re: {ville_moins_chere} ({prix_moins_cher:,.0f} DH)")
print(f"‚Ä¢ √âcart de prix: {((prix_plus_cher - prix_moins_cher) / prix_moins_cher * 100):.1f}%")

if 'type_bien' in df_cleaned.columns:
    print(f"\nüè† Insights par type de bien:")
    type_plus_cher = prix_par_type.index[-1]
    type_moins_cher = prix_par_type.index[0]
    print(f"‚Ä¢ Type le plus cher: {type_plus_cher} ({prix_par_type.iloc[-1]:,.0f} DH)")
    print(f"‚Ä¢ Type le moins cher: {type_moins_cher} ({prix_par_type.iloc[0]:,.0f} DH)")

## 5. S√©lection et Entra√Ænement des Mod√®les

Dans cette section, nous:
- Pr√©parons les donn√©es pour la mod√©lisation
- Testons plusieurs algorithmes de r√©gression
- Comparons leurs performances
- S√©lectionnons le meilleur mod√®le

In [None]:
# 5.1 Pr√©paration des donn√©es pour la mod√©lisation
print("ü§ñ PR√âPARATION DES DONN√âES POUR LA MOD√âLISATION")
print("=" * 60)

# Utilisation de notre pr√©dicteur personnalis√©
from src.modeling import RealEstatePricePredictor

# Initialisation du pr√©dicteur
predictor = RealEstatePricePredictor()

# Pr√©paration des donn√©es
X_train, X_test, y_train, y_test = predictor.prepare_data(df_cleaned)

print(f"‚úÖ Donn√©es pr√©par√©es pour {len(predictor.feature_names)} features")
print(f"üìä Taille d'entra√Ænement: {X_train.shape}")
print(f"üìä Taille de test: {X_test.shape}")

# 5.2 Entra√Ænement des mod√®les
print("\nüöÄ ENTRA√éNEMENT DES MOD√àLES")
print("=" * 60)

# Entra√Ænement de tous les mod√®les
results = predictor.train_models(X_train, y_train, X_test, y_test)

# S√©lection du meilleur mod√®le
best_model_name = predictor.select_best_model()

print(f"\nüèÜ Meilleur mod√®le s√©lectionn√©: {best_model_name}")

# R√©capitulatif des performances
print("\nüìä R√âCAPITULATIF DES PERFORMANCES:")
print("-" * 40)
performance_df = pd.DataFrame()

for name, result in results.items():
    performance_df = pd.concat([performance_df, pd.DataFrame({
        'Mod√®le': [name],
        'R¬≤': [result['test_metrics']['r2']],
        'RMSE': [result['test_metrics']['rmse']],
        'MAE': [result['test_metrics']['mae']],
        'MAPE (%)': [result['test_metrics']['mape']]
    })], ignore_index=True)

# Tri par R¬≤ d√©croissant
performance_df = performance_df.sort_values('R¬≤', ascending=False)
print(performance_df.round(4))

## 6. √âvaluation des Mod√®les

Nous √©valuons les mod√®les selon plusieurs crit√®res:
- **R¬≤** : Coefficient de d√©termination (plus proche de 1 = meilleur)
- **RMSE** : Root Mean Square Error (plus bas = meilleur)
- **MAE** : Mean Absolute Error (plus bas = meilleur)
- **MAPE** : Mean Absolute Percentage Error (plus bas = meilleur)

In [None]:
# 6.1 Visualisation des performances des mod√®les
print("üìä VISUALISATION DES PERFORMANCES")
print("=" * 50)

# Graphique de comparaison des mod√®les
predictor.plot_model_comparison(save=False)

# 6.2 Analyse d√©taill√©e du meilleur mod√®le
print(f"\nüîç ANALYSE D√âTAILL√âE - {best_model_name}")
print("=" * 50)

# Graphique pr√©dictions vs r√©elles
predictor.plot_predictions_vs_actual(X_test, y_test, save=False)

# Analyse de l'importance des features
print("\nüìà IMPORTANCE DES FEATURES")
print("=" * 40)

importance_df = predictor.analyze_feature_importance()
if not importance_df.empty:
    print("Top 10 des features les plus importantes:")
    top_features = importance_df.head(10)
    for i, (_, row) in enumerate(top_features.iterrows(), 1):
        print(f"{i:2d}. {row['feature']:<25} : {row['importance']:.4f}")
    
    # Graphique d'importance
    predictor.plot_feature_importance(save=False)
else:
    print("‚ùå Importance des features non disponible pour ce mod√®le")

# 6.3 M√©triques d√©taill√©es du meilleur mod√®le
best_metrics = results[best_model_name]['test_metrics']
train_metrics = results[best_model_name]['train_metrics']

print(f"\nüìä M√âTRIQUES D√âTAILL√âES - {best_model_name}")
print("=" * 50)
print("Performances sur les donn√©es de TEST:")
print(f"‚Ä¢ R¬≤ Score        : {best_metrics['r2']:.4f}")
print(f"‚Ä¢ RMSE           : {best_metrics['rmse']:,.0f} DH")
print(f"‚Ä¢ MAE            : {best_metrics['mae']:,.0f} DH")
print(f"‚Ä¢ MAPE           : {best_metrics['mape']:.2f}%")

print("\nPerformances sur les donn√©es d'ENTRA√éNEMENT:")
print(f"‚Ä¢ R¬≤ Score        : {train_metrics['r2']:.4f}")
print(f"‚Ä¢ RMSE           : {train_metrics['rmse']:,.0f} DH")
print(f"‚Ä¢ MAE            : {train_metrics['mae']:,.0f} DH")
print(f"‚Ä¢ MAPE           : {train_metrics['mape']:.2f}%")

# D√©tection d'overfitting
r2_diff = train_metrics['r2'] - best_metrics['r2']
if r2_diff > 0.1:
    print(f"\n‚ö†Ô∏è  ATTENTION: Possible overfitting d√©tect√©!")
    print(f"   Diff√©rence R¬≤ (train - test): {r2_diff:.3f}")
else:
    print(f"\n‚úÖ Pas d'overfitting d√©tect√© (diff√©rence R¬≤: {r2_diff:.3f})")

## 7. Optimisation des Hyperparam√®tres

L'optimisation des hyperparam√®tres permet d'am√©liorer les performances du mod√®le en trouvant les meilleurs param√®tres pour chaque algorithme.

In [None]:
# 7.1 Optimisation des hyperparam√®tres
print("‚öôÔ∏è  OPTIMISATION DES HYPERPARAM√àTRES")
print("=" * 60)

# Optimisation pour les mod√®les s√©lectionn√©s
optimized_models = predictor.hyperparameter_tuning(X_train, y_train)

if optimized_models:
    print("\nüìä R√âSULTATS DE L'OPTIMISATION:")
    print("-" * 40)
    
    for name, result in optimized_models.items():
        print(f"\nüîß {name}:")
        print(f"   Meilleurs param√®tres: {result['best_params']}")
        print(f"   Score CV RMSE: {np.sqrt(result['best_score']):,.0f} DH")
        
        # Comparaison avec le mod√®le de base
        base_rmse = results[name]['test_metrics']['rmse']
        optimized_rmse = np.sqrt(result['best_score'])
        improvement = ((base_rmse - optimized_rmse) / base_rmse) * 100
        
        if improvement > 0:
            print(f"   üìà Am√©lioration: {improvement:.1f}%")
        else:
            print(f"   üìâ D√©gradation: {abs(improvement):.1f}%")
else:
    print("‚è≠Ô∏è  Optimisation d√©sactiv√©e pour cette d√©mo (peut prendre du temps)")

# 7.2 Test du mod√®le optimis√© (simulation)
print(f"\nüéØ PERFORMANCE DU MOD√àLE FINAL")
print("=" * 50)

# Utilisation du meilleur mod√®le actuel
final_model = predictor.best_model
final_predictions = final_model.predict(X_test)

# Calcul des m√©triques finales
final_r2 = r2_score(y_test, final_predictions)
final_rmse = np.sqrt(mean_squared_error(y_test, final_predictions))
final_mae = mean_absolute_error(y_test, final_predictions)
final_mape = np.mean(np.abs((y_test - final_predictions) / y_test)) * 100

print(f"Mod√®le final: {best_model_name}")
print(f"‚Ä¢ R¬≤ Score : {final_r2:.4f}")
print(f"‚Ä¢ RMSE     : {final_rmse:,.0f} DH")
print(f"‚Ä¢ MAE      : {final_mae:,.0f} DH")
print(f"‚Ä¢ MAPE     : {final_mape:.2f}%")

# Interpr√©tation des r√©sultats
print(f"\nüí° INTERPR√âTATION:")
if final_r2 > 0.8:
    print("‚Ä¢ üü¢ Excellent: Le mod√®le explique plus de 80% de la variance des prix")
elif final_r2 > 0.6:
    print("‚Ä¢ üü° Bon: Le mod√®le explique plus de 60% de la variance des prix")
elif final_r2 > 0.4:
    print("‚Ä¢ üü† Moyen: Le mod√®le explique plus de 40% de la variance des prix")
else:
    print("‚Ä¢ üî¥ Faible: Le mod√®le explique moins de 40% de la variance des prix")

print(f"‚Ä¢ En moyenne, le mod√®le se trompe de {final_mae:,.0f} DH sur le prix")
print(f"‚Ä¢ L'erreur relative moyenne est de {final_mape:.1f}%")

## 8. Sauvegarde et Chargement du Mod√®le

Cette section montre comment persister le mod√®le entra√Æn√© et le recharger pour une utilisation future.

In [None]:
# 8.1 Sauvegarde du mod√®le
print("üíæ SAUVEGARDE DU MOD√àLE")
print("=" * 40)

# Cr√©ation du r√©pertoire models
os.makedirs('../models', exist_ok=True)

# Sauvegarde du meilleur mod√®le
model_path = '../models/best_price_predictor.pkl'
predictor.save_model(model_path)

print(f"‚úÖ Mod√®le sauvegard√©: {model_path}")
print(f"üìä Mod√®le: {best_model_name}")
print(f"üéØ Performance (R¬≤): {final_r2:.4f}")

# 8.2 Test du chargement du mod√®le
print(f"\nüì• TEST DU CHARGEMENT DU MOD√àLE")
print("=" * 40)

# Cr√©ation d'un nouveau pr√©dicteur pour tester le chargement
new_predictor = RealEstatePricePredictor()
new_predictor.load_model(model_path)

print(f"‚úÖ Mod√®le recharg√©: {new_predictor.best_model_name}")

# Test de pr√©diction avec le mod√®le recharg√©
test_prediction = new_predictor.best_model.predict(X_test[:1])
print(f"üß™ Test de pr√©diction: {test_prediction[0]:,.0f} DH")

# 8.3 Exemple de pr√©diction pratique
print(f"\nüè† EXEMPLE DE PR√âDICTION PRATIQUE")
print("=" * 40)

# Propri√©t√© d'exemple
example_property = {
    'surface_m2': 120,
    'nombre_chambres': 3,
    'localisation': 'Casablanca',
    'type_bien': 'Appartement',
    'annee_construction': 2018
}

print("Caract√©ristiques de la propri√©t√©:")
for key, value in example_property.items():
    print(f"‚Ä¢ {key}: {value}")

# Note: La pr√©diction n√©cessiterait un preprocessing complet
print(f"\nüí∞ Prix estim√©: [N√©cessite preprocessing complet]")
print("   (Utilisez la fonction predict_price() du module modeling)")

print(f"\nüéâ ANALYSE TERMIN√âE AVEC SUCC√àS!")
print("=" * 60)
print("üìä R√©sum√© du projet:")
print(f"‚Ä¢ Donn√©es analys√©es: {len(df_cleaned)} propri√©t√©s")
print(f"‚Ä¢ Meilleur mod√®le: {best_model_name}")
print(f"‚Ä¢ Performance finale (R¬≤): {final_r2:.4f}")
print(f"‚Ä¢ Erreur moyenne: {final_mae:,.0f} DH")
print(f"‚Ä¢ Mod√®le sauvegard√©: {model_path}")

print(f"\nüöÄ Prochaines √©tapes recommand√©es:")
print("‚Ä¢ Collecter plus de donn√©es r√©elles")
print("‚Ä¢ Ajouter des features g√©ographiques (distance centre-ville, etc.)")
print("‚Ä¢ Tester des mod√®les plus avanc√©s (XGBoost, Neural Networks)")
print("‚Ä¢ D√©ployer le mod√®le en production")
print("‚Ä¢ Cr√©er une interface utilisateur pour les pr√©dictions")