<div style="background-color: #f0f8ff; border-left: 6px solid #2196F3; padding: 15px; border-radius: 5px;">

# üöÄ Analyse Exploratoire du March√© Immobilier Fran√ßais (2021-2025)

**Objectif :** Ce notebook effectue une analyse exploratoire des donn√©es de Demandes de Valeurs Fonci√®res (DVF) sur 5 ans. L'objectif est de fournir √† notre persona, **Alexandre Dubois**, une premi√®re visualisation des grandes tendances du march√© pour guider ses futurs investissements.

**M√©thodologie :**
* **1. Configuration :** D√©finition des constantes et des sch√©mas de donn√©es pour une performance optimale.
* **2. Chargement Optimis√© :** Lecture des 5 fichiers CSV volumineux (2021-2025) en utilisant des techniques d'optimisation (Parquet).
* **3. Nettoyage Robuste :** Nettoyage et ing√©nierie des features (calcul du `prix_m2`).
* **4. Dashboard Statique (Persona) :** Visualisation des tendances macro (√©volution sur 5 ans, types de biens).
* **5. Carte Interactive :** Exploration g√©ographique des prix et des volumes.
* **6. Outils d'Export :** Fonctions pour exporter les analyses.

</div>

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import ipywidgets as widgets
from ipywidgets import interact, HBox, VBox, Layout
from IPython.display import display, HTML, clear_output
import warnings
import os
from tqdm.auto import tqdm  # Pour les barres de progression
from scipy import stats

# Configuration de l'environnement
warnings.filterwarnings('ignore')
pd.set_option('display.float_format', '{:.2f}'.format)
# Utilisation d'un template Plotly plus professionnel
px.defaults.template = "plotly_white"

print("‚úÖ Biblioth√®ques import√©es et environnement configur√©.")

<div style="background-color: #fffbea; border-left: 6px solid #ffeb3b; padding: 15px; border-radius: 5px;">

## üí° 2. D√©finition des Constantes (Optimisation)

C'est la cellule la **plus importante pour la performance.**

Pour charger des Go de donn√©es sans saturer la RAM, nous devons √™tre explicites :

* `FILE_PATHS` : Liste des 5+ fichiers CSV sources (nos "ingr√©dients bruts").
* `COLUMNS_TO_LOAD` : Nous ne chargeons *que* les colonnes vitales pour notre analyse.
* `DTYPE_MAP` : C'est l'optimisation cl√©. Nous indiquons √† Pandas le type de donn√©es de chaque colonne *avant* le chargement pour diviser l'usage m√©moire.
</div>

In [None]:

FILE_PATHS = [
    
    "dvf_geolocalisees_2021.csv",
    "dvf_geolocalisees_2022.csv",
    "dvf_geolocalisees_2023.csv",
    "dvf_geolocalisees_2024.csv",
    "dvf_geolocalisees_2025.csv"
]

# --- 2. COLONNES ESSENTIELLES
# On a supprim√© 'nom_commune' et 'code_commune' -> Gain de RAM massif
COLUMNS_TO_LOAD = [
    'date_mutation', 
    'valeur_fonciere', 
    'code_departement', 
    'surface_reelle_bati', 
    'nombre_pieces_principales', 
    'type_local', 
    'latitude', 
    'longitude'
]

# --- 3. SCH√âMA DE DONN√âES (CORRIG√â) ---
DTYPE_MAP = {
    'valeur_fonciere': 'float32',
    'code_departement': 'category', # Sera charg√© en category (ou 'object' si √©chec)
    'surface_reelle_bati': 'float32',
    'nombre_pieces_principales': 'float32', # Corrig√©
    'type_local': 'category', # Sera charg√© en category (ou 'object' si √©chec)
    'latitude': 'float32',
    'longitude': 'float32'
    # On ne met pas 'nom_commune' ou 'code_commune'
}

print("‚úÖ Constantes de configuration ")
print(f"Nous allons charger {len(COLUMNS_TO_LOAD)} colonnes depuis {len(FILE_PATHS)} fichiers.")

<div style="background-color: #f0fff4; border-left: 6px solid #4CAF50; padding: 15px; border-radius: 5px;">

## ‚öôÔ∏è 3. Fonctions de Chargement et Nettoyage

Nous modularisons le chargement et le nettoyage en deux fonctions distinctes pour plus de clart√©.

### 3.1 Fonction `load_dvf_data` 
`load_dvf_data()` it√®re sur chaque fichier CSV source, et charge chaque fichier *par morceaux* (`chunksize`). Cela garantit que nous ne chargeons jamais le fichier entier en m√©moire d'un coup.
Par cons√©quent elle ne plante pas si une colonne de `COLUMNS_TO_LOAD` est manquante dans un chunk.

### 3.2 Fonction `clean_dvf_data`
`clean_dvf_data()` prend le DataFrame brut et applique la logique de nettoyage :
1.  Convertit `date_mutation` en `datetime`.
2.  Supprime les lignes critiques manquantes.
3.  Calcule `prix_m2` et filtre les **outliers** (le c≈ìur de l'analyse).
4.  Cr√©e les colonnes temporelles (`annee`, `trimestre`) et les convertit en `category` pour √©conomiser encore plus de m√©moire.

</div>

In [None]:
# NOUVELLE CELLULE 7 (Fonctions avec nettoyage robuste)

def load_dvf_data(file_paths, use_cols, dtypes):
    """
    Charge plusieurs fichiers CSV DVF volumineux de mani√®re optimis√©e 
    en utilisant des chunks et des dtypes sp√©cifi√©s.
    """
    print(f"Chargement de {len(file_paths)} fichiers...")
    all_chunks = []
    
    # Barre de progression pour les fichiers
    for file_path in tqdm(file_paths, desc="Progression Fichiers"):
        try:
            # On sp√©cifie les dtypes √† lire
            # on_bad_lines='skip' ignore les lignes corrompues
            chunk_iter = pd.read_csv(
                file_path,
                dtype=dtypes, 
                chunksize=100_000,
                low_memory=False,
                on_bad_lines='skip'
            )
            
            for chunk in chunk_iter:
                # On ne garde que les colonnes qui nous int√©ressent ET qui existent
                cols_qui_existent = [col for col in use_cols if col in chunk.columns]
                chunk_filtre = chunk[cols_qui_existent]
                all_chunks.append(chunk_filtre)
                
        except FileNotFoundError:
            print(f"\n/!\\ ALERTE: Fichier non trouv√©: {file_path}. Il sera ignor√©.")
        except Exception as e:
            print(f"\n/!\\ ERREUR lors de la lecture de {file_path}: {e}")

    if not all_chunks:
        print("‚ùå ERREUR: Aucun chunk n'a √©t√© charg√©. V√©rifiez vos chemins de fichiers.")
        return pd.DataFrame()

    print("Concatenation de tous les chunks...")
    df_raw = pd.concat(all_chunks, ignore_index=True, sort=False)
    print("‚úÖ Chargement termin√©.")
    return df_raw

def clean_dvf_data(df):
    """
    Nettoie le DataFrame DVF brut pour l'analyse.
    VERSION ROBUSTE : Force les conversions en category √† la fin.
    """
    if df.empty:
        return pd.DataFrame()
        
    print("üîß Nettoyage et pr√©paration des donn√©es (v2)...")
    initial_rows = len(df)
    
    # 1. Conversion de la date (essentiel)
    df['date_mutation'] = pd.to_datetime(df['date_mutation'], errors='coerce')
    
    # 2. Suppression des lignes avec donn√©es critiques manquantes
    colonnes_critiques = [
        'date_mutation', 'valeur_fonciere', 'surface_reelle_bati', 
        'latitude', 'longitude', 'type_local', 'code_departement'
    ]
    colonnes_a_verifier = [col for col in colonnes_critiques if col in df.columns]
    df = df.dropna(subset=colonnes_a_verifier)
    
    # 3. Calcul du prix au m¬≤ et filtrage des aberrations
    df = df[
        (df['valeur_fonciere'] >= 1000) & 
        (df['surface_reelle_bati'] >= 9)
    ]
    
    df['prix_m2'] = df['valeur_fonciere'] / df['surface_reelle_bati']
    
    p_01 = df['prix_m2'].quantile(0.01)
    p_99 = df['prix_m2'].quantile(0.99)
    
    df = df[
        (df['prix_m2'] >= p_01) & 
        (df['prix_m2'] <= p_99)
    ]
    
    # 4. Ing√©nierie des features temporelles
    df['annee'] = df['date_mutation'].dt.year
    df['trimestre'] = df['date_mutation'].dt.quarter
    
    # --- OPTIMISATION FINALE (LA CL√â) ---
    # On force la conversion des colonnes qui auraient d√ª √™tre 'category'
    print("   -> For√ßage des types 'category' pour optimiser la RAM...")
    cols_to_categorize = ['code_departement', 'type_local', 'annee', 'trimestre']
    for col in cols_to_categorize:
        if col in df.columns:
            df[col] = df[col].astype('category')
    
    final_rows = len(df)
    rows_dropped = initial_rows - final_rows
    print(f"‚úÖ Nettoyage termin√©. {rows_dropped:,} lignes aberrantes ou inutiles supprim√©es.")
    print(f"   {final_rows:,} transactions valides restantes pour l'analyse.")
    
    return df

print("‚úÖ Fonctions  de chargement et de nettoyage d√©finies.")

<div style="background-color: #f4f4f4; border-left: 6px solid #607D8B; padding: 15px; border-radius: 5px;">

## ‚ö° 4. Ex√©cution du Chargement (Logique Parquet)

C'est ici que nous appelons les fonctions d√©finies ci-dessus:

1.  Elle cherche d'abord le fichier `dvf_clean_2021-2025.parquet`.
2.  **Si le fichier existe :** Le chargement est **quasi-instantan√©** .
3.  **Si le fichier n'existe pas :**
    * Elle ex√©cute le chargement lent depuis les CSV (Mode Initialisation).
    * Elle **cr√©e le fichier Parquet** pour que la prochaine ex√©cution soit instantan√©e.

L'information cl√© √† la fin est **`memory usage`** : elle prouve l'efficacit√© de nos optimisations de `dtype`.

</div>

In [None]:

PARQUET_FILE_PATH = 'dvf_clean_2021-2025.parquet'
if os.path.exists(PARQUET_FILE_PATH):
    # CAS 1: Le fichier Parquet existe (RAPIDE: 3 secondes)
    print(f"‚úÖ Fichier Parquet trouv√© ! Chargement ultra-rapide depuis '{PARQUET_FILE_PATH}'...")
    df_clean = pd.read_parquet(PARQUET_FILE_PATH)
    print("   -> Chargement termin√©.")

else:
    # CAS 2: Premi√®re ex√©cution (LENT: 1 minute, UNE SEULE FOIS)
    print(f" Fichier Parquet non trouv√©. Lancement du premier chargement (lent) depuis les CSV...")
    
    # --- Ex√©cution du chargement (votre ancien code) ---
    df_raw = load_dvf_data(FILE_PATHS, COLUMNS_TO_LOAD, DTYPE_MAP)

    if not df_raw.empty:
        df_clean = clean_dvf_data(df_raw)
        
        # --- √âTAPE CRUCIALE: SAUVEGARDE AU FORMAT PARQUET ---
        try:
            print(f"Sauvegarde des {len(df_clean):,} lignes nettoy√©es au format Parquet...")
            df_clean.to_parquet(PARQUET_FILE_PATH, index=False)
            print(f"   -> ‚úÖ Sauvegarde termin√©e ! ('{PARQUET_FILE_PATH}')")
            print("   -> Lors de la prochaine ex√©cution, le chargement sera instantan√©.")
        except Exception as e:
            print(f" /!\\ Erreur lors de la sauvegarde Parquet : {e}")
            print("     V√©rifiez que 'pyarrow' est bien install√© (pip install pyarrow)")
            
    else:
        print("‚ùå Aucune donn√©e n'a √©t√© charg√©e. Le notebook ne peut pas continuer.")
        df_clean = pd.DataFrame(columns=COLUMNS_TO_LOAD + ['prix_m2', 'annee', 'trimestre'])

# --- Affichage final (commun aux deux cas) ---
if not df_clean.empty:
    # On affiche un √âCHANTILLON, pas .head(), pour √©viter de surcharger le notebook
    print("\n--- Aper√ßu al√©atoire des donn√©es ---")
    display(df_clean.sample(5))
    
    # Afficher le r√©sum√© m√©moire (la preuve de l'optimisation)
    print("\n--- Informations et Utilisation M√©moire (Optimis√©e) ---")
    df_clean.info(memory_usage='deep')
else:
    print("‚ùå Aucune donn√©e n'est disponible pour l'analyse.")

<div style="background-color: #f9f0ff; border-left: 6px solid #9C27B0; padding: 15px; border-radius: 5px;">

## üìä 5. Dashboard Statique (Analyse Persona)

Avant de plonger dans l'interactivit√©, nous r√©pondons aux questions de base d'Alexandre (*Besoins I et II*) :

1.  **Comment les prix ont-ils √©volu√© sur 5 ans ?** (Tendance)
2.  **Le march√© est-il dynamique ?** (Volume des transactions)
3.  **Quels types de biens sont vendus ?** (Composition du march√©)
4.  **Comment se situe sa r√©gion (Rh√¥ne) par rapport aux autres ?** (Contexte local)
</div>

In [None]:
# NOUVELLE CELLULE 11 (Dashboard avec Sampling)

def create_persona_dashboard(df):
    """
    Cr√©e un dashboard 2x2 r√©pondant aux questions cl√©s du persona.
    VERSION RAPIDE : Utilise un √©chantillon pour le box plot.
    """
    if df.empty:
        print("‚ùå Pas de donn√©es pour le dashboard persona.")
        return

    print("üìä Cr√©ation du dashboard d'analyse strat√©gique (Rapide)...")
    
    fig = make_subplots(
        rows=2, cols=2,
        subplot_titles=(
            "1. Tendance des Prix (M√©dian) sur 5 ans",
            "2. Dynamisme du March√© (Volume des Ventes)",
            "3. Composition du March√© (Types de biens)",
            f"4. Focus Local: Prix/m¬≤ (Rh√¥ne vs. France)"
        ),
        specs=[
            [{"type": "xy"}, {"type": "xy"}],
            [{"type": "domain"}, {"type": "box"}]
        ]
    )
    
    # --- Graphique 1: Tendance des Prix (M√©dian) ---
    df_agg_annee = df.groupby('annee')['prix_m2'].median().reset_index()
    fig.add_trace(
        go.Scatter(
            x=df_agg_annee['annee'], 
            y=df_agg_annee['prix_m2'],
            mode='lines+markers',
            name='Prix M√©dian',
            line=dict(color='blue', width=3)
        ), row=1, col=1
    )
    
    # --- Graphique 2: Volume des Ventes ---
    df_vol_annee = df.groupby('annee').size().reset_index(name='transactions')
    fig.add_trace(
        go.Bar(
            x=df_vol_annee['annee'], 
            y=df_vol_annee['transactions'],
            name='Transactions',
            marker_color='lightblue'
        ), row=1, col=2
    )

    # --- Graphique 3: Types de biens (Pie Chart) ---
    df_types = df[df['type_local'].isin(['Appartement', 'Maison'])]
    type_counts = df_types['type_local'].value_counts()
    fig.add_trace(
        go.Pie(
            labels=type_counts.index, 
            values=type_counts.values,
            hole=.3,
            name='Types',
            marker=dict(colors=['#1f77b4', '#ff7f0e'])
        ), row=2, col=1
    )
    
    # --- Graphique 4: Focus Local (Box Plot) ---
    
    # --- OPTIMISATION (SAMPLING) ---
    # Au lieu de prendre TOUTES les donn√©es, on prend un √©chantillon al√©atoire.
    # 50 000 points sont largement suffisants pour un box plot.
    n_samples = min(50000, len(df))
    df_sample = df.sample(n_samples)
    
    # On filtre sur l'√©chantillon, pas sur le df complet
    df_focus = df_sample[df_sample['code_departement'].isin(['69', '75', '13', '33', '59'])] 
    
    # Cr√©ation du groupe (pour l'axe X)
    def assign_group(dept):
        if dept == '69': return 'Rh√¥ne (69)'
        if dept == '75': return 'Paris (75)'
        return 'Autres (13, 33, 59)'
        
    df_focus['Groupe'] = df_focus['code_departement'].apply(assign_group)
    
    fig.add_trace(
        go.Box(
            x=df_focus['Groupe'],
            y=df_focus['prix_m2'],
            name='Distribution Prix'
        ), row=2, col=2
    )
    
    # --- Configuration du Layout ---
    fig.update_layout(
        title_text="<b>Dashboard Strat√©gique (Besoins Persona)</b>",
        title_x=0.5,
        height=800,
        showlegend=False,
        font=dict(family="Arial", size=12)
    )
    fig.update_yaxes(title_text="Prix M√©dian (‚Ç¨/m¬≤)", row=1, col=1)
    fig.update_yaxes(title_text="Nb. Transactions", row=1, col=2)
    fig.update_yaxes(title_text="Prix au m¬≤", row=2, col=2)
    
    fig.show()

# --- Ex√©cution ---
if not df_clean.empty:
    create_persona_dashboard(df_clean)

<div style="background-color: #f0ffff; border-left: 6px solid #00BCD4; padding: 15px; border-radius: 5px;">

## üó∫Ô∏è 6. D√©finition de la Carte Interactive

Maintenant qu'Alexandre a une vue d'ensemble, il veut *explorer* ("O√π investir ?").

Cette cellule **d√©finit** les deux fonctions n√©cessaires pour la carte :

1.  `create_interactive_widgets` : D√©finit tous les filtres (sliders, menus d√©roulants).
2.  `plot_interactive_map` : La fonction de tra√ßage qui r√©agit aux widgets.

*Note : L'agr√©gation des donn√©es se fait par **d√©partement** pour que la carte reste fluide. Une carte nationale par commune (des millions de points) n'est pas r√©alisable pour une exploration interactive.*

</div>

In [None]:
def create_interactive_widgets(df):
    """
    Cr√©e et retourne tous les widgets IPyWidgets pour le dashboard interactif.
    """
    style = {'description_width': '150px'}
    layout = Layout(width='400px')
    
    # 1. P√©riode (Ann√©es)
    annees_disponibles = sorted(df['annee'].unique().astype(int))
    if not annees_disponibles:
        annees_disponibles = [2021, 2025] # Fallback
        
    periode_slider = widgets.SelectionRangeSlider(
        options=annees_disponibles,
        index=(0, len(annees_disponibles)-1),
        description='üìÖ P√©riode (Ann√©es):',
        style=style,
        layout=Layout(width='500px')
    )
    
    # 2. Type de bien
    types_biens = ['Tous'] + sorted([t for t in df['type_local'].unique() if t in ['Maison', 'Appartement']])
    type_bien_dropdown = widgets.Dropdown(
        options=types_biens,
        value='Tous',
        description='üè† Type de bien:',
        style=style, layout=layout
    )
    
    # 3. M√©trique
    metrique_dropdown = widgets.Dropdown(
        options=[
            ('Prix m√©dian au m¬≤', 'median'),
            ('Prix moyen au m¬≤', 'mean'),
            ('Nombre de transactions', 'count')
        ],
        value='median',
        description='üìä M√©trique:',
        style=style, layout=layout
    )
    
    # 4. Granularit√© Temporelle (pour l'animation)
    agregation_dropdown = widgets.Dropdown(
        options=[('Annuelle', 'annee'), ('Trimestrielle', 'trimestre')],
        value='annee',
        description='‚è∞ Animation par:',
        style=style, layout=layout
    )
    
    return periode_slider, type_bien_dropdown, metrique_dropdown, agregation_dropdown

def plot_interactive_map(periode, type_bien, metrique, agregation):
    """
    Fonction de tra√ßage appel√©e par 'interact'.
    Cr√©e la carte de France interactive.
    """
    
    # 1. Filtrage des donn√©es (rapide gr√¢ce aux types optimis√©s)
    df_filtre = df_clean[
        (df_clean['annee'].astype(int) >= periode[0]) & 
        (df_clean['annee'].astype(int) <= periode[1])
    ]
    
    if type_bien != 'Tous':
        df_filtre = df_filtre[df_filtre['type_local'] == type_bien]
        
    if df_filtre.empty:
        print("‚ùå Aucune transaction ne correspond √† ces filtres.")
        return

    # 2. Agr√©gation par d√©partement et p√©riode (pour la fluidit√©)
    time_col = agregation # 'annee' or 'trimestre'
    
    # D√©finition de la fonction d'agr√©gation
    agg_funcs = {
        'prix_m2': 'median' if metrique == 'median' else ('mean' if metrique == 'mean' else 'count'),
        'latitude': 'mean',
        'longitude': 'mean',
    }
    
    # Cas sp√©cial pour 'count'
    if metrique == 'count':
        agg_funcs['prix_m2'] = 'count'

    df_agg = df_filtre.groupby(['code_departement', time_col]).agg(agg_funcs).reset_index()
    
    # Renommage pour la clart√©
    df_agg = df_agg.rename(columns={'prix_m2': 'valeur_metrique', 
                                    'latitude': 'lat', 
                                    'longitude': 'lon'})
    
    # ----------------------------------------------------------------------
    # LA LIGNE QUI CONVERTIT EN STRING √âTAIT ICI. C'√âTAIT TROP T√îT.
    # ----------------------------------------------------------------------
    
    # 3. D√©finition des param√®tres du graphique
    if metrique == 'count':
        metric_label = 'Nombre de transactions'
        color_scale = 'Viridis'
        size_col = 'valeur_metrique' # La taille repr√©sente le volume
    else:
        metric_label = 'Prix m√©dian au m¬≤' if metrique == 'median' else 'Prix moyen au m¬≤'
        color_scale = 'RdYlBu_r' # Rouge=Cher, Bleu=Abordable
        
        # On calcule le volume total pour la taille des bulles
        # ICI : time_col est encore un INT, donc le groupby fonctionne
        size_data = df_filtre.groupby(['code_departement', time_col]).size().reset_index(name='volume')
        
        # ICI : Le merge fonctionne car les deux 'time_col' (ex: 'annee') sont des INT
        df_agg = pd.merge(df_agg, size_data, on=['code_departement', time_col])
        size_col = 'volume'
        
    # ----------------------------------------------------------------------
    # CORRECTION : ON CONVERTIT EN STRING ICI, JUSTE AVANT LE GRAPHIQUE
    # ----------------------------------------------------------------------
    # Pour l'animation, la colonne doit √™tre de type string
    df_agg[time_col] = df_agg[time_col].astype(str)
        
    # 4. Tra√ßage (Plotly)
    fig = px.scatter_mapbox(
        df_agg,
        lat="lat",
        lon="lon",
        color="valeur_metrique",
        size=size_col,
        hover_name="code_departement",
        hover_data={
            "code_departement": True,
            "valeur_metrique": f":.0f {'‚Ç¨/m¬≤' if metrique != 'count' else ''}",
            "lat": False,
            "lon": False,
            size_col: True
        },
        animation_frame=time_col, # Maintenant, time_col est bien un string
        color_continuous_scale=color_scale,
        size_max=50,
        zoom=4.5,
        center={"lat": 46.603354, "lon": 1.888334},
        mapbox_style="carto-positron",
        title=f"<b>üó∫Ô∏è √âvolution du March√© Immobilier par D√©partement</b>",
        height=700
    )
    
    fig.update_layout(
        title_x=0.5,
        font=dict(family="Arial", size=12),
        coloraxis_colorbar=dict(
            title=metric_label
        )
    )
    
    fig.show()

<div style="background-color: #f4f4f4; border-left: 6px solid #607D8B; padding: 15px; border-radius: 5px;">

## üöÄ 7. Affichage du Dashboard Interactif

Cette cellule **ex√©cute** le code de la cellule pr√©c√©dente.

Elle appelle `create_interactive_widgets` pour afficher les contr√¥les et connecte ces contr√¥les √† la fonction `plot_interactive_map` gr√¢ce √† `widgets.interactive_output`.

C'est l'ex√©cution de cette cellule qui fait appara√Ætre le dashboard complet (filtres + carte).

</div>

In [None]:
# --- Ex√©cution et Lancement de l'Interface ---
if not df_clean.empty:
    print("üéõÔ∏è G√©n√©ration du dashboard interactif...")
    
    # Cr√©ation des widgets
    (
        periode_slider, 
        type_bien_dropdown, 
        metrique_dropdown, 
        agregation_dropdown
    ) = create_interactive_widgets(df_clean)

    # Titre HTML
    display(HTML("""
    <div style='background: linear-gradient(135deg, #667eea 0%, #764ba2 100%); 
                padding: 20px; border-radius: 15px; margin: 20px 0;'>
        <h2 style='color: white; text-align: center; margin: 0; font-size: 28px;
                   font-family: Arial Black;'>
            üó∫Ô∏è Dashboard d'Exploration G√©ographique
        </h2>
        <p style='color: white; text-align: center; margin: 10px 0 0 0; font-size: 16px;'>
            Utilisez les filtres pour explorer les tendances sur 5 ans.
        </p>
    </div>
    """))
    
    # Organisation des widgets
    col1 = VBox([periode_slider])
    col2 = VBox([type_bien_dropdown, metrique_dropdown, agregation_dropdown])
    
    display(HBox([col1, col2]))

    # Lancement de l'interface interactive
    # C'est ici que la fonction plot_interactive_map est connect√©e aux widgets
    interactive_output = widgets.interactive_output(
        plot_interactive_map,
        {
            'periode': periode_slider,
            'type_bien': type_bien_dropdown,
            'metrique': metrique_dropdown,
            'agregation': agregation_dropdown
        }
    )
    
    # Affichage final de la carte
    display(interactive_output)
else:
    print("‚ùå Dashboard interactif non lanc√© (pas de donn√©es).")

<div style="background-color: #f5f5f5; border-left: 6px solid #795548; padding: 15px; border-radius: 5px;">

## üõ†Ô∏è 8. Outils d'Analyse (Export & Insights)

Enfin, nous fournissons √† Alexandre les outils dont il a besoin pour son reporting (*Besoins IV.1 et IV.5*) :

1.  **G√©n√©rer un Rapport d'Insights** : Un r√©sum√© textuel des KPI cl√©s.
2.  **Exporter les Donn√©es** : Un bouton pour sauvegarder les donn√©es *agr√©g√©es* par d√©partement au format CSV/Excel.

</div>

In [None]:
def export_analysis_data(df):
    """
    Exporte les donn√©es d'analyse (agr√©g√©es par d√©partement) avec m√©tadonn√©es.
    """
    if df.empty:
        print("‚ùå Aucune donn√©e √† exporter.")
        return

    print("‚è≥ Pr√©paration du r√©sum√© statistique par d√©partement...")
    
    # Cr√©ation d'un r√©sum√© statistique par d√©partement et ann√©e
    dept_summary = df.groupby(['annee', 'code_departement']).agg({
        'prix_m2': ['mean', 'median'],
        'valeur_fonciere': ['count', 'sum'],
        'surface_reelle_bati': 'mean'
    }).round(2)
    
    # Aplatir les MultiIndex des colonnes
    dept_summary.columns = [
        'Prix_moyen_m2', 'Prix_median_m2',
        'Nb_transactions', 'Volume_total_Euros', 'Surface_moyenne_bati'
    ]
    dept_summary = dept_summary.reset_index()
    
    # Sauvegarde en CSV et Excel
    export_filename_csv = f"analyse_dvf_departements_{datetime.now().strftime('%Y%m%d')}.csv"
    export_filename_excel = f"analyse_dvf_departements_{datetime.now().strftime('%Y%m%d')}.xlsx"
    
    try:
        dept_summary.to_csv(export_filename_csv, index=False, encoding='utf-8-sig')
        dept_summary.to_excel(export_filename_excel, index=False, sheet_name='Analyse_Departement')
        
        print(f"‚úÖ Exportation r√©ussie !")
        print(f"   -> Fichier CSV : {export_filename_csv}")
        print(f"   -> Fichier Excel : {export_filename_excel}")
        
    except Exception as e:
        print(f"‚ùå Erreur lors de l'exportation : {e}")

def generate_insights_report(df):
    """
    G√©n√®re un rapport textuel simple avec les insights cl√©s.
    """
    if df.empty:
        print("‚ùå Aucune donn√©e pour g√©n√©rer un rapport.")
        return
        
    print("ü§ñ G√©n√©ration du rapport d'insights...")
    
    # P√©riode
    start_year = df['annee'].min()
    end_year = df['annee'].max()
    
    # Stats globales
    global_median = df['prix_m2'].median()
    total_transactions = len(df)
    
    # Tendance
    yearly_median = df.groupby('annee')['prix_m2'].median()
    start_price = yearly_median.iloc[0]
    end_price = yearly_median.iloc[-1]
    evolution_pct = ((end_price - start_price) / start_price) * 100
    
    # --- Affichage du rapport ---
    report = f"""
    ========================================================
    RAPPORT D'ANALYSE IMMOBILI√àRE (2021-2025)
    ========================================================
    
    P√âRIODE D'ANALYSE : {start_year} √† {end_year}
    TRANSACTIONS VALIDES ANALYS√âES : {total_transactions:,}
    
    --- INSIGHTS GLOBAUX ---
    Prix m√©dian global (sur 5 ans) : {global_median:,.0f} ‚Ç¨/m¬≤
    
    --- TENDANCE DES PRIX (M√âDIAN) ---
    Prix en {start_year} : {start_price:,.0f} ‚Ç¨/m¬≤
    Prix en {end_year} : {end_price:,.0f} ‚Ç¨/m¬≤
    √âvolution sur 5 ans : {evolution_pct:+.2f}%
    
    ================ FIN DU RAPPORT ========================
    """
    print(report)

# --- Cr√©ation des Boutons ---
if not df_clean.empty:
    export_button = widgets.Button(
        description="Exporter R√©sum√© (.csv/.xlsx)",
        button_style='success',
        icon='download',
        layout=Layout(width='300px', height='50px')
    )
    
    insights_button = widgets.Button(
        description="G√©n√©rer Rapport d'Insights",
        button_style='info',
        icon='lightbulb',
        layout=Layout(width='300px', height='50px')
    )
    
    output_tools = widgets.Output() # Pour afficher le r√©sultat des clics

    def on_export_click(b):
        with output_tools:
            clear_output()
            export_analysis_data(df_clean)
    
    def on_insights_click(b):
        with output_tools:
            clear_output()
            generate_insights_report(df_clean)
    
    export_button.on_click(on_export_click)
    insights_button.on_click(on_insights_click)
    
    display(HTML("<h2 style='color: #2c3e50; margin-top: 40px; border-bottom: 2px solid #2c3e50;'> Outils d'Analyse (Export)</h2>"))
    display(HBox([export_button, insights_button]))
    display(output_tools)