# 📈 Analyses Exploratoires des Données DVF

**Objectif** : Analyser en profondeur les données foncières pour comprendre le marché immobilier français.

**Focus** : Investissement locatif région parisienne et identification des opportunités.

**Analyses principales** :
1. Statistiques descriptives par zone géographique
2. Analyse de la typologie des biens
3. Évolution temporelle des prix
4. Identification des tendances du marché
5. Analyse comparative des départements

In [1]:
# Import des bibliothèques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
import sys

# Configuration
warnings.filterwarnings('ignore')
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)

# Ajout du module utilitaire
sys.path.append('../src')
from dvf_utils import GeographicAnalyzer

print("✅ Bibliothèques importées avec succès")

✅ Bibliothèques importées avec succès


## 1. 📥 Chargement des Données Nettoyées

Import du dataset préparé dans le notebook de preprocessing.

In [2]:
# Chargement des données nettoyées
data_path = '../outputs/dvf_cleaned_2019_2023.csv'
df = pd.read_csv(data_path, parse_dates=['date_mutation'])

print(f"📊 Dataset chargé : {df.shape[0]:,} transactions, {df.shape[1]} colonnes")
print(f"📅 Période : {df['date_mutation'].min().date()} à {df['date_mutation'].max().date()}")
print(f"🏠 Types de biens : {df['type_local'].value_counts().to_dict() if 'type_local' in df.columns else 'Non disponible'}")

📊 Dataset chargé : 29,427 transactions, 46 colonnes
📅 Période : 2024-01-02 à 2024-12-31
🏠 Types de biens : {'Appartement': 17528, 'Maison': 9669, 'Local industriel. commercial ou assimilé': 2230}


In [3]:
# Vue d'ensemble des données
print("📋 Aperçu des colonnes disponibles :")
print(df.columns.tolist())
print("\n🔍 Statistiques générales :")
df.describe()

📋 Aperçu des colonnes disponibles :
['id_mutation', 'date_mutation', 'numero_disposition', 'nature_mutation', 'valeur_fonciere', 'adresse_numero', 'adresse_suffixe', 'adresse_nom_voie', 'adresse_code_voie', 'code_postal', 'code_commune', 'nom_commune', 'code_departement', 'ancien_code_commune', 'ancien_nom_commune', 'id_parcelle', 'ancien_id_parcelle', 'numero_volume', 'lot1_numero', 'lot1_surface_carrez', 'lot2_numero', 'lot2_surface_carrez', 'lot3_numero', 'lot3_surface_carrez', 'lot4_numero', 'lot4_surface_carrez', 'lot5_numero', 'lot5_surface_carrez', 'nombre_lots', 'code_type_local', 'type_local', 'surface_reelle_bati', 'nombre_pieces_principales', 'code_nature_culture', 'nature_culture', 'code_nature_culture_speciale', 'nature_culture_speciale', 'surface_terrain', 'longitude', 'latitude', 'annee_mutation', 'prix_m2', 'mois_mutation', 'trimestre_mutation', 'categorie_surface', 'categorie_prix_m2']

🔍 Statistiques générales :


Unnamed: 0,date_mutation,numero_disposition,valeur_fonciere,adresse_numero,code_postal,code_commune,code_departement,ancien_code_commune,ancien_nom_commune,ancien_id_parcelle,...,code_type_local,surface_reelle_bati,nombre_pieces_principales,surface_terrain,longitude,latitude,annee_mutation,prix_m2,mois_mutation,trimestre_mutation
count,29427,29427.0,29427.0,29320.0,29427.0,29427.0,29427.0,0.0,0.0,0.0,...,29427.0,29427.0,29427.0,11113.0,29268.0,29268.0,29427.0,29427.0,29427.0,29427.0
mean,2024-07-06 18:11:02.819859200,1.03405,417744.5,194.108117,92852.884086,92712.192272,92.506576,,,,...,1.822986,97.306249,3.045197,734.971475,2.387908,48.716334,2024.0,5583.207881,6.65219,2.539233
min,2024-01-02 00:00:00,1.0,2000.0,1.0,91000.0,91001.0,91.0,,,,...,1.0,2.0,0.0,1.0,1.951109,48.292339,2024.0,100.0,1.0,1.0
25%,2024-04-09 00:00:00,1.0,175000.0,6.0,91320.0,91347.0,91.0,,,,...,1.0,46.0,2.0,281.0,2.328374,48.65562,2024.0,2921.348315,4.0,2.0
50%,2024-07-06 00:00:00,1.0,270000.0,17.0,94000.0,94002.0,94.0,,,,...,2.0,66.0,3.0,424.0,2.413958,48.73438,2024.0,3955.223881,7.0,3.0
75%,2024-10-07 00:00:00,1.0,400000.0,42.0,94300.0,94052.0,94.0,,,,...,2.0,90.0,4.0,608.0,2.472431,48.803082,2024.0,5853.658537,10.0,4.0
max,2024-12-31 00:00:00,8.0,59000000.0,9030.0,94880.0,94081.0,94.0,,,,...,4.0,26841.0,16.0,167913.0,2.59492,48.860236,2024.0,50000.0,12.0,4.0
std,,0.199391,1164997.0,1164.738222,1490.019915,1350.870055,1.500011,,,,...,0.774845,342.250738,1.65226,3501.520935,0.114854,0.106324,0.0,6016.537257,3.490144,1.110607


## T015 - 📊 Statistiques Descriptives Globales

Analyse complète des distributions des variables clés : prix, surface, nombre de pièces.

In [4]:
# T015 - Statistiques descriptives globales pour les variables clés
print("🎯 T015 - ANALYSE STATISTIQUE GLOBALE")
print("=" * 50)

# 1. Statistiques des prix
print("\n💰 STATISTIQUES DES PRIX")
print("-" * 30)

valeur_stats = df['valeur_fonciere'].describe()
prix_m2_stats = df['prix_m2'].describe()

print(f"📊 Valeur Foncière (€) :")
print(f"   • Moyenne : {valeur_stats['mean']:,.0f}€")
print(f"   • Médiane : {valeur_stats['50%']:,.0f}€")
print(f"   • Écart-type : {valeur_stats['std']:,.0f}€")
print(f"   • Min : {valeur_stats['min']:,.0f}€")
print(f"   • Max : {valeur_stats['max']:,.0f}€")
print(f"   • Q1 : {valeur_stats['25%']:,.0f}€")
print(f"   • Q3 : {valeur_stats['75%']:,.0f}€")

print(f"\n📊 Prix au m² (€/m²) :")
print(f"   • Moyenne : {prix_m2_stats['mean']:,.0f}€/m²")
print(f"   • Médiane : {prix_m2_stats['50%']:,.0f}€/m²")
print(f"   • Écart-type : {prix_m2_stats['std']:,.0f}€/m²")
print(f"   • Min : {prix_m2_stats['min']:,.0f}€/m²")
print(f"   • Max : {prix_m2_stats['max']:,.0f}€/m²")
print(f"   • Q1 : {prix_m2_stats['25%']:,.0f}€/m²")
print(f"   • Q3 : {prix_m2_stats['75%']:,.0f}€/m²")

# 2. Statistiques des surfaces
print("\n🏠 STATISTIQUES DES SURFACES")
print("-" * 35)

surface_stats = df['surface_reelle_bati'].describe()
print(f"📊 Surface Réelle Bâtie (m²) :")
print(f"   • Moyenne : {surface_stats['mean']:.1f}m²")
print(f"   • Médiane : {surface_stats['50%']:.1f}m²")
print(f"   • Écart-type : {surface_stats['std']:.1f}m²")
print(f"   • Min : {surface_stats['min']:.1f}m²")
print(f"   • Max : {surface_stats['max']:.1f}m²")
print(f"   • Q1 : {surface_stats['25%']:.1f}m²")
print(f"   • Q3 : {surface_stats['75%']:.1f}m²")

# 3. Statistiques des pièces (si disponible)
if 'nombre_pieces_principales' in df.columns:
    print("\n🚪 STATISTIQUES DES PIÈCES")
    print("-" * 30)
    
    pieces_stats = df['nombre_pieces_principales'].describe()
    pieces_counts = df['nombre_pieces_principales'].value_counts().sort_index()
    
    print(f"📊 Nombre de Pièces Principales :")
    print(f"   • Moyenne : {pieces_stats['mean']:.1f} pièces")
    print(f"   • Médiane : {pieces_stats['50%']:.1f} pièces")
    print(f"   • Écart-type : {pieces_stats['std']:.1f} pièces")
    print(f"   • Min : {pieces_stats['min']:.0f} pièces")
    print(f"   • Max : {pieces_stats['max']:.0f} pièces")
    
    print(f"\n📈 Répartition par nombre de pièces :")
    for pieces, count in pieces_counts.head(10).items():
        pct = (count / len(df)) * 100
        print(f"   • {pieces:.0f} pièces : {count:,} biens ({pct:.1f}%)")

# 4. Mesures de forme des distributions
from scipy import stats

print("\n📐 MESURES DE FORME DES DISTRIBUTIONS")
print("-" * 45)

print(f"📊 Prix au m² :")
skew_prix = stats.skew(df['prix_m2'].dropna())
kurt_prix = stats.kurtosis(df['prix_m2'].dropna())
print(f"   • Asymétrie (skewness) : {skew_prix:.2f}")
print(f"   • Aplatissement (kurtosis) : {kurt_prix:.2f}")

print(f"\n📊 Surface :")
skew_surface = stats.skew(df['surface_reelle_bati'].dropna())
kurt_surface = stats.kurtosis(df['surface_reelle_bati'].dropna())
print(f"   • Asymétrie (skewness) : {skew_surface:.2f}")
print(f"   • Aplatissement (kurtosis) : {kurt_surface:.2f}")

print(f"\n📊 Valeur foncière :")
skew_valeur = stats.skew(df['valeur_fonciere'].dropna())
kurt_valeur = stats.kurtosis(df['valeur_fonciere'].dropna())
print(f"   • Asymétrie (skewness) : {skew_valeur:.2f}")
print(f"   • Aplatissement (kurtosis) : {kurt_valeur:.2f}")

print("\n✅ T015 - Statistiques descriptives globales complétées")

🎯 T015 - ANALYSE STATISTIQUE GLOBALE

💰 STATISTIQUES DES PRIX
------------------------------
📊 Valeur Foncière (€) :
   • Moyenne : 417,745€
   • Médiane : 270,000€
   • Écart-type : 1,164,997€
   • Min : 2,000€
   • Max : 59,000,000€
   • Q1 : 175,000€
   • Q3 : 400,000€

📊 Prix au m² (€/m²) :
   • Moyenne : 5,583€/m²
   • Médiane : 3,955€/m²
   • Écart-type : 6,017€/m²
   • Min : 100€/m²
   • Max : 50,000€/m²
   • Q1 : 2,921€/m²
   • Q3 : 5,854€/m²

🏠 STATISTIQUES DES SURFACES
-----------------------------------
📊 Surface Réelle Bâtie (m²) :
   • Moyenne : 97.3m²
   • Médiane : 66.0m²
   • Écart-type : 342.3m²
   • Min : 2.0m²
   • Max : 26841.0m²
   • Q1 : 46.0m²
   • Q3 : 90.0m²

🚪 STATISTIQUES DES PIÈCES
------------------------------
📊 Nombre de Pièces Principales :
   • Moyenne : 3.0 pièces
   • Médiane : 3.0 pièces
   • Écart-type : 1.7 pièces
   • Min : 0 pièces
   • Max : 16 pièces

📈 Répartition par nombre de pièces :
   • 0 pièces : 2,241 biens (7.6%)
   • 1 pièces : 2,810 

## 2. 🏛️ Analyse par Zone Géographique

Exploration des variations de prix et de volume par département et commune.

In [5]:
# Analyse par département
dept_analysis = df.groupby('code_departement').agg({
    'prix_m2': ['mean', 'median', 'std', 'count'],
    'valeur_fonciere': ['mean', 'median'],
    'surface_reelle_bati': 'mean'
}).round(2)

# Aplatissement des colonnes multi-niveaux
dept_analysis.columns = ['_'.join(col).strip() for col in dept_analysis.columns]
dept_analysis = dept_analysis.reset_index()

# Tri par prix moyen au m² décroissant
dept_analysis_sorted = dept_analysis.sort_values('prix_m2_mean', ascending=False)

print("🏆 Top 15 Départements - Prix Moyen au m² :")
top_15_depts = dept_analysis_sorted.head(15)
for _, row in top_15_depts.iterrows():
    dept = row['code_departement']
    prix_moy = row['prix_m2_mean']
    nb_trans = row['prix_m2_count']
    print(f"   • Dept {dept}: {prix_moy:,.0f}€/m² ({nb_trans:,} transactions)")

🏆 Top 15 Départements - Prix Moyen au m² :
   • Dept 94.0: 6,825€/m² (14,778.0 transactions)
   • Dept 91.0: 4,330€/m² (14,649.0 transactions)


### T016 - 🏛️ Analyse Détaillée Prix au m² par Zone Géographique

Analyse approfondie des prix moyens et médians par commune et département.

In [6]:
# T016 - Analyse détaillée des prix par commune et département
print("🎯 T016 - ANALYSE PRIX PAR ZONE GÉOGRAPHIQUE")
print("=" * 50)

# 1. Analyse détaillée par département avec classements
print("\n🏆 CLASSEMENT DÉPARTEMENTS - ANALYSE COMPLÈTE")
print("-" * 50)

# Statistiques complètes par département
dept_detailed = df.groupby('code_departement').agg({
    'prix_m2': ['mean', 'median', 'std', 'min', 'max', 'count'],
    'valeur_fonciere': ['mean', 'median'],
    'surface_reelle_bati': ['mean', 'median']
}).round(2)

dept_detailed.columns = ['_'.join(col).strip() for col in dept_detailed.columns]
dept_detailed = dept_detailed.reset_index()

# Filtre pour départements avec suffisamment de données
dept_significant = dept_detailed[dept_detailed['prix_m2_count'] >= 100].copy()
dept_significant = dept_significant.sort_values('prix_m2_mean', ascending=False)

print(f"📊 Départements analysés (≥100 transactions) : {len(dept_significant)}")
print("\n🥇 TOP 10 - Prix les plus élevés :")
for i, (_, row) in enumerate(dept_significant.head(10).iterrows(), 1):
    dept = row['code_departement']
    prix_moy = row['prix_m2_mean']
    prix_med = row['prix_m2_median']
    volatilite = row['prix_m2_std']
    nb_trans = row['prix_m2_count']
    print(f"   {i:2d}. Dept {dept}: {prix_moy:,.0f}€/m² (médiane: {prix_med:,.0f}€, σ: {volatilite:,.0f}€, {nb_trans:,} trans.)")

print("\n💰 TOP 10 - Prix les plus abordables :")
for i, (_, row) in enumerate(dept_significant.tail(10).iterrows(), 1):
    dept = row['code_departement']
    prix_moy = row['prix_m2_mean']
    prix_med = row['prix_m2_median']
    volatilite = row['prix_m2_std']
    nb_trans = row['prix_m2_count']
    print(f"   {i:2d}. Dept {dept}: {prix_moy:,.0f}€/m² (médiane: {prix_med:,.0f}€, σ: {volatilite:,.0f}€, {nb_trans:,} trans.)")

# 2. Analyse par commune (top communes par volume et prix)
print("\n\n🏘️ ANALYSE PAR COMMUNE")
print("-" * 30)

# Top communes par volume de transactions
commune_analysis = df.groupby(['nom_commune', 'code_departement']).agg({
    'prix_m2': ['mean', 'median', 'count'],
    'valeur_fonciere': 'mean',
    'surface_reelle_bati': 'mean'
}).round(2)

commune_analysis.columns = ['_'.join(col).strip() for col in commune_analysis.columns]
commune_analysis = commune_analysis.reset_index()

# Communes avec volume significatif
communes_actives = commune_analysis[commune_analysis['prix_m2_count'] >= 50].copy()

print(f"📊 Communes analysées (≥50 transactions) : {len(communes_actives)}")

# Top par volume de transactions
top_volume = communes_actives.sort_values('prix_m2_count', ascending=False).head(15)
print("\n📈 TOP 15 - Communes les plus actives (volume) :")
for i, (_, row) in enumerate(top_volume.iterrows(), 1):
    commune = row['nom_commune']
    dept = row['code_departement']
    prix_moy = row['prix_m2_mean']
    nb_trans = row['prix_m2_count']
    print(f"   {i:2d}. {commune} ({dept}): {nb_trans:,} trans., {prix_moy:,.0f}€/m²")

# Top prix les plus élevés parmi les communes actives
top_prix_eleves = communes_actives.sort_values('prix_m2_mean', ascending=False).head(10)
print("\n💎 TOP 10 - Communes les plus chères (parmi les actives) :")
for i, (_, row) in enumerate(top_prix_eleves.iterrows(), 1):
    commune = row['nom_commune']
    dept = row['code_departement']
    prix_moy = row['prix_m2_mean']
    prix_med = row['prix_m2_median']
    nb_trans = row['prix_m2_count']
    print(f"   {i:2d}. {commune} ({dept}): {prix_moy:,.0f}€/m² (médiane: {prix_med:,.0f}€, {nb_trans} trans.)")

# Top prix abordables avec bonne liquidité
prix_abordables = communes_actives.sort_values('prix_m2_mean').head(15)
print("\n🏠 TOP 15 - Communes abordables avec liquidité :")
for i, (_, row) in enumerate(prix_abordables.iterrows(), 1):
    commune = row['nom_commune']
    dept = row['code_departement']
    prix_moy = row['prix_m2_mean']
    prix_med = row['prix_m2_median']
    nb_trans = row['prix_m2_count']
    print(f"   {i:2d}. {commune} ({dept}): {prix_moy:,.0f}€/m² (médiane: {prix_med:,.0f}€, {nb_trans} trans.)")

# 3. Rapport entre prix moyen et médian (indicateur de dispersion)
print("\n\n📊 ANALYSE DE LA DISPERSION DES PRIX")
print("-" * 40)

dept_significant['ratio_moy_med'] = dept_significant['prix_m2_mean'] / dept_significant['prix_m2_median']
dispersion_forte = dept_significant.sort_values('ratio_moy_med', ascending=False).head(10)

print("⚠️ Départements avec forte dispersion (ratio moyen/médian élevé) :")
for _, row in dispersion_forte.iterrows():
    dept = row['code_departement']
    ratio = row['ratio_moy_med']
    prix_moy = row['prix_m2_mean']
    prix_med = row['prix_m2_median']
    print(f"   • Dept {dept}: ratio {ratio:.2f} ({prix_moy:,.0f}€ moy. vs {prix_med:,.0f}€ méd.)")

print("\n✅ T016 - Analyse prix par commune et département complétée")

🎯 T016 - ANALYSE PRIX PAR ZONE GÉOGRAPHIQUE

🏆 CLASSEMENT DÉPARTEMENTS - ANALYSE COMPLÈTE
--------------------------------------------------
📊 Départements analysés (≥100 transactions) : 2

🥇 TOP 10 - Prix les plus élevés :
    1. Dept 94.0: 6,825€/m² (médiane: 5,136€, σ: 6,713€, 14,778.0 trans.)
    2. Dept 91.0: 4,330€/m² (médiane: 3,228€, σ: 4,912€, 14,649.0 trans.)

💰 TOP 10 - Prix les plus abordables :
    1. Dept 94.0: 6,825€/m² (médiane: 5,136€, σ: 6,713€, 14,778.0 trans.)
    2. Dept 91.0: 4,330€/m² (médiane: 3,228€, σ: 4,912€, 14,649.0 trans.)


🏘️ ANALYSE PAR COMMUNE
------------------------------
📊 Communes analysées (≥50 transactions) : 120

📈 TOP 15 - Communes les plus actives (volume) :
    1. Saint-Maur-des-Fossés (94.0): 1,272 trans., 7,994€/m²
    2. Vincennes (94.0): 830 trans., 10,349€/m²
    3. Valenton (94.0): 794 trans., 7,308€/m²
    4. Champigny-sur-Marne (94.0): 712 trans., 7,465€/m²
    5. Corbeil-Essonnes (91.0): 689 trans., 3,612€/m²
    6. Créteil (94.0): 6

In [None]:
# Visualisation des prix par département (top 20)
plt.figure(figsize=(15, 8))
top_20_depts = dept_analysis_sorted.head(20)

sns.barplot(data=top_20_depts, x='code_departement', y='prix_m2_mean')
plt.title('📊 Prix Moyen au m² par Département (Top 20)', fontsize=16, fontweight='bold')
plt.xlabel('Code Département', fontsize=12)
plt.ylabel('Prix Moyen au m² (€)', fontsize=12)
plt.xticks(rotation=45)

# Ajout des valeurs sur les barres
for i, v in enumerate(top_20_depts['prix_m2_mean']):
    plt.text(i, v + 100, f'{v:,.0f}€', ha='center', va='bottom', fontsize=10)

plt.tight_layout()
plt.show()

In [None]:
# Focus sur la région parisienne (75, 77, 78, 91, 92, 93, 94, 95)
idf_depts = ['75', '77', '78', '91', '92', '93', '94', '95']
df_idf = df[df['code_departement'].isin(idf_depts)]

if len(df_idf) > 0:
    print(f"\n🌟 Focus Région Parisienne ({len(df_idf):,} transactions) :")
    
    idf_analysis = df_idf.groupby('code_departement').agg({
        'prix_m2': ['mean', 'median', 'count'],
        'valeur_fonciere': 'mean'
    }).round(2)
    
    idf_analysis.columns = ['_'.join(col).strip() for col in idf_analysis.columns]
    idf_analysis = idf_analysis.reset_index().sort_values('prix_m2_mean', ascending=False)
    
    for _, row in idf_analysis.iterrows():
        dept = row['code_departement']
        prix_moy = row['prix_m2_mean']
        prix_med = row['prix_m2_median']
        nb_trans = row['prix_m2_count']
        print(f"   • {dept}: {prix_moy:,.0f}€/m² (médiane: {prix_med:,.0f}€/m², {nb_trans:,} trans.)")
else:
    print("\n⚠️ Pas de données pour la région parisienne dans ce dataset")

## 3. 🏠 Analyse de la Typologie des Biens

Étude des différents types de biens et de leurs caractéristiques.

In [7]:
# Analyse par type de local
if 'type_local' in df.columns:
    type_analysis = df.groupby('type_local').agg({
        'prix_m2': ['mean', 'median', 'count'],
        'surface_reelle_bati': ['mean', 'median'],
        'valeur_fonciere': ['mean', 'median']
    }).round(2)
    
    type_analysis.columns = ['_'.join(col).strip() for col in type_analysis.columns]
    type_analysis = type_analysis.reset_index().sort_values('prix_m2_count', ascending=False)
    
    print("🏠 Analyse par Type de Bien :")
    for _, row in type_analysis.iterrows():
        type_bien = row['type_local']
        prix_moy = row['prix_m2_mean']
        surface_moy = row['surface_reelle_bati_mean']
        nb_trans = row['prix_m2_count']
        print(f"   • {type_bien}: {prix_moy:,.0f}€/m², {surface_moy:.0f}m² moy. ({nb_trans:,} transactions)")

🏠 Analyse par Type de Bien :
   • Appartement: 5,878€/m², 56m² moy. (17,528 transactions)
   • Maison: 4,534€/m², 100m² moy. (9,669 transactions)
   • Local industriel. commercial ou assimilé: 7,816€/m², 413m² moy. (2,230 transactions)


### T017 - 🏠 Analyse Approfondie par Type de Propriété

Analyse détaillée des différents types de biens : appartements, maisons, locaux commerciaux/industriels.

In [8]:
# T017 - Analyse approfondie par type de propriété
print("🎯 T017 - ANALYSE PAR TYPE DE PROPRIÉTÉ")
print("=" * 50)

# 1. Analyse détaillée par type de bien
print("\n🏠 ANALYSE COMPARATIVE DES TYPES DE BIENS")
print("-" * 45)

if 'type_local' in df.columns:
    # Statistiques complètes par type
    type_detailed = df.groupby('type_local').agg({
        'prix_m2': ['mean', 'median', 'std', 'min', 'max', 'count'],
        'valeur_fonciere': ['mean', 'median', 'std'],
        'surface_reelle_bati': ['mean', 'median', 'std', 'min', 'max'],
        'nombre_pieces_principales': ['mean', 'median'] if 'nombre_pieces_principales' in df.columns else ['count', 'count']
    }).round(2)
    
    type_detailed.columns = ['_'.join(col).strip() for col in type_detailed.columns]
    type_detailed = type_detailed.reset_index()
    
    print("📊 COMPARAISON DÉTAILLÉE :")
    for _, row in type_detailed.iterrows():
        type_bien = row['type_local']
        nb_trans = row['prix_m2_count']
        pct_marche = (nb_trans / len(df)) * 100
        
        print(f"\n🏢 {type_bien.upper()}")
        print(f"   📈 Part de marché : {pct_marche:.1f}% ({nb_trans:,} transactions)")
        
        # Prix
        print(f"   💰 Prix au m² :")
        print(f"      • Moyenne : {row['prix_m2_mean']:,.0f}€/m²")
        print(f"      • Médiane : {row['prix_m2_median']:,.0f}€/m²")
        print(f"      • Écart-type : {row['prix_m2_std']:,.0f}€/m²")
        print(f"      • Min-Max : {row['prix_m2_min']:,.0f}€ - {row['prix_m2_max']:,.0f}€/m²")
        
        # Valeur foncière
        print(f"   🏠 Valeur foncière totale :")
        print(f"      • Moyenne : {row['valeur_fonciere_mean']:,.0f}€")
        print(f"      • Médiane : {row['valeur_fonciere_median']:,.0f}€")
        print(f"      • Écart-type : {row['valeur_fonciere_std']:,.0f}€")
        
        # Surface
        print(f"   📐 Surface :")
        print(f"      • Moyenne : {row['surface_reelle_bati_mean']:.1f}m²")
        print(f"      • Médiane : {row['surface_reelle_bati_median']:.1f}m²")
        print(f"      • Min-Max : {row['surface_reelle_bati_min']:.0f}m² - {row['surface_reelle_bati_max']:.0f}m²")
        
        # Pièces (si disponible)
        if 'nombre_pieces_principales' in df.columns:
            print(f"   🚪 Pièces principales :")
            print(f"      • Moyenne : {row['nombre_pieces_principales_mean']:.1f} pièces")
            print(f"      • Médiane : {row['nombre_pieces_principales_median']:.1f} pièces")

    # 2. Analyse par type et département (focus sur les 3 types principaux)
    print("\n\n🗺️ ANALYSE PAR TYPE ET DÉPARTEMENT")
    print("-" * 40)
    
    types_principaux = df['type_local'].value_counts().head(3).index.tolist()
    
    for type_bien in types_principaux:
        print(f"\n📊 {type_bien.upper()} par département :")
        
        df_type = df[df['type_local'] == type_bien]
        dept_type_analysis = df_type.groupby('code_departement').agg({
            'prix_m2': ['mean', 'count'],
            'surface_reelle_bati': 'mean'
        }).round(2)
        
        dept_type_analysis.columns = ['_'.join(col).strip() for col in dept_type_analysis.columns]
        dept_type_analysis = dept_type_analysis.reset_index()
        dept_type_analysis = dept_type_analysis[dept_type_analysis['prix_m2_count'] >= 20]  # Minimum 20 transactions
        dept_type_analysis = dept_type_analysis.sort_values('prix_m2_mean', ascending=False)
        
        print(f"   🏆 Top 5 départements les plus chers :")
        for i, (_, row) in enumerate(dept_type_analysis.head(5).iterrows(), 1):
            dept = row['code_departement']
            prix = row['prix_m2_mean']
            surface = row['surface_reelle_bati_mean']
            nb_trans = row['prix_m2_count']
            print(f"      {i}. Dept {dept}: {prix:,.0f}€/m², {surface:.0f}m² moy. ({nb_trans} trans.)")
        
        print(f"   💰 Top 5 départements les plus abordables :")
        for i, (_, row) in enumerate(dept_type_analysis.tail(5).iterrows(), 1):
            dept = row['code_departement']
            prix = row['prix_m2_mean']
            surface = row['surface_reelle_bati_mean']
            nb_trans = row['prix_m2_count']
            print(f"      {i}. Dept {dept}: {prix:,.0f}€/m², {surface:.0f}m² moy. ({nb_trans} trans.)")

    # 3. Analyse de rentabilité potentielle par type
    print("\n\n💰 ANALYSE DE RENTABILITÉ POTENTIELLE")
    print("-" * 40)
    
    # Estimation basique de la rentabilité (hypothèse : location à 3-4% de la valeur)
    for _, row in type_detailed.iterrows():
        type_bien = row['type_local']
        valeur_moy = row['valeur_fonciere_mean']
        surface_moy = row['surface_reelle_bati_mean']
        prix_m2_moy = row['prix_m2_mean']
        
        # Estimation loyer mensuel (hypothèse : 0.8-1% de la valeur par mois selon le type)
        if 'Appartement' in type_bien:
            taux_mensuel = 0.009  # 0.9% par mois pour appartement
        elif 'Maison' in type_bien:
            taux_mensuel = 0.008  # 0.8% par mois pour maison
        else:
            taux_mensuel = 0.007  # 0.7% par mois pour commercial/industriel
        
        loyer_mensuel_estime = valeur_moy * taux_mensuel
        loyer_annuel_estime = loyer_mensuel_estime * 12
        rendement_brut_estime = (loyer_annuel_estime / valeur_moy) * 100
        
        print(f"\n📈 {type_bien} :")
        print(f"   • Prix d'achat moyen : {valeur_moy:,.0f}€")
        print(f"   • Surface moyenne : {surface_moy:.0f}m²")
        print(f"   • Prix au m² moyen : {prix_m2_moy:,.0f}€/m²")
        print(f"   • Loyer mensuel estimé : {loyer_mensuel_estime:,.0f}€")
        print(f"   • Rendement brut estimé : {rendement_brut_estime:.1f}%")

    # 4. Segments de surface par type
    print("\n\n📐 SEGMENTATION PAR TAILLE")
    print("-" * 30)
    
    # Définition des segments de surface
    df['segment_surface'] = pd.cut(df['surface_reelle_bati'], 
                                  bins=[0, 30, 50, 70, 100, 150, float('inf')],
                                  labels=['<30m²', '30-50m²', '50-70m²', '70-100m²', '100-150m²', '>150m²'])
    
    for type_bien in types_principaux:
        print(f"\n🏠 {type_bien} - Répartition par taille :")
        df_type = df[df['type_local'] == type_bien]
        surface_repartition = df_type['segment_surface'].value_counts(normalize=True) * 100
        
        for segment, pct in surface_repartition.sort_index().items():
            nb_biens = len(df_type[df_type['segment_surface'] == segment])
            prix_moy_segment = df_type[df_type['segment_surface'] == segment]['prix_m2'].mean()
            print(f"   • {segment}: {pct:.1f}% ({nb_biens:,} biens, {prix_moy_segment:,.0f}€/m² moy.)")

else:
    print("⚠️ Colonne 'type_local' non disponible dans le dataset")

print("\n✅ T017 - Analyse par type de propriété complétée")

🎯 T017 - ANALYSE PAR TYPE DE PROPRIÉTÉ

🏠 ANALYSE COMPARATIVE DES TYPES DE BIENS
---------------------------------------------
📊 COMPARAISON DÉTAILLÉE :

🏢 APPARTEMENT
   📈 Part de marché : 59.6% (17,528 transactions)
   💰 Prix au m² :
      • Moyenne : 5,878€/m²
      • Médiane : 4,186€/m²
      • Écart-type : 6,306€/m²
      • Min-Max : 100€ - 50,000€/m²
   🏠 Valeur foncière totale :
      • Moyenne : 303,071€
      • Médiane : 214,790€
      • Écart-type : 341,835€
   📐 Surface :
      • Moyenne : 55.8m²
      • Médiane : 56.0m²
      • Min-Max : 6m² - 251m²
   🚪 Pièces principales :
      • Moyenne : 2.7 pièces
      • Médiane : 3.0 pièces

🏢 LOCAL INDUSTRIEL. COMMERCIAL OU ASSIMILÉ
   📈 Part de marché : 7.6% (2,230 transactions)
   💰 Prix au m² :
      • Moyenne : 7,816€/m²
      • Médiane : 3,750€/m²
      • Écart-type : 9,942€/m²
      • Min-Max : 106€ - 49,333€/m²
   🏠 Valeur foncière totale :
      • Moyenne : 1,329,002€
      • Médiane : 415,000€
      • Écart-type : 3,956,60

In [None]:
# Visualisation de la répartition par type de bien
if 'type_local' in df.columns:
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # Répartition du volume de transactions
    type_counts = df['type_local'].value_counts()
    axes[0, 0].pie(type_counts.values, labels=type_counts.index, autopct='%1.1f%%', startangle=90)
    axes[0, 0].set_title('Répartition du Volume de Transactions par Type')
    
    # Prix moyen par type
    type_prix = df.groupby('type_local')['prix_m2'].mean().sort_values(ascending=True)
    axes[0, 1].barh(type_prix.index, type_prix.values)
    axes[0, 1].set_title('Prix Moyen au m² par Type de Bien')
    axes[0, 1].set_xlabel('Prix au m² (€)')
    
    # Surface moyenne par type
    type_surface = df.groupby('type_local')['surface_reelle_bati'].mean().sort_values(ascending=True)
    axes[1, 0].barh(type_surface.index, type_surface.values)
    axes[1, 0].set_title('Surface Moyenne par Type de Bien')
    axes[1, 0].set_xlabel('Surface (m²)')
    
    # Box plot des prix par type
    main_types = df['type_local'].value_counts().head(4).index
    df_main_types = df[df['type_local'].isin(main_types)]
    sns.boxplot(data=df_main_types, x='type_local', y='prix_m2', ax=axes[1, 1])
    axes[1, 1].set_title('Distribution des Prix au m² par Type Principal')
    axes[1, 1].set_xlabel('Type de Local')
    axes[1, 1].set_ylabel('Prix au m² (€)')
    axes[1, 1].tick_params(axis='x', rotation=45)
    
    plt.tight_layout()
    plt.show()

In [None]:
# Analyse par nombre de pièces
if 'nombre_pieces_principales' in df.columns:
    pieces_analysis = df.groupby('nombre_pieces_principales').agg({
        'prix_m2': ['mean', 'count'],
        'surface_reelle_bati': 'mean',
        'valeur_fonciere': 'mean'
    }).round(2)
    
    pieces_analysis.columns = ['_'.join(col).strip() for col in pieces_analysis.columns]
    pieces_analysis = pieces_analysis.reset_index()
    
    print("\n🏠 Analyse par Nombre de Pièces :")
    for _, row in pieces_analysis.iterrows():
        nb_pieces = row['nombre_pieces_principales']
        prix_moy = row['prix_m2_mean']
        surface_moy = row['surface_reelle_bati_mean']
        nb_trans = row['prix_m2_count']
        print(f"   • {nb_pieces} pièces: {prix_moy:,.0f}€/m², {surface_moy:.0f}m² moy. ({nb_trans:,} transactions)")

## 4. ⏰ Évolution Temporelle des Prix

Analyse des tendances temporelles du marché immobilier.

In [9]:
# Évolution par année
yearly_evolution = df.groupby('annee_mutation').agg({
    'prix_m2': ['mean', 'median', 'count'],
    'valeur_fonciere': 'mean',
    'surface_reelle_bati': 'mean'
}).round(2)

yearly_evolution.columns = ['_'.join(col).strip() for col in yearly_evolution.columns]
yearly_evolution = yearly_evolution.reset_index()

print("📅 Évolution Annuelle du Marché :")
for _, row in yearly_evolution.iterrows():
    annee = int(row['annee_mutation'])
    prix_moy = row['prix_m2_mean']
    nb_trans = row['prix_m2_count']
    print(f"   • {annee}: {prix_moy:,.0f}€/m² ({nb_trans:,} transactions)")

# Calcul de la croissance annuelle
yearly_evolution['croissance_prix'] = yearly_evolution['prix_m2_mean'].pct_change() * 100
print("\n📈 Taux de Croissance Annuel du Prix au m² :")
for _, row in yearly_evolution.iterrows():
    if not pd.isna(row['croissance_prix']):
        annee = int(row['annee_mutation'])
        croissance = row['croissance_prix']
        print(f"   • {annee}: {croissance:+.1f}%")

📅 Évolution Annuelle du Marché :
   • 2024: 5,583€/m² (29,427.0 transactions)

📈 Taux de Croissance Annuel du Prix au m² :


### T018 - ⏰ Analyse Temporelle Approfondie

Analyse détaillée des tendances temporelles : évolution des prix, volumes de vente, saisonnalité.

In [10]:
# T018 - Analyse temporelle approfondie
print("🎯 T018 - ANALYSE TEMPORELLE APPROFONDIE")
print("=" * 50)

# Vérifier la plage temporelle disponible
min_date = df['date_mutation'].min()
max_date = df['date_mutation'].max()
nb_jours = (max_date - min_date).days
nb_annees = len(df['annee_mutation'].unique())

print(f"📅 PÉRIODE ANALYSÉE")
print(f"   • Début : {min_date.date()}")
print(f"   • Fin : {max_date.date()}")
print(f"   • Durée : {nb_jours} jours ({nb_annees} année(s))")
print(f"   • Années disponibles : {sorted(df['annee_mutation'].unique())}")

# 1. Analyse mensuelle détaillée
print("\n\n📊 ANALYSE MENSUELLE")
print("-" * 25)

monthly_detailed = df.groupby(['annee_mutation', 'mois_mutation']).agg({
    'prix_m2': ['mean', 'median', 'count'],
    'valeur_fonciere': ['mean', 'median'],
    'surface_reelle_bati': 'mean'
}).round(2)

monthly_detailed.columns = ['_'.join(col).strip() for col in monthly_detailed.columns]
monthly_detailed = monthly_detailed.reset_index()
monthly_detailed['periode'] = monthly_detailed['annee_mutation'].astype(str) + '-' + monthly_detailed['mois_mutation'].astype(str).str.zfill(2)

print("📈 Évolution mensuelle des prix et volumes :")
mois_noms = ['Jan', 'Fév', 'Mar', 'Avr', 'Mai', 'Jun', 'Jul', 'Aoû', 'Sep', 'Oct', 'Nov', 'Déc']

for _, row in monthly_detailed.iterrows():
    annee = int(row['annee_mutation'])
    mois = int(row['mois_mutation'])
    periode = row['periode']
    prix_moy = row['prix_m2_mean']
    nb_trans = row['prix_m2_count']
    mois_nom = mois_noms[mois-1]
    print(f"   • {mois_nom} {annee}: {prix_moy:,.0f}€/m² ({nb_trans:,} transactions)")

# 2. Analyse trimestrielle
print("\n\n📅 ANALYSE TRIMESTRIELLE")
print("-" * 30)

quarterly_analysis = df.groupby(['annee_mutation', 'trimestre_mutation']).agg({
    'prix_m2': ['mean', 'median', 'count'],
    'valeur_fonciere': ['mean', 'sum'],
    'surface_reelle_bati': 'mean'
}).round(2)

quarterly_analysis.columns = ['_'.join(col).strip() for col in quarterly_analysis.columns]
quarterly_analysis = quarterly_analysis.reset_index()

print("📊 Évolution trimestrielle :")
for _, row in quarterly_analysis.iterrows():
    annee = int(row['annee_mutation'])
    trimestre = int(row['trimestre_mutation'])
    prix_moy = row['prix_m2_mean']
    prix_med = row['prix_m2_median']
    nb_trans = row['prix_m2_count']
    volume_total = row['valeur_fonciere_sum']
    print(f"   • T{trimestre} {annee}: {prix_moy:,.0f}€/m² (médiane: {prix_med:,.0f}€, {nb_trans:,} trans., {volume_total/1000000:.1f}M€)")

# 3. Analyse de saisonnalité
print("\n\n🌊 ANALYSE DE SAISONNALITÉ")
print("-" * 30)

# Saisonnalité par mois (toutes années confondues)
seasonal_pattern = df.groupby('mois_mutation').agg({
    'prix_m2': ['mean', 'count'],
    'valeur_fonciere': 'mean'
}).round(2)

seasonal_pattern.columns = ['_'.join(col).strip() for col in seasonal_pattern.columns]
seasonal_pattern = seasonal_pattern.reset_index()

print("📈 Profil saisonnier des prix (moyenne par mois) :")
prix_moyen_annuel = df['prix_m2'].mean()
for _, row in seasonal_pattern.iterrows():
    mois = int(row['mois_mutation'])
    prix_moy = row['prix_m2_mean']
    nb_trans = row['prix_m2_count']
    variation_vs_moyenne = ((prix_moy / prix_moyen_annuel) - 1) * 100
    mois_nom = mois_noms[mois-1]
    print(f"   • {mois_nom}: {prix_moy:,.0f}€/m² ({variation_vs_moyenne:+.1f}% vs moyenne, {nb_trans:,} trans.)")

# Identification des mois les plus/moins chers
mois_plus_cher = seasonal_pattern.loc[seasonal_pattern['prix_m2_mean'].idxmax()]
mois_moins_cher = seasonal_pattern.loc[seasonal_pattern['prix_m2_mean'].idxmin()]

print(f"\n🏆 Mois le plus cher : {mois_noms[int(mois_plus_cher['mois_mutation'])-1]} ({mois_plus_cher['prix_m2_mean']:,.0f}€/m²)")
print(f"💰 Mois le moins cher : {mois_noms[int(mois_moins_cher['mois_mutation'])-1]} ({mois_moins_cher['prix_m2_mean']:,.0f}€/m²)")

ecart_saisonnier = mois_plus_cher['prix_m2_mean'] - mois_moins_cher['prix_m2_mean']
print(f"📊 Écart saisonnier : {ecart_saisonnier:,.0f}€/m² ({ecart_saisonnier/mois_moins_cher['prix_m2_mean']*100:.1f}%)")

# 4. Analyse de la volatilité par période
print("\n\n📈 ANALYSE DE VOLATILITÉ")
print("-" * 28)

# Volatilité mensuelle
volatility_monthly = df.groupby(['annee_mutation', 'mois_mutation'])['prix_m2'].std().reset_index()
volatility_monthly['periode'] = volatility_monthly['annee_mutation'].astype(str) + '-' + volatility_monthly['mois_mutation'].astype(str).str.zfill(2)

print("📊 Volatilité mensuelle des prix (écart-type) :")
for _, row in volatility_monthly.iterrows():
    periode = row['periode']
    volatilite = row['prix_m2']
    if not pd.isna(volatilite):
        print(f"   • {periode}: σ = {volatilite:,.0f}€/m²")

# 5. Analyse des tendances par type de bien
print("\n\n🏠 TENDANCES PAR TYPE DE BIEN")
print("-" * 35)

if 'type_local' in df.columns:
    types_principaux = df['type_local'].value_counts().head(3).index.tolist()
    
    for type_bien in types_principaux:
        print(f"\n📊 {type_bien} :")
        
        df_type = df[df['type_local'] == type_bien]
        evolution_type = df_type.groupby(['annee_mutation', 'mois_mutation']).agg({
            'prix_m2': ['mean', 'count'],
            'valeur_fonciere': 'mean'
        }).round(2)
        
        evolution_type.columns = ['_'.join(col).strip() for col in evolution_type.columns]
        evolution_type = evolution_type.reset_index()
        
        # Statistiques globales pour ce type
        prix_moy_type = df_type['prix_m2'].mean()
        nb_trans_type = len(df_type)
        
        print(f"   • Prix moyen période : {prix_moy_type:,.0f}€/m²")
        print(f"   • Total transactions : {nb_trans_type:,}")
        
        # Évolution mensuelle récente (derniers mois disponibles)
        evolution_recent = evolution_type.tail(6)  # 6 derniers mois
        if len(evolution_recent) > 1:
            print(f"   • Évolution récente (6 derniers mois) :")
            for _, row in evolution_recent.iterrows():
                annee = int(row['annee_mutation'])
                mois = int(row['mois_mutation'])
                prix = row['prix_m2_mean']
                nb_trans = row['prix_m2_count']
                mois_nom = mois_noms[mois-1]
                print(f"     - {mois_nom} {annee}: {prix:,.0f}€/m² ({nb_trans} trans.)")

# 6. Résumé des tendances temporelles
print("\n\n📋 RÉSUMÉ TEMPOREL")
print("-" * 20)

# Calculs de tendance globale
prix_debut_periode = monthly_detailed.iloc[0]['prix_m2_mean']
prix_fin_periode = monthly_detailed.iloc[-1]['prix_m2_mean']
evolution_globale = ((prix_fin_periode / prix_debut_periode) - 1) * 100

transactions_debut = monthly_detailed.iloc[0]['prix_m2_count']
transactions_fin = monthly_detailed.iloc[-1]['prix_m2_count']
evolution_volume = ((transactions_fin / transactions_debut) - 1) * 100

print(f"🎯 TENDANCES PRINCIPALES :")
print(f"   • Évolution prix : {evolution_globale:+.1f}% sur la période")
print(f"   • Évolution volume : {evolution_volume:+.1f}% sur la période")
print(f"   • Prix moyen global : {df['prix_m2'].mean():,.0f}€/m²")
print(f"   • Volume total analysé : {len(df):,} transactions")
print(f"   • Montant total : {df['valeur_fonciere'].sum()/1000000:.1f} millions €")

print("\n✅ T018 - Analyse temporelle approfondie complétée")

🎯 T018 - ANALYSE TEMPORELLE APPROFONDIE
📅 PÉRIODE ANALYSÉE
   • Début : 2024-01-02
   • Fin : 2024-12-31
   • Durée : 364 jours (1 année(s))
   • Années disponibles : [np.int64(2024)]


📊 ANALYSE MENSUELLE
-------------------------
📈 Évolution mensuelle des prix et volumes :
   • Jan 2024: 6,389€/m² (2,687 transactions)
   • Fév 2024: 4,677€/m² (1,979 transactions)
   • Mar 2024: 5,374€/m² (2,156 transactions)
   • Avr 2024: 5,200€/m² (2,233 transactions)
   • Mai 2024: 5,504€/m² (2,668 transactions)
   • Jun 2024: 5,358€/m² (2,684 transactions)
   • Jul 2024: 5,492€/m² (2,524 transactions)
   • Aoû 2024: 4,878€/m² (2,011 transactions)
   • Sep 2024: 6,135€/m² (2,815 transactions)
   • Oct 2024: 5,307€/m² (2,309 transactions)
   • Nov 2024: 6,206€/m² (2,248 transactions)
   • Déc 2024: 5,932€/m² (3,113 transactions)


📅 ANALYSE TRIMESTRIELLE
------------------------------
📊 Évolution trimestrielle :
   • T1 2024: 5,572€/m² (médiane: 4,186€, 6,822.0 trans., 2696.8M€)
   • T2 2024: 5,363

## T019 - 🔍 Détection d'Anomalies et Outliers

Identification des transactions atypiques et des anomalies du marché pour détecter les opportunités ou les erreurs.

In [12]:
# T019 - Détection d'anomalies et outliers
print("🎯 T019 - DÉTECTION D'ANOMALIES ET OUTLIERS")
print("=" * 50)

# 1. Détection d'outliers statistiques sur les prix au m²
print("\n🔍 ANALYSE DES OUTLIERS - PRIX AU M²")
print("-" * 40)

# Calcul des seuils IQR (Interquartile Range)
Q1_prix = df['prix_m2'].quantile(0.25)
Q3_prix = df['prix_m2'].quantile(0.75)
IQR_prix = Q3_prix - Q1_prix
seuil_inf_prix = Q1_prix - 1.5 * IQR_prix
seuil_sup_prix = Q3_prix + 1.5 * IQR_prix

# Seuils plus stricts (3 * IQR)
seuil_inf_strict_prix = Q1_prix - 3 * IQR_prix
seuil_sup_strict_prix = Q3_prix + 3 * IQR_prix

outliers_prix = df[(df['prix_m2'] < seuil_inf_prix) | (df['prix_m2'] > seuil_sup_prix)]
outliers_prix_stricts = df[(df['prix_m2'] < seuil_inf_strict_prix) | (df['prix_m2'] > seuil_sup_strict_prix)]

print(f"📊 Statistiques des outliers prix au m² :")
print(f"   • Q1 : {Q1_prix:,.0f}€/m²")
print(f"   • Q3 : {Q3_prix:,.0f}€/m²")
print(f"   • IQR : {IQR_prix:,.0f}€/m²")
print(f"   • Seuil inférieur (1.5*IQR) : {seuil_inf_prix:,.0f}€/m²")
print(f"   • Seuil supérieur (1.5*IQR) : {seuil_sup_prix:,.0f}€/m²")
print(f"   • Outliers détectés : {len(outliers_prix):,} ({len(outliers_prix)/len(df)*100:.1f}% du marché)")
print(f"   • Outliers stricts (3*IQR) : {len(outliers_prix_stricts):,} ({len(outliers_prix_stricts)/len(df)*100:.2f}% du marché)")

# Analyse des outliers hauts (prix très élevés)
outliers_hauts = outliers_prix[outliers_prix['prix_m2'] > seuil_sup_prix]
print(f"\n🏆 OUTLIERS HAUTS - Prix Exceptionnellement Élevés ({len(outliers_hauts):,} transactions)")
if len(outliers_hauts) > 0:
    print(f"   • Prix minimum : {outliers_hauts['prix_m2'].min():,.0f}€/m²")
    print(f"   • Prix maximum : {outliers_hauts['prix_m2'].max():,.0f}€/m²")
    print(f"   • Prix moyen : {outliers_hauts['prix_m2'].mean():,.0f}€/m²")
    
    # Top 10 des prix les plus élevés
    top_prix = outliers_hauts.nlargest(10, 'prix_m2')[['nom_commune', 'code_departement', 'prix_m2', 'valeur_fonciere', 'surface_reelle_bati', 'type_local']]
    print(f"   • Top 10 prix les plus élevés :")
    for i, (_, row) in enumerate(top_prix.iterrows(), 1):
        commune = row['nom_commune']
        dept = row['code_departement']
        prix = row['prix_m2']
        valeur = row['valeur_fonciere']
        surface = row['surface_reelle_bati']
        type_bien = row['type_local']
        print(f"     {i:2d}. {commune} ({dept}): {prix:,.0f}€/m², {valeur:,.0f}€, {surface:.0f}m², {type_bien}")

# Analyse des outliers bas (prix très faibles)
outliers_bas = outliers_prix[outliers_prix['prix_m2'] < seuil_inf_prix]
print(f"\n💰 OUTLIERS BAS - Prix Exceptionnellement Faibles ({len(outliers_bas):,} transactions)")
if len(outliers_bas) > 0:
    print(f"   • Prix minimum : {outliers_bas['prix_m2'].min():,.0f}€/m²")
    print(f"   • Prix maximum : {outliers_bas['prix_m2'].max():,.0f}€/m²")
    print(f"   • Prix moyen : {outliers_bas['prix_m2'].mean():,.0f}€/m²")
    
    # Top 10 des prix les plus bas
    bottom_prix = outliers_bas.nsmallest(10, 'prix_m2')[['nom_commune', 'code_departement', 'prix_m2', 'valeur_fonciere', 'surface_reelle_bati', 'type_local']]
    print(f"   • Top 10 prix les plus bas :")
    for i, (_, row) in enumerate(bottom_prix.iterrows(), 1):
        commune = row['nom_commune']
        dept = row['code_departement']
        prix = row['prix_m2']
        valeur = row['valeur_fonciere']
        surface = row['surface_reelle_bati']
        type_bien = row['type_local']
        print(f"     {i:2d}. {commune} ({dept}): {prix:,.0f}€/m², {valeur:,.0f}€, {surface:.0f}m², {type_bien}")

# 2. Détection d'anomalies sur les surfaces
print("\n\n📐 ANALYSE DES OUTLIERS - SURFACES")
print("-" * 40)

Q1_surface = df['surface_reelle_bati'].quantile(0.25)
Q3_surface = df['surface_reelle_bati'].quantile(0.75)
IQR_surface = Q3_surface - Q1_surface
seuil_inf_surface = Q1_surface - 1.5 * IQR_surface
seuil_sup_surface = Q3_surface + 1.5 * IQR_surface

outliers_surface = df[(df['surface_reelle_bati'] < seuil_inf_surface) | (df['surface_reelle_bati'] > seuil_sup_surface)]

print(f"📊 Statistiques des outliers surfaces :")
print(f"   • Q1 : {Q1_surface:.1f}m²")
print(f"   • Q3 : {Q3_surface:.1f}m²")
print(f"   • IQR : {IQR_surface:.1f}m²")
print(f"   • Seuil inférieur : {seuil_inf_surface:.1f}m²")
print(f"   • Seuil supérieur : {seuil_sup_surface:.1f}m²")
print(f"   • Outliers détectés : {len(outliers_surface):,} ({len(outliers_surface)/len(df)*100:.1f}% du marché)")

# Surfaces exceptionnellement grandes
grandes_surfaces = outliers_surface[outliers_surface['surface_reelle_bati'] > seuil_sup_surface]
if len(grandes_surfaces) > 0:
    print(f"\n🏢 Surfaces exceptionnellement grandes (>{seuil_sup_surface:.0f}m²) : {len(grandes_surfaces):,} biens")
    top_surfaces = grandes_surfaces.nlargest(5, 'surface_reelle_bati')[['nom_commune', 'surface_reelle_bati', 'prix_m2', 'valeur_fonciere', 'type_local']]
    for i, (_, row) in enumerate(top_surfaces.iterrows(), 1):
        print(f"   {i}. {row['nom_commune']}: {row['surface_reelle_bati']:.0f}m², {row['prix_m2']:,.0f}€/m², {row['type_local']}")

# 3. Détection d'anomalies temporelles
print("\n\n⏰ ANOMALIES TEMPORELLES")
print("-" * 25)

# Transactions avec dates suspectes ou volumes anormaux
daily_volumes = df.groupby('date_mutation').size().reset_index(name='nb_transactions')
daily_volumes['is_weekend'] = daily_volumes['date_mutation'].dt.weekday >= 5  # Samedi et dimanche

# Jours avec beaucoup de transactions (potentielles anomalies administratives)
high_volume_days = daily_volumes[daily_volumes['nb_transactions'] > daily_volumes['nb_transactions'].quantile(0.95)]
print(f"📅 Jours à fort volume (>95e percentile) : {len(high_volume_days)} jours")

if len(high_volume_days) > 0:
    print("   Top 5 jours les plus actifs :")
    top_days = high_volume_days.nlargest(5, 'nb_transactions')
    for _, row in top_days.iterrows():
        date = row['date_mutation'].strftime('%Y-%m-%d')
        nb_trans = row['nb_transactions']
        day_name = row['date_mutation'].strftime('%A')
        print(f"   • {date} ({day_name}): {nb_trans:,} transactions")

# Transactions en week-end (potentiellement suspectes)
weekend_transactions = daily_volumes[daily_volumes['is_weekend'] & (daily_volumes['nb_transactions'] > 0)]
print(f"\n📊 Transactions en week-end : {weekend_transactions['nb_transactions'].sum():,} transactions sur {len(weekend_transactions)} jours")

# 4. Anomalies géographiques
print("\n\n🗺️ ANOMALIES GÉOGRAPHIQUES")
print("-" * 30)

# Communes avec écarts de prix importants par rapport à leur département
dept_avg_prices = df.groupby('code_departement')['prix_m2'].mean().to_dict()
df['prix_dept_moyen'] = df['code_departement'].map(dept_avg_prices)
df['ecart_vs_dept'] = ((df['prix_m2'] / df['prix_dept_moyen']) - 1) * 100

# Communes significativement plus chères que leur département
communes_cheres = df.groupby('nom_commune').agg({
    'ecart_vs_dept': 'mean',
    'prix_m2': ['mean', 'count'],
    'code_departement': 'first'
}).round(2)

# Correction du flattening des colonnes
communes_cheres.columns = ['ecart_vs_dept', 'prix_m2_mean', 'prix_m2_count', 'code_departement']
communes_cheres = communes_cheres.reset_index()
communes_cheres = communes_cheres[communes_cheres['prix_m2_count'] >= 10]  # Au moins 10 transactions

surprimes_importantes = communes_cheres[communes_cheres['ecart_vs_dept'] > 50].sort_values('ecart_vs_dept', ascending=False)
print(f"🏆 Communes avec surprime >50% vs département ({len(surprimes_importantes)}) :")
for i, (_, row) in enumerate(surprimes_importantes.head(10).iterrows(), 1):
    commune = row['nom_commune']
    dept = row['code_departement']
    ecart = row['ecart_vs_dept']
    prix = row['prix_m2_mean']
    nb_trans = row['prix_m2_count']
    print(f"   {i:2d}. {commune} ({dept}): +{ecart:.1f}% ({prix:,.0f}€/m², {nb_trans} trans.)")

# Communes significativement moins chères
decotes_importantes = communes_cheres[communes_cheres['ecart_vs_dept'] < -30].sort_values('ecart_vs_dept')
print(f"\n💰 Communes avec décote >30% vs département ({len(decotes_importantes)}) :")
for i, (_, row) in enumerate(decotes_importantes.head(10).iterrows(), 1):
    commune = row['nom_commune']
    dept = row['code_departement']
    ecart = row['ecart_vs_dept']
    prix = row['prix_m2_mean']
    nb_trans = row['prix_m2_count']
    print(f"   {i:2d}. {commune} ({dept}): {ecart:.1f}% ({prix:,.0f}€/m², {nb_trans} trans.)")

# 5. Résumé des anomalies pour l'investisseur
print("\n\n🎯 RÉSUMÉ POUR L'INVESTISSEUR")
print("-" * 35)

print("⚠️ POINTS D'ATTENTION :")
print(f"   • Outliers prix hauts : {len(outliers_hauts):,} transactions (vérifier cohérence)")
print(f"   • Outliers prix bas : {len(outliers_bas):,} transactions (opportunités potentielles)")
print(f"   • Anomalies surfaces : {len(outliers_surface):,} biens (vérifier données)")
print(f"   • Communes surprime >50% : {len(surprimes_importantes)} (marchés de luxe)")
print(f"   • Communes décote >30% : {len(decotes_importantes)} (opportunités potentielles)")

print(f"\n💡 RECOMMANDATIONS :")
print(f"   • Examiner les prix <{Q1_prix:,.0f}€/m² pour des opportunités")
print(f"   • Éviter les prix >{seuil_sup_prix:,.0f}€/m² sauf justification")
print(f"   • Vérifier la cohérence des données pour les outliers stricts")
print(f"   • Analyser les communes à décote importante pour des aubaines")

print("\n✅ T019 - Détection d'anomalies et outliers complétée")

🎯 T019 - DÉTECTION D'ANOMALIES ET OUTLIERS

🔍 ANALYSE DES OUTLIERS - PRIX AU M²
----------------------------------------
📊 Statistiques des outliers prix au m² :
   • Q1 : 2,921€/m²
   • Q3 : 5,854€/m²
   • IQR : 2,932€/m²
   • Seuil inférieur (1.5*IQR) : -1,477€/m²
   • Seuil supérieur (1.5*IQR) : 10,252€/m²
   • Outliers détectés : 2,341 (8.0% du marché)
   • Outliers stricts (3*IQR) : 1,450 (4.93% du marché)

🏆 OUTLIERS HAUTS - Prix Exceptionnellement Élevés (2,341 transactions)
   • Prix minimum : 10,266€/m²
   • Prix maximum : 50,000€/m²
   • Prix moyen : 21,815€/m²
   • Top 10 prix les plus élevés :
      1. Vincennes (94.0): 50,000€/m², 1,400,000€, 28m², Appartement
      2. Le Kremlin-Bicêtre (94.0): 50,000€/m², 1,100,000€, 22m², Appartement
      3. Vincennes (94.0): 50,000€/m², 2,050,000€, 41m², Appartement
      4. Vincennes (94.0): 50,000€/m², 2,050,000€, 41m², Appartement
      5. Champigny-sur-Marne (94.0): 50,000€/m², 1,600,000€, 32m², Appartement
      6. Champigny-sur-

## T020 - 🔧 Fonctions Statistiques Utilitaires

Test et démonstration des nouvelles fonctions statistiques ajoutées à `dvf_utils.py`.

In [13]:
# T020 - Test des nouvelles fonctions statistiques utilitaires
print("🎯 T020 - FONCTIONS STATISTIQUES UTILITAIRES")
print("=" * 50)

# Importer la nouvelle classe StatisticalAnalyzer
import sys
import importlib
sys.path.append('../src')

# Recharger le module pour prendre en compte les nouvelles fonctions
if 'dvf_utils' in sys.modules:
    importlib.reload(sys.modules['dvf_utils'])

from dvf_utils import StatisticalAnalyzer

print("✅ Nouvelles fonctions statistiques chargées")

# Test 1: Statistiques descriptives complètes
print("\n🔍 TEST 1 - Statistiques Descriptives Complètes")
print("-" * 50)

stats_results = StatisticalAnalyzer.comprehensive_descriptive_stats(df)
print("📊 Variables analysées :")
for var, stats in stats_results.items():
    print(f"\n• {var.upper()}:")
    print(f"   - Moyenne: {stats['mean']:,.2f}")
    print(f"   - Médiane: {stats['median']:,.2f}")
    print(f"   - Écart-type: {stats['std']:,.2f}")
    print(f"   - Asymétrie: {stats['skewness']:.3f}")
    print(f"   - Coefficient de variation: {stats['cv']:.1f}%")

# Test 2: Analyse géographique
print("\n🗺️ TEST 2 - Analyse Géographique")
print("-" * 35)

geo_results = StatisticalAnalyzer.geographical_price_analysis(df)
if 'departements' in geo_results:
    print(f"📊 {len(geo_results['departements'])} départements analysés")
    top_5_depts = geo_results['departements'].head(5)
    print("🏆 Top 5 départements (prix au m²):")
    for _, row in top_5_depts.iterrows():
        dept = row['code_departement']
        prix = row['prix_m2_mean']
        nb_trans = row['prix_m2_count']
        print(f"   • Dept {dept}: {prix:,.0f}€/m² ({nb_trans:,} transactions)")

# Test 3: Analyse par type de propriété
print("\n🏠 TEST 3 - Analyse par Type de Propriété")
print("-" * 40)

property_results = StatisticalAnalyzer.property_type_analysis(df)
if 'global_analysis' in property_results:
    print("📊 Analyse par type de bien:")
    for _, row in property_results['global_analysis'].iterrows():
        type_bien = row['type_local']
        prix_moy = row['prix_m2_mean']
        nb_trans = row['prix_m2_count']
        surface_moy = row['surface_reelle_bati_mean']
        print(f"   • {type_bien}: {prix_moy:,.0f}€/m², {surface_moy:.0f}m² moy., {nb_trans:,} biens")

# Test 4: Détection d'outliers
print("\n🔍 TEST 4 - Détection d'Outliers")
print("-" * 30)

outliers_results = StatisticalAnalyzer.outlier_detection(df, ['prix_m2', 'surface_reelle_bati'])
for var, outlier_info in outliers_results.items():
    print(f"\n📊 {var.upper()}:")
    print(f"   • Méthode: {outlier_info['method']}")
    print(f"   • Outliers détectés: {outlier_info['outliers_count']:,} ({outlier_info['outliers_percentage']:.1f}%)")
    if 'upper_bound' in outlier_info:
        print(f"   • Seuil supérieur: {outlier_info['upper_bound']:,.0f}")
        print(f"   • Seuil inférieur: {outlier_info['lower_bound']:,.0f}")

# Test 5: Analyse d'investissement
print("\n💰 TEST 5 - Analyse d'Investissement")
print("-" * 35)

investment_results = StatisticalAnalyzer.investment_market_analysis(df)
if 'yield_analysis' in investment_results:
    print("📈 Rendements estimés par type:")
    for type_analysis in investment_results['yield_analysis']:
        type_bien = type_analysis['type_bien']
        rendement = type_analysis['rendement_brut_estime']
        prix_moyen = type_analysis['prix_achat_moyen']
        loyer_estime = type_analysis['loyer_mensuel_estime']
        print(f"   • {type_bien}:")
        print(f"     - Prix moyen: {prix_moyen:,.0f}€")
        print(f"     - Loyer estimé: {loyer_estime:,.0f}€/mois")
        print(f"     - Rendement brut: {rendement:.1f}%")

if 'surface_segments' in investment_results:
    print(f"\n📐 Analyse par segment de surface:")
    for _, row in investment_results['surface_segments'].iterrows():
        segment = row['segment_surface']
        prix_m2 = row['prix_m2_mean']
        nb_biens = row['prix_m2_count']
        if pd.notna(prix_m2):
            print(f"   • {segment}: {prix_m2:,.0f}€/m² ({nb_biens:,} biens)")

print("\n✅ T020 - Extension dvf_utils.py avec fonctions statistiques complétée")
print("\n🎯 RÉSUMÉ DES NOUVELLES FONCTIONS AJOUTÉES :")
print("   • StatisticalAnalyzer.comprehensive_descriptive_stats() - T015")
print("   • StatisticalAnalyzer.geographical_price_analysis() - T016") 
print("   • StatisticalAnalyzer.property_type_analysis() - T017")
print("   • StatisticalAnalyzer.temporal_evolution_analysis() - T018")
print("   • StatisticalAnalyzer.outlier_detection() - T019")
print("   • StatisticalAnalyzer.market_anomalies_detection() - T019")
print("   • StatisticalAnalyzer.investment_market_analysis() - Bonus")

🎯 T020 - FONCTIONS STATISTIQUES UTILITAIRES
✅ Nouvelles fonctions statistiques chargées

🔍 TEST 1 - Statistiques Descriptives Complètes
--------------------------------------------------
📊 Variables analysées :

• VALEUR_FONCIERE:
   - Moyenne: 417,744.55
   - Médiane: 270,000.00
   - Écart-type: 1,164,996.52
   - Asymétrie: 32.216
   - Coefficient de variation: 278.9%

• PRIX_M2:
   - Moyenne: 5,583.21
   - Médiane: 3,955.22
   - Écart-type: 6,016.54
   - Asymétrie: 4.209
   - Coefficient de variation: 107.8%

• SURFACE_REELLE_BATI:
   - Moyenne: 97.31
   - Médiane: 66.00
   - Écart-type: 342.25
   - Asymétrie: 32.874
   - Coefficient de variation: 351.7%

• NOMBRE_PIECES_PRINCIPALES:
   - Moyenne: 3.05
   - Médiane: 3.00
   - Écart-type: 1.65
   - Asymétrie: 0.282
   - Coefficient de variation: 54.3%

🗺️ TEST 2 - Analyse Géographique
-----------------------------------
📊 2 départements analysés
🏆 Top 5 départements (prix au m²):
   • Dept 94.0: 6,825€/m² (14,778.0 transactions)
   • 

In [None]:
# Visualisation de l'évolution temporelle
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# Évolution du prix moyen au m²
axes[0, 0].plot(yearly_evolution['annee_mutation'], yearly_evolution['prix_m2_mean'], 
                marker='o', linewidth=2, markersize=8)
axes[0, 0].set_title('Évolution du Prix Moyen au m²', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Année')
axes[0, 0].set_ylabel('Prix au m² (€)')
axes[0, 0].grid(True, alpha=0.3)

# Évolution du nombre de transactions
axes[0, 1].bar(yearly_evolution['annee_mutation'], yearly_evolution['prix_m2_count'])
axes[0, 1].set_title('Évolution du Volume de Transactions', fontsize=14, fontweight='bold')
axes[0, 1].set_xlabel('Année')
axes[0, 1].set_ylabel('Nombre de Transactions')

# Évolution par trimestre
quarterly_evolution = df.groupby(['annee_mutation', 'trimestre_mutation'])['prix_m2'].mean().reset_index()
quarterly_evolution['periode'] = quarterly_evolution['annee_mutation'].astype(str) + '-T' + quarterly_evolution['trimestre_mutation'].astype(str)
axes[1, 0].plot(range(len(quarterly_evolution)), quarterly_evolution['prix_m2'], marker='o')
axes[1, 0].set_title('Évolution Trimestrielle du Prix au m²', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Période')
axes[1, 0].set_ylabel('Prix au m² (€)')
axes[1, 0].set_xticks(range(0, len(quarterly_evolution), 4))
axes[1, 0].set_xticklabels([quarterly_evolution.iloc[i]['periode'] for i in range(0, len(quarterly_evolution), 4)], rotation=45)
axes[1, 0].grid(True, alpha=0.3)

# Saisonnalité par mois
monthly_pattern = df.groupby('mois_mutation')['prix_m2'].mean()
month_names = ['Jan', 'Fév', 'Mar', 'Avr', 'Mai', 'Jun', 'Jul', 'Aoû', 'Sep', 'Oct', 'Nov', 'Déc']
axes[1, 1].bar(monthly_pattern.index, monthly_pattern.values)
axes[1, 1].set_title('Saisonnalité des Prix (Moyenne par Mois)', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('Mois')
axes[1, 1].set_ylabel('Prix Moyen au m² (€)')
axes[1, 1].set_xticks(range(1, 13))
axes[1, 1].set_xticklabels(month_names, rotation=45)

plt.tight_layout()
plt.show()

## 5. 🎯 Identification des Opportunités d'Investissement

Analyse des zones et types de biens les plus attractifs.

In [None]:
# Top communes par volume de transactions (liquidité du marché)
analyzer = GeographicAnalyzer()
top_communes_volume = analyzer.get_top_communes(df, metric='prix_m2', n_top=20, ascending=True)

print("🏆 Top 20 Communes - Prix Attractifs (avec liquidité) :")
for i, row in top_communes_volume.iterrows():
    commune = row['commune']
    prix_moy = row['prix_m2_moyen']
    nb_trans = row['nb_transactions']
    print(f"   {i+1:2d}. {commune}: {prix_moy:,.0f}€/m² ({nb_trans} transactions)")

In [None]:
# Analyse des départements avec le meilleur rapport qualité-prix
# (prix modéré + volume de transactions significatif)
dept_opportunity = dept_analysis_sorted[
    (dept_analysis_sorted['prix_m2_count'] >= 100) &  # Au moins 100 transactions
    (dept_analysis_sorted['prix_m2_mean'] <= 4000)    # Prix inférieur à 4000€/m²
].head(15)

print("\n💎 Départements avec Opportunités (Prix < 4000€/m² + Volume) :")
for _, row in dept_opportunity.iterrows():
    dept = row['code_departement']
    prix_moy = row['prix_m2_mean']
    prix_med = row['prix_m2_median']
    nb_trans = row['prix_m2_count']
    print(f"   • Dept {dept}: {prix_moy:,.0f}€/m² (médiane: {prix_med:,.0f}€/m², {nb_trans:,} trans.)")

In [None]:
# Analyse de la volatilité des prix par département
dept_volatility = dept_analysis_sorted[
    dept_analysis_sorted['prix_m2_count'] >= 50
].copy()

dept_volatility['coefficient_variation'] = (dept_volatility['prix_m2_std'] / dept_volatility['prix_m2_mean']) * 100
dept_volatility_sorted = dept_volatility.sort_values('coefficient_variation')

print("\n📊 Départements les Plus Stables (Faible Volatilité) :")
for _, row in dept_volatility_sorted.head(10).iterrows():
    dept = row['code_departement']
    cv = row['coefficient_variation']
    prix_moy = row['prix_m2_mean']
    print(f"   • Dept {dept}: CV {cv:.1f}% (Prix moy: {prix_moy:,.0f}€/m²)")

print("\n⚠️ Départements les Plus Volatils :")
for _, row in dept_volatility_sorted.tail(5).iterrows():
    dept = row['code_departement']
    cv = row['coefficient_variation']
    prix_moy = row['prix_m2_mean']
    print(f"   • Dept {dept}: CV {cv:.1f}% (Prix moy: {prix_moy:,.0f}€/m²)")

## 6. 🔍 Analyses Spécialisées pour l'Investissement Locatif

Focus sur les critères spécifiques à l'investissement locatif.

In [None]:
# Analyse des biens idéaux pour la location (2-4 pièces, 30-80m²)
if 'nombre_pieces_principales' in df.columns:
    df_locatif = df[
        (df['nombre_pieces_principales'].between(2, 4)) &
        (df['surface_reelle_bati'].between(30, 80))
    ]
    
    print(f"🎯 Biens Optimaux pour la Location (2-4 pièces, 30-80m²) :")
    print(f"   • Volume disponible : {len(df_locatif):,} biens ({len(df_locatif)/len(df)*100:.1f}% du marché)")
    
    # Top départements pour ce segment
    locatif_dept = df_locatif.groupby('code_departement').agg({
        'prix_m2': ['mean', 'count'],
        'valeur_fonciere': 'mean'
    }).round(2)
    
    locatif_dept.columns = ['_'.join(col).strip() for col in locatif_dept.columns]
    locatif_dept = locatif_dept.reset_index()
    locatif_dept = locatif_dept[locatif_dept['prix_m2_count'] >= 20]  # Au moins 20 biens
    locatif_dept = locatif_dept.sort_values('prix_m2_mean')
    
    print("\n💰 Top 15 Départements - Biens Locatifs Abordables :")
    for _, row in locatif_dept.head(15).iterrows():
        dept = row['code_departement']
        prix_moy = row['prix_m2_mean']
        prix_total_moy = row['valeur_fonciere_mean']
        nb_biens = row['prix_m2_count']
        print(f"   • Dept {dept}: {prix_moy:,.0f}€/m² ({prix_total_moy:,.0f}€ moy., {nb_biens} biens)")

In [None]:
# Analyse des tendances récentes (2022-2023)
df_recent = df[df['annee_mutation'].isin([2022, 2023])]

if len(df_recent) > 0:
    print(f"\n🔥 Tendances Récentes (2022-2023) - {len(df_recent):,} transactions :")
    
    recent_trends = df_recent.groupby(['code_departement', 'annee_mutation'])['prix_m2'].mean().unstack(fill_value=0)
    
    # Départements avec données pour les deux années
    valid_depts = recent_trends[(recent_trends[2022] > 0) & (recent_trends[2023] > 0)]
    valid_depts['evolution_pct'] = ((valid_depts[2023] - valid_depts[2022]) / valid_depts[2022] * 100)
    
    print("\n📈 Départements en Hausse (2022→2023) :")
    hausse = valid_depts.sort_values('evolution_pct', ascending=False).head(10)
    for dept, row in hausse.iterrows():
        print(f"   • Dept {dept}: {row['evolution_pct']:+.1f}% ({row[2022]:.0f}€ → {row[2023]:.0f}€/m²)")
    
    print("\n📉 Départements en Baisse (2022→2023) :")
    baisse = valid_depts.sort_values('evolution_pct').head(5)
    for dept, row in baisse.iterrows():
        print(f"   • Dept {dept}: {row['evolution_pct']:+.1f}% ({row[2022]:.0f}€ → {row[2023]:.0f}€/m²)")
else:
    print("\n⚠️ Données insuffisantes pour l'analyse des tendances récentes")

## 7. 📊 Export des Résultats d'Analyse

Sauvegarde des analyses pour utilisation dans les notebooks suivants.

In [None]:
# Export des analyses principales
output_dir = Path('../outputs')

# Sauvegarde de l'analyse par département
dept_analysis_sorted.to_csv(output_dir / 'analyse_departements.csv', index=False)

# Sauvegarde de l'analyse par type de bien
if 'type_local' in df.columns:
    type_analysis.to_csv(output_dir / 'analyse_types_biens.csv', index=False)

# Sauvegarde de l'évolution temporelle
yearly_evolution.to_csv(output_dir / 'evolution_temporelle.csv', index=False)

# Sauvegarde des opportunités d'investissement
dept_opportunity.to_csv(output_dir / 'opportunites_departements.csv', index=False)
top_communes_volume.to_csv(output_dir / 'top_communes_prix_attractifs.csv', index=False)

print("✅ Analyses exportées dans le dossier outputs/")
print(f"   • analyse_departements.csv : {len(dept_analysis_sorted)} départements")
if 'type_local' in df.columns:
    print(f"   • analyse_types_biens.csv : {len(type_analysis)} types de biens")
print(f"   • evolution_temporelle.csv : {len(yearly_evolution)} années")
print(f"   • opportunites_departements.csv : {len(dept_opportunity)} départements")
print(f"   • top_communes_prix_attractifs.csv : {len(top_communes_volume)} communes")

## 📝 Synthèse des Analyses Exploratoires

### 🎯 Points Clés pour l'Investisseur

#### 🏆 Départements Attractifs
- **Prix abordables** : Départements avec prix < 4000€/m² et volume significatif
- **Stabilité** : Départements avec faible volatilité des prix
- **Liquidité** : Zones avec volume de transactions important

#### 📈 Tendances du Marché
- **Évolution temporelle** : Croissance annuelle des prix
- **Saisonnalité** : Variations des prix selon les mois
- **Tendances récentes** : Évolution 2022-2023

#### 🏠 Types de Biens Optimaux
- **Segment locatif** : Biens 2-4 pièces, 30-80m²
- **Prix par type** : Comparaison appartements vs maisons
- **Opportunités** : Types de biens sous-valorisés

### 🔄 Prochaines Étapes

1. **Visualisations interactives** : Interface pour explorer les données
2. **Calcul de rentabilité** : Estimation des rendements locatifs
3. **Recommandations** : Conseils personnalisés d'investissement

### 📊 Données Générées

Les analyses sont sauvegardées dans le dossier `outputs/` pour utilisation dans les notebooks suivants :
- Tableaux de bord interactifs
- Calculs de rentabilité
- Recommandations finales