# üìà Analyses Exploratoires des Donn√©es DVF

**Objectif** : Analyser en profondeur les donn√©es fonci√®res pour comprendre le march√© immobilier fran√ßais.

**Focus** : Investissement locatif r√©gion parisienne et identification des opportunit√©s.

**Analyses principales** :
1. Statistiques descriptives par zone g√©ographique
2. Analyse de la typologie des biens
3. √âvolution temporelle des prix
4. Identification des tendances du march√©
5. Analyse comparative des d√©partements

In [None]:
# Import des biblioth√®ques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
import sys

# Configuration
warnings.filterwarnings('ignore')
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)

# Ajout du module utilitaire
sys.path.append('../src')
from dvf_utils import GeographicAnalyzer

print("‚úÖ Biblioth√®ques import√©es avec succ√®s")

## 1. üì• Chargement des Donn√©es Nettoy√©es

Import du dataset pr√©par√© dans le notebook de preprocessing.

In [None]:
# Chargement des donn√©es nettoy√©es
data_path = '../outputs/dvf_cleaned_2019_2023.csv'
df = pd.read_csv(data_path, parse_dates=['date_mutation'])

print(f"üìä Dataset charg√© : {df.shape[0]:,} transactions, {df.shape[1]} colonnes")
print(f"üìÖ P√©riode : {df['date_mutation'].min().date()} √† {df['date_mutation'].max().date()}")
print(f"üè† Types de biens : {df['type_local'].value_counts().to_dict() if 'type_local' in df.columns else 'Non disponible'}")

In [None]:
# Vue d'ensemble des donn√©es
print("üìã Aper√ßu des colonnes disponibles :")
print(df.columns.tolist())
print("\nüîç Statistiques g√©n√©rales :")
df.describe()

## T015 - üìä Statistiques Descriptives Globales

Analyse compl√®te des distributions des variables cl√©s : prix, surface, nombre de pi√®ces.

In [None]:
# T015 - Statistiques descriptives globales pour les variables cl√©s
print("üéØ T015 - ANALYSE STATISTIQUE GLOBALE")
print("=" * 50)

# 1. Statistiques des prix
print("\nüí∞ STATISTIQUES DES PRIX")
print("-" * 30)

valeur_stats = df['valeur_fonciere'].describe()
prix_m2_stats = df['prix_m2'].describe()

print(f"üìä Valeur Fonci√®re (‚Ç¨) :")
print(f"   ‚Ä¢ Moyenne : {valeur_stats['mean']:,.0f}‚Ç¨")
print(f"   ‚Ä¢ M√©diane : {valeur_stats['50%']:,.0f}‚Ç¨")
print(f"   ‚Ä¢ √âcart-type : {valeur_stats['std']:,.0f}‚Ç¨")
print(f"   ‚Ä¢ Min : {valeur_stats['min']:,.0f}‚Ç¨")
print(f"   ‚Ä¢ Max : {valeur_stats['max']:,.0f}‚Ç¨")
print(f"   ‚Ä¢ Q1 : {valeur_stats['25%']:,.0f}‚Ç¨")
print(f"   ‚Ä¢ Q3 : {valeur_stats['75%']:,.0f}‚Ç¨")

print(f"\nüìä Prix au m¬≤ (‚Ç¨/m¬≤) :")
print(f"   ‚Ä¢ Moyenne : {prix_m2_stats['mean']:,.0f}‚Ç¨/m¬≤")
print(f"   ‚Ä¢ M√©diane : {prix_m2_stats['50%']:,.0f}‚Ç¨/m¬≤")
print(f"   ‚Ä¢ √âcart-type : {prix_m2_stats['std']:,.0f}‚Ç¨/m¬≤")
print(f"   ‚Ä¢ Min : {prix_m2_stats['min']:,.0f}‚Ç¨/m¬≤")
print(f"   ‚Ä¢ Max : {prix_m2_stats['max']:,.0f}‚Ç¨/m¬≤")
print(f"   ‚Ä¢ Q1 : {prix_m2_stats['25%']:,.0f}‚Ç¨/m¬≤")
print(f"   ‚Ä¢ Q3 : {prix_m2_stats['75%']:,.0f}‚Ç¨/m¬≤")

# 2. Statistiques des surfaces
print("\nüè† STATISTIQUES DES SURFACES")
print("-" * 35)

surface_stats = df['surface_reelle_bati'].describe()
print(f"üìä Surface R√©elle B√¢tie (m¬≤) :")
print(f"   ‚Ä¢ Moyenne : {surface_stats['mean']:.1f}m¬≤")
print(f"   ‚Ä¢ M√©diane : {surface_stats['50%']:.1f}m¬≤")
print(f"   ‚Ä¢ √âcart-type : {surface_stats['std']:.1f}m¬≤")
print(f"   ‚Ä¢ Min : {surface_stats['min']:.1f}m¬≤")
print(f"   ‚Ä¢ Max : {surface_stats['max']:.1f}m¬≤")
print(f"   ‚Ä¢ Q1 : {surface_stats['25%']:.1f}m¬≤")
print(f"   ‚Ä¢ Q3 : {surface_stats['75%']:.1f}m¬≤")

# 3. Statistiques des pi√®ces (si disponible)
if 'nombre_pieces_principales' in df.columns:
    print("\nüö™ STATISTIQUES DES PI√àCES")
    print("-" * 30)
    
    pieces_stats = df['nombre_pieces_principales'].describe()
    pieces_counts = df['nombre_pieces_principales'].value_counts().sort_index()
    
    print(f"üìä Nombre de Pi√®ces Principales :")
    print(f"   ‚Ä¢ Moyenne : {pieces_stats['mean']:.1f} pi√®ces")
    print(f"   ‚Ä¢ M√©diane : {pieces_stats['50%']:.1f} pi√®ces")
    print(f"   ‚Ä¢ √âcart-type : {pieces_stats['std']:.1f} pi√®ces")
    print(f"   ‚Ä¢ Min : {pieces_stats['min']:.0f} pi√®ces")
    print(f"   ‚Ä¢ Max : {pieces_stats['max']:.0f} pi√®ces")
    
    print(f"\nüìà R√©partition par nombre de pi√®ces :")
    for pieces, count in pieces_counts.head(10).items():
        pct = (count / len(df)) * 100
        print(f"   ‚Ä¢ {pieces:.0f} pi√®ces : {count:,} biens ({pct:.1f}%)")

# 4. Mesures de forme des distributions
from scipy import stats

print("\nüìê MESURES DE FORME DES DISTRIBUTIONS")
print("-" * 45)

print(f"üìä Prix au m¬≤ :")
skew_prix = stats.skew(df['prix_m2'].dropna())
kurt_prix = stats.kurtosis(df['prix_m2'].dropna())
print(f"   ‚Ä¢ Asym√©trie (skewness) : {skew_prix:.2f}")
print(f"   ‚Ä¢ Aplatissement (kurtosis) : {kurt_prix:.2f}")

print(f"\nüìä Surface :")
skew_surface = stats.skew(df['surface_reelle_bati'].dropna())
kurt_surface = stats.kurtosis(df['surface_reelle_bati'].dropna())
print(f"   ‚Ä¢ Asym√©trie (skewness) : {skew_surface:.2f}")
print(f"   ‚Ä¢ Aplatissement (kurtosis) : {kurt_surface:.2f}")

print(f"\nüìä Valeur fonci√®re :")
skew_valeur = stats.skew(df['valeur_fonciere'].dropna())
kurt_valeur = stats.kurtosis(df['valeur_fonciere'].dropna())
print(f"   ‚Ä¢ Asym√©trie (skewness) : {skew_valeur:.2f}")
print(f"   ‚Ä¢ Aplatissement (kurtosis) : {kurt_valeur:.2f}")

print("\n‚úÖ T015 - Statistiques descriptives globales compl√©t√©es")

## 2. üèõÔ∏è Analyse par Zone G√©ographique

Exploration des variations de prix et de volume par d√©partement et commune.

In [None]:
# Analyse par d√©partement
dept_analysis = df.groupby('code_departement').agg({
    'prix_m2': ['mean', 'median', 'std', 'count'],
    'valeur_fonciere': ['mean', 'median'],
    'surface_reelle_bati': 'mean'
}).round(2)

# Aplatissement des colonnes multi-niveaux
dept_analysis.columns = ['_'.join(col).strip() for col in dept_analysis.columns]
dept_analysis = dept_analysis.reset_index()

# Tri par prix moyen au m¬≤ d√©croissant
dept_analysis_sorted = dept_analysis.sort_values('prix_m2_mean', ascending=False)

print("üèÜ Top 15 D√©partements - Prix Moyen au m¬≤ :")
top_15_depts = dept_analysis_sorted.head(15)
for _, row in top_15_depts.iterrows():
    dept = row['code_departement']
    prix_moy = row['prix_m2_mean']
    nb_trans = row['prix_m2_count']
    print(f"   ‚Ä¢ Dept {dept}: {prix_moy:,.0f}‚Ç¨/m¬≤ ({nb_trans:,} transactions)")

### T016 - üèõÔ∏è Analyse D√©taill√©e Prix au m¬≤ par Zone G√©ographique

Analyse approfondie des prix moyens et m√©dians par commune et d√©partement.

In [None]:
# T016 - Analyse d√©taill√©e des prix par commune et d√©partement
print("üéØ T016 - ANALYSE PRIX PAR ZONE G√âOGRAPHIQUE")
print("=" * 50)

# 1. Analyse d√©taill√©e par d√©partement avec classements
print("\nüèÜ CLASSEMENT D√âPARTEMENTS - ANALYSE COMPL√àTE")
print("-" * 50)

# Statistiques compl√®tes par d√©partement
dept_detailed = df.groupby('code_departement').agg({
    'prix_m2': ['mean', 'median', 'std', 'min', 'max', 'count'],
    'valeur_fonciere': ['mean', 'median'],
    'surface_reelle_bati': ['mean', 'median']
}).round(2)

dept_detailed.columns = ['_'.join(col).strip() for col in dept_detailed.columns]
dept_detailed = dept_detailed.reset_index()

# Filtre pour d√©partements avec suffisamment de donn√©es
dept_significant = dept_detailed[dept_detailed['prix_m2_count'] >= 100].copy()
dept_significant = dept_significant.sort_values('prix_m2_mean', ascending=False)

print(f"üìä D√©partements analys√©s (‚â•100 transactions) : {len(dept_significant)}")
print("\nü•á TOP 10 - Prix les plus √©lev√©s :")
for i, (_, row) in enumerate(dept_significant.head(10).iterrows(), 1):
    dept = row['code_departement']
    prix_moy = row['prix_m2_mean']
    prix_med = row['prix_m2_median']
    volatilite = row['prix_m2_std']
    nb_trans = row['prix_m2_count']
    print(f"   {i:2d}. Dept {dept}: {prix_moy:,.0f}‚Ç¨/m¬≤ (m√©diane: {prix_med:,.0f}‚Ç¨, œÉ: {volatilite:,.0f}‚Ç¨, {nb_trans:,} trans.)")

print("\nüí∞ TOP 10 - Prix les plus abordables :")
for i, (_, row) in enumerate(dept_significant.tail(10).iterrows(), 1):
    dept = row['code_departement']
    prix_moy = row['prix_m2_mean']
    prix_med = row['prix_m2_median']
    volatilite = row['prix_m2_std']
    nb_trans = row['prix_m2_count']
    print(f"   {i:2d}. Dept {dept}: {prix_moy:,.0f}‚Ç¨/m¬≤ (m√©diane: {prix_med:,.0f}‚Ç¨, œÉ: {volatilite:,.0f}‚Ç¨, {nb_trans:,} trans.)")

# 2. Analyse par commune (top communes par volume et prix)
print("\n\nüèòÔ∏è ANALYSE PAR COMMUNE")
print("-" * 30)

# Top communes par volume de transactions
commune_analysis = df.groupby(['nom_commune', 'code_departement']).agg({
    'prix_m2': ['mean', 'median', 'count'],
    'valeur_fonciere': 'mean',
    'surface_reelle_bati': 'mean'
}).round(2)

commune_analysis.columns = ['_'.join(col).strip() for col in commune_analysis.columns]
commune_analysis = commune_analysis.reset_index()

# Communes avec volume significatif
communes_actives = commune_analysis[commune_analysis['prix_m2_count'] >= 50].copy()

print(f"üìä Communes analys√©es (‚â•50 transactions) : {len(communes_actives)}")

# Top par volume de transactions
top_volume = communes_actives.sort_values('prix_m2_count', ascending=False).head(15)
print("\nüìà TOP 15 - Communes les plus actives (volume) :")
for i, (_, row) in enumerate(top_volume.iterrows(), 1):
    commune = row['nom_commune']
    dept = row['code_departement']
    prix_moy = row['prix_m2_mean']
    nb_trans = row['prix_m2_count']
    print(f"   {i:2d}. {commune} ({dept}): {nb_trans:,} trans., {prix_moy:,.0f}‚Ç¨/m¬≤")

# Top prix les plus √©lev√©s parmi les communes actives
top_prix_eleves = communes_actives.sort_values('prix_m2_mean', ascending=False).head(10)
print("\nüíé TOP 10 - Communes les plus ch√®res (parmi les actives) :")
for i, (_, row) in enumerate(top_prix_eleves.iterrows(), 1):
    commune = row['nom_commune']
    dept = row['code_departement']
    prix_moy = row['prix_m2_mean']
    prix_med = row['prix_m2_median']
    nb_trans = row['prix_m2_count']
    print(f"   {i:2d}. {commune} ({dept}): {prix_moy:,.0f}‚Ç¨/m¬≤ (m√©diane: {prix_med:,.0f}‚Ç¨, {nb_trans} trans.)")

# Top prix abordables avec bonne liquidit√©
prix_abordables = communes_actives.sort_values('prix_m2_mean').head(15)
print("\nüè† TOP 15 - Communes abordables avec liquidit√© :")
for i, (_, row) in enumerate(prix_abordables.iterrows(), 1):
    commune = row['nom_commune']
    dept = row['code_departement']
    prix_moy = row['prix_m2_mean']
    prix_med = row['prix_m2_median']
    nb_trans = row['prix_m2_count']
    print(f"   {i:2d}. {commune} ({dept}): {prix_moy:,.0f}‚Ç¨/m¬≤ (m√©diane: {prix_med:,.0f}‚Ç¨, {nb_trans} trans.)")

# 3. Rapport entre prix moyen et m√©dian (indicateur de dispersion)
print("\n\nüìä ANALYSE DE LA DISPERSION DES PRIX")
print("-" * 40)

dept_significant['ratio_moy_med'] = dept_significant['prix_m2_mean'] / dept_significant['prix_m2_median']
dispersion_forte = dept_significant.sort_values('ratio_moy_med', ascending=False).head(10)

print("‚ö†Ô∏è D√©partements avec forte dispersion (ratio moyen/m√©dian √©lev√©) :")
for _, row in dispersion_forte.iterrows():
    dept = row['code_departement']
    ratio = row['ratio_moy_med']
    prix_moy = row['prix_m2_mean']
    prix_med = row['prix_m2_median']
    print(f"   ‚Ä¢ Dept {dept}: ratio {ratio:.2f} ({prix_moy:,.0f}‚Ç¨ moy. vs {prix_med:,.0f}‚Ç¨ m√©d.)")

print("\n‚úÖ T016 - Analyse prix par commune et d√©partement compl√©t√©e")

In [None]:
# Visualisation des prix par d√©partement (top 20)
plt.figure(figsize=(15, 8))
top_20_depts = dept_analysis_sorted.head(20)

sns.barplot(data=top_20_depts, x='code_departement', y='prix_m2_mean')
plt.title('üìä Prix Moyen au m¬≤ par D√©partement (Top 20)', fontsize=16, fontweight='bold')
plt.xlabel('Code D√©partement', fontsize=12)
plt.ylabel('Prix Moyen au m¬≤ (‚Ç¨)', fontsize=12)
plt.xticks(rotation=45)

# Ajout des valeurs sur les barres
for i, v in enumerate(top_20_depts['prix_m2_mean']):
    plt.text(i, v + 100, f'{v:,.0f}‚Ç¨', ha='center', va='bottom', fontsize=10)

plt.tight_layout()
plt.show()

In [None]:
# Focus sur la r√©gion parisienne (75, 77, 78, 91, 92, 93, 94, 95)
idf_depts = ['75', '77', '78', '91', '92', '93', '94', '95']
df_idf = df[df['code_departement'].isin(idf_depts)]

if len(df_idf) > 0:
    print(f"\nüåü Focus R√©gion Parisienne ({len(df_idf):,} transactions) :")
    
    idf_analysis = df_idf.groupby('code_departement').agg({
        'prix_m2': ['mean', 'median', 'count'],
        'valeur_fonciere': 'mean'
    }).round(2)
    
    idf_analysis.columns = ['_'.join(col).strip() for col in idf_analysis.columns]
    idf_analysis = idf_analysis.reset_index().sort_values('prix_m2_mean', ascending=False)
    
    for _, row in idf_analysis.iterrows():
        dept = row['code_departement']
        prix_moy = row['prix_m2_mean']
        prix_med = row['prix_m2_median']
        nb_trans = row['prix_m2_count']
        print(f"   ‚Ä¢ {dept}: {prix_moy:,.0f}‚Ç¨/m¬≤ (m√©diane: {prix_med:,.0f}‚Ç¨/m¬≤, {nb_trans:,} trans.)")
else:
    print("\n‚ö†Ô∏è Pas de donn√©es pour la r√©gion parisienne dans ce dataset")

## 3. üè† Analyse de la Typologie des Biens

√âtude des diff√©rents types de biens et de leurs caract√©ristiques.

In [None]:
# Analyse par type de local
if 'type_local' in df.columns:
    type_analysis = df.groupby('type_local').agg({
        'prix_m2': ['mean', 'median', 'count'],
        'surface_reelle_bati': ['mean', 'median'],
        'valeur_fonciere': ['mean', 'median']
    }).round(2)
    
    type_analysis.columns = ['_'.join(col).strip() for col in type_analysis.columns]
    type_analysis = type_analysis.reset_index().sort_values('prix_m2_count', ascending=False)
    
    print("üè† Analyse par Type de Bien :")
    for _, row in type_analysis.iterrows():
        type_bien = row['type_local']
        prix_moy = row['prix_m2_mean']
        surface_moy = row['surface_reelle_bati_mean']
        nb_trans = row['prix_m2_count']
        print(f"   ‚Ä¢ {type_bien}: {prix_moy:,.0f}‚Ç¨/m¬≤, {surface_moy:.0f}m¬≤ moy. ({nb_trans:,} transactions)")

### T017 - üè† Analyse Approfondie par Type de Propri√©t√©

Analyse d√©taill√©e des diff√©rents types de biens : appartements, maisons, locaux commerciaux/industriels.

In [None]:
# T017 - Analyse approfondie par type de propri√©t√©
print("üéØ T017 - ANALYSE PAR TYPE DE PROPRI√âT√â")
print("=" * 50)

# 1. Analyse d√©taill√©e par type de bien
print("\nüè† ANALYSE COMPARATIVE DES TYPES DE BIENS")
print("-" * 45)

if 'type_local' in df.columns:
    # Statistiques compl√®tes par type
    type_detailed = df.groupby('type_local').agg({
        'prix_m2': ['mean', 'median', 'std', 'min', 'max', 'count'],
        'valeur_fonciere': ['mean', 'median', 'std'],
        'surface_reelle_bati': ['mean', 'median', 'std', 'min', 'max'],
        'nombre_pieces_principales': ['mean', 'median'] if 'nombre_pieces_principales' in df.columns else ['count', 'count']
    }).round(2)
    
    type_detailed.columns = ['_'.join(col).strip() for col in type_detailed.columns]
    type_detailed = type_detailed.reset_index()
    
    print("üìä COMPARAISON D√âTAILL√âE :")
    for _, row in type_detailed.iterrows():
        type_bien = row['type_local']
        nb_trans = row['prix_m2_count']
        pct_marche = (nb_trans / len(df)) * 100
        
        print(f"\nüè¢ {type_bien.upper()}")
        print(f"   üìà Part de march√© : {pct_marche:.1f}% ({nb_trans:,} transactions)")
        
        # Prix
        print(f"   üí∞ Prix au m¬≤ :")
        print(f"      ‚Ä¢ Moyenne : {row['prix_m2_mean']:,.0f}‚Ç¨/m¬≤")
        print(f"      ‚Ä¢ M√©diane : {row['prix_m2_median']:,.0f}‚Ç¨/m¬≤")
        print(f"      ‚Ä¢ √âcart-type : {row['prix_m2_std']:,.0f}‚Ç¨/m¬≤")
        print(f"      ‚Ä¢ Min-Max : {row['prix_m2_min']:,.0f}‚Ç¨ - {row['prix_m2_max']:,.0f}‚Ç¨/m¬≤")
        
        # Valeur fonci√®re
        print(f"   üè† Valeur fonci√®re totale :")
        print(f"      ‚Ä¢ Moyenne : {row['valeur_fonciere_mean']:,.0f}‚Ç¨")
        print(f"      ‚Ä¢ M√©diane : {row['valeur_fonciere_median']:,.0f}‚Ç¨")
        print(f"      ‚Ä¢ √âcart-type : {row['valeur_fonciere_std']:,.0f}‚Ç¨")
        
        # Surface
        print(f"   üìê Surface :")
        print(f"      ‚Ä¢ Moyenne : {row['surface_reelle_bati_mean']:.1f}m¬≤")
        print(f"      ‚Ä¢ M√©diane : {row['surface_reelle_bati_median']:.1f}m¬≤")
        print(f"      ‚Ä¢ Min-Max : {row['surface_reelle_bati_min']:.0f}m¬≤ - {row['surface_reelle_bati_max']:.0f}m¬≤")
        
        # Pi√®ces (si disponible)
        if 'nombre_pieces_principales' in df.columns:
            print(f"   üö™ Pi√®ces principales :")
            print(f"      ‚Ä¢ Moyenne : {row['nombre_pieces_principales_mean']:.1f} pi√®ces")
            print(f"      ‚Ä¢ M√©diane : {row['nombre_pieces_principales_median']:.1f} pi√®ces")

    # 2. Analyse par type et d√©partement (focus sur les 3 types principaux)
    print("\n\nüó∫Ô∏è ANALYSE PAR TYPE ET D√âPARTEMENT")
    print("-" * 40)
    
    types_principaux = df['type_local'].value_counts().head(3).index.tolist()
    
    for type_bien in types_principaux:
        print(f"\nüìä {type_bien.upper()} par d√©partement :")
        
        df_type = df[df['type_local'] == type_bien]
        dept_type_analysis = df_type.groupby('code_departement').agg({
            'prix_m2': ['mean', 'count'],
            'surface_reelle_bati': 'mean'
        }).round(2)
        
        dept_type_analysis.columns = ['_'.join(col).strip() for col in dept_type_analysis.columns]
        dept_type_analysis = dept_type_analysis.reset_index()
        dept_type_analysis = dept_type_analysis[dept_type_analysis['prix_m2_count'] >= 20]  # Minimum 20 transactions
        dept_type_analysis = dept_type_analysis.sort_values('prix_m2_mean', ascending=False)
        
        print(f"   üèÜ Top 5 d√©partements les plus chers :")
        for i, (_, row) in enumerate(dept_type_analysis.head(5).iterrows(), 1):
            dept = row['code_departement']
            prix = row['prix_m2_mean']
            surface = row['surface_reelle_bati_mean']
            nb_trans = row['prix_m2_count']
            print(f"      {i}. Dept {dept}: {prix:,.0f}‚Ç¨/m¬≤, {surface:.0f}m¬≤ moy. ({nb_trans} trans.)")
        
        print(f"   üí∞ Top 5 d√©partements les plus abordables :")
        for i, (_, row) in enumerate(dept_type_analysis.tail(5).iterrows(), 1):
            dept = row['code_departement']
            prix = row['prix_m2_mean']
            surface = row['surface_reelle_bati_mean']
            nb_trans = row['prix_m2_count']
            print(f"      {i}. Dept {dept}: {prix:,.0f}‚Ç¨/m¬≤, {surface:.0f}m¬≤ moy. ({nb_trans} trans.)")

    # 3. Analyse de rentabilit√© potentielle par type
    print("\n\nüí∞ ANALYSE DE RENTABILIT√â POTENTIELLE")
    print("-" * 40)
    
    # Estimation basique de la rentabilit√© (hypoth√®se : location √† 3-4% de la valeur)
    for _, row in type_detailed.iterrows():
        type_bien = row['type_local']
        valeur_moy = row['valeur_fonciere_mean']
        surface_moy = row['surface_reelle_bati_mean']
        prix_m2_moy = row['prix_m2_mean']
        
        # Estimation loyer mensuel (hypoth√®se : 0.8-1% de la valeur par mois selon le type)
        if 'Appartement' in type_bien:
            taux_mensuel = 0.009  # 0.9% par mois pour appartement
        elif 'Maison' in type_bien:
            taux_mensuel = 0.008  # 0.8% par mois pour maison
        else:
            taux_mensuel = 0.007  # 0.7% par mois pour commercial/industriel
        
        loyer_mensuel_estime = valeur_moy * taux_mensuel
        loyer_annuel_estime = loyer_mensuel_estime * 12
        rendement_brut_estime = (loyer_annuel_estime / valeur_moy) * 100
        
        print(f"\nüìà {type_bien} :")
        print(f"   ‚Ä¢ Prix d'achat moyen : {valeur_moy:,.0f}‚Ç¨")
        print(f"   ‚Ä¢ Surface moyenne : {surface_moy:.0f}m¬≤")
        print(f"   ‚Ä¢ Prix au m¬≤ moyen : {prix_m2_moy:,.0f}‚Ç¨/m¬≤")
        print(f"   ‚Ä¢ Loyer mensuel estim√© : {loyer_mensuel_estime:,.0f}‚Ç¨")
        print(f"   ‚Ä¢ Rendement brut estim√© : {rendement_brut_estime:.1f}%")

    # 4. Segments de surface par type
    print("\n\nüìê SEGMENTATION PAR TAILLE")
    print("-" * 30)
    
    # D√©finition des segments de surface
    df['segment_surface'] = pd.cut(df['surface_reelle_bati'], 
                                  bins=[0, 30, 50, 70, 100, 150, float('inf')],
                                  labels=['<30m¬≤', '30-50m¬≤', '50-70m¬≤', '70-100m¬≤', '100-150m¬≤', '>150m¬≤'])
    
    for type_bien in types_principaux:
        print(f"\nüè† {type_bien} - R√©partition par taille :")
        df_type = df[df['type_local'] == type_bien]
        surface_repartition = df_type['segment_surface'].value_counts(normalize=True) * 100
        
        for segment, pct in surface_repartition.sort_index().items():
            nb_biens = len(df_type[df_type['segment_surface'] == segment])
            prix_moy_segment = df_type[df_type['segment_surface'] == segment]['prix_m2'].mean()
            print(f"   ‚Ä¢ {segment}: {pct:.1f}% ({nb_biens:,} biens, {prix_moy_segment:,.0f}‚Ç¨/m¬≤ moy.)")

else:
    print("‚ö†Ô∏è Colonne 'type_local' non disponible dans le dataset")

print("\n‚úÖ T017 - Analyse par type de propri√©t√© compl√©t√©e")

In [None]:
# Visualisation de la r√©partition par type de bien
if 'type_local' in df.columns:
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # R√©partition du volume de transactions
    type_counts = df['type_local'].value_counts()
    axes[0, 0].pie(type_counts.values, labels=type_counts.index, autopct='%1.1f%%', startangle=90)
    axes[0, 0].set_title('R√©partition du Volume de Transactions par Type')
    
    # Prix moyen par type
    type_prix = df.groupby('type_local')['prix_m2'].mean().sort_values(ascending=True)
    axes[0, 1].barh(type_prix.index, type_prix.values)
    axes[0, 1].set_title('Prix Moyen au m¬≤ par Type de Bien')
    axes[0, 1].set_xlabel('Prix au m¬≤ (‚Ç¨)')
    
    # Surface moyenne par type
    type_surface = df.groupby('type_local')['surface_reelle_bati'].mean().sort_values(ascending=True)
    axes[1, 0].barh(type_surface.index, type_surface.values)
    axes[1, 0].set_title('Surface Moyenne par Type de Bien')
    axes[1, 0].set_xlabel('Surface (m¬≤)')
    
    # Box plot des prix par type
    main_types = df['type_local'].value_counts().head(4).index
    df_main_types = df[df['type_local'].isin(main_types)]
    sns.boxplot(data=df_main_types, x='type_local', y='prix_m2', ax=axes[1, 1])
    axes[1, 1].set_title('Distribution des Prix au m¬≤ par Type Principal')
    axes[1, 1].set_xlabel('Type de Local')
    axes[1, 1].set_ylabel('Prix au m¬≤ (‚Ç¨)')
    axes[1, 1].tick_params(axis='x', rotation=45)
    
    plt.tight_layout()
    plt.show()

In [None]:
# Analyse par nombre de pi√®ces
if 'nombre_pieces_principales' in df.columns:
    pieces_analysis = df.groupby('nombre_pieces_principales').agg({
        'prix_m2': ['mean', 'count'],
        'surface_reelle_bati': 'mean',
        'valeur_fonciere': 'mean'
    }).round(2)
    
    pieces_analysis.columns = ['_'.join(col).strip() for col in pieces_analysis.columns]
    pieces_analysis = pieces_analysis.reset_index()
    
    print("\nüè† Analyse par Nombre de Pi√®ces :")
    for _, row in pieces_analysis.iterrows():
        nb_pieces = row['nombre_pieces_principales']
        prix_moy = row['prix_m2_mean']
        surface_moy = row['surface_reelle_bati_mean']
        nb_trans = row['prix_m2_count']
        print(f"   ‚Ä¢ {nb_pieces} pi√®ces: {prix_moy:,.0f}‚Ç¨/m¬≤, {surface_moy:.0f}m¬≤ moy. ({nb_trans:,} transactions)")

## 4. ‚è∞ √âvolution Temporelle des Prix

Analyse des tendances temporelles du march√© immobilier.

In [None]:
# √âvolution par ann√©e
yearly_evolution = df.groupby('annee_mutation').agg({
    'prix_m2': ['mean', 'median', 'count'],
    'valeur_fonciere': 'mean',
    'surface_reelle_bati': 'mean'
}).round(2)

yearly_evolution.columns = ['_'.join(col).strip() for col in yearly_evolution.columns]
yearly_evolution = yearly_evolution.reset_index()

print("üìÖ √âvolution Annuelle du March√© :")
for _, row in yearly_evolution.iterrows():
    annee = int(row['annee_mutation'])
    prix_moy = row['prix_m2_mean']
    nb_trans = row['prix_m2_count']
    print(f"   ‚Ä¢ {annee}: {prix_moy:,.0f}‚Ç¨/m¬≤ ({nb_trans:,} transactions)")

# Calcul de la croissance annuelle
yearly_evolution['croissance_prix'] = yearly_evolution['prix_m2_mean'].pct_change() * 100
print("\nüìà Taux de Croissance Annuel du Prix au m¬≤ :")
for _, row in yearly_evolution.iterrows():
    if not pd.isna(row['croissance_prix']):
        annee = int(row['annee_mutation'])
        croissance = row['croissance_prix']
        print(f"   ‚Ä¢ {annee}: {croissance:+.1f}%")

### T018 - ‚è∞ Analyse Temporelle Approfondie

Analyse d√©taill√©e des tendances temporelles : √©volution des prix, volumes de vente, saisonnalit√©.

In [None]:
# T018 - Analyse temporelle approfondie
print("üéØ T018 - ANALYSE TEMPORELLE APPROFONDIE")
print("=" * 50)

# V√©rifier la plage temporelle disponible
min_date = df['date_mutation'].min()
max_date = df['date_mutation'].max()
nb_jours = (max_date - min_date).days
nb_annees = len(df['annee_mutation'].unique())

print(f"üìÖ P√âRIODE ANALYS√âE")
print(f"   ‚Ä¢ D√©but : {min_date.date()}")
print(f"   ‚Ä¢ Fin : {max_date.date()}")
print(f"   ‚Ä¢ Dur√©e : {nb_jours} jours ({nb_annees} ann√©e(s))")
print(f"   ‚Ä¢ Ann√©es disponibles : {sorted(df['annee_mutation'].unique())}")

# 1. Analyse mensuelle d√©taill√©e
print("\n\nüìä ANALYSE MENSUELLE")
print("-" * 25)

monthly_detailed = df.groupby(['annee_mutation', 'mois_mutation']).agg({
    'prix_m2': ['mean', 'median', 'count'],
    'valeur_fonciere': ['mean', 'median'],
    'surface_reelle_bati': 'mean'
}).round(2)

monthly_detailed.columns = ['_'.join(col).strip() for col in monthly_detailed.columns]
monthly_detailed = monthly_detailed.reset_index()
monthly_detailed['periode'] = monthly_detailed['annee_mutation'].astype(str) + '-' + monthly_detailed['mois_mutation'].astype(str).str.zfill(2)

print("üìà √âvolution mensuelle des prix et volumes :")
mois_noms = ['Jan', 'F√©v', 'Mar', 'Avr', 'Mai', 'Jun', 'Jul', 'Ao√ª', 'Sep', 'Oct', 'Nov', 'D√©c']

for _, row in monthly_detailed.iterrows():
    annee = int(row['annee_mutation'])
    mois = int(row['mois_mutation'])
    periode = row['periode']
    prix_moy = row['prix_m2_mean']
    nb_trans = row['prix_m2_count']
    mois_nom = mois_noms[mois-1]
    print(f"   ‚Ä¢ {mois_nom} {annee}: {prix_moy:,.0f}‚Ç¨/m¬≤ ({nb_trans:,} transactions)")

# 2. Analyse trimestrielle
print("\n\nüìÖ ANALYSE TRIMESTRIELLE")
print("-" * 30)

quarterly_analysis = df.groupby(['annee_mutation', 'trimestre_mutation']).agg({
    'prix_m2': ['mean', 'median', 'count'],
    'valeur_fonciere': ['mean', 'sum'],
    'surface_reelle_bati': 'mean'
}).round(2)

quarterly_analysis.columns = ['_'.join(col).strip() for col in quarterly_analysis.columns]
quarterly_analysis = quarterly_analysis.reset_index()

print("üìä √âvolution trimestrielle :")
for _, row in quarterly_analysis.iterrows():
    annee = int(row['annee_mutation'])
    trimestre = int(row['trimestre_mutation'])
    prix_moy = row['prix_m2_mean']
    prix_med = row['prix_m2_median']
    nb_trans = row['prix_m2_count']
    volume_total = row['valeur_fonciere_sum']
    print(f"   ‚Ä¢ T{trimestre} {annee}: {prix_moy:,.0f}‚Ç¨/m¬≤ (m√©diane: {prix_med:,.0f}‚Ç¨, {nb_trans:,} trans., {volume_total/1000000:.1f}M‚Ç¨)")

# 3. Analyse de saisonnalit√©
print("\n\nüåä ANALYSE DE SAISONNALIT√â")
print("-" * 30)

# Saisonnalit√© par mois (toutes ann√©es confondues)
seasonal_pattern = df.groupby('mois_mutation').agg({
    'prix_m2': ['mean', 'count'],
    'valeur_fonciere': 'mean'
}).round(2)

seasonal_pattern.columns = ['_'.join(col).strip() for col in seasonal_pattern.columns]
seasonal_pattern = seasonal_pattern.reset_index()

print("üìà Profil saisonnier des prix (moyenne par mois) :")
prix_moyen_annuel = df['prix_m2'].mean()
for _, row in seasonal_pattern.iterrows():
    mois = int(row['mois_mutation'])
    prix_moy = row['prix_m2_mean']
    nb_trans = row['prix_m2_count']
    variation_vs_moyenne = ((prix_moy / prix_moyen_annuel) - 1) * 100
    mois_nom = mois_noms[mois-1]
    print(f"   ‚Ä¢ {mois_nom}: {prix_moy:,.0f}‚Ç¨/m¬≤ ({variation_vs_moyenne:+.1f}% vs moyenne, {nb_trans:,} trans.)")

# Identification des mois les plus/moins chers
mois_plus_cher = seasonal_pattern.loc[seasonal_pattern['prix_m2_mean'].idxmax()]
mois_moins_cher = seasonal_pattern.loc[seasonal_pattern['prix_m2_mean'].idxmin()]

print(f"\nüèÜ Mois le plus cher : {mois_noms[int(mois_plus_cher['mois_mutation'])-1]} ({mois_plus_cher['prix_m2_mean']:,.0f}‚Ç¨/m¬≤)")
print(f"üí∞ Mois le moins cher : {mois_noms[int(mois_moins_cher['mois_mutation'])-1]} ({mois_moins_cher['prix_m2_mean']:,.0f}‚Ç¨/m¬≤)")

ecart_saisonnier = mois_plus_cher['prix_m2_mean'] - mois_moins_cher['prix_m2_mean']
print(f"üìä √âcart saisonnier : {ecart_saisonnier:,.0f}‚Ç¨/m¬≤ ({ecart_saisonnier/mois_moins_cher['prix_m2_mean']*100:.1f}%)")

# 4. Analyse de la volatilit√© par p√©riode
print("\n\nüìà ANALYSE DE VOLATILIT√â")
print("-" * 28)

# Volatilit√© mensuelle
volatility_monthly = df.groupby(['annee_mutation', 'mois_mutation'])['prix_m2'].std().reset_index()
volatility_monthly['periode'] = volatility_monthly['annee_mutation'].astype(str) + '-' + volatility_monthly['mois_mutation'].astype(str).str.zfill(2)

print("üìä Volatilit√© mensuelle des prix (√©cart-type) :")
for _, row in volatility_monthly.iterrows():
    periode = row['periode']
    volatilite = row['prix_m2']
    if not pd.isna(volatilite):
        print(f"   ‚Ä¢ {periode}: œÉ = {volatilite:,.0f}‚Ç¨/m¬≤")

# 5. Analyse des tendances par type de bien
print("\n\nüè† TENDANCES PAR TYPE DE BIEN")
print("-" * 35)

if 'type_local' in df.columns:
    types_principaux = df['type_local'].value_counts().head(3).index.tolist()
    
    for type_bien in types_principaux:
        print(f"\nüìä {type_bien} :")
        
        df_type = df[df['type_local'] == type_bien]
        evolution_type = df_type.groupby(['annee_mutation', 'mois_mutation']).agg({
            'prix_m2': ['mean', 'count'],
            'valeur_fonciere': 'mean'
        }).round(2)
        
        evolution_type.columns = ['_'.join(col).strip() for col in evolution_type.columns]
        evolution_type = evolution_type.reset_index()
        
        # Statistiques globales pour ce type
        prix_moy_type = df_type['prix_m2'].mean()
        nb_trans_type = len(df_type)
        
        print(f"   ‚Ä¢ Prix moyen p√©riode : {prix_moy_type:,.0f}‚Ç¨/m¬≤")
        print(f"   ‚Ä¢ Total transactions : {nb_trans_type:,}")
        
        # √âvolution mensuelle r√©cente (derniers mois disponibles)
        evolution_recent = evolution_type.tail(6)  # 6 derniers mois
        if len(evolution_recent) > 1:
            print(f"   ‚Ä¢ √âvolution r√©cente (6 derniers mois) :")
            for _, row in evolution_recent.iterrows():
                annee = int(row['annee_mutation'])
                mois = int(row['mois_mutation'])
                prix = row['prix_m2_mean']
                nb_trans = row['prix_m2_count']
                mois_nom = mois_noms[mois-1]
                print(f"     - {mois_nom} {annee}: {prix:,.0f}‚Ç¨/m¬≤ ({nb_trans} trans.)")

# 6. R√©sum√© des tendances temporelles
print("\n\nüìã R√âSUM√â TEMPOREL")
print("-" * 20)

# Calculs de tendance globale
prix_debut_periode = monthly_detailed.iloc[0]['prix_m2_mean']
prix_fin_periode = monthly_detailed.iloc[-1]['prix_m2_mean']
evolution_globale = ((prix_fin_periode / prix_debut_periode) - 1) * 100

transactions_debut = monthly_detailed.iloc[0]['prix_m2_count']
transactions_fin = monthly_detailed.iloc[-1]['prix_m2_count']
evolution_volume = ((transactions_fin / transactions_debut) - 1) * 100

print(f"üéØ TENDANCES PRINCIPALES :")
print(f"   ‚Ä¢ √âvolution prix : {evolution_globale:+.1f}% sur la p√©riode")
print(f"   ‚Ä¢ √âvolution volume : {evolution_volume:+.1f}% sur la p√©riode")
print(f"   ‚Ä¢ Prix moyen global : {df['prix_m2'].mean():,.0f}‚Ç¨/m¬≤")
print(f"   ‚Ä¢ Volume total analys√© : {len(df):,} transactions")
print(f"   ‚Ä¢ Montant total : {df['valeur_fonciere'].sum()/1000000:.1f} millions ‚Ç¨")

print("\n‚úÖ T018 - Analyse temporelle approfondie compl√©t√©e")

## T019 - üîç D√©tection d'Anomalies et Outliers

Identification des transactions atypiques et des anomalies du march√© pour d√©tecter les opportunit√©s ou les erreurs.

In [None]:
# T019 - D√©tection d'anomalies et outliers
print("üéØ T019 - D√âTECTION D'ANOMALIES ET OUTLIERS")
print("=" * 50)

# 1. D√©tection d'outliers statistiques sur les prix au m¬≤
print("\nüîç ANALYSE DES OUTLIERS - PRIX AU M¬≤")
print("-" * 40)

# Calcul des seuils IQR (Interquartile Range)
Q1_prix = df['prix_m2'].quantile(0.25)
Q3_prix = df['prix_m2'].quantile(0.75)
IQR_prix = Q3_prix - Q1_prix
seuil_inf_prix = Q1_prix - 1.5 * IQR_prix
seuil_sup_prix = Q3_prix + 1.5 * IQR_prix

# Seuils plus stricts (3 * IQR)
seuil_inf_strict_prix = Q1_prix - 3 * IQR_prix
seuil_sup_strict_prix = Q3_prix + 3 * IQR_prix

outliers_prix = df[(df['prix_m2'] < seuil_inf_prix) | (df['prix_m2'] > seuil_sup_prix)]
outliers_prix_stricts = df[(df['prix_m2'] < seuil_inf_strict_prix) | (df['prix_m2'] > seuil_sup_strict_prix)]

print(f"üìä Statistiques des outliers prix au m¬≤ :")
print(f"   ‚Ä¢ Q1 : {Q1_prix:,.0f}‚Ç¨/m¬≤")
print(f"   ‚Ä¢ Q3 : {Q3_prix:,.0f}‚Ç¨/m¬≤")
print(f"   ‚Ä¢ IQR : {IQR_prix:,.0f}‚Ç¨/m¬≤")
print(f"   ‚Ä¢ Seuil inf√©rieur (1.5*IQR) : {seuil_inf_prix:,.0f}‚Ç¨/m¬≤")
print(f"   ‚Ä¢ Seuil sup√©rieur (1.5*IQR) : {seuil_sup_prix:,.0f}‚Ç¨/m¬≤")
print(f"   ‚Ä¢ Outliers d√©tect√©s : {len(outliers_prix):,} ({len(outliers_prix)/len(df)*100:.1f}% du march√©)")
print(f"   ‚Ä¢ Outliers stricts (3*IQR) : {len(outliers_prix_stricts):,} ({len(outliers_prix_stricts)/len(df)*100:.2f}% du march√©)")

# Analyse des outliers hauts (prix tr√®s √©lev√©s)
outliers_hauts = outliers_prix[outliers_prix['prix_m2'] > seuil_sup_prix]
print(f"\nüèÜ OUTLIERS HAUTS - Prix Exceptionnellement √âlev√©s ({len(outliers_hauts):,} transactions)")
if len(outliers_hauts) > 0:
    print(f"   ‚Ä¢ Prix minimum : {outliers_hauts['prix_m2'].min():,.0f}‚Ç¨/m¬≤")
    print(f"   ‚Ä¢ Prix maximum : {outliers_hauts['prix_m2'].max():,.0f}‚Ç¨/m¬≤")
    print(f"   ‚Ä¢ Prix moyen : {outliers_hauts['prix_m2'].mean():,.0f}‚Ç¨/m¬≤")
    
    # Top 10 des prix les plus √©lev√©s
    top_prix = outliers_hauts.nlargest(10, 'prix_m2')[['nom_commune', 'code_departement', 'prix_m2', 'valeur_fonciere', 'surface_reelle_bati', 'type_local']]
    print(f"   ‚Ä¢ Top 10 prix les plus √©lev√©s :")
    for i, (_, row) in enumerate(top_prix.iterrows(), 1):
        commune = row['nom_commune']
        dept = row['code_departement']
        prix = row['prix_m2']
        valeur = row['valeur_fonciere']
        surface = row['surface_reelle_bati']
        type_bien = row['type_local']
        print(f"     {i:2d}. {commune} ({dept}): {prix:,.0f}‚Ç¨/m¬≤, {valeur:,.0f}‚Ç¨, {surface:.0f}m¬≤, {type_bien}")

# Analyse des outliers bas (prix tr√®s faibles)
outliers_bas = outliers_prix[outliers_prix['prix_m2'] < seuil_inf_prix]
print(f"\nüí∞ OUTLIERS BAS - Prix Exceptionnellement Faibles ({len(outliers_bas):,} transactions)")
if len(outliers_bas) > 0:
    print(f"   ‚Ä¢ Prix minimum : {outliers_bas['prix_m2'].min():,.0f}‚Ç¨/m¬≤")
    print(f"   ‚Ä¢ Prix maximum : {outliers_bas['prix_m2'].max():,.0f}‚Ç¨/m¬≤")
    print(f"   ‚Ä¢ Prix moyen : {outliers_bas['prix_m2'].mean():,.0f}‚Ç¨/m¬≤")
    
    # Top 10 des prix les plus bas
    bottom_prix = outliers_bas.nsmallest(10, 'prix_m2')[['nom_commune', 'code_departement', 'prix_m2', 'valeur_fonciere', 'surface_reelle_bati', 'type_local']]
    print(f"   ‚Ä¢ Top 10 prix les plus bas :")
    for i, (_, row) in enumerate(bottom_prix.iterrows(), 1):
        commune = row['nom_commune']
        dept = row['code_departement']
        prix = row['prix_m2']
        valeur = row['valeur_fonciere']
        surface = row['surface_reelle_bati']
        type_bien = row['type_local']
        print(f"     {i:2d}. {commune} ({dept}): {prix:,.0f}‚Ç¨/m¬≤, {valeur:,.0f}‚Ç¨, {surface:.0f}m¬≤, {type_bien}")

# 2. D√©tection d'anomalies sur les surfaces
print("\n\nüìê ANALYSE DES OUTLIERS - SURFACES")
print("-" * 40)

Q1_surface = df['surface_reelle_bati'].quantile(0.25)
Q3_surface = df['surface_reelle_bati'].quantile(0.75)
IQR_surface = Q3_surface - Q1_surface
seuil_inf_surface = Q1_surface - 1.5 * IQR_surface
seuil_sup_surface = Q3_surface + 1.5 * IQR_surface

outliers_surface = df[(df['surface_reelle_bati'] < seuil_inf_surface) | (df['surface_reelle_bati'] > seuil_sup_surface)]

print(f"üìä Statistiques des outliers surfaces :")
print(f"   ‚Ä¢ Q1 : {Q1_surface:.1f}m¬≤")
print(f"   ‚Ä¢ Q3 : {Q3_surface:.1f}m¬≤")
print(f"   ‚Ä¢ IQR : {IQR_surface:.1f}m¬≤")
print(f"   ‚Ä¢ Seuil inf√©rieur : {seuil_inf_surface:.1f}m¬≤")
print(f"   ‚Ä¢ Seuil sup√©rieur : {seuil_sup_surface:.1f}m¬≤")
print(f"   ‚Ä¢ Outliers d√©tect√©s : {len(outliers_surface):,} ({len(outliers_surface)/len(df)*100:.1f}% du march√©)")

# Surfaces exceptionnellement grandes
grandes_surfaces = outliers_surface[outliers_surface['surface_reelle_bati'] > seuil_sup_surface]
if len(grandes_surfaces) > 0:
    print(f"\nüè¢ Surfaces exceptionnellement grandes (>{seuil_sup_surface:.0f}m¬≤) : {len(grandes_surfaces):,} biens")
    top_surfaces = grandes_surfaces.nlargest(5, 'surface_reelle_bati')[['nom_commune', 'surface_reelle_bati', 'prix_m2', 'valeur_fonciere', 'type_local']]
    for i, (_, row) in enumerate(top_surfaces.iterrows(), 1):
        print(f"   {i}. {row['nom_commune']}: {row['surface_reelle_bati']:.0f}m¬≤, {row['prix_m2']:,.0f}‚Ç¨/m¬≤, {row['type_local']}")

# 3. D√©tection d'anomalies temporelles
print("\n\n‚è∞ ANOMALIES TEMPORELLES")
print("-" * 25)

# Transactions avec dates suspectes ou volumes anormaux
daily_volumes = df.groupby('date_mutation').size().reset_index(name='nb_transactions')
daily_volumes['is_weekend'] = daily_volumes['date_mutation'].dt.weekday >= 5  # Samedi et dimanche

# Jours avec beaucoup de transactions (potentielles anomalies administratives)
high_volume_days = daily_volumes[daily_volumes['nb_transactions'] > daily_volumes['nb_transactions'].quantile(0.95)]
print(f"üìÖ Jours √† fort volume (>95e percentile) : {len(high_volume_days)} jours")

if len(high_volume_days) > 0:
    print("   Top 5 jours les plus actifs :")
    top_days = high_volume_days.nlargest(5, 'nb_transactions')
    for _, row in top_days.iterrows():
        date = row['date_mutation'].strftime('%Y-%m-%d')
        nb_trans = row['nb_transactions']
        day_name = row['date_mutation'].strftime('%A')
        print(f"   ‚Ä¢ {date} ({day_name}): {nb_trans:,} transactions")

# Transactions en week-end (potentiellement suspectes)
weekend_transactions = daily_volumes[daily_volumes['is_weekend'] & (daily_volumes['nb_transactions'] > 0)]
print(f"\nüìä Transactions en week-end : {weekend_transactions['nb_transactions'].sum():,} transactions sur {len(weekend_transactions)} jours")

# 4. Anomalies g√©ographiques
print("\n\nüó∫Ô∏è ANOMALIES G√âOGRAPHIQUES")
print("-" * 30)

# Communes avec √©carts de prix importants par rapport √† leur d√©partement
dept_avg_prices = df.groupby('code_departement')['prix_m2'].mean().to_dict()
df['prix_dept_moyen'] = df['code_departement'].map(dept_avg_prices)
df['ecart_vs_dept'] = ((df['prix_m2'] / df['prix_dept_moyen']) - 1) * 100

# Communes significativement plus ch√®res que leur d√©partement
communes_cheres = df.groupby('nom_commune').agg({
    'ecart_vs_dept': 'mean',
    'prix_m2': ['mean', 'count'],
    'code_departement': 'first'
}).round(2)

# Correction du flattening des colonnes
communes_cheres.columns = ['ecart_vs_dept', 'prix_m2_mean', 'prix_m2_count', 'code_departement']
communes_cheres = communes_cheres.reset_index()
communes_cheres = communes_cheres[communes_cheres['prix_m2_count'] >= 10]  # Au moins 10 transactions

surprimes_importantes = communes_cheres[communes_cheres['ecart_vs_dept'] > 50].sort_values('ecart_vs_dept', ascending=False)
print(f"üèÜ Communes avec surprime >50% vs d√©partement ({len(surprimes_importantes)}) :")
for i, (_, row) in enumerate(surprimes_importantes.head(10).iterrows(), 1):
    commune = row['nom_commune']
    dept = row['code_departement']
    ecart = row['ecart_vs_dept']
    prix = row['prix_m2_mean']
    nb_trans = row['prix_m2_count']
    print(f"   {i:2d}. {commune} ({dept}): +{ecart:.1f}% ({prix:,.0f}‚Ç¨/m¬≤, {nb_trans} trans.)")

# Communes significativement moins ch√®res
decotes_importantes = communes_cheres[communes_cheres['ecart_vs_dept'] < -30].sort_values('ecart_vs_dept')
print(f"\nüí∞ Communes avec d√©cote >30% vs d√©partement ({len(decotes_importantes)}) :")
for i, (_, row) in enumerate(decotes_importantes.head(10).iterrows(), 1):
    commune = row['nom_commune']
    dept = row['code_departement']
    ecart = row['ecart_vs_dept']
    prix = row['prix_m2_mean']
    nb_trans = row['prix_m2_count']
    print(f"   {i:2d}. {commune} ({dept}): {ecart:.1f}% ({prix:,.0f}‚Ç¨/m¬≤, {nb_trans} trans.)")

# 5. R√©sum√© des anomalies pour l'investisseur
print("\n\nüéØ R√âSUM√â POUR L'INVESTISSEUR")
print("-" * 35)

print("‚ö†Ô∏è POINTS D'ATTENTION :")
print(f"   ‚Ä¢ Outliers prix hauts : {len(outliers_hauts):,} transactions (v√©rifier coh√©rence)")
print(f"   ‚Ä¢ Outliers prix bas : {len(outliers_bas):,} transactions (opportunit√©s potentielles)")
print(f"   ‚Ä¢ Anomalies surfaces : {len(outliers_surface):,} biens (v√©rifier donn√©es)")
print(f"   ‚Ä¢ Communes surprime >50% : {len(surprimes_importantes)} (march√©s de luxe)")
print(f"   ‚Ä¢ Communes d√©cote >30% : {len(decotes_importantes)} (opportunit√©s potentielles)")

print(f"\nüí° RECOMMANDATIONS :")
print(f"   ‚Ä¢ Examiner les prix <{Q1_prix:,.0f}‚Ç¨/m¬≤ pour des opportunit√©s")
print(f"   ‚Ä¢ √âviter les prix >{seuil_sup_prix:,.0f}‚Ç¨/m¬≤ sauf justification")
print(f"   ‚Ä¢ V√©rifier la coh√©rence des donn√©es pour les outliers stricts")
print(f"   ‚Ä¢ Analyser les communes √† d√©cote importante pour des aubaines")

print("\n‚úÖ T019 - D√©tection d'anomalies et outliers compl√©t√©e")

## T020 - üîß Fonctions Statistiques Utilitaires

Test et d√©monstration des nouvelles fonctions statistiques ajout√©es √† `dvf_utils.py`.

In [None]:
# T020 - Test des nouvelles fonctions statistiques utilitaires
print("üéØ T020 - FONCTIONS STATISTIQUES UTILITAIRES")
print("=" * 50)

# Importer la nouvelle classe StatisticalAnalyzer
import sys
import importlib
sys.path.append('../src')

# Recharger le module pour prendre en compte les nouvelles fonctions
if 'dvf_utils' in sys.modules:
    importlib.reload(sys.modules['dvf_utils'])

from dvf_utils import StatisticalAnalyzer

print("‚úÖ Nouvelles fonctions statistiques charg√©es")

# Test 1: Statistiques descriptives compl√®tes
print("\nüîç TEST 1 - Statistiques Descriptives Compl√®tes")
print("-" * 50)

stats_results = StatisticalAnalyzer.comprehensive_descriptive_stats(df)
print("üìä Variables analys√©es :")
for var, stats in stats_results.items():
    print(f"\n‚Ä¢ {var.upper()}:")
    print(f"   - Moyenne: {stats['mean']:,.2f}")
    print(f"   - M√©diane: {stats['median']:,.2f}")
    print(f"   - √âcart-type: {stats['std']:,.2f}")
    print(f"   - Asym√©trie: {stats['skewness']:.3f}")
    print(f"   - Coefficient de variation: {stats['cv']:.1f}%")

# Test 2: Analyse g√©ographique
print("\nüó∫Ô∏è TEST 2 - Analyse G√©ographique")
print("-" * 35)

geo_results = StatisticalAnalyzer.geographical_price_analysis(df)
if 'departements' in geo_results:
    print(f"üìä {len(geo_results['departements'])} d√©partements analys√©s")
    top_5_depts = geo_results['departements'].head(5)
    print("üèÜ Top 5 d√©partements (prix au m¬≤):")
    for _, row in top_5_depts.iterrows():
        dept = row['code_departement']
        prix = row['prix_m2_mean']
        nb_trans = row['prix_m2_count']
        print(f"   ‚Ä¢ Dept {dept}: {prix:,.0f}‚Ç¨/m¬≤ ({nb_trans:,} transactions)")

# Test 3: Analyse par type de propri√©t√©
print("\nüè† TEST 3 - Analyse par Type de Propri√©t√©")
print("-" * 40)

property_results = StatisticalAnalyzer.property_type_analysis(df)
if 'global_analysis' in property_results:
    print("üìä Analyse par type de bien:")
    for _, row in property_results['global_analysis'].iterrows():
        type_bien = row['type_local']
        prix_moy = row['prix_m2_mean']
        nb_trans = row['prix_m2_count']
        surface_moy = row['surface_reelle_bati_mean']
        print(f"   ‚Ä¢ {type_bien}: {prix_moy:,.0f}‚Ç¨/m¬≤, {surface_moy:.0f}m¬≤ moy., {nb_trans:,} biens")

# Test 4: D√©tection d'outliers
print("\nüîç TEST 4 - D√©tection d'Outliers")
print("-" * 30)

outliers_results = StatisticalAnalyzer.outlier_detection(df, ['prix_m2', 'surface_reelle_bati'])
for var, outlier_info in outliers_results.items():
    print(f"\nüìä {var.upper()}:")
    print(f"   ‚Ä¢ M√©thode: {outlier_info['method']}")
    print(f"   ‚Ä¢ Outliers d√©tect√©s: {outlier_info['outliers_count']:,} ({outlier_info['outliers_percentage']:.1f}%)")
    if 'upper_bound' in outlier_info:
        print(f"   ‚Ä¢ Seuil sup√©rieur: {outlier_info['upper_bound']:,.0f}")
        print(f"   ‚Ä¢ Seuil inf√©rieur: {outlier_info['lower_bound']:,.0f}")

# Test 5: Analyse d'investissement
print("\nüí∞ TEST 5 - Analyse d'Investissement")
print("-" * 35)

investment_results = StatisticalAnalyzer.investment_market_analysis(df)
if 'yield_analysis' in investment_results:
    print("üìà Rendements estim√©s par type:")
    for type_analysis in investment_results['yield_analysis']:
        type_bien = type_analysis['type_bien']
        rendement = type_analysis['rendement_brut_estime']
        prix_moyen = type_analysis['prix_achat_moyen']
        loyer_estime = type_analysis['loyer_mensuel_estime']
        print(f"   ‚Ä¢ {type_bien}:")
        print(f"     - Prix moyen: {prix_moyen:,.0f}‚Ç¨")
        print(f"     - Loyer estim√©: {loyer_estime:,.0f}‚Ç¨/mois")
        print(f"     - Rendement brut: {rendement:.1f}%")

if 'surface_segments' in investment_results:
    print(f"\nüìê Analyse par segment de surface:")
    for _, row in investment_results['surface_segments'].iterrows():
        segment = row['segment_surface']
        prix_m2 = row['prix_m2_mean']
        nb_biens = row['prix_m2_count']
        if pd.notna(prix_m2):
            print(f"   ‚Ä¢ {segment}: {prix_m2:,.0f}‚Ç¨/m¬≤ ({nb_biens:,} biens)")

print("\n‚úÖ T020 - Extension dvf_utils.py avec fonctions statistiques compl√©t√©e")
print("\nüéØ R√âSUM√â DES NOUVELLES FONCTIONS AJOUT√âES :")
print("   ‚Ä¢ StatisticalAnalyzer.comprehensive_descriptive_stats() - T015")
print("   ‚Ä¢ StatisticalAnalyzer.geographical_price_analysis() - T016") 
print("   ‚Ä¢ StatisticalAnalyzer.property_type_analysis() - T017")
print("   ‚Ä¢ StatisticalAnalyzer.temporal_evolution_analysis() - T018")
print("   ‚Ä¢ StatisticalAnalyzer.outlier_detection() - T019")
print("   ‚Ä¢ StatisticalAnalyzer.market_anomalies_detection() - T019")
print("   ‚Ä¢ StatisticalAnalyzer.investment_market_analysis() - Bonus")

In [None]:
# Visualisation de l'√©volution temporelle
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# √âvolution du prix moyen au m¬≤
axes[0, 0].plot(yearly_evolution['annee_mutation'], yearly_evolution['prix_m2_mean'], 
                marker='o', linewidth=2, markersize=8)
axes[0, 0].set_title('√âvolution du Prix Moyen au m¬≤', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Ann√©e')
axes[0, 0].set_ylabel('Prix au m¬≤ (‚Ç¨)')
axes[0, 0].grid(True, alpha=0.3)

# √âvolution du nombre de transactions
axes[0, 1].bar(yearly_evolution['annee_mutation'], yearly_evolution['prix_m2_count'])
axes[0, 1].set_title('√âvolution du Volume de Transactions', fontsize=14, fontweight='bold')
axes[0, 1].set_xlabel('Ann√©e')
axes[0, 1].set_ylabel('Nombre de Transactions')

# √âvolution par trimestre
quarterly_evolution = df.groupby(['annee_mutation', 'trimestre_mutation'])['prix_m2'].mean().reset_index()
quarterly_evolution['periode'] = quarterly_evolution['annee_mutation'].astype(str) + '-T' + quarterly_evolution['trimestre_mutation'].astype(str)
axes[1, 0].plot(range(len(quarterly_evolution)), quarterly_evolution['prix_m2'], marker='o')
axes[1, 0].set_title('√âvolution Trimestrielle du Prix au m¬≤', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('P√©riode')
axes[1, 0].set_ylabel('Prix au m¬≤ (‚Ç¨)')
axes[1, 0].set_xticks(range(0, len(quarterly_evolution), 4))
axes[1, 0].set_xticklabels([quarterly_evolution.iloc[i]['periode'] for i in range(0, len(quarterly_evolution), 4)], rotation=45)
axes[1, 0].grid(True, alpha=0.3)

# Saisonnalit√© par mois
monthly_pattern = df.groupby('mois_mutation')['prix_m2'].mean()
month_names = ['Jan', 'F√©v', 'Mar', 'Avr', 'Mai', 'Jun', 'Jul', 'Ao√ª', 'Sep', 'Oct', 'Nov', 'D√©c']
axes[1, 1].bar(monthly_pattern.index, monthly_pattern.values)
axes[1, 1].set_title('Saisonnalit√© des Prix (Moyenne par Mois)', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('Mois')
axes[1, 1].set_ylabel('Prix Moyen au m¬≤ (‚Ç¨)')
axes[1, 1].set_xticks(range(1, 13))
axes[1, 1].set_xticklabels(month_names, rotation=45)

plt.tight_layout()
plt.show()

## 5. üéØ Identification des Opportunit√©s d'Investissement

Analyse des zones et types de biens les plus attractifs.

In [None]:
# Top communes par volume de transactions (liquidit√© du march√©)
analyzer = GeographicAnalyzer()
top_communes_volume = analyzer.get_top_communes(df, metric='prix_m2', n_top=20, ascending=True)

print("üèÜ Top 20 Communes - Prix Attractifs (avec liquidit√©) :")
for i, row in top_communes_volume.iterrows():
    commune = row['commune']
    prix_moy = row['prix_m2_moyen']
    nb_trans = row['nb_transactions']
    print(f"   {i+1:2d}. {commune}: {prix_moy:,.0f}‚Ç¨/m¬≤ ({nb_trans} transactions)")

In [None]:
# Analyse des d√©partements avec le meilleur rapport qualit√©-prix
# (prix mod√©r√© + volume de transactions significatif)
dept_opportunity = dept_analysis_sorted[
    (dept_analysis_sorted['prix_m2_count'] >= 100) &  # Au moins 100 transactions
    (dept_analysis_sorted['prix_m2_mean'] <= 4000)    # Prix inf√©rieur √† 4000‚Ç¨/m¬≤
].head(15)

print("\nüíé D√©partements avec Opportunit√©s (Prix < 4000‚Ç¨/m¬≤ + Volume) :")
for _, row in dept_opportunity.iterrows():
    dept = row['code_departement']
    prix_moy = row['prix_m2_mean']
    prix_med = row['prix_m2_median']
    nb_trans = row['prix_m2_count']
    print(f"   ‚Ä¢ Dept {dept}: {prix_moy:,.0f}‚Ç¨/m¬≤ (m√©diane: {prix_med:,.0f}‚Ç¨/m¬≤, {nb_trans:,} trans.)")

In [None]:
# Analyse de la volatilit√© des prix par d√©partement
dept_volatility = dept_analysis_sorted[
    dept_analysis_sorted['prix_m2_count'] >= 50
].copy()

dept_volatility['coefficient_variation'] = (dept_volatility['prix_m2_std'] / dept_volatility['prix_m2_mean']) * 100
dept_volatility_sorted = dept_volatility.sort_values('coefficient_variation')

print("\nüìä D√©partements les Plus Stables (Faible Volatilit√©) :")
for _, row in dept_volatility_sorted.head(10).iterrows():
    dept = row['code_departement']
    cv = row['coefficient_variation']
    prix_moy = row['prix_m2_mean']
    print(f"   ‚Ä¢ Dept {dept}: CV {cv:.1f}% (Prix moy: {prix_moy:,.0f}‚Ç¨/m¬≤)")

print("\n‚ö†Ô∏è D√©partements les Plus Volatils :")
for _, row in dept_volatility_sorted.tail(5).iterrows():
    dept = row['code_departement']
    cv = row['coefficient_variation']
    prix_moy = row['prix_m2_mean']
    print(f"   ‚Ä¢ Dept {dept}: CV {cv:.1f}% (Prix moy: {prix_moy:,.0f}‚Ç¨/m¬≤)")

## 6. üîç Analyses Sp√©cialis√©es pour l'Investissement Locatif

Focus sur les crit√®res sp√©cifiques √† l'investissement locatif.

In [None]:
# Analyse des biens id√©aux pour la location (2-4 pi√®ces, 30-80m¬≤)
if 'nombre_pieces_principales' in df.columns:
    df_locatif = df[
        (df['nombre_pieces_principales'].between(2, 4)) &
        (df['surface_reelle_bati'].between(30, 80))
    ]
    
    print(f"üéØ Biens Optimaux pour la Location (2-4 pi√®ces, 30-80m¬≤) :")
    print(f"   ‚Ä¢ Volume disponible : {len(df_locatif):,} biens ({len(df_locatif)/len(df)*100:.1f}% du march√©)")
    
    # Top d√©partements pour ce segment
    locatif_dept = df_locatif.groupby('code_departement').agg({
        'prix_m2': ['mean', 'count'],
        'valeur_fonciere': 'mean'
    }).round(2)
    
    locatif_dept.columns = ['_'.join(col).strip() for col in locatif_dept.columns]
    locatif_dept = locatif_dept.reset_index()
    locatif_dept = locatif_dept[locatif_dept['prix_m2_count'] >= 20]  # Au moins 20 biens
    locatif_dept = locatif_dept.sort_values('prix_m2_mean')
    
    print("\nüí∞ Top 15 D√©partements - Biens Locatifs Abordables :")
    for _, row in locatif_dept.head(15).iterrows():
        dept = row['code_departement']
        prix_moy = row['prix_m2_mean']
        prix_total_moy = row['valeur_fonciere_mean']
        nb_biens = row['prix_m2_count']
        print(f"   ‚Ä¢ Dept {dept}: {prix_moy:,.0f}‚Ç¨/m¬≤ ({prix_total_moy:,.0f}‚Ç¨ moy., {nb_biens} biens)")

In [None]:
# Analyse des tendances r√©centes (2022-2023)
df_recent = df[df['annee_mutation'].isin([2022, 2023])]

if len(df_recent) > 0:
    print(f"\nüî• Tendances R√©centes (2022-2023) - {len(df_recent):,} transactions :")
    
    recent_trends = df_recent.groupby(['code_departement', 'annee_mutation'])['prix_m2'].mean().unstack(fill_value=0)
    
    # D√©partements avec donn√©es pour les deux ann√©es
    valid_depts = recent_trends[(recent_trends[2022] > 0) & (recent_trends[2023] > 0)]
    valid_depts['evolution_pct'] = ((valid_depts[2023] - valid_depts[2022]) / valid_depts[2022] * 100)
    
    print("\nüìà D√©partements en Hausse (2022‚Üí2023) :")
    hausse = valid_depts.sort_values('evolution_pct', ascending=False).head(10)
    for dept, row in hausse.iterrows():
        print(f"   ‚Ä¢ Dept {dept}: {row['evolution_pct']:+.1f}% ({row[2022]:.0f}‚Ç¨ ‚Üí {row[2023]:.0f}‚Ç¨/m¬≤)")
    
    print("\nüìâ D√©partements en Baisse (2022‚Üí2023) :")
    baisse = valid_depts.sort_values('evolution_pct').head(5)
    for dept, row in baisse.iterrows():
        print(f"   ‚Ä¢ Dept {dept}: {row['evolution_pct']:+.1f}% ({row[2022]:.0f}‚Ç¨ ‚Üí {row[2023]:.0f}‚Ç¨/m¬≤)")
else:
    print("\n‚ö†Ô∏è Donn√©es insuffisantes pour l'analyse des tendances r√©centes")

## 7. üìä Export des R√©sultats d'Analyse

Sauvegarde des analyses pour utilisation dans les notebooks suivants.

In [None]:
# Export des analyses principales
output_dir = Path('../outputs')

# Sauvegarde de l'analyse par d√©partement
dept_analysis_sorted.to_csv(output_dir / 'analyse_departements.csv', index=False)

# Sauvegarde de l'analyse par type de bien
if 'type_local' in df.columns:
    type_analysis.to_csv(output_dir / 'analyse_types_biens.csv', index=False)

# Sauvegarde de l'√©volution temporelle
yearly_evolution.to_csv(output_dir / 'evolution_temporelle.csv', index=False)

# Sauvegarde des opportunit√©s d'investissement
dept_opportunity.to_csv(output_dir / 'opportunites_departements.csv', index=False)
top_communes_volume.to_csv(output_dir / 'top_communes_prix_attractifs.csv', index=False)

print("‚úÖ Analyses export√©es dans le dossier outputs/")
print(f"   ‚Ä¢ analyse_departements.csv : {len(dept_analysis_sorted)} d√©partements")
if 'type_local' in df.columns:
    print(f"   ‚Ä¢ analyse_types_biens.csv : {len(type_analysis)} types de biens")
print(f"   ‚Ä¢ evolution_temporelle.csv : {len(yearly_evolution)} ann√©es")
print(f"   ‚Ä¢ opportunites_departements.csv : {len(dept_opportunity)} d√©partements")
print(f"   ‚Ä¢ top_communes_prix_attractifs.csv : {len(top_communes_volume)} communes")

## üìù Synth√®se des Analyses Exploratoires

### üéØ Points Cl√©s pour l'Investisseur

#### üèÜ D√©partements Attractifs
- **Prix abordables** : D√©partements avec prix < 4000‚Ç¨/m¬≤ et volume significatif
- **Stabilit√©** : D√©partements avec faible volatilit√© des prix
- **Liquidit√©** : Zones avec volume de transactions important

#### üìà Tendances du March√©
- **√âvolution temporelle** : Croissance annuelle des prix
- **Saisonnalit√©** : Variations des prix selon les mois
- **Tendances r√©centes** : √âvolution 2022-2023

#### üè† Types de Biens Optimaux
- **Segment locatif** : Biens 2-4 pi√®ces, 30-80m¬≤
- **Prix par type** : Comparaison appartements vs maisons
- **Opportunit√©s** : Types de biens sous-valoris√©s

### üîÑ Prochaines √âtapes

1. **Visualisations interactives** : Interface pour explorer les donn√©es
2. **Calcul de rentabilit√©** : Estimation des rendements locatifs
3. **Recommandations** : Conseils personnalis√©s d'investissement

### üìä Donn√©es G√©n√©r√©es

Les analyses sont sauvegard√©es dans le dossier `outputs/` pour utilisation dans les notebooks suivants :
- Tableaux de bord interactifs
- Calculs de rentabilit√©
- Recommandations finales