# üè† Analyse Exploratoire des Donn√©es Immobili√®res

Ce notebook pr√©sente une analyse exploratoire compl√®te des donn√©es immobili√®res du Qu√©bec.

## üìã Objectifs
- Comprendre la structure et la qualit√© des donn√©es
- Identifier les tendances et patterns dans les prix immobiliers
- Analyser les facteurs influen√ßant les prix
- D√©tecter les anomalies et valeurs aberrantes
- Visualiser les donn√©es g√©ospatiales et temporelles

## üìä Plan d'analyse
1. **Configuration et chargement des donn√©es**
2. **Aper√ßu g√©n√©ral des donn√©es**
3. **Analyse univari√©e**
4. **Analyse bivari√©e et corr√©lations**
5. **Analyse g√©ospatiale**
6. **Analyse temporelle**
7. **Insights et recommandations**


## 1. üîß Configuration et Chargement des Donn√©es


In [2]:
# Imports essentiels
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
import folium
from folium.plugins import MarkerCluster, HeatMap, TimestampedGeoJson
from datetime import datetime
import ast

# Configuration
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8')
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', '{:.2f}'.format)

# Imports de la biblioth√®que locale
from lib.db import read_mongodb_to_dataframe
from lib.mongodb_loader import MongoDBLoader
from lib.data_processors import PropertyDataProcessor
from lib import PropertyAnalyzer
from lib.eda import *

print("‚úÖ Configuration termin√©e")


‚úÖ Configuration termin√©e


In [3]:
# Chargement des donn√©es
try:
    # Option 1: Connexion MongoDB
    loader = MongoDBLoader("mongodb://localhost:27017/")
    if loader.connect("real_estate_db"):
        print("üîó Connexion MongoDB r√©ussie")
        
        # Charger un √©chantillon de donn√©es
        df = loader.load_sample_data(
            collection_name="properties",
            sample_size=100000,
            filters={"type": {"$regex": "triplex", "$options": "i"}, "city":{"$regex": "trois-rivi√®res", "$options": "i"}}
        )
        
        if not df.empty:
            print(f"üìä Donn√©es charg√©es: {df.shape[0]} propri√©t√©s, {df.shape[1]} colonnes")
            df.to_csv("clean_data/sample_real_estate_data.csv", index=False)
            # Aper√ßu g√©n√©ral avec liste des colonnes
            loader.print_data_summary(df)
        else:
            raise Exception("Aucune donn√©e trouv√©e dans MongoDB")
    else:
        raise Exception("Connexion MongoDB √©chou√©e")
        
except Exception as e:
    print(f"‚ö†Ô∏è Erreur MongoDB: {e}")
    print("üìÅ Tentative de chargement depuis fichier CSV...")
    
    # Option 2: Chargement depuis fichier CSV
    import glob
    import os
    
    backup_dir = 'backup'
    if os.path.exists(backup_dir):
        file_pattern = os.path.join(backup_dir, "properties_db_*.csv")
        files = glob.glob(file_pattern)
        
        if files:
            latest_file = max(files, key=os.path.getmtime)
            print(f"üìÇ Chargement du fichier: {latest_file}")
            df = pd.read_csv(latest_file)
            # Aper√ßu d√©taill√© de toutes les colonnes
            loader.print_detailed_columns_info(df)
        else:
            print("‚ùå Aucun fichier CSV trouv√©")
    else:
        print("‚ùå Dossier backup non trouv√©")

# Nettoyage initial des donn√©es
if 'df' in locals():
    # Convertir les dates
    date_columns = ['add_date', 'last_update']
    for col in date_columns:
        if col in df.columns:
            df[col] = pd.to_datetime(df[col], errors='coerce')
    
    print("‚úÖ Donn√©es pr√™tes pour l'analyse")
else:
    print("‚ùå Impossible de charger les donn√©es")


INFO:lib.mongodb_loader:‚úÖ Connexion MongoDB √©tablie: real_estate_db
INFO:lib.mongodb_loader:üìä Chargement d'un √©chantillon de 100000 propri√©t√©s...


üîó Connexion MongoDB r√©ussie


INFO:lib.mongodb_loader:‚úÖ 172 propri√©t√©s charg√©es depuis properties


üìä Donn√©es charg√©es: 172 propri√©t√©s, 53 colonnes
‚ö†Ô∏è Erreur MongoDB: Cannot save file into a non-existent directory: 'clean_data'
üìÅ Tentative de chargement depuis fichier CSV...
‚ùå Aucun fichier CSV trouv√©
‚úÖ Donn√©es pr√™tes pour l'analyse


## 2. üìã Aper√ßu G√©n√©ral des Donn√©es


In [18]:
# Informations g√©n√©rales sur le dataset
print("üîç INFORMATIONS G√âN√âRALES")
print("=" * 50)
print(f"üìä Dimensions: {df.shape[0]:,} lignes √ó {df.shape[1]} colonnes")
print(f"üíæ Taille m√©moire: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print(f"üìÖ P√©riode: {df['add_date'].min().strftime('%Y-%m-%d')} √† {df['add_date'].max().strftime('%Y-%m-%d')}" if 'add_date' in df.columns else "")

print("\nüìù APER√áU DES DONN√âES")
print("=" * 50)
display(df.head())


üîç INFORMATIONS G√âN√âRALES
üìä Dimensions: 172 lignes √ó 53 colonnes
üíæ Taille m√©moire: 0.34 MB
üìÖ P√©riode: 2023-02-16 √† 2025-02-17

üìù APER√áU DES DONN√âES


Unnamed: 0,_id,price,type,address,description,img_src,link,plex-revenue,company,vendue,update_at,revenu,add_date,city,surface,construction_year,municipal_taxes,school_taxes,longitude,latitude,unites,depenses,price_assessment,nb_bathroom,nb_bedroom,plex-revenu,version,region,basement,bathrooms,bedrooms,building_style,commercial_units,created_at,extraction_metadata,full_address,image,images,location,lot_size,main_unit_details,municipal_evaluation_building,municipal_evaluation_land,municipal_evaluation_total,municipal_evaluation_year,municipal_tax,parking,potential_gross_revenue,residential_units,school_tax,updated_at,year_built,living_area
0,23981494,169000.0,Triplex,"{'street': '900 - 904, Rue Sainte-Ang√®le', 'lo...","Triplex √† vendre √† Trois-Rivi√®res, Mauricie, 9...",https://mspublic.centris.ca/media.ashx?id=ADDD...,https://www.centris.ca/fr/triplex~a-vendre~tro...,Rev. bruts pot. : 19 260 $,Centris,True,"['30/05/2023', '25/06/2024']",19260.0,2023-05-30,Trois-Rivi√®res,1875.0,1923.0,2500.0,2500.0,-72.54,46.35,"[{'unite': '4 ¬Ω', 'nb_unite': '3 '}]",,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,28514812,179000.0,Triplex,"{'street': '1730 - 1734, Rue Saint-Paul', 'loc...","Triplex √† vendre √† Trois-Rivi√®res, Mauricie, 1...",https://mspublic.centris.ca/media.ashx?id=ADDD...,https://www.centris.ca/fr/triplex~a-vendre~tro...,Rev. bruts pot. : 15 540 $,Centris,True,"[11/08/2024, 27/08/2024, 30/08/2024, 31/08/202...",15540.0,2024-08-11,Trois-Rivi√®res,3257.0,1951.0,3373.0,104.0,-72.55,46.36,"[{'unite': '4 ¬Ω', 'nb_unite': '1 '}, {'unite':...",,161300.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,23051811,199000.0,Triplex,"{'street': '924 - 926, Rue Sainte-Ursule', 'lo...","Triplex √† vendre √† Trois-Rivi√®res, Mauricie, 9...",https://mspublic.centris.ca/media.ashx?id=ADDD...,https://www.centris.ca/fr/triplex~a-vendre~tro...,Rev. bruts pot. : 15 840 $,Centris,True,"['24/06/2023', '25/06/2024']",15840.0,2023-06-24,Trois-Rivi√®res,2367.0,1923.0,2.0,90.0,-72.54,46.35,"[{'unite': '3 ¬Ω', 'nb_unite': '1 '}, {'unite':...",,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,10812152,215000.0,Triplex,"{'street': '370 - 372, boulevard Sainte-Madele...","Triplex √† vendre √† Trois-Rivi√®res, Mauricie, 3...",https://mspublic.centris.ca/media.ashx?id=ADDD...,https://www.centris.ca/fr/triplex~a-vendre~tro...,Rev. bruts pot. : 14 340 $,Centris,True,2025-02-25T19:47:17.171499,14340.0,2024-08-15,Trois-Rivi√®res,1528.0,1920.0,,,-72.51,46.37,"[{'unite': '2 ¬Ω', 'nb_unite': '2 '}, {'unite':...",,,1.0,1.0,Rev. bruts pot. : 14 340 $,1.0.0,Mauricie,,,,,,,,,,,,,,,,,,,,,,,,,
4,10757271,225000.0,Triplex,"{'street': '20 - 20B, boulevard Thibeau', 'loc...","Triplex √† vendre √† Trois-Rivi√®res, Mauricie, 2...",https://mspublic.centris.ca/media.ashx?id=ADDD...,https://www.centris.ca/fr/triplex~a-vendre~tro...,Rev. bruts pot. : 19 440 $,Centris,True,"['16/02/2023', '25/06/2024', '29/06/2024', '06...",19440.0,2023-02-16,Trois-Rivi√®res,6583.0,1913.0,3140.0,132.0,-72.53,46.37,"[{'unite': '4 ¬Ω', 'nb_unite': '1 '}, {'unite':...",,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [19]:
# Analyse des valeurs manquantes
print("üï≥Ô∏è ANALYSE DES VALEURS MANQUANTES")
print("=" * 50)

missing_data = df.isnull().sum().sort_values(ascending=False)
missing_percent = (missing_data / len(df) * 100).round(2)

missing_df = pd.DataFrame({
    'Colonne': missing_data.index,
    'Valeurs_manquantes': missing_data.values,
    'Pourcentage': missing_percent.values
})

# Afficher seulement les colonnes avec des valeurs manquantes
missing_df_filtered = missing_df[missing_df['Valeurs_manquantes'] > 0]

if len(missing_df_filtered) > 0:
    display(missing_df_filtered)
    
    # Visualisation des valeurs manquantes
    fig = px.bar(missing_df_filtered.head(15), 
                 x='Colonne', y='Pourcentage',
                 title='Top 15 - Pourcentage de valeurs manquantes par colonne',
                 color='Pourcentage',
                 color_continuous_scale='Reds')
    fig.update_layout(xaxis_tickangle=-45, height=500)
    fig.show()
else:
    print("‚úÖ Aucune valeur manquante d√©tect√©e!")


üï≥Ô∏è ANALYSE DES VALEURS MANQUANTES


Unnamed: 0,Colonne,Valeurs_manquantes,Pourcentage
0,depenses,170,98.84
1,living_area,168,97.67
2,basement,157,91.28
3,price_assessment,155,90.12
4,parking,146,84.88
5,lot_size,141,81.98
6,location,140,81.4
7,bedrooms,140,81.4
8,building_style,140,81.4
9,commercial_units,140,81.4


In [25]:
df.columns

Index(['_id', 'price', 'type', 'address', 'description', 'img_src', 'link',
       'plex-revenue', 'company', 'vendue', 'update_at', 'revenu', 'add_date',
       'city', 'surface', 'construction_year', 'municipal_taxes',
       'school_taxes', 'longitude', 'latitude', 'unites', 'depenses',
       'price_assessment', 'nb_bathroom', 'nb_bedroom', 'plex-revenu',
       'version', 'region', 'basement', 'bathrooms', 'bedrooms',
       'building_style', 'commercial_units', 'created_at',
       'extraction_metadata', 'full_address', 'image', 'images', 'location',
       'lot_size', 'main_unit_details', 'municipal_evaluation_building',
       'municipal_evaluation_land', 'municipal_evaluation_total',
       'municipal_evaluation_year', 'municipal_tax', 'parking',
       'potential_gross_revenue', 'residential_units', 'school_tax',
       'updated_at', 'year_built', 'living_area'],
      dtype='object')

## 3. üìä Analyse Univari√©e


In [20]:
# Analyse de la variable prix (principale variable d'int√©r√™t)
print("üí∞ ANALYSE D√âTAILL√âE DU PRIX")
print("=" * 50)

if 'price' in df.columns:
    # Statistiques du prix
    price_stats = df['price'].describe()
    print(f"Prix moyen: {price_stats['mean']:,.0f} $")
    print(f"Prix m√©dian: {price_stats['50%']:,.0f} $")
    print(f"√âcart-type: {price_stats['std']:,.0f} $")
    print(f"Prix minimum: {price_stats['min']:,.0f} $")
    print(f"Prix maximum: {price_stats['max']:,.0f} $")
    
    # D√©tection des outliers
    Q1 = df['price'].quantile(0.25)
    Q3 = df['price'].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = df[(df['price'] < lower_bound) | (df['price'] > upper_bound)]
    print(f"\nüö® Outliers d√©tect√©s: {len(outliers):,} ({len(outliers)/len(df)*100:.1f}%)")
    print(f"Borne inf√©rieure: {lower_bound:,.0f} $")
    print(f"Borne sup√©rieure: {upper_bound:,.0f} $")
    
    # Visualisation simple du prix
    fig = make_subplots(
        rows=1, cols=2,
        subplot_titles=('Distribution des prix', 'Boxplot des prix')
    )
    
    # Histogramme
    fig.add_trace(
        go.Histogram(x=df['price'], nbinsx=50, name='Prix', opacity=0.7),
        row=1, col=1
    )
    
    # Boxplot
    fig.add_trace(
        go.Box(y=df['price'], name='Prix'),
        row=1, col=2
    )
    
    fig.update_layout(height=400, title_text="Analyse de la distribution des prix")
    fig.show()
else:
    print("‚ùå Colonne 'price' non trouv√©e")


üí∞ ANALYSE D√âTAILL√âE DU PRIX
Prix moyen: 412,126 $
Prix m√©dian: 387,000 $
√âcart-type: 150,735 $
Prix minimum: 169,000 $
Prix maximum: 999,000 $

üö® Outliers d√©tect√©s: 6 (3.5%)
Borne inf√©rieure: 688 $
Borne sup√©rieure: 797,988 $


## 4. üîó Analyse Bivari√©e et Corr√©lations


In [21]:
# Matrice de corr√©lation
print("üîó MATRICE DE CORR√âLATION")
print("=" * 50)

# S√©lectionner les variables num√©riques pour la corr√©lation
numeric_for_corr = df.select_dtypes(include=['int64', 'float64']).columns.tolist()

if len(numeric_for_corr) >= 2:
    # Calculer la matrice de corr√©lation
    correlation_matrix = df[numeric_for_corr].corr()
    
    # Heatmap interactive avec Plotly
    fig = px.imshow(correlation_matrix, 
                    text_auto=True, 
                    aspect="auto",
                    color_continuous_scale='RdBu_r',
                    title='Matrice de corr√©lation des variables num√©riques')
    fig.update_layout(height=600)
    fig.show()
    
    # Afficher les corr√©lations les plus fortes avec le prix
    if 'price' in correlation_matrix.columns:
        price_corr = correlation_matrix['price'].abs().sort_values(ascending=False)[1:]  # Exclure l'auto-corr√©lation
        print(f"\nüí∞ Top 10 - Corr√©lations avec le prix:")
        print("-" * 40)
        for i, (var, corr) in enumerate(price_corr.head(10).items()):
            direction = "üìà" if correlation_matrix['price'][var] > 0 else "üìâ"
            print(f"   {i+1}. {var}: {direction} {corr:.3f}")
else:
    print("‚ùå Pas assez de variables num√©riques pour calculer les corr√©lations")


üîó MATRICE DE CORR√âLATION



üí∞ Top 10 - Corr√©lations avec le prix:
----------------------------------------
   1. price: üìà 1.000
   2. price_assessment: üìà 0.850
   3. municipal_evaluation_total: üìà 0.714
   4. municipal_evaluation_building: üìà 0.683
   5. revenu: üìà 0.666
   6. potential_gross_revenue: üìà 0.663
   7. school_tax: üìà 0.621
   8. municipal_evaluation_land: üìà 0.546
   9. lot_size: üìà 0.458
   10. municipal_taxes: üìà 0.436


## 5. üó∫Ô∏è Analyse G√©ospatiale


In [22]:
# V√©rifier la disponibilit√© des coordonn√©es g√©ographiques
print("üó∫Ô∏è ANALYSE G√âOSPATIALE")
print("=" * 50)

geo_columns = ['latitude', 'longitude']
has_geo_data = all(col in df.columns for col in geo_columns)

if has_geo_data:
    # Nettoyer les donn√©es g√©ographiques
    df_geo = df.dropna(subset=['latitude', 'longitude', 'price'])
    
    if len(df_geo) > 0:
        print(f"üìç {len(df_geo):,} propri√©t√©s avec coordonn√©es g√©ographiques")
        print(f"üåê Zone g√©ographique:")
        print(f"   Latitude: {df_geo['latitude'].min():.3f} √† {df_geo['latitude'].max():.3f}")
        print(f"   Longitude: {df_geo['longitude'].min():.3f} √† {df_geo['longitude'].max():.3f}")
        
        # Carte de base
        center_lat = df_geo['latitude'].mean()
        center_lon = df_geo['longitude'].mean()
        
        print(f"\nüéØ Centre g√©ographique: ({center_lat:.3f}, {center_lon:.3f})")
        
        # Cr√©er une carte avec √©chantillonnage pour √©viter trop de points
        sample_size = min(1000, len(df_geo))  # Limiter √† 1000 points pour la performance
        df_sample = df_geo.sample(n=sample_size, random_state=42)
        
        print(f"\nüó∫Ô∏è Cr√©ation de la carte avec {sample_size} propri√©t√©s...")
        
        # Cr√©er la carte de base
        m = folium.Map(
            location=[center_lat, center_lon],
            zoom_start=10,
            tiles='OpenStreetMap'
        )
        
        # Ajouter un cluster de marqueurs
        marker_cluster = MarkerCluster().add_to(m)
        
        # D√©terminer les couleurs bas√©es sur le prix (quartiles)
        price_q1 = df_sample['price'].quantile(0.25)
        price_q2 = df_sample['price'].quantile(0.50)
        price_q3 = df_sample['price'].quantile(0.75)
        
        def get_price_color(price):
            if price <= price_q1:
                return 'green'  # Quartile 1 - Prix bas
            elif price <= price_q2:
                return 'blue'   # Quartile 2 - Prix mod√©r√©
            elif price <= price_q3:
                return 'orange' # Quartile 3 - Prix √©lev√©
            else:
                return 'red'    # Quartile 4 - Prix tr√®s √©lev√©
        
        # Ajouter les marqueurs
        for idx, row in df_sample.iterrows():
            color = get_price_color(row['price'])
            
            # Construire le popup avec les informations disponibles
            popup_info = f"<b>Prix: {row['price']:,.0f} $</b><br>"
            
            # Ajouter d'autres informations si disponibles
            if 'city' in df.columns and pd.notna(row.get('city')):
                popup_info += f"Ville: {row['city']}<br>"
            if 'type' in df.columns and pd.notna(row.get('type')):
                popup_info += f"Type: {row['type']}<br>"
            if 'surface' in df.columns and pd.notna(row.get('surface')):
                popup_info += f"Surface: {row['surface']:.0f} m¬≤<br>"
            
            # Ajouter le marqueur
            folium.Marker(
                location=[row['latitude'], row['longitude']],
                popup=folium.Popup(popup_info, max_width=200),
                tooltip=f"Prix: {row['price']:,.0f} $",
                icon=folium.Icon(color=color, icon='home')
            ).add_to(marker_cluster)
        
        # Ajouter une l√©gende
        legend_html = f'''
        <div style="position: fixed; 
                    top: 10px; right: 10px; width: 180px; height: 120px; 
                    background-color: white; border:2px solid grey; z-index:9999; 
                    font-size:14px; padding: 10px">
        <h4>L√©gende des prix</h4>
        <i class="fa fa-circle" style="color:green"></i> Bas (‚â§ {price_q1:,.0f} $)<br>
        <i class="fa fa-circle" style="color:blue"></i> Mod√©r√© ({price_q1:,.0f} - {price_q2:,.0f} $)<br>
        <i class="fa fa-circle" style="color:orange"></i> √âlev√© ({price_q2:,.0f} - {price_q3:,.0f} $)<br>
        <i class="fa fa-circle" style="color:red"></i> Tr√®s √©lev√© (> {price_q3:,.0f} $)
        </div>
        '''
        m.get_root().html.add_child(folium.Element(legend_html))
        
        # Afficher la carte
        display(m)
        
    else:
        print("‚ùå Aucune donn√©e g√©ographique valide trouv√©e")
        has_geo_data = False
else:
    print("‚ùå Colonnes g√©ographiques non disponibles")
    print(f"Colonnes disponibles: {df.columns.tolist()}")


üó∫Ô∏è ANALYSE G√âOSPATIALE
üìç 172 propri√©t√©s avec coordonn√©es g√©ographiques
üåê Zone g√©ographique:
   Latitude: 46.298 √† 46.406
   Longitude: -72.667 √† -72.493

üéØ Centre g√©ographique: (46.357, -72.545)

üó∫Ô∏è Cr√©ation de la carte avec 172 propri√©t√©s...


## 6. ‚è∞ Analyse Temporelle


In [23]:
# Analyse des tendances temporelles
print("‚è∞ ANALYSE TEMPORELLE")
print("=" * 50)

if 'add_date' in df.columns and 'price' in df.columns:
    # Filtrer les donn√©es avec des dates valides
    df_temporal = df.dropna(subset=['add_date', 'price'])
    
    if len(df_temporal) > 0:
        print(f"üìä {len(df_temporal):,} propri√©t√©s avec donn√©es temporelles")
        print(f"üìÖ P√©riode: {df_temporal['add_date'].min().strftime('%Y-%m-%d')} √† {df_temporal['add_date'].max().strftime('%Y-%m-%d')}")
        
        # Cr√©er des colonnes temporelles
        df_temporal = df_temporal.copy()
        df_temporal['year'] = df_temporal['add_date'].dt.year
        df_temporal['month'] = df_temporal['add_date'].dt.month
        df_temporal['quarter'] = df_temporal['add_date'].dt.quarter
        df_temporal['year_month'] = df_temporal['add_date'].dt.to_period('M')
        
        # √âvolution mensuelle des prix
        monthly_stats = df_temporal.groupby('year_month').agg({
            'price': ['mean', 'median', 'count']
        })
        monthly_stats.columns = ['Prix_moyen', 'Prix_m√©dian', 'Nb_propri√©t√©s']
        monthly_stats = monthly_stats.reset_index()
        monthly_stats['date'] = monthly_stats['year_month'].astype(str)
        
        # Graphique d'√©volution des prix
        fig = make_subplots(
            rows=2, cols=1,
            subplot_titles=('√âvolution des prix moyens et m√©dians', 'Nombre de propri√©t√©s ajout√©es'),
            specs=[[{"secondary_y": False}], [{"secondary_y": False}]]
        )
        
        # Prix moyens et m√©dians
        fig.add_trace(
            go.Scatter(x=monthly_stats['date'], y=monthly_stats['Prix_moyen'],
                       mode='lines+markers', name='Prix moyen', line=dict(color='blue')),
            row=1, col=1
        )
        
        fig.add_trace(
            go.Scatter(x=monthly_stats['date'], y=monthly_stats['Prix_m√©dian'],
                       mode='lines+markers', name='Prix m√©dian', line=dict(color='red')),
            row=1, col=1
        )
        
        # Nombre de propri√©t√©s
        fig.add_trace(
            go.Bar(x=monthly_stats['date'], y=monthly_stats['Nb_propri√©t√©s'],
                   name='Nombre de propri√©t√©s', marker=dict(color='green')),
            row=2, col=1
        )
        
        fig.update_layout(
            height=700,
            title_text="Analyse temporelle du march√© immobilier",
            xaxis2_title="P√©riode",
            yaxis_title="Prix ($)",
            yaxis2_title="Nombre de propri√©t√©s"
        )
        
        # Rotation des labels de l'axe X
        fig.update_xaxes(tickangle=45)
        
        fig.show()
        
    else:
        print("‚ùå Aucune donn√©e temporelle valide")
else:
    print("‚ùå Colonnes temporelles ou prix manquantes")


‚è∞ ANALYSE TEMPORELLE
üìä 148 propri√©t√©s avec donn√©es temporelles
üìÖ P√©riode: 2023-02-16 √† 2025-02-17


## 7. üí° Insights et Recommandations


In [24]:
# G√©n√©ration d'insights automatiques
print("üí° INSIGHTS ET RECOMMANDATIONS")
print("=" * 50)

insights = []

# Insight 1: Taille du dataset
insights.append(f"üìä **Taille du dataset**: {len(df):,} propri√©t√©s analys√©es")

# Insight 2: Prix
if 'price' in df.columns:
    price_mean = df['price'].mean()
    price_median = df['price'].median()
    price_std = df['price'].std()
    
    insights.append(f"üí∞ **Prix moyen**: {price_mean:,.0f} $ (m√©dian: {price_median:,.0f} $)")
    insights.append(f"üìà **Volatilit√© des prix**: √âcart-type de {price_std:,.0f} $ ({price_std/price_mean*100:.1f}% du prix moyen)")

# Insight 3: Valeurs manquantes
missing_percent_total = (df.isnull().sum().sum() / (len(df) * len(df.columns))) * 100
if missing_percent_total > 20:
    insights.append(f"üï≥Ô∏è **Qualit√© des donn√©es**: {missing_percent_total:.1f}% de valeurs manquantes - nettoyage recommand√©")
elif missing_percent_total > 5:
    insights.append(f"üï≥Ô∏è **Qualit√© des donn√©es**: {missing_percent_total:.1f}% de valeurs manquantes - acceptable")
else:
    insights.append(f"‚úÖ **Excellente qualit√© des donn√©es**: Seulement {missing_percent_total:.1f}% de valeurs manquantes")

# Insight 4: Variables cat√©gorielles
if 'type' in df.columns:
    type_counts = df['type'].value_counts()
    dominant_type = type_counts.index[0]
    dominant_percent = type_counts.iloc[0] / len(df) * 100
    insights.append(f"üè† **Type dominant**: {dominant_type} ({dominant_percent:.1f}% des propri√©t√©s)")

# Insight 5: G√©ographie
if 'city' in df.columns:
    city_counts = df['city'].value_counts()
    top_city = city_counts.index[0]
    top_city_percent = city_counts.iloc[0] / len(df) * 100
    insights.append(f"üåç **Ville la plus repr√©sent√©e**: {top_city} ({top_city_percent:.1f}% des propri√©t√©s)")
    insights.append(f"üó∫Ô∏è **Diversit√© g√©ographique**: {len(city_counts)} villes diff√©rentes")

# Afficher les insights
for i, insight in enumerate(insights, 1):
    print(f"{i}. {insight}")

print("\n" + "="*50)
print("üéØ RECOMMANDATIONS POUR LA SUITE")
print("="*50)

recommendations = [
    "üßπ **Nettoyage des donn√©es**: Traiter les valeurs manquantes et les outliers",
    "üî¢ **Feature Engineering**: Cr√©er de nouvelles variables (prix/m¬≤, √¢ge du b√¢timent, etc.)",
    "ü§ñ **Mod√©lisation**: D√©velopper des mod√®les pr√©dictifs de prix",
    "üìä **Segmentation**: Analyser diff√©rents segments de march√©",
    "üó∫Ô∏è **Analyse g√©ospatiale avanc√©e**: √âtudier l'influence des quartiers",
    "üìà **Analyse des tendances**: Approfondir l'analyse temporelle",
    "üíº **Business Intelligence**: Cr√©er des tableaux de bord interactifs"
]

for i, rec in enumerate(recommendations, 1):
    print(f"{i}. {rec}")

print("\n‚úÖ Analyse exploratoire termin√©e!")


üí° INSIGHTS ET RECOMMANDATIONS
1. üìä **Taille du dataset**: 172 propri√©t√©s analys√©es
2. üí∞ **Prix moyen**: 412,126 $ (m√©dian: 387,000 $)
3. üìà **Volatilit√© des prix**: √âcart-type de 150,735 $ (36.6% du prix moyen)
4. üï≥Ô∏è **Qualit√© des donn√©es**: 54.6% de valeurs manquantes - nettoyage recommand√©
5. üè† **Type dominant**: Triplex (81.4% des propri√©t√©s)
6. üåç **Ville la plus repr√©sent√©e**: Trois-Rivi√®res (100.0% des propri√©t√©s)
7. üó∫Ô∏è **Diversit√© g√©ographique**: 1 villes diff√©rentes

üéØ RECOMMANDATIONS POUR LA SUITE
1. üßπ **Nettoyage des donn√©es**: Traiter les valeurs manquantes et les outliers
2. üî¢ **Feature Engineering**: Cr√©er de nouvelles variables (prix/m¬≤, √¢ge du b√¢timent, etc.)
3. ü§ñ **Mod√©lisation**: D√©velopper des mod√®les pr√©dictifs de prix
4. üìä **Segmentation**: Analyser diff√©rents segments de march√©
5. üó∫Ô∏è **Analyse g√©ospatiale avanc√©e**: √âtudier l'influence des quartiers
6. üìà **Analyse des tendances**: App

## üìã R√©sum√© de l'Analyse

Cette analyse exploratoire a permis de:

### ‚úÖ Ce qui a √©t√© accompli:
- **Chargement et validation** des donn√©es immobili√®res
- **Analyse de la qualit√©** des donn√©es (valeurs manquantes, types)
- **Exploration univari√©e** des variables cl√©s
- **Analyse des corr√©lations** entre variables
- **Visualisation g√©ospatiale** des propri√©t√©s
- **Analyse temporelle** des tendances de march√©
- **G√©n√©ration d'insights** actionables

### üéØ Prochaines √©tapes recommand√©es:
1. **Pr√©paration des donn√©es** pour la mod√©lisation
2. **D√©veloppement de mod√®les pr√©dictifs**
3. **Analyse de segments sp√©cifiques** du march√©
4. **Cr√©ation de tableaux de bord interactifs**

### üìö Ressources utilis√©es:
- Biblioth√®que personnalis√©e `lib/` pour le traitement des donn√©es
- Visualisations interactives avec Plotly et Folium
- Analyses statistiques avec Pandas et NumPy

---
*Notebook cr√©√© pour l'analyse exploratoire des donn√©es immobili√®res du Qu√©bec*
