# 📊 Analyse Immobilière - Étapes Individuelles

Ce notebook montre comment exécuter chaque étape de l'analyse immobilière individuellement.
Cela permet un meilleur contrôle et debugging de chaque étape du processus.


## 🔧 Configuration et Imports


In [1]:
import pandas as pd
import numpy as np
from lib import PropertyAnalyzer, MongoDBLoader
import warnings
warnings.filterwarnings('ignore')

# Initialiser l'analyseur
analyzer = PropertyAnalyzer()

print("🏠 Analyseur immobilier initialisé avec succès!")


🏠 Analyseur immobilier initialisé avec succès!


## 📥 Chargement des Données


In [2]:
# Option 1: Charger depuis MongoDB
loader = MongoDBLoader()
loader.connect()
df = loader.load_properties()
property_types = loader.load_property_types()
loader.disconnect()

# Option 2: Charger depuis un fichier CSV/Excel
# df = pd.read_csv('votre_fichier.csv')


print(f"📊 Données chargées: {df.shape}")
print(f"📝 Colonnes: {list(df.columns)}")
df.head()


INFO:lib.mongodb_loader:✅ Connexion MongoDB établie: real_estate_db
INFO:lib.mongodb_loader:✅ 179843 propriétés chargées depuis properties
INFO:lib.mongodb_loader:✅ 11 types de propriétés chargés
INFO:lib.mongodb_loader:🔌 Connexion MongoDB fermée


📊 Données chargées: (179843, 79)
📝 Colonnes: ['_id', '', 'add_date', 'address', 'city', 'company', 'description', 'img_src', 'link', 'plex-revenue', 'price', 'type', 'update_at', 'vendue', 'revenu', 'surface', 'longitude', 'latitude', 'construction_year', 'municipal_taxes', 'school_taxes', 'unites', 'depenses', 'price_assessment', 'nb_bathroom', 'nb_bedroom', 'plex-revenu', 'version', 'region', 'annee', 'geo', 'images', 'nbr_chanbres', 'nbr_sal_bain', 'nbr_sal_deau', 'parking', 'prix_evaluation', 'revenus_annuels_bruts', 'style', 'superficie', 'taxes', 'bathrooms', 'bedrooms', 'building_style', 'commercial_units', 'created_at', 'extraction_metadata', 'full_address', 'image', 'location', 'lot_size', 'main_unit_details', 'municipal_evaluation_building', 'municipal_evaluation_land', 'municipal_evaluation_total', 'municipal_evaluation_year', 'municipal_tax', 'potential_gross_revenue', 'residential_units', 'school_tax', 'updated_at', 'year_built', 'living_area', 'water_rooms', 'basement', '

Unnamed: 0,_id,Unnamed: 2,add_date,address,city,company,description,img_src,link,plex-revenue,...,evaluation_year,expense,expense_period,nb_garage,nb_parking,nb_water_room,plex_revenu,postal_code,revenu_period,rooms
0,13363515,2152.0,2022-03-06 00:00:00,"{'street': '6926 - 6928, Avenue Somerled', 'l...",Montréal (Côte-des-Neiges/Notre-Dame-de-Grâce),Centris,Duplex à vendre à Montréal (Côte-des-Neiges/No...,https://mspublic.centris.ca/media.ashx?id=ADDD...,https://www.centris.ca/fr/duplex~a-vendre~mont...,Rev. bruts pot. : 26 100 $,...,,,,,,,,,,
1,25761492,,2024-07-12 00:00:00,"{'street': '1657, Rue Riendeau', 'locality': '...",Chambly,Centris,"Maison à vendre à Chambly, Montérégie, 1657, R...",https://mspublic.centris.ca/media.ashx?id=ADDD...,https://www.centris.ca/fr/maison~a-vendre~cham...,,...,,,,,,,,,,
2,20417145,,2024-08-22 00:00:00,"{'street': '1384, Rue de Niverville', 'localit...",Chambly,Centris,"Condo à vendre à Chambly, Montérégie, 1384, Ru...",https://mspublic.centris.ca/media.ashx?id=ADDD...,https://www.centris.ca/fr/condo~a-vendre~chamb...,,...,,,,,,,,,,
3,23726086,,2024-08-15 00:00:00,"{'street': '952, Rue Chaumont', 'locality': 'C...",Chambly,Centris,"Maison à vendre à Chambly, Montérégie, 952, Ru...",https://mspublic.centris.ca/media.ashx?id=ADDD...,https://www.centris.ca/fr/maison~a-vendre~cham...,,...,,,,,,,,,,
4,18532646,,2024-07-07 00:00:00,"{'street': '1646, Rue Napoléon-Bisson', 'local...",Chambly,Centris,"Maison à vendre à Chambly, Montérégie, 1646, R...",https://mspublic.centris.ca/media.ashx?id=ADDD...,https://www.centris.ca/fr/maison~a-vendre~cham...,,...,,,,,,,,,,


## 📊 ÉTAPE 1: Validation et Exploration


In [4]:
# Valider et explorer les données
df_step1 = analyzer.validate_and_explore(df, target_column='price')

# Vous pouvez ajouter votre propre exploration ici
print("\n🔍 Exploration supplémentaire:")
print(f"Types de données:")
print(df_step1.dtypes)

print(f"\nValeurs manquantes par colonne:")
print(df_step1.isnull().sum())



📊 ÉTAPE 1: VALIDATION ET EXPLORATION
📊 Données initiales: (179843, 79)
🎯 Variable cible: 'price'

📈 Statistiques de la variable cible 'price':
   📊 Nombre de valeurs: 179,843
   💰 Moyenne: 614,752.92
   📊 Médiane: 499,000.00
   📉 Min: 0.30
   📈 Max: 50,000,000.00

📋 Informations sur les colonnes:
   📊 Nombre total de colonnes: 79
   📈 Colonnes numériques: 42
   📝 Colonnes catégorielles: 37
   ❓ Valeurs manquantes: 9659334
✅ Validation terminée avec succès!

🔍 Exploration supplémentaire:
Types de données:
_id                int64
                 float64
add_date          object
address           object
city              object
                  ...   
nb_water_room    float64
plex_revenu      float64
postal_code      float64
revenu_period    float64
rooms            float64
Length: 79, dtype: object

Valeurs manquantes par colonne:
_id                   0
                 179842
add_date          57667
address               0
city                  0
                  ...  
nb_water_ro

## 🧹 ÉTAPE 2: Nettoyage des Données


In [6]:
# Nettoyer les données
df_step2 = analyzer.clean_data(df_step1)

print("\n🔍 Vérification après nettoyage:")
print(f"Colonnes restantes: {list(df_step2.columns)}")
print(f"Forme des données: {df_step2.shape}")

df_step2.head()


INFO:lib.data_processors:🧹 Nettoyage des données MongoDB...



🧹 ÉTAPE 2: NETTOYAGE DES DONNÉES

📊 === ÉTAPE 1: ANALYSE INITIALE ===
📋 Nombre total de colonnes au début: 79
📝 Colonnes initiales: ['_id', '', 'add_date', 'address', 'city', 'company', 'description', 'img_src', 'link', 'plex-revenue', 'price', 'type', 'update_at', 'vendue', 'revenu', 'surface', 'longitude', 'latitude', 'construction_year', 'municipal_taxes', 'school_taxes', 'unites', 'depenses', 'price_assessment', 'nb_bathroom', 'nb_bedroom', 'plex-revenu', 'version', 'region', 'annee', 'geo', 'images', 'nbr_chanbres', 'nbr_sal_bain', 'nbr_sal_deau', 'parking', 'prix_evaluation', 'revenus_annuels_bruts', 'style', 'superficie', 'taxes', 'bathrooms', 'bedrooms', 'building_style', 'commercial_units', 'created_at', 'extraction_metadata', 'full_address', 'image', 'location', 'lot_size', 'main_unit_details', 'municipal_evaluation_building', 'municipal_evaluation_land', 'municipal_evaluation_total', 'municipal_evaluation_year', 'municipal_tax', 'potential_gross_revenue', 'residential_units

Unnamed: 0,city,plex-revenue,price,type,revenu,surface,longitude,latitude,price_assessment,region,...,municipal_evaluation_building,municipal_evaluation_land,municipal_evaluation_total,municipal_evaluation_year,municipal_tax,school_tax,year_built,living_area,water_rooms,basement
0,Montréal (Côte-des-Neiges/Notre-Dame-de-Grâce),Rev. bruts pot. : 26 100 $,749000.0,Duplex,,,,,,,...,,,,,,,,,,
1,Chambly,,574900.0,Maison,,,-73.292301,45.430607,,,...,,,,,,,,,,
2,Chambly,,448800.0,Condo,,1266.0,-73.297033,45.432642,361000.0,,...,,,,,,,,,,
3,Chambly,,519900.0,Maison,,,-73.28713,45.442001,,,...,,,,,,,,,,
4,Chambly,,848500.0,Maison,,3922.0,-73.322884,45.434597,,,...,,,,,,,,,,


## 🔄 ÉTAPE 3: Normalisation des Variables

In [7]:
# Normaliser les variables catégorielles
df_step3 = analyzer.normalize_variables(df_step2)

print("\n🔍 Vérification après normalisation:")
print(f"Colonnes: {list(df_step3.columns)}")

# Vérifier les changements dans les variables catégorielles
categorical_cols = df_step3.select_dtypes(include=['object']).columns
for col in categorical_cols:
    print(f"\n📊 Variable '{col}':")
    print(f"   Valeurs uniques: {df_step3[col].nunique()}")
    print(f"   Valeurs: {list(df_step3[col].unique())}")

df_step3.head()



🔄 ÉTAPE 3: NORMALISATION DES VARIABLES


INFO:lib.property_type_normalizer:🏠 Normalisation des types de propriétés...


🏠 Normalisation des types de propriétés avec PropertyTypeNormalizer:

📊 Types avant normalisation:
   📝 Maison: 35059 propriétés
   📝 Maison à vendre: 34308 propriétés
   📝 Condo à vendre: 17965 propriétés
   📝 House for sale: 16125 propriétés
   📝 Condo: 14297 propriétés
   📝 Lot for sale: 8957 propriétés
   📝 Duplex: 7389 propriétés
   📝 Terrain à vendre: 5608 propriétés
   📝 Condo for sale: 4836 propriétés
   📝 Triplex: 4416 propriétés

✅ Types après normalisation:
   🏷️ unknown: 179843 propriétés

⚠️ Types non reconnus (43):
   ❓ Chalet
   ❓ Chalet à vendre
   ❓ Chalet à vendre ou à louer
   ❓ Condo
   ❓ Condo for sale
   ❓ Condo à vendre
   ❓ Condo à vendre ou à louer
   ❓ Condominium house for sale
   ❓ Cottage for sale
   ❓ Duplex

🏙️ Normalisation de 'city':
      Villes: 1208 → 1208

🗺️ Normalisation de 'region':
      Régions: 3109 → 3106

🏗️ Normalisation de 'building_style':
      Styles: 18 → 18

📊 Résultats de la normalisation:
   📈 Lignes: 179,843 → 179,843
   📊 Colonnes

Unnamed: 0,city,plex-revenue,price,type,revenu,surface,longitude,latitude,price_assessment,region,...,municipal_evaluation_land,municipal_evaluation_total,municipal_evaluation_year,municipal_tax,school_tax,year_built,living_area,water_rooms,basement,type_id
0,Montréal (Côte-Des-Neiges/Notre-Dame-De-Grâce),Rev. bruts pot. : 26 100 $,749000.0,unknown,,,,,,,...,,,,,,,,,,unknown
1,Chambly,,574900.0,unknown,,,-73.292301,45.430607,,,...,,,,,,,,,,unknown
2,Chambly,,448800.0,unknown,,1266.0,-73.297033,45.432642,361000.0,,...,,,,,,,,,,unknown
3,Chambly,,519900.0,unknown,,,-73.28713,45.442001,,,...,,,,,,,,,,unknown
4,Chambly,,848500.0,unknown,,3922.0,-73.322884,45.434597,,,...,,,,,,,,,,unknown


In [None]:
# Encoder les variables catégorielles
df_step3 = analyzer.step_3_encode_features(df_step2)

print("\n🔍 Vérification après encodage:")
print(f"Nouvelles colonnes: {list(df_step3.columns)}")
print(f"Types de données après encodage:")
print(df_step3.dtypes)

df_step3.head()


In [None]:
# Imputer les valeurs manquantes
df_step4 = analyzer.step_4_impute_missing_values(df_step3)

print("\n🔍 Vérification après imputation:")
print(f"Valeurs manquantes restantes: {df_step4.isnull().sum().sum()}")
print(f"Statistiques des colonnes imputées:")
print(df_step4.describe())

df_step4.head()


In [None]:
# Classifier les propriétés
df_step5 = analyzer.step_5_classify_properties(df_step4)

print("\n🔍 Vérification de la classification:")
print(f"Nouvelle colonne: 'classification_immobiliere'")
print(f"Distribution des classifications:")
print(df_step5['classification_immobiliere'].value_counts())

# Visualiser la distribution des prix par classification
print("\n💰 Prix moyen par catégorie:")
price_by_class = df_step5.groupby('classification_immobiliere')['price'].agg(['mean', 'median', 'count'])
print(price_by_class)

df_step5.head()


In [None]:
# Préparer les données pour la modélisation
X, y = analyzer.step_6_prepare_for_modeling(df_step5, target_column='price')

print("\n🔍 Vérification des données préparées:")
print(f"Features (X): {X.shape}")
print(f"Target (y): {y.shape}")
print(f"\nColonnes features:")
for i, col in enumerate(X.columns, 1):
    print(f"  {i}. {col}")

print(f"\nStatistiques de la variable cible:")
print(y.describe())

X.head()


In [None]:
# Sélectionner les variables importantes
selected_features = analyzer.step_7_select_features(X, y)

print("\n🔍 Analyse des variables sélectionnées:")
print(f"Variables sélectionnées: {selected_features}")

# Créer un sous-ensemble avec seulement les variables sélectionnées
X_selected = X[selected_features]
print(f"\nNouveaux features (X_selected): {X_selected.shape}")

X_selected.head()


In [None]:
# Sélectionner les variables par type de propriété
classification_features = analyzer.step_8_select_by_classification(
    X, y, df_step5['classification_immobiliere']
)

print("\n🔍 Analyse des variables par type:")
if classification_features:
    for prop_type, features in classification_features.items():
        print(f"\n🏷️ {prop_type}:")
        print(f"   Variables importantes: {features}")
        
        # Créer un sous-ensemble pour ce type
        mask = df_step5['classification_immobiliere'] == prop_type
        X_type = X[mask][features]
        y_type = y[mask]
        print(f"   Données pour ce type: X={X_type.shape}, y={y_type.shape}")
else:
    print("Pas de sélection spécifique par type disponible")


In [None]:
# Calculer l'importance des variables
feature_importance = analyzer.step_9_calculate_feature_importance(X, y)

print("\n🔍 Analyse détaillée de l'importance:")
importance_df = pd.DataFrame([
    {'feature': feature, 'importance': importance}
    for feature, importance in feature_importance.items()
]).sort_values('importance', ascending=False)

print("\n📊 Tableau d'importance complet:")
print(importance_df)

# Visualisation simple
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
top_features = importance_df.head(10)
plt.barh(range(len(top_features)), top_features['importance'])
plt.yticks(range(len(top_features)), top_features['feature'])
plt.xlabel('Importance')
plt.title('Top 10 Variables les Plus Importantes')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()


In [None]:
# Générer le résumé final
final_results = analyzer.step_10_final_summary()

print("\n📋 Résultats structurés:")
print(f"Résultats disponibles: {final_results.keys()}")

# Créer un DataFrame de résumé
summary_data = {
    'Métrique': [
        'Lignes originales',
        'Lignes après traitement',
        'Colonnes originales',
        'Colonnes après traitement',
        'Variables sélectionnées',
        'Taux de conservation des variables'
    ],
    'Valeur': [
        final_results.get('shape_original', (0, 0))[0],
        final_results.get('shape_processed', (0, 0))[0],
        final_results.get('shape_original', (0, 0))[1],
        final_results.get('shape_processed', (0, 0))[1],
        len(final_results.get('selected_features', [])),
        f"{(len(final_results.get('selected_features', [])) / (final_results.get('shape_processed', (0, 1))[1] - 1) * 100):.1f}%"
    ]
}

summary_df = pd.DataFrame(summary_data)
print("\n📊 Tableau de résumé:")
print(summary_df.to_string(index=False))


In [None]:
# Maintenant vous avez toutes les données prêtes pour la modélisation
print("🎯 Données prêtes pour la modélisation:")
print(f"\n📊 X (features complètes): {X.shape}")
print(f"📊 X_selected (features sélectionnées): {X_selected.shape}")
print(f"🎯 y (target): {y.shape}")
print(f"🏠 df_step5 (données complètes avec classification): {df_step5.shape}")

print(f"\n✅ Variables sélectionnées pour la modélisation:")
for i, feature in enumerate(selected_features, 1):
    print(f"  {i}. {feature}")

print(f"\n🏷️ Classifications disponibles:")
for category, stats in final_results.get('classification_stats', {}).get('counts', {}).items():
    print(f"  • {category}: {stats} propriétés")

print("\n🎉 Prêt pour l'entraînement de modèles!")
