In [1]:
import torch
from torch_geometric.data import HeteroData
import pandas as pd

# Import des fonctions et du modèle
from src.utils import load_and_prepare_real_data, run_community_detection
from src.hetero import HeteroGNN

print("--- Démarrage du Pipeline GML Géospatial ---")

--- Démarrage du Pipeline GML Géospatial ---


In [None]:
# Étape 1 : Préparation des données et du graphe
try:
    adr_x, bat_x, par_x, edge_index_bp, edge_attr_bp, edge_index_ab, bat_map, par_map, adr_map = load_and_prepare_real_data()
except Exception as e:
    print(f"\nERREUR CRITIQUE PENDANT LE CHARGEMENT/PRÉPARATION DES DONNÉES : {e}")
    # Si l'erreur persiste, vérifier si le chemin 'gml.zip/...' est correct
    exit()

--- 1. Chargement et Préparation des Données Réelles ---


  df_adr =  pd.read_csv('data/adresses-92.csv', delimiter=';')


Reprojection des Zones PLU vers EPSG:2154...


In [None]:
# Construction du Graphe Hétérogène (PyG HeteroData)
data = HeteroData()
data['adresse'].x = adr_x
data['bâtiment'].x = bat_x
data['parcelle'].x = par_x

# Relations
data['adresse', 'accès', 'bâtiment'].edge_index = edge_index_ab
data['bâtiment', 'appartient', 'parcelle'].edge_index = edge_index_bp
data['bâtiment', 'appartient', 'parcelle'].edge_attr = edge_attr_bp 

print(f"\nStructure du Graphe créée. Nœuds: {len(data['bâtiment'].x)} | Arêtes B->P: {data['bâtiment', 'appartient', 'parcelle'].num_edges}")

--- 1. Chargement et Préparation des Données Réelles ---


  df_adr =  pd.read_csv('data/adresses-92.csv', delimiter=';')


Reprojection des Zones PLU vers EPSG:2154...


In [None]:
# Étape 2 : Passage de Messages GNN (Création d'Embeddings)
print("\n--- 2. Passage de Messages GNN (Création d'Embeddings) ---")
    
HIDDEN_CHANNELS = 64
OUT_CHANNELS = 32
metadata = data.metadata() 

try:
    model = HeteroGNN(metadata, hidden_channels=HIDDEN_CHANNELS, out_channels=OUT_CHANNELS)
    
    edge_attr_dict = {
        ('bâtiment', 'appartient', 'parcelle'): data['bâtiment', 'appartient', 'parcelle'].edge_attr
    }
    
    x_dict = model(data.x_dict, data.edge_index_dict, edge_attr_dict)
    
    bat_embeddings = x_dict['bâtiment']
    print(f"Embeddings générés. Shape: {bat_embeddings.shape}")

except Exception as e:
    print(f"\nERREUR D'EXÉCUTION DU MODÈLE GNN : {e}")
    print("Vérifiez l'initialisation du modèle et la taille des tenseurs x.")
    bat_embeddings = None
    

In [None]:
# Étape 3 : Détection de Communautés (Louvain)
if bat_embeddings is not None:
    print("\n--- 3. Détection des Entités Cohérentes (Louvain) ---")
    
    partition = run_community_detection(bat_embeddings, similarity_threshold=0.7) 
    
    if partition is not None:
        
        # Affichage des résultats concrets
        bat_id_list = list(bat_map.keys())
        df_bat_result = pd.DataFrame({'bat_id': bat_id_list, 'community_id': [partition.get(i) for i in range(len(bat_id_list))]})
        
        num_communities = df_bat_result['community_id'].nunique()
        
        print("\n--- RÉSULTATS DÉTAILLÉS ---")
        print(f"Total de {num_communities} 'Cités' (communautés) découvertes.")
        
        print("\nTaille des Communautés (Nombre de Bâtiments) :")
        print(df_bat_result['community_id'].value_counts().head(5))
        
        plus_grande_communaute = df_bat_result['community_id'].value_counts().index[0]
        exemples_ids = df_bat_result[df_bat_result['community_id'] == plus_grande_communaute]['bat_id'].head(5).tolist()
        print(f"\nExemples de Bâtiments dans la Cité la plus grande (ID {plus_grande_communaute}): {exemples_ids}")

print("\nPipeline terminé.")