In [1]:
import pickle
import networkx as nx

# Charger et inspecter le pickle
pickle_path = "../data/05_model_input/vectorized_graph.pkl"

with open(pickle_path, 'rb') as f:
    loaded_data = pickle.load(f)

print(" CONTENU DU PICKLE :")
print(f"Type : {type(loaded_data)}")


 CONTENU DU PICKLE :
Type : <class 'networkx.classes.multidigraph.MultiDiGraph'>


In [2]:
if isinstance(loaded_data, nx.Graph):
    print(" C'est un graphe NetworkX")
    print(f"Nœuds : {loaded_data.number_of_nodes()}")
    print(f"Arêtes : {loaded_data.number_of_edges()}")
    
    # Regarder 3 nœuds
    print("\n EXEMPLES DE NŒUDS :")
    for i, (node_id, attrs) in enumerate(list(loaded_data.nodes(data=True))[:3]):
        print(f"Nœud {node_id} : {attrs}")
    
    # Regarder 3 arêtes  
    print("\n EXEMPLES D'ARÊTES :")
    for i, (u, v, attrs) in enumerate(list(loaded_data.edges(data=True))[:3]):
        print(f"Arête {u}→{v} : {attrs}")

else:
    print(" Ce n'est pas un graphe NetworkX")
    print(f"Contenu : {loaded_data}")

 C'est un graphe NetworkX
Nœuds : 145341
Arêtes : 678839

 EXEMPLES DE NŒUDS :
Nœud 0 : {'label': '', 'node_type': 1, 'packet_id': 0, 'embedding': array([0.05  , 0.    , 0.05  , 0.5   , 0.    , 0.1   , 1.    , 0.3713,
       0.    , 0.    , 0.    , 0.    , 0.    , 0.    , 0.    , 0.    ,
       0.    , 0.    , 0.    , 0.    , 0.    , 0.    , 0.    , 0.    ,
       0.    , 0.    , 0.    , 0.    , 0.    , 0.    , 0.    , 0.    ,
       0.    , 0.    , 0.    , 0.    , 0.    , 0.    , 0.05  , 0.    ,
       0.05  , 0.1   , 0.5   , 0.    , 1.    , 0.    , 0.    , 0.    ,
       0.    , 0.    , 0.    , 0.    , 0.    , 0.    , 0.    , 0.    ,
       0.    , 0.    , 0.    , 0.    , 0.    , 0.    , 0.    , 0.    ],
      dtype=float32), 'entity_type': 'TEXT', 'classification_confidence': 0.3}
Nœud 1 : {'label': '10.100.200.16', 'node_type': 2, 'packet_id': 0, 'embedding': array([ 0.03921569,  0.39215687,  0.78431374,  0.0627451 ,  1.        ,
        0.        ,  0.        ,  0.        ,  0.031

In [4]:
# Vérifier l'état actuel
sample_node = list(loaded_data.nodes(data=True))[0]
print(f"Attributs du nœud: {sample_node[1].keys()}")

has_embeddings = 'embedding' in sample_node[1]  
has_x_features = 'x' in sample_node[1]

print(f"A déjà des embeddings: {has_embeddings}")
print(f"A déjà des features x: {has_x_features}")

Attributs du nœud: dict_keys(['label', 'node_type', 'packet_id', 'embedding', 'entity_type', 'classification_confidence'])
A déjà des embeddings: True
A déjà des features x: False


In [5]:
# Analyser vos embeddings existants
sample_node = list(loaded_data.nodes(data=True))[0]
print(f"Dimension des embeddings: {len(sample_node[1]['embedding'])}")
print(f"Type d'entité détecté: {sample_node[1]['entity_type']}")
print(f"Confiance: {sample_node[1]['classification_confidence']}")

# Statistiques globales
entity_types = {}
confidences = []

for node_id, attrs in loaded_data.nodes(data=True):
    entity_type = attrs.get('entity_type', 'unknown')
    confidence = attrs.get('classification_confidence', 0)
    
    entity_types[entity_type] = entity_types.get(entity_type, 0) + 1
    confidences.append(confidence)

print(f"\n=== STATISTIQUES DES EMBEDDINGS EXISTANTS ===")
print("Types d'entités détectés:")
for entity_type, count in sorted(entity_types.items(), key=lambda x: x[1], reverse=True):
    print(f"  {entity_type}: {count:,} nœuds")

print(f"\nConfiance moyenne: {sum(confidences)/len(confidences):.3f}")
print(f"Confiance min/max: {min(confidences):.3f} / {max(confidences):.3f}")

Dimension des embeddings: 64
Type d'entité détecté: TEXT
Confiance: 0.3

=== STATISTIQUES DES EMBEDDINGS EXISTANTS ===
Types d'entités détectés:
  TEXT: 143,144 nœuds
  HTTP_PATH: 986 nœuds
  TELECOM_CODE: 617 nœuds
  IP_ADDRESS: 441 nœuds
  UUID: 109 nœuds
  SERVICE_5G: 19 nœuds
  NF_TYPE: 10 nœuds
  FQDN: 8 nœuds
  HTTP_METHOD: 5 nœuds
  TOKEN_TYPE: 1 nœuds
  STATUS: 1 nœuds

Confiance moyenne: 0.307
Confiance min/max: 0.300 / 0.950


In [7]:
# Cellule 2 : Analyser les premiers nœuds
print("=== ANALYSE DES PREMIERS NŒUDS ===")
for i, (node_id, node_data) in enumerate(loaded_data.nodes(data=True)):
    if i >= 5:  # Regarder juste les 5 premiers
        break
    
    print(f"\nNœud {node_id}:")
    print(f"  Attributs: {list(node_data.keys())}")
    
    # Vérifier embedding
    if 'embedding' in node_data:
        embedding = node_data['embedding']
        print(f"   HAS embedding: shape={embedding.shape if hasattr(embedding, 'shape') else 'unknown'}")
        print(f"     Type: {type(embedding)}")
        print(f"     Premiers éléments: {embedding[:5] if hasattr(embedding, '__getitem__') else embedding}")
    else:
        print(f"   NO embedding")
        print(f"  Tous les attributs: {node_data}")

=== ANALYSE DES PREMIERS NŒUDS ===

Nœud 0:
  Attributs: ['label', 'node_type', 'packet_id', 'embedding', 'entity_type', 'classification_confidence']
   HAS embedding: shape=(64,)
     Type: <class 'numpy.ndarray'>
     Premiers éléments: [0.05 0.   0.05 0.5  0.  ]

Nœud 1:
  Attributs: ['label', 'node_type', 'packet_id', 'embedding', 'entity_type', 'classification_confidence']
   HAS embedding: shape=(64,)
     Type: <class 'numpy.ndarray'>
     Premiers éléments: [0.03921569 0.39215687 0.78431374 0.0627451  1.        ]

Nœud 2:
  Attributs: ['label', 'node_type', 'packet_id', 'embedding', 'entity_type', 'classification_confidence']
   HAS embedding: shape=(64,)
     Type: <class 'numpy.ndarray'>
     Premiers éléments: [0.03921569 0.39215687 0.78431374 0.01568628 1.        ]

Nœud 3:
  Attributs: ['label', 'node_type', 'packet_id', 'embedding', 'entity_type', 'classification_confidence']
   HAS embedding: shape=(64,)
     Type: <class 'numpy.ndarray'>
     Premiers éléments: [0. 0. 0

In [9]:
print("\n=== STATISTIQUES COMPLÈTES ===")

nodes_with_embedding = 0
nodes_without_embedding = []
embedding_shapes = {}

for node_id, node_data in loaded_data.nodes(data=True):
    if 'embedding' in node_data:
        nodes_with_embedding += 1
        embedding = node_data['embedding']
        shape = embedding.shape if hasattr(embedding, 'shape') else str(type(embedding))
        if shape not in embedding_shapes:
            embedding_shapes[shape] = 0
        embedding_shapes[shape] += 1
    else:
        nodes_without_embedding.append(node_id)

print(f"Nœuds AVEC embedding: {nodes_with_embedding}")
print(f"Nœuds SANS embedding: {len(nodes_without_embedding)}")

if nodes_without_embedding:
    print(f"IDs des nœuds sans embedding (premiers 10): {nodes_without_embedding[:10]}")

print(f"Formes des embeddings trouvés: {embedding_shapes}")


=== STATISTIQUES COMPLÈTES ===
Nœuds AVEC embedding: 145341
Nœuds SANS embedding: 0
Formes des embeddings trouvés: {(64,): 145341}
