In [36]:
from neo4j import GraphDatabase

driver = GraphDatabase.driver("bolt://localhost:7687", auth=("neo4j", "vinh1950"))

def get_graph_data():
    with driver.session() as session:
        # Lấy danh sách các node
        nodes_query = "MATCH (n:Entity) RETURN id(n) AS node_id, n.name AS name"
        nodes = session.run(nodes_query)
        
        # Chuyển đổi thành danh sách để đảm bảo có thể đánh số lại
        node_list = [(record["node_id"], record["name"]) for record in nodes]
        
        # Tạo ánh xạ từ id gốc sang id liên tục bắt đầu từ 0
        node_mapping = {original_id: idx for idx, (original_id, _) in enumerate(node_list)}
        node_names = {idx: name for idx, (_, name) in enumerate(node_list)}

        # Lấy danh sách các cạnh và ánh xạ ID node theo node_mapping mới
        edges_query = "MATCH (n)-[r]->(m) RETURN id(n) AS source, id(m) AS target, type(r) AS relationship_type"
        edges = session.run(edges_query)
        edge_list = [(node_mapping[record["source"]], node_mapping[record["target"]], record["relationship_type"]) for record in edges]

        # Lấy danh sách các loại quan hệ duy nhất
        unique_relationship_types = {e[2] for e in edge_list}

        return node_names, edge_list, unique_relationship_types

node_mapping, edge_list, unique_relationship_types = get_graph_data()

# In ra các loại quan hệ duy nhất
print("Unique Relationship Types:")
for rel_type in unique_relationship_types:
    print(rel_type)




Unique Relationship Types:
ĐƯỢC_XÁC_NHẬN_BỞI
VIẾT_TẮT_LÀ
{SỐ_HIỆU_LÀ}
{ĐƯỢC_BAN_HÀNH_VÀO}
ĐƯỢC_BAN_HÀNH_VÀO
LÀ_KẾT_QUẢ_CỦA
LẬP_THEO
THEO_QUY_ĐỊNH_CỦA
ĐƯỢC_HIỂU_LÀ
CÓ_TÊN_LÀ
{THEO_QUY_ĐỊNH_CỦA}
CÓ_ĐẶC_ĐIỂM
ĐỊNH_NGHĨA
LÀ_THỜI_ĐIỂM
CHỊU_SỰ_TÁC_ĐỘNG_CỦA
{ĐƯỢC_BAN_HÀNH_VÀO_NGÀY}
PHÙ_HỢP_VỚI
TRÊN_ĐƠN_VỊ
{ĐƯỢC_BAN_HÀNH_BỞI}
THỂ_HIỆN
{CÓ_TÊN_LÀ}
TÀI_SẢN_GẮN_LIỀN_VỚI_ĐẤT
ĐƯỢC_XÁC_ĐỊNH_TRONG
THAY_THẾ_CHO
DÙNG_CHO
ĐƯỢC_BAN_HÀNH_TẠI
{CÓ_SỐ_HIỆU}
ĐƯỢC_BAN_HÀNH_VÀO_NGÀY
ĐƯỢC_QUY_ĐỊNH_BỞI
CẢI_TẠO
ĐƯỢC_XÁC_ĐỊNH_BỞI
{ĐƯỢC}
ĐƯỢC_QUY_ĐỊNH_TẠI
DÀNH_CHO
SINH_SỐNG_TẠI
GIẢI_THÍCH_VỀ
ĐẠI_DIỆN_CHO
{BAO_GỒM}
ĐƯỢC_GIẢI_QUYẾT_BỞI
{NHẬN_CHUYỂN_QUYỀN_SỬ_DỤNG}
CÓ_TÊN
{LÀ_MỘT_PHẦN_CỦA}
LÀ_GIÁ_TRỊ_CỦA
SỬ_DỤNG_ĐẤT_ĐAI
ĐƯỢC_THỰC_HIỆN_THÔNG_QUA
LÀ_HÀNH_VI_SỬ_DỤNG_ĐẤT
ĐƯỢC_LẬP_TẠI
DỰA_TRÊN
{ĐƯỢC_BAN_HÀNH_TẠI}
GIẢI_THÍCH
YÊU_CẦU_SỰ_CHO_PHÉP_CỦA
CÓ_SỐ_HIỆU
{QUY_ĐỊNH_VỀ}
ĐƯỢC_ĐỊNH_NGHĨA_LÀ
BAO_GỒM
LÀ_TRẠNG_THÁI_TẠI
{CÓ}
QUY_ĐỊNH_VỀ
THỰC_HIỆN
THUỘC
DIỄN_RA_TRONG
ĐƯỢC_THỰC_HIỆN_BỞI
ĐƯỢC_BAN_HÀNH_BỞI
LIÊN_QUAN_ĐẾN
TÍNH_BẰNG
ÁP_

In [37]:
import torch
# Create a mapping for edge names to indices
edge_name_to_index = {name: idx for idx, name in enumerate(set(edge[2] for edge in edge_list))}

# Convert edge list to indices
edge_index = [(src, tgt, edge_name_to_index[name]) for src, tgt, name in edge_list]
edge_index = torch.tensor(edge_index, dtype=torch.long)
edge_index

tensor([[  0,   3,  52],
        [  0,   4,  52],
        [  0,   5,  52],
        [  0,   6,  52],
        [  0,   7,  52],
        [  0,   8,  52],
        [  0,   9,  52],
        [  0,   1,  18],
        [  0,  82,  48],
        [  0,   2,   3],
        [  0,  13,   2],
        [ 10,   0,  41],
        [ 11,   0,  41],
        [ 11,  12,  52],
        [ 14,  19,  54],
        [ 14,  15,  62],
        [ 14,  16,  51],
        [ 14,  17,  25],
        [ 14,  18,   4],
        [ 14,  34,  65],
        [ 14,  41,  65],
        [ 14,  18,  27],
        [ 19,  21,  54],
        [ 19,  35,  54],
        [ 19,  46,  54],
        [ 19,  20,  40],
        [ 19,  20,   9],
        [ 21,  23,  54],
        [ 21,  22,   9],
        [ 23,  50,  12],
        [ 23,  24,  57],
        [ 23,  25,  57],
        [ 23,  28,  57],
        [ 23,  29,  57],
        [ 23,  30,  57],
        [ 23,  31,  57],
        [ 23,  37,  57],
        [ 23,  38,  57],
        [ 23,  39,  57],
        [ 26,  27,  36],


In [38]:
len(edge_index)

196

In [39]:
edge_list

[(0, 3, '{QUY_ĐỊNH_VỀ}'),
 (0, 4, '{QUY_ĐỊNH_VỀ}'),
 (0, 5, '{QUY_ĐỊNH_VỀ}'),
 (0, 6, '{QUY_ĐỊNH_VỀ}'),
 (0, 7, '{QUY_ĐỊNH_VỀ}'),
 (0, 8, '{QUY_ĐỊNH_VỀ}'),
 (0, 9, '{QUY_ĐỊNH_VỀ}'),
 (0, 1, '{ĐƯỢC_BAN_HÀNH_BỞI}'),
 (0, 82, '{ĐƯỢC_BAN_HÀNH_TẠI}'),
 (0, 2, '{ĐƯỢC_BAN_HÀNH_VÀO}'),
 (0, 13, '{SỐ_HIỆU_LÀ}'),
 (10, 0, '{LÀ_MỘT_PHẦN_CỦA}'),
 (11, 0, '{LÀ_MỘT_PHẦN_CỦA}'),
 (11, 12, '{QUY_ĐỊNH_VỀ}'),
 (14, 19, 'BAO_GỒM'),
 (14, 15, 'ĐƯỢC_BAN_HÀNH_BỞI'),
 (14, 16, 'CÓ_SỐ_HIỆU'),
 (14, 17, 'ĐƯỢC_BAN_HÀNH_TẠI'),
 (14, 18, 'ĐƯỢC_BAN_HÀNH_VÀO'),
 (14, 34, 'ÁP_DỤNG_CHO'),
 (14, 41, 'ÁP_DỤNG_CHO'),
 (14, 18, 'ĐƯỢC_BAN_HÀNH_VÀO_NGÀY'),
 (19, 21, 'BAO_GỒM'),
 (19, 35, 'BAO_GỒM'),
 (19, 46, 'BAO_GỒM'),
 (19, 20, 'CÓ_TÊN'),
 (19, 20, 'CÓ_TÊN_LÀ'),
 (21, 23, 'BAO_GỒM'),
 (21, 22, 'CÓ_TÊN_LÀ'),
 (23, 50, 'ĐỊNH_NGHĨA'),
 (23, 24, 'QUY_ĐỊNH_VỀ'),
 (23, 25, 'QUY_ĐỊNH_VỀ'),
 (23, 28, 'QUY_ĐỊNH_VỀ'),
 (23, 29, 'QUY_ĐỊNH_VỀ'),
 (23, 30, 'QUY_ĐỊNH_VỀ'),
 (23, 31, 'QUY_ĐỊNH_VỀ'),
 (23, 37, 'QUY_ĐỊNH_VỀ'),
 (23, 38,

In [40]:
node_mapping


{0: '{LUẬT ĐẤT ĐAI}',
 1: '{QUỐC HỘI}',
 2: '{ngày 18 tháng 01 năm 2024}',
 3: '{chế độ sở hữu đất đai}',
 4: '{quyền hạn và trách nhiệm của Nhà nước}',
 5: '{đại diện chủ sở hữu toàn dân về đất đai}',
 6: '{thống nhất quản lý về đất đai}',
 7: '{chế độ quản lý và sử dụng đất đai}',
 8: '{quyền và nghĩa vụ của công dân, người sử dụng đất}',
 9: '{đất đai thuộc lãnh thổ của nước Cộng hòa xã hội chủ nghĩa Việt Nam}',
 10: '{Chương I QUY ĐỊNH CHUNG}',
 11: '{Điều 1. Phạm vi điều chỉnh}',
 12: '{phạm vi điều chỉnh}',
 13: '{Luật số: 31/2024/QH15}',
 14: 'Luật Đất Đai',
 15: 'Quốc Hội',
 16: '31/2024/QH15',
 17: 'Hà Nội',
 18: '18/01/2024',
 19: 'Chương I',
 20: 'Quy Định Chung',
 21: 'Điều 1',
 22: 'Phạm vi điều chỉnh',
 23: 'Khoản 1',
 24: 'Chế độ sở hữu đất đai',
 25: 'Quyền hạn và trách nhiệm của Nhà nước',
 26: 'Nhà nước',
 27: 'Chủ sở hữu toàn dân về đất đai',
 28: 'Thống nhất quản lý về đất đai',
 29: 'Chế độ quản lý và sử dụng đất đai',
 30: 'Quyền và nghĩa vụ của công dân',
 31: 'Q

In [41]:
reverse_node_mapping = {value: key for key, value in node_mapping.items()}

In [42]:
import torch
import torch.nn.functional as F
from torch_geometric.data import Data
from torch_geometric.nn import GCNConv
import random

# Step 1: Create edge_index
edge_index = torch.tensor([[e[0], e[1]] for e in edge_list], dtype=torch.long).t().contiguous()

# Features for nodes (one-hot encoding)
num_nodes = len(node_mapping)
features = torch.eye(num_nodes)  # One-hot encoding for each node

# Split edges into training and validation sets
num_edges = edge_index.size(1)
indices = list(range(num_edges))
random.shuffle(indices)
split_idx = int(0.8 * num_edges)  # 80% for training, 20% for validation

train_indices = indices[:split_idx]
val_indices = indices[split_idx:]

train_edge_index = edge_index[:, train_indices]
val_edge_index = edge_index[:, val_indices]

# Step 2: Create Data objects for training and validation
train_data = Data(x=features, edge_index=train_edge_index)
val_data = Data(x=features, edge_index=val_edge_index)


In [43]:
train_data.x

tensor([[1., 0., 0.,  ..., 0., 0., 0.],
        [0., 1., 0.,  ..., 0., 0., 0.],
        [0., 0., 1.,  ..., 0., 0., 0.],
        ...,
        [0., 0., 0.,  ..., 1., 0., 0.],
        [0., 0., 0.,  ..., 0., 1., 0.],
        [0., 0., 0.,  ..., 0., 0., 1.]])

In [44]:
edge_index

tensor([[  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,  10,  11,  11,
          14,  14,  14,  14,  14,  14,  14,  14,  19,  19,  19,  19,  19,  21,
          21,  23,  23,  23,  23,  23,  23,  23,  23,  23,  23,  26,  32,  35,
          35,  35,  35,  40,  40,  41,  42,  42,  44,  46,  46,  46,  46,  46,
          46,  46,  46,  46,  46,  46,  46,  46,  46,  46,  46,  46,  46,  46,
          46,  46,  47,  50,  50,  50,  50,  50,  54,  56,  56,  59,  59,  60,
          61,  64,  66,  66,  66,  66,  66,  66,  66,  74,  75,  75,  75,  75,
          79,  79,  79,  79,  79,  84,  84,  86,  86,  88,  89,  89,  89,  89,
          89,  93,  94,  97,  98,  98,  98,  98, 101, 102, 103, 103, 103, 103,
         103, 107, 109, 110, 110, 110, 110, 110, 114, 115, 116, 116, 116, 116,
         116, 117, 117, 121, 122, 123, 123, 123, 123, 124, 125, 126, 126, 126,
         126, 126, 132, 133, 133, 133, 133, 133, 133, 133, 133, 133, 133, 133,
         133, 133, 133, 147, 149, 151, 151, 151, 151

In [45]:
src, tgt = edge_index

In [46]:
# Step 3: Define Graph Autoencoder for Nodes Only
class GAE(torch.nn.Module):
    def __init__(self, input_dim, hidden_dim, embedding_dim):
        super(GAE, self).__init__()
        self.encoder1 = GCNConv(input_dim, hidden_dim)  # Initializes a GCN layer: (N, N) -> (N, H)
        self.encoder2 = GCNConv(hidden_dim, embedding_dim)  # Initializes a GCN layer: (N, H) -> (N, E)

    def encode(self, x, edge_index):
        # x: (N, N), edge_index: (2, M)
        x = F.relu(self.encoder1(x, edge_index))  # (N, N) -> (N, H)
        x = self.encoder2(x, edge_index)  # (N, H) -> (N, E)
        return x  # Node embeddings: (N, E)

    def decode(self, z, edge_index):
        # z: (N, E), edge_index: (2, M)
        src, tgt = edge_index  # src: (M,), tgt: (M,)
        return (z[src] * z[tgt]).sum(dim=1)  # (M, E) -> (M,)

    def forward(self, x, edge_index):
        # x: (N, F_in), edge_index: (2, M)
        z = self.encode(x, edge_index)  # Node embeddings: (N, E)
        reconstructed = self.decode(z, edge_index)  # Reconstruct edges: (M,)
        return z, reconstructed


In [47]:
target = torch.ones(edge_index.size(1))

In [48]:
target

tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [49]:
# Step 4: Initialize the model
input_dim = features.size(1)
hidden_dim = 16
embedding_dim = 8
model = GAE(input_dim, hidden_dim, embedding_dim)

# Step 5: Define optimizer and loss function
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
def loss_function(reconstructed, edge_index):
    # Binary cross-entropy loss for adjacency reconstruction
    # Một tensor toàn giá trị 1 với chiều dài bằng số lượng edges (M) trong đồ thị.
    target = torch.ones(edge_index.size(1))  # All edges exist
    # Sự khác biệt giữa logits dự đoán (reconstructed) và các giá trị thực (target).
    return F.binary_cross_entropy_with_logits(reconstructed, target)

# Step 6: Train the model and validate after each epoch
model.train()
for epoch in range(200):
    # Training phase
    optimizer.zero_grad()
    embeddings, reconstructed = model(train_data.x, train_data.edge_index)
    train_loss = loss_function(reconstructed, train_data.edge_index)
    train_loss.backward()
    optimizer.step()

    # Validation phase
    model.eval()
    with torch.no_grad():
        val_embeddings, val_reconstructed = model(val_data.x, val_data.edge_index)
        val_loss = loss_function(val_reconstructed, val_data.edge_index)

    # Switch back to train mode for next epoch
    model.train()

    # Print losses
    print(f'Epoch {epoch + 1}, Train Loss: {train_loss.item()}, Validation Loss: {val_loss.item()}')


Epoch 1, Train Loss: 0.6779143810272217, Validation Loss: 0.6409487128257751
Epoch 2, Train Loss: 0.6602457761764526, Validation Loss: 0.607886791229248
Epoch 3, Train Loss: 0.6316357254981995, Validation Loss: 0.5630627870559692
Epoch 4, Train Loss: 0.5903260111808777, Validation Loss: 0.5049501061439514
Epoch 5, Train Loss: 0.5347467660903931, Validation Loss: 0.4345459043979645
Epoch 6, Train Loss: 0.4642188251018524, Validation Loss: 0.3546793758869171
Epoch 7, Train Loss: 0.3804325759410858, Validation Loss: 0.2716103196144104
Epoch 8, Train Loss: 0.28862646222114563, Validation Loss: 0.19216762483119965
Epoch 9, Train Loss: 0.19835041463375092, Validation Loss: 0.12425772845745087
Epoch 10, Train Loss: 0.1212247833609581, Validation Loss: 0.07230280339717865
Epoch 11, Train Loss: 0.06481005251407623, Validation Loss: 0.037594474852085114
Epoch 12, Train Loss: 0.030275927856564522, Validation Loss: 0.017714567482471466
Epoch 13, Train Loss: 0.012635311111807823, Validation Loss: 0

In [None]:
# extract_entities_and_relationships
import google.generativeai as genai
import time
import os
from dotenv import load_dotenv
load_dotenv()

def extract_entities_and_relationships(text):
    # text = sample

    prompt = (
        f"Extract entities (nodes) and their relationships (edges) from the text below."
        f"Entities and relationships MUST be in Vietnamese\n"
        f"Follow this format:\n\n"
        f"Entities:\n"
        f"- {{Entity}}: {{Type}}\n\n"
        f"Relationships:\n"
        f"- ({{Entity1}}, {{RelationshipType}}, {{Entity2}})\n\n"
        f"Text:\n\"{text}\"\n\n"
        f"Output:\nEntities:\n- {{Entity}}: {{Type}}\n...\n\n"
        f"Relationships:\n- ({{Entity1}}, {{RelationshipType}}, {{Entity2}})\n"
    )



    # Thay thế bằng API Key của bạn
    API_KEY = os.getenv('API_KEY')

    # Cấu hình API Key
    genai.configure(api_key=API_KEY)

    # Khởi tạo mô hình Gemini Pro
    model = genai.GenerativeModel("gemini-1.5-pro")
    for _ in range(5):  # Gửi 5 request
        try:
            response = model.generate_content(prompt)
            return (response.text)
        except Exception as e:
            print(f"Lỗi: {e}")
            time.sleep(20)  # Chờ 10 giây trước khi thử lại
    

    # In kết quả
    return response.text



In [51]:
def process_llm_out(result):
    import re

    # OpenAI response as a string
    response = result

    # Extract entities
    entity_pattern = r"- (.+): (.+)"
    entities = re.findall(entity_pattern, response)
    entity_dict = {entity.strip(): entity_type.strip() for entity, entity_type in entities}
    # { "Samsung Galaxy A100": "Sản phẩm", "Pin": "Thành phần"}
    entity_list = list(entity_dict.keys())

    # Extract relationships
    relationship_pattern = r"- \(([^,]+), ([^,]+), ([^)]+)\)"
    relationships = re.findall(relationship_pattern, response)
    relationship_list = [(subject.strip(), relation.strip().replace(" ", "_").upper(), object_.strip()) for subject, relation, object_ in relationships]

    # Output entities and relationships
    print("Entities:")
    for entity, entity_type in entity_dict.items():
        print(f"{entity}: {entity_type}")

    print("\nRelationships:")
    for subject, relation, object_ in relationship_list:
        print(f"({subject}, {relation}, {object_})")
    return entity_list, relationship_list

In [52]:
query = "hãy nêu điều 2 khoản 1 luật đất đai"
entities, _ = process_llm_out(extract_entities_and_relationships(query))


Entities:
Điều 2: Điều khoản
Khoản 1: Khoản
Luật Đất Đai: Văn bản pháp luật

Relationships:
(Điều 2, THUỘC, Luật Đất Đai)
(Khoản 1, THUỘC, Điều 2)


In [53]:
from collections import deque

def find_indirect_connection(edge_list, node_mapping, start, target, max_depth=10):
    """
    Find indirect connections between two nodes using BFS.

    Parameters:
        edge_list (list): List of edges as (source, target, relationship).
        node_mapping (dict): Mapping of node IDs to node names.
        start (int): The starting node ID.
        target (int): The target node ID.
        max_depth (int): Maximum depth to explore for indirect connections.

    Returns:
        list: A list of paths from start to target.
    """
    # Build graph as adjacency list: {node: [(neighbor, relationship)]}
    graph = {}
    for src, tgt, rel in edge_list:
        if src not in graph:
            graph[src] = []
        if tgt not in graph:
            graph[tgt] = []
        graph[src].append((tgt, rel))
        graph[tgt].append((src, rel))  # Assuming undirected graph for traversal

    # Initialize BFS
    queue = deque([(start, [], 0)])  # (current_node, path_so_far, current_depth)
    visited = set()

    paths = []

    while queue:
        current_node, path, depth = queue.popleft()

        if depth > max_depth:  # Stop exploring if max depth is exceeded
            continue

        if current_node == target:  # Target node found
            paths.append(path)
            continue

        # Mark node as visited
        visited.add(current_node)

        # Explore neighbors
        for neighbor, relationship in graph.get(current_node, []):
            if neighbor not in visited:
                queue.append((neighbor, path + [(current_node, relationship, neighbor)], depth + 1))

    return paths

In [54]:
from rapidfuzz import process  # For fuzzy matching
import torch.nn.functional as F

def find_closest_entities(entities, node_mapping):
    """
    Finds the closest matching entities in node_mapping for a list of query entities.

    Parameters:
        entities (list): List of entity names to match.
        node_mapping (dict): Mapping of node IDs to entity names.

    Returns:
        list: A list of tuples [(query_entity, closest_match_id, closest_match_name, score)].
    """
    results = []
    node_names = list(node_mapping.values())
    for entity in entities:
        closest_match, score, index = process.extractOne(entity, node_names)
        closest_match_id = list(node_mapping.keys())[index]
        results.append((entity, closest_match_id, closest_match, score))
    return results


# Input: List of entities extracted from the query
query_entities = entities  # Replace with your entities

# Step 1: Find the closest matching nodes for all query entities
matches = find_closest_entities(query_entities, node_mapping)

print("Closest matches for query entities:")
for query_entity, match_id, match_name, score in matches:
    print(f"Query: '{query_entity}' -> Match: '{match_name}' (Node ID: {match_id}) with score {score:.2f}")

# Step 2: Use embeddings to find similar nodes for each matched entity
model.eval()
with torch.no_grad():
    embeddings, _ = model(train_data.x, train_data.edge_index)

# Normalize node embeddings
node_embeddings_norm = F.normalize(embeddings, p=2, dim=1)

# Step 3: Aggregate and analyze results for each matched entity
K = 20  # Number of top similar nodes to retrieve

for query_entity, match_id, match_name, score in matches:
    print(f"\nTop-{K} similar nodes for '{query_entity}' (Matched Node: {match_name}):")
    query_embedding = embeddings[match_id]
    query_embedding = F.normalize(query_embedding, p=2, dim=0)

    # Compute similarity scores
    similarity_scores = torch.matmul(query_embedding.unsqueeze(0), node_embeddings_norm.T).squeeze()

    # Retrieve Top-K similar nodes
    top_k_indices = torch.topk(similarity_scores, K).indices

    for idx in top_k_indices:
        similar_node_id = idx.item()
        similarity_score = similarity_scores[idx].item()
        similar_node_name = node_mapping[similar_node_id]

        # Check for direct connection in the edge list
        direct_connections = [
            e for e in edge_list if (e[0] == match_id and e[1] == similar_node_id) or
                                    (e[1] == match_id and e[0] == similar_node_id)
        ]

        # Print details in the desired format
        if direct_connections:
            for connection in direct_connections:
                source = node_mapping[connection[0]]
                target = node_mapping[connection[1]]
                relationship = connection[2]
                print(f"{source} -> {relationship} -> {target} with score {similarity_score:.4f}")
        else:
            # Print indirect connection paths
            paths = find_indirect_connection(edge_list, node_mapping, match_id, similar_node_id)
            if paths:
                print(f"Indirect paths between '{match_name}' and '{similar_node_name}':")
                for path in paths:
                    formatted_path = " -> ".join(
                        f"{node_mapping[src]} -[{rel}]-> {node_mapping[tgt]}" for src, rel, tgt in path
                    )
                    print(formatted_path)
            else:
                print(f"{match_name} -> NO_DIRECT_RELATION -> {similar_node_name} with score {similarity_score:.4f}")


Closest matches for query entities:
Query: 'Điều 2' -> Match: 'Điều 2' (Node ID: 35) with score 100.00
Query: 'Khoản 1' -> Match: 'Khoản 1' (Node ID: 23) with score 100.00
Query: 'Luật Đất Đai' -> Match: 'Luật Đất Đai' (Node ID: 14) with score 100.00

Top-20 similar nodes for 'Điều 2' (Matched Node: Điều 2):
Indirect paths between 'Điều 2' and 'Điều 2':

Indirect paths between 'Điều 2' and 'Quy Định Chung':
Điều 2 -[BAO_GỒM]-> Chương I -> Chương I -[CÓ_TÊN]-> Quy Định Chung
Điều 2 -[BAO_GỒM]-> Chương I -> Chương I -[CÓ_TÊN_LÀ]-> Quy Định Chung
Điều 2 -> BAO_GỒM -> Khoản 2 with score 0.9999
Indirect paths between 'Điều 2' and 'Điều 3':
Điều 2 -[BAO_GỒM]-> Chương I -> Chương I -[BAO_GỒM]-> Điều 3
Điều 2 -[BAO_GỒM]-> Khoản 1 -> Khoản 1 -[BAO_GỒM]-> Điều 3
Điều 2 -[BAO_GỒM]-> Khoản 2 -> Khoản 2 -[BAO_GỒM]-> Điều 3
Điều 2 -[BAO_GỒM]-> Khoản 3 -> Khoản 3 -[BAO_GỒM]-> Điều 3
Điều 2 -[BAO_GỒM]-> Chương I -> Chương I -[BAO_GỒM]-> Luật Đất Đai -> Luật Đất Đai -[ĐƯỢC_QUY_ĐỊNH_BỞI]-> Chuyển mục đí