In [49]:
import pandas as pd
import torch
import dgl
import networkx as nx
import numpy as np
import torch.nn as nn
import torch.nn.functional as F
from sklearn.model_selection import train_test_split
from dgl.nn import GraphConv
import time
import random


In [None]:
nodes_df = pd.read_csv('clean_nodes.csv')
edges_df = pd.read_csv('clean_edges.csv')

1.Xây dựng đồ thị
# Tạo mapping từ profile_id sang index (0 đến N-1)
# Tạo tensor cho edge_index (dạng (2, num_edges))
# Tạo đồ thị DGL

In [41]:
profile_ids = nodes_df['profile_id'].tolist()
node_to_idx = {user: i for i, user in enumerate(profile_ids)}

# Xây dựng danh sách cạnh (chỉ thêm các cạnh có cả source và target nằm trong nodes)
edge_list = []
for idx, row in edges_df.iterrows():
    src, tgt = row['source'], row['target']
    if src in node_to_idx and tgt in node_to_idx:
        edge_list.append( (node_to_idx[src], node_to_idx[tgt]) )

if len(edge_list) == 0:
    raise ValueError("Không tìm thấy cạnh hợp lệ!")

In [42]:
src_nodes, tgt_nodes = zip(*edge_list)
edge_index_tensor = torch.tensor([src_nodes, tgt_nodes], dtype=torch.int64)

g = dgl.graph((edge_index_tensor[0], edge_index_tensor[1]), num_nodes=len(profile_ids))
print("DGL Graph: {} nút, {} cạnh".format(g.num_nodes(), g.num_edges()))

DGL Graph: 565841 nút, 10472 cạnh


2. Tính toán các chỉ số mạng cơ bản

In [43]:
# a) In-degree và Out-degree sử dụng API của DGL (rất nhanh)
in_degree = g.in_degrees().numpy()    # Số lượng nút theo dõi mỗi nút
out_degree = g.out_degrees().numpy()   # Số lượng nút mà mỗi nút theo dõi

# b) Các chỉ số trung tâm: chuyển đồ thị sang NetworkX (directed) để tính
nx_g = dgl.to_networkx(g)
print("Đã chuyển sang NetworkX.")

# Nếu đồ thị lớn (n > 1000), dùng xấp xỉ cho betweenness (sample k nodes)
num_nodes = g.num_nodes()
k_sample = 100 if num_nodes > 1000 else None

start_time = time.time()
if k_sample:
    betweenness = nx.betweenness_centrality(nx_g, k=k_sample, normalized=True)
else:
    betweenness = nx.betweenness_centrality(nx_g, normalized=True)
print("Betweenness Centrality tính xong trong {:.2f} giây.".format(time.time()-start_time))

start_time = time.time()
# Closeness có thể tính trực tiếp (cẩn thận với đồ thị lớn)
closeness = nx.closeness_centrality(nx_g)
print("Closeness Centrality tính xong trong {:.2f} giây.".format(time.time()-start_time))

start_time = time.time()
# Eigenvector Centrality: nếu không hội tụ, bắt ngoại lệ và gán 0 cho nút đó
try:
    eigenvector = nx.eigenvector_centrality(nx_g, max_iter=1000)
except Exception as e:
    print("Eigenvector Centrality không hội tụ:", e)
    eigenvector = {i: 0.0 for i in range(num_nodes)}
print("Eigenvector Centrality tính xong trong {:.2f} giây.".format(time.time()-start_time))

# Tạo DataFrame chứa các chỉ số mạng (sắp xếp theo index của node)
metrics_df = pd.DataFrame({
    'profile_id': profile_ids,
    'in_degree': in_degree,
    'out_degree': out_degree,
    'betweenness': [betweenness.get(i, 0.0) for i in range(num_nodes)],
    'closeness': [closeness.get(i, 0.0) for i in range(num_nodes)],
    'eigenvector': [eigenvector.get(i, 0.0) for i in range(num_nodes)]
})
print("Các chỉ số mạng tính được, hiển thị 5 dòng đầu:")
print(metrics_df.head())

Đã chuyển sang NetworkX.
Betweenness Centrality tính xong trong 75.32 giây.
Closeness Centrality tính xong trong 11.64 giây.
Eigenvector Centrality không hội tụ: not implemented for multigraph type
Eigenvector Centrality tính xong trong 0.05 giây.
Các chỉ số mạng tính được, hiển thị 5 dòng đầu:
   profile_id  in_degree  out_degree  betweenness  closeness  eigenvector
0           1          0           0          0.0        0.0          0.0
1     4121646          0           0          0.0        0.0          0.0
2      836686          0           0          0.0        0.0          0.0
3     3670821          0           0          0.0        0.0          0.0
4    11025609          0           0          0.0        0.0          0.0


In [48]:
metrics_df[metrics_df['in_degree'] > 0]

Unnamed: 0,profile_id,in_degree,out_degree,betweenness,closeness,eigenvector
393,7129790,1,0,0.000000e+00,0.000003,0.0
399,3368819,3,6,7.069161e-08,0.000670,0.0
454,443892,1,0,0.000000e+00,0.000005,0.0
677,85373,5,0,0.000000e+00,0.000013,0.0
756,421246,2,2,0.000000e+00,0.000004,0.0
...,...,...,...,...,...,...
565614,8867614,1,0,0.000000e+00,0.000002,0.0
565647,108459,1,0,0.000000e+00,0.000602,0.0
565659,1516582,1,0,0.000000e+00,0.000002,0.0
565680,1783275,1,0,0.000000e+00,0.000004,0.0


# 3. Nhúng đồ thị sử dụng GNN với DGL (GCN)


In [44]:
class GCN(nn.Module):
    def __init__(self, in_feats, hidden_feats, out_feats):
        super(GCN, self).__init__()
        self.conv1 = GraphConv(in_feats, hidden_feats)
        self.conv2 = GraphConv(hidden_feats, out_feats)
    
    def forward(self, graph, features):
        x = self.conv1(graph, features)
        x = F.relu(x)
        x = self.conv2(graph, x)
        return x

In [45]:
# Nếu chưa có đặc trưng cho nút, tạo feature ngẫu nhiên (ví dụ, kích thước 16)
feat_dim = 16
if 'feat' not in g.ndata:
    g.ndata['feat'] = torch.randn(g.num_nodes(), feat_dim)

embedding_dim = 16  # Kích thước vector nhúng mong muốn
model = GCN(feat_dim, 2 * embedding_dim, embedding_dim)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
print(optimizer)

Adam (
Parameter Group 0
    amsgrad: False
    betas: (0.9, 0.999)
    capturable: False
    differentiable: False
    eps: 1e-08
    foreach: None
    fused: None
    lr: 0.01
    maximize: False
    weight_decay: 0
)


In [46]:
# Để giảm chi phí tính toán, ta huấn luyện số epoch thấp (ví dụ 100 epoch)
num_epochs = 100
print("Kích thước z:", z.shape)
print("Kích thước g.ndata['feat']:", g.ndata['feat'].shape)

for epoch in range(num_epochs):
    model.train()
    optimizer.zero_grad()
    g = dgl.add_self_loop(g)
    # Ở đây, làm bài toán tự giám sát đơn giản: tái tạo lại đặc trưng ban đầu bằng MSE
    z = model(g, g.ndata['feat'])
    loss = F.mse_loss(z, g.ndata['feat'])
    loss.backward()
    optimizer.step()
    if (epoch + 1) % 10 == 0:
        print(f"Epoch {epoch+1:03d}: Loss = {loss.item():.4f}")

# Sau huấn luyện, trích xuất vector nhúng của các nút
model.eval()
with torch.no_grad():
    node_embeddings = model(g, g.ndata['feat']).cpu().numpy()

# Tạo DataFrame cho embedding: đặt tên cột là gnn_emb_0, gnn_emb_1, ... gnn_emb_63
embedding_df = pd.DataFrame(node_embeddings, columns=[f'gnn_emb_{i}' for i in range(embedding_dim)])
embedding_df['profile_id'] = profile_ids

Kích thước z: torch.Size([565841, 16])
Kích thước g.ndata['feat']: torch.Size([565841, 16])
Epoch 010: Loss = 0.6447
Epoch 020: Loss = 0.3239
Epoch 030: Loss = 0.2011
Epoch 040: Loss = 0.1405
Epoch 050: Loss = 0.1112
Epoch 060: Loss = 0.0893
Epoch 070: Loss = 0.0730
Epoch 080: Loss = 0.0599
Epoch 090: Loss = 0.0489
Epoch 100: Loss = 0.0399


In [47]:
##############################################
# 4. Kết hợp đặc trưng: Metrics + GNN Embedding
##############################################

combined_df = pd.merge(metrics_df, embedding_df, on='profile_id')
print("Kết quả đặc trưng kết hợp, 5 dòng đầu:")
print(combined_df.head())

# Lưu kết quả ra file CSV
combined_df.to_csv('combined_user_features.csv', index=False)
print("Đã lưu đặc trưng kết hợp vào file 'combined_user_features.csv'")

Kết quả đặc trưng kết hợp, 5 dòng đầu:
   profile_id  in_degree  out_degree  betweenness  closeness  eigenvector  \
0           1          0           0          0.0        0.0          0.0   
1     4121646          0           0          0.0        0.0          0.0   
2      836686          0           0          0.0        0.0          0.0   
3     3670821          0           0          0.0        0.0          0.0   
4    11025609          0           0          0.0        0.0          0.0   

   gnn_emb_0  gnn_emb_1  gnn_emb_2  gnn_emb_3  ...  gnn_emb_6  gnn_emb_7  \
0  -0.249802  -0.649477  -0.131534   0.479486  ...   0.432030  -0.735447   
1  -0.731473  -0.433804  -1.185665   0.464575  ...  -0.172377   0.093307   
2  -0.455413   1.207451  -0.555592  -1.088797  ...   0.308630  -1.103349   
3  -0.678496   0.332202  -0.463523  -0.758592  ...   1.536808  -1.390308   
4   1.200557   0.711367   0.490672   1.843835  ...  -0.594223  -2.256658   

   gnn_emb_8  gnn_emb_9  gnn_emb_10  gnn_