学习链接：https://zhuanlan.zhihu.com/p/89503068

## 图嵌入（Graph Embedding）

图嵌入是一种 **表示学习（Representation Learning）** 技术，也称为 **网络嵌入**、**图表示学习** 或 **网络表示学习**。其目标是将图结构中的信息映射为低维空间中的向量表示，以便于后续的机器学习任务。

### 1. 目标

图嵌入主要包括两种类型：

节点嵌入（Node Embedding）：将图中的每个节点表示成低维、实值、稠密的向量。

*图级嵌入（Graph-level Embedding）：将整个图表示成一个低维、实值、稠密的向量。

### 2. 图嵌入的方法

图嵌入的实现方法多种多样，主要包括以下几类：

#### 2.1 矩阵分解（Matrix Factorization）

该方法通过构建和分解反映图结构的矩阵，获得节点或图的向量表示。常用的矩阵包括：

* 邻接矩阵（Adjacency Matrix）
* 拉普拉斯矩阵（Laplacian Matrix）
* 节点转移概率矩阵（Transition Probability Matrix）
* 节点属性矩阵（Node Feature Matrix）

不同的矩阵类型适用于不同的分解策略，例如特征值分解、奇异值分解（SVD）等。此类方法适合结构静态、规模较小的图。

#### 2.2 DeepWalk

DeepWalk 是一种基于随机游走和 Word2Vec 模型的图嵌入方法。其核心思想包括：

* 利用随机游走在图中生成节点序列；
* 将这些序列视为“句子”，将节点视为“单词”；
* 使用 Word2Vec 对这些“句子”进行训练，获得节点的嵌入表示。

#### 2.3 图神经网络（Graph Neural Network, GNN）

图神经网络通过结合图结构与节点特征，并使用神经网络进行端到端训练，实现图嵌入学习。GNN 类方法可以同时处理节点分类、图分类、链接预测等多种任务。

**常见的 GNN 模型包括**：

* GCN（Graph Convolutional Network）
* GAT（Graph Attention Network）
* GraphSAGE
* Graph Isomorphism Network (GIN)

GNN 不仅可以生成节点嵌入，也可以通过全局聚合机制生成图级嵌入，是目前图嵌入研究的核心方向之一。


## 3. 图嵌入方法图谱（Method Taxonomy）

图嵌入方法可以从图类型、训练方法和传播方式（Propagating Step）等多个维度进行分类。如下是主要的分类图谱结构：

### 3.1 按图类型分类（Graph Types）

* **静态图（Static Graph）**
* **异构图（Heterogeneous Graph）**

  * Graph Inspection
  * HAN
* **边属性图（Edge-attributed Graph）**

  * G2S
  * R-GCN
* **动态图（Dynamic Graph）**

  * DCRNN
  * STGCN
  * Structural-RNN
  * ST-GCN
* **分级图（Graded Graph）**

  * DGP

### 3.2 按训练方法分类（Training Methods）

* **邻居采样（Neighborhood Sampling）**

  * GraphSAGE
  * FastGCN
  * PinSage
  * SSE
  * Adaptive Sampling
* **感受野控制（Receptive Field Control）**

  * Control Variate
* **数据增强（Data Augmentation）**

  * Co-training
  * Self-training
* **无监督训练（Unsupervised Training）**

  * GAE
  * VGAE
  * ARGA
  * GCMC

### 3.3 按传播步骤分类（Propagation Step）

* **卷积式聚合器（Convolutional Aggregator）**

  * Graph Convolutional Networks（GCN）

    * Spectral 类方法：Spectral Network, ChebNet, GCN
    * Spatial 类方法：DCNN, MoNet, GraphSAGE 等
* **注意力式聚合器（Attention Aggregator）**

  * Graph Attention Network（GAT）
  * Gated Attention Network
* **门控更新器（Gate Updater）**

  * GRU
  * LSTM
* **跳跃连接（Skip Connection）**

  * Jump Knowledge Network
  * Highway GNN
* **分层结构（Hierarchical GNN）**

  * ECC
  * DIFFPOOL
* **图结构 LSTM（Graph LSTM）**

  * Tree LSTM
  * Graph LSTM
  * Sentence LSTM

## 4.图

### 在图神经网络和图嵌入中基本定义：

一个图记作：

$$
G = (V, E)
$$

其中：

* $V$：节点的集合（Vertices）
* $E$：边的集合（Edges），表示节点之间的连接关系

### 节点特征表示：

对于图中的每个节点 $i$，我们假设它拥有一个特征向量 $x_i$。将所有节点的特征组合在一起，可以构成一个特征矩阵：

$$
X \in \mathbb{R}^{N \times D}
$$

其中：

* $N$：节点数量（即 $|V|$）
* $D$：每个节点的特征维度（即每个 $x_i \in \mathbb{R}^D$）

这个矩阵 $X$ 就是图中所有节点的特征表示。


##  图的三种基本矩阵解释

### 1. 邻接矩阵（Adjacency Matrix, $A$）

邻接矩阵用来表示节点之间是否有**边相连**。

* 是一个 $N \times N$ 的矩阵（$N$ 是节点数）
* 如果节点 $i$ 和节点 $j$ 有边相连，$A_{ij} = 1$，否则为 0。
* 对于**无向图**，邻接矩阵是对称的。

在图中可以看到：

```
    A =
    0 1 1 0 0 0
    1 0 1 1 0 0
    1 1 0 0 1 0
    0 1 0 0 1 1
    0 0 1 1 0 0
    0 0 0 1 0 0
```

每一行/列表示一个节点，相邻节点之间的值为 1。

---

### 2. 度矩阵（Degree Matrix, $D$）

度矩阵是一个对角矩阵，用来表示每个节点的“度”——也就是它连接了几个边（邻居节点数）。

* 是一个 $N \times N$ 的**对角矩阵**
* 第 $i$ 行第 $i$ 列的值 $D_{ii}$ 表示节点 $i$ 的度（它有多少邻居）

在图中可以看到：

```
    D =
    2 0 0 0 0 0
    0 3 0 0 0 0
    0 0 3 0 0 0
    0 0 0 3 0 0
    0 0 0 0 2 0
    0 0 0 0 0 1
```

例如节点 2 有 3 个邻居，所以它的度为 3。

---

### 3. 拉普拉斯矩阵（Laplacian Matrix, $L$）

拉普拉斯矩阵是最常用于图信号处理和图神经网络中的结构，它定义为：

$$
L = D - A
$$

即：**度矩阵 - 邻接矩阵**

* 它综合反映了图的结构和连接方式
* 常用于图卷积、频谱分析等领域

在图中可以看到：

```
    L =
    2 -1 -1  0  0  0
   -1  3 -1 -1  0  0
   -1 -1  3  0 -1  0
    0 -1  0  3 -1 -1
    0  0 -1 -1  2  0
    0  0  0 -1  0  1
```

对角线元素是度，非对角线是邻接关系的负值。

---

## 总结

| 矩阵                 | 表示意义          |
| ------------------ | ------------- |
| 邻接矩阵 $A$           | 哪些节点之间有边      |
| 度矩阵 $D$            | 每个节点的连接数（度）   |
| 拉普拉斯矩阵 $L = D - A$ | 图的结构，用于图卷积等操作 |



## 5. 图卷积的公式理解

GCN的核心在于如何基于图结构 进行特征的聚合与传播。

### 总体框架：图卷积的一般形式

$$
H^{(l+1)} = f(H^{(l)}, A)
$$

常见的简化版本为：

$$
H^{(l+1)} = \sigma(AH^{(l)}W^{(l)})
$$

其中：

* $H^{(l)}$：第 $l$ 层节点的特征表示
* $A$：邻接矩阵
* $W^{(l)}$：第 $l$ 层的可训练权重矩阵
* $\sigma$：非线性激活函数（如 ReLU）


### 实现一：基础图卷积（未归一化）

$$
H^{(l+1)} = \sigma(AH^{(l)}W^{(l)})
$$

**特点：**

* 聚合邻居特征，但没有考虑自身特征；
* 邻接矩阵 $A$ 未归一化，容易造成高阶节点影响过大。

类比：只听邻居的，不考虑自己的信息，且说话声音大小没有控制。


### 实现二：引入拉普拉斯矩阵（考虑自身）

$$
H^{(l+1)} = \sigma((D - A)H^{(l)}W^{(l)}) = \sigma(L H^{(l)}W^{(l)})
$$

**特点：**

* 使用组合拉普拉斯矩阵 $L = D - A$，引入自身节点的影响；
* 缓解了特征传递的偏差问题。

类比：开始考虑自己的声音，但邻居声音仍未做“降噪”处理。


### 实现三：标准 GCN（对称归一化）

$$
H^{(l+1)} = \sigma(\hat{D}^{-1/2} \hat{A} \hat{D}^{-1/2} H^{(l)} W^{(l)})
$$

其中：

* $\hat{A} = A + I$：邻接矩阵加上自环
* $\hat{D}$：对应的度矩阵


$\hat{D}^{-1/2}$ 例子：

$$
d_1 = 3, \quad d_2 = 2, \quad d_3 = 1
$$

那么度矩阵：

$$
\hat{D} =
\begin{bmatrix}
3 & 0 & 0 \\
0 & 2 & 0 \\
0 & 0 & 1 \\
\end{bmatrix}
$$

则：

$$
\hat{D}^{-1/2} =
\begin{bmatrix}
\frac{1}{\sqrt{3}} & 0 & 0 \\
0 & \frac{1}{\sqrt{2}} & 0 \\
0 & 0 & 1 \\
\end{bmatrix}
$$

**特点：**

* 自身信息 + 邻居信息；
* 一次性更新所有节点
* 邻接矩阵归一化，控制不同度节点的权重影响；
* 两边乘 可以使结果对称且保持节点间影响平衡
* 是 **Kipf & Welling (2017)** 提出的主流 GCN 实现方式。

类比：你和邻居都发声，而且大家的音量都控制在相似水平，不让“话痨”主导讨论。

### 从节点角度看更新公式（局部视角）

$$
h_i^{(l+1)} = \sigma\left(\sum_{j \in \mathcal{N}(i) \cup \{i\}} \frac{1}{\sqrt{d_i d_j}} h_j^{(l)} W^{(l)}\right)
$$


where：
* $h_j^{(l)}$：是**节点 $j$** 在第 $l$ 层的特征向量
* $d_i$：是节点 $i$ 的度（连接多少节点，**包含自己**，因为 $\hat{A} = A + I$）
* $\frac{1}{\sqrt{d_i d_j}}$：归一化因子，避免高/低度节点影响失衡。


### 实现方式对比总结：

| 实现编号 | 公式形式                                               | 优点         | 缺点         |
| ---- | -------------------------------------------------- | ---------- | ---------- |
| 实现一  | $\sigma(AHW)$                                      | 简洁直接       | 忽略自身，未归一化  |
| 实现二  | $\sigma(LHW)$                                      | 引入自环       | 无归一化，表达力弱  |
| 实现三  | $\sigma(\hat{D}^{-1/2} \hat{A} \hat{D}^{-1/2} HW)$ | 平衡归一化、考虑自身 | 主流方案，结构更复杂 |



## GCN代码构建

GCN Layer 

$$
H^{(l+1)} = \sigma(\hat{D}^{-1/2} \hat{A} \hat{D}^{-1/2} H^{(l)} W^{(l)})
$$

In [12]:
# 导入规范： 标准库 > 第三方库 > 自定义模块，每组之间空一行

import math

import torch
import torch.nn as nn
from torch.nn.parameter import Parameter


class GraphConvolution(nn.Module):                  # 继承自 PyTorch 的 nn.Module 基类
    def __init__(self, input, output, bias=True):
        #super(GraphConvolution, self).__init__()   # 父类的初始化，确保具备功能.parameters()、.cuda()、.forward() 等。
        super().__init__()                          # 简化版本
        self.in_features = input
        self.out_features = output

        # 可训练参数：权重和偏置
        self.weight = Parameter(torch.FloatTensor(input, output))    # 创建大小为 (input, output) 的权重矩阵，可优化参数
        if bias:                                                     # torch.FloatTensor(...) 先创建一个未初始化的浮点张量。
            self.bias = Parameter(torch.FloatTensor(output))
        else:
            self.register_parameter('bias', None)

        self.reset_parameters()                                      # 初始化权重和偏置的数值


    def reset_parameters(self):
        """
        初始化权重矩阵和偏置项。

        权重和偏置值在 [-1/sqrt(output_dim), 1/sqrt(output_dim)] 范围内均匀采样，
        以确保初始参数不会过大或过小，利于模型训练稳定性。
        """
        stdv = 1. / math.sqrt(self.weight.size(1))                   # 找到初始化边界  [-1/√output_dim, 1/√output_dim] 
        self.weight.data.uniform_(-stdv, stdv)                       # 对权重矩阵采样，均匀分布，区间：[-1/√output_dim, 1/√output_dim]
        if self.bias is not None:                                    # 存在bais 也同样方式采样
            self.bias.data.uniform_(-stdv, stdv)


    def forward(self, input, adjacent):
        '''
        这里传入的adjacent 已经是归一化过的\hat{D}^{-1/2} \hat{A} \hat{D}^{-1/2} 
        '''
        support = torch.mm(input, self.weight)                      # XW 
        output = torch.spmm(adjacent, support)                      # AXW 
        if self.bias is not None:
            return output + self.bias
        else:
            return output



In [13]:
# Defining the GCN model structure
import torch.nn.functional as F

class GCN(nn.Module):
    """
    基于两层图卷积(GCN)的图神经网络模型, 用于节点分类任务。
    """

    def __init__(self, nfeat, nhid, nclass, dropout):
        """
        初始化 GCN 模型结构。

        参数:
            nfeat (int): 输入特征的维度(每个节点的原始特征维度)
            nhid (int): 第一层图卷积的输出维度(隐藏层大小)
            nclass (int): 输出的类别数量(最终分类的类别数)
            dropout (float): Dropout 概率(防止过拟合)
        """
        super(GCN, self).__init__()

        self.gc1 = GraphConvolution(nfeat, nhid)     # 第一层图卷积, 从输入特征维度映射到隐藏维度
        self.gc2 = GraphConvolution(nhid, nclass)    # 第二层图卷积, 从隐藏层输出到类别维度
        self.dropout = dropout                        # Dropout 概率

    def forward(self, x, adj):
        """
        定义 GCN 模型的前向传播逻辑。

        参数:
            x (Tensor): 输入的节点特征矩阵, 形状为 [N, nfeat]
            adj (Tensor): 归一化邻接矩阵(稀疏矩阵), 形状为 [N, N]

        返回:
            Tensor: 每个节点在每个类别上的对数概率, 形状为 [N, nclass]
        """
        x = F.relu(self.gc1(x, adj))                             # 第一层图卷积 + ReLU 激活
        x = F.dropout(x, self.dropout, training=self.training)  # Dropout, 用于训练阶段防止过拟合
        x = self.gc2(x, adj)                                     # 第二层图卷积, 不加激活函数
        return F.log_softmax(x, dim=1)                           # 对每个节点输出做 log_softmax, 用于分类





In [9]:
# 加载数据
import numpy as np
import scipy.sparse as sp
import torch

def encode_onehot(labels):
    """将标签转换为 one-hot 编码"""
    classes = sorted(set(labels))
    classes_dict = {c: np.identity(len(classes))[i, :] for i, c in enumerate(classes)}
    return np.array([classes_dict[label] for label in labels], dtype=np.int32)

def normalize(mx):
    """行归一化: D^-1 A"""
    rowsum = np.array(mx.sum(1)).flatten()
    r_inv = np.power(rowsum, -1, where=rowsum != 0)
    r_mat_inv = sp.diags(r_inv)
    return r_mat_inv.dot(mx)

def sparse_mx_to_torch_sparse_tensor(sparse_mx):
    """将 scipy 稀疏矩阵转换为 PyTorch 稀疏张量"""
    sparse_mx = sparse_mx.tocoo().astype(np.float32)
    indices = torch.from_numpy(np.vstack((sparse_mx.row, sparse_mx.col)).astype(np.int64))
    values = torch.from_numpy(sparse_mx.data)
    shape = torch.Size(sparse_mx.shape)
    return torch.sparse_coo_tensor(indices, values, shape)

def load_cora_data(path="./dataset/cora/", dataset="cora"):
    print(f"Loading {dataset} dataset...")

    # 读取 cora.content
    content_file = f"{path}{dataset}.content"
    idx_features_labels = np.genfromtxt(content_file, dtype=str)
    features = sp.csr_matrix(idx_features_labels[:, 1:-1], dtype=np.float32)
    labels = encode_onehot(idx_features_labels[:, -1])

    # 建立节点 ID 到索引的映射
    idx = np.array(idx_features_labels[:, 0], dtype=np.int32)
    idx_map = {j: i for i, j in enumerate(idx)}

    # 读取 cora.cites 并建立边
    cites_file = f"{path}{dataset}.cites"
    edges_unordered = np.genfromtxt(cites_file, dtype=np.int32)
    edges = np.array(list(map(idx_map.get, edges_unordered.flatten())),
                     dtype=np.int32).reshape(edges_unordered.shape)

    # 构建邻接矩阵（非对称）
    adj = sp.coo_matrix((np.ones(edges.shape[0]), (edges[:, 0], edges[:, 1])),
                        shape=(labels.shape[0], labels.shape[0]), dtype=np.float32)

    # 构建对称邻接矩阵 A + A^T
    adj = adj + adj.T.multiply(adj.T > adj) - adj.multiply(adj.T > adj)

    # 邻接矩阵归一化 + 自环 A_hat = D^-1/2 (A + I) D^-1/2
    adj = normalize(adj + sp.eye(adj.shape[0]))

    # 数据类型转换为 PyTorch Tensor
    features = torch.FloatTensor(np.array(features.todense()))
    labels = torch.LongTensor(np.where(labels)[1])
    adj = sparse_mx_to_torch_sparse_tensor(adj)

    # 划分数据集索引
    idx_train = torch.LongTensor(range(140))
    idx_val = torch.LongTensor(range(200, 500))
    idx_test = torch.LongTensor(range(500, 1500))

    return adj, features, labels, idx_train, idx_val, idx_test

def accuracy(output, labels):
    preds = output.max(1)[1]           # 每一行最大值所在的下标，就是预测的类别
    correct = preds.eq(labels).sum()   # 和真实标签比对，计算匹配的个数
    return correct.item() / len(labels)


In [1]:
import os

cwd = os.getcwd()
print("当前工作路径是：", cwd)


当前工作路径是： e:\code\-\DGNN以及ODE学习


In [14]:
# 调用，读取数据集
adj, features, labels, idx_train, idx_val, idx_test = load_cora_data("./dataset/cora/")

Loading cora dataset...


## cora数据集介绍

该数据集共2708个样本点，每个样本点都是一篇科学论文，所有样本点被分为8个类别，类别分别是1）基于案例；2）遗传算法；3）神经网络；4）概率方法；5）强化学习；6）规则学习；7）理论

篇论文都由一个1433维的词向量表示，所以，每个样本点具有1433个特征

下载的压缩包中有三个文件，分别是cora.cites，cora.content，README

README是对数据集的介绍；cora.content是所有论文的独自的信息；cora.cites是论文之间的引用记录。

cora.content共有2708行，每一行代表一个样本点，即一篇论文。

ora.cites共5429行， 每一行有两个论文编号，表示第一个编号的论文先写，第二个编号的论文引用第一个编号的论文。

In [4]:
features.shape

torch.Size([2708, 1433])

In [8]:
labels.max().item() + 1

7

In [17]:
# 训练模型
import os

import torch
import torch.nn.functional as F

# ========= 初始化模型 ==========
model = GCN(nfeat=features.shape[1],                   # 输入维度是1433，也就是向量长度
            nhid=16,
            nclass=labels.max().item() + 1,
            dropout=0.5)

optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4)  # L2 正则化，权重衰减

# ========= 创建模型保存目录 ==========
os.makedirs("pth", exist_ok=True)

# ========= 开始训练 ==========
for epoch in range(200):
    model.train()
    optimizer.zero_grad()
    
    output = model(features, adj)  # 前向传播
    loss = F.nll_loss(output[idx_train], labels[idx_train])  # 损失函数, 负对数似然损失(Negative Log Likelihood Loss，简称 NLL Loss)
    acc = accuracy(output[idx_train], labels[idx_train])     # 训练准确率

    loss.backward()    # 反向传播
    optimizer.step()   # 参数更新

    print(f"Epoch {epoch+1:03d}, Loss: {loss.item():.4f}, Acc: {acc:.4f}")

    # ========= 每 50 次保存一次模型 ==========
    if (epoch + 1) % 50 == 0:
        model_path = f"pth/gcn_epoch{epoch+1}.pth"
        torch.save(model.state_dict(), model_path)
        print(f"Saved model to {model_path}")


Epoch 001, Loss: 2.0955, Acc: 0.0714
Epoch 002, Loss: 1.9694, Acc: 0.0714
Epoch 003, Loss: 1.8602, Acc: 0.2643
Epoch 004, Loss: 1.7582, Acc: 0.5214
Epoch 005, Loss: 1.6945, Acc: 0.5643
Epoch 006, Loss: 1.6274, Acc: 0.5929
Epoch 007, Loss: 1.5501, Acc: 0.6214
Epoch 008, Loss: 1.4766, Acc: 0.6214
Epoch 009, Loss: 1.4012, Acc: 0.7143
Epoch 010, Loss: 1.3319, Acc: 0.6643
Epoch 011, Loss: 1.2120, Acc: 0.7286
Epoch 012, Loss: 1.1488, Acc: 0.7286
Epoch 013, Loss: 1.0570, Acc: 0.7643
Epoch 014, Loss: 0.9234, Acc: 0.8143
Epoch 015, Loss: 0.8975, Acc: 0.8357
Epoch 016, Loss: 0.8160, Acc: 0.8286
Epoch 017, Loss: 0.7533, Acc: 0.8714
Epoch 018, Loss: 0.6532, Acc: 0.8571
Epoch 019, Loss: 0.5895, Acc: 0.9071
Epoch 020, Loss: 0.5629, Acc: 0.9000
Epoch 021, Loss: 0.5152, Acc: 0.9214
Epoch 022, Loss: 0.4978, Acc: 0.9286
Epoch 023, Loss: 0.3944, Acc: 0.9429
Epoch 024, Loss: 0.3340, Acc: 0.9429
Epoch 025, Loss: 0.3610, Acc: 0.9643
Epoch 026, Loss: 0.3122, Acc: 0.9286
Epoch 027, Loss: 0.2922, Acc: 0.9500
E

In [18]:
model.eval()
output = model(features, adj)
loss_test = F.nll_loss(output[idx_test], labels[idx_test])
acc_test = accuracy(output[idx_test], labels[idx_test])
print(f"Test Loss: {loss_test.item():.4f}, Test Accuracy: {acc_test:.4f}")


Test Loss: 0.5173, Test Accuracy: 0.8400
