学习链接：https://zhuanlan.zhihu.com/p/89503068

## 图嵌入（Graph Embedding）

图嵌入是一种 **表示学习（Representation Learning）** 技术，也称为 **网络嵌入**、**图表示学习** 或 **网络表示学习**。其目标是将图结构中的信息映射为低维空间中的向量表示，以便于后续的机器学习任务。

### 1. 目标

图嵌入主要包括两种类型：

节点嵌入（Node Embedding）：将图中的每个节点表示成低维、实值、稠密的向量。

*图级嵌入（Graph-level Embedding）：将整个图表示成一个低维、实值、稠密的向量。

### 2. 图嵌入的方法

图嵌入的实现方法多种多样，主要包括以下几类：

#### 2.1 矩阵分解（Matrix Factorization）

该方法通过构建和分解反映图结构的矩阵，获得节点或图的向量表示。常用的矩阵包括：

* 邻接矩阵（Adjacency Matrix）
* 拉普拉斯矩阵（Laplacian Matrix）
* 节点转移概率矩阵（Transition Probability Matrix）
* 节点属性矩阵（Node Feature Matrix）

不同的矩阵类型适用于不同的分解策略，例如特征值分解、奇异值分解（SVD）等。此类方法适合结构静态、规模较小的图。

#### 2.2 DeepWalk

DeepWalk 是一种基于随机游走和 Word2Vec 模型的图嵌入方法。其核心思想包括：

* 利用随机游走在图中生成节点序列；
* 将这些序列视为“句子”，将节点视为“单词”；
* 使用 Word2Vec 对这些“句子”进行训练，获得节点的嵌入表示。

#### 2.3 图神经网络（Graph Neural Network, GNN）

图神经网络通过结合图结构与节点特征，并使用神经网络进行端到端训练，实现图嵌入学习。GNN 类方法可以同时处理节点分类、图分类、链接预测等多种任务。

**常见的 GNN 模型包括**：

* GCN（Graph Convolutional Network）
* GAT（Graph Attention Network）
* GraphSAGE
* Graph Isomorphism Network (GIN)

GNN 不仅可以生成节点嵌入，也可以通过全局聚合机制生成图级嵌入，是目前图嵌入研究的核心方向之一。


## 3. 图嵌入方法图谱（Method Taxonomy）

图嵌入方法可以从图类型、训练方法和传播方式（Propagating Step）等多个维度进行分类。如下是主要的分类图谱结构：

### 3.1 按图类型分类（Graph Types）

* **静态图（Static Graph）**
* **异构图（Heterogeneous Graph）**

  * Graph Inspection
  * HAN
* **边属性图（Edge-attributed Graph）**

  * G2S
  * R-GCN
* **动态图（Dynamic Graph）**

  * DCRNN
  * STGCN
  * Structural-RNN
  * ST-GCN
* **分级图（Graded Graph）**

  * DGP

### 3.2 按训练方法分类（Training Methods）

* **邻居采样（Neighborhood Sampling）**

  * GraphSAGE
  * FastGCN
  * PinSage
  * SSE
  * Adaptive Sampling
* **感受野控制（Receptive Field Control）**

  * Control Variate
* **数据增强（Data Augmentation）**

  * Co-training
  * Self-training
* **无监督训练（Unsupervised Training）**

  * GAE
  * VGAE
  * ARGA
  * GCMC

### 3.3 按传播步骤分类（Propagation Step）

* **卷积式聚合器（Convolutional Aggregator）**

  * Graph Convolutional Networks（GCN）

    * Spectral 类方法：Spectral Network, ChebNet, GCN
    * Spatial 类方法：DCNN, MoNet, GraphSAGE 等
* **注意力式聚合器（Attention Aggregator）**

  * Graph Attention Network（GAT）
  * Gated Attention Network
* **门控更新器（Gate Updater）**

  * GRU
  * LSTM
* **跳跃连接（Skip Connection）**

  * Jump Knowledge Network
  * Highway GNN
* **分层结构（Hierarchical GNN）**

  * ECC
  * DIFFPOOL
* **图结构 LSTM（Graph LSTM）**

  * Tree LSTM
  * Graph LSTM
  * Sentence LSTM

## 4.图

### 在图神经网络和图嵌入中基本定义：

一个图记作：

$$
G = (V, E)
$$

其中：

* $V$：节点的集合（Vertices）
* $E$：边的集合（Edges），表示节点之间的连接关系

### 节点特征表示：

对于图中的每个节点 $i$，我们假设它拥有一个特征向量 $x_i$。将所有节点的特征组合在一起，可以构成一个特征矩阵：

$$
X \in \mathbb{R}^{N \times D}
$$

其中：

* $N$：节点数量（即 $|V|$）
* $D$：每个节点的特征维度（即每个 $x_i \in \mathbb{R}^D$）

这个矩阵 $X$ 就是图中所有节点的特征表示。


##  图的三种基本矩阵解释

### 1. 邻接矩阵（Adjacency Matrix, $A$）

邻接矩阵用来表示节点之间是否有**边相连**。

* 是一个 $N \times N$ 的矩阵（$N$ 是节点数）
* 如果节点 $i$ 和节点 $j$ 有边相连，$A_{ij} = 1$，否则为 0。
* 对于**无向图**，邻接矩阵是对称的。

在图中可以看到：

```
    A =
    0 1 1 0 0 0
    1 0 1 1 0 0
    1 1 0 0 1 0
    0 1 0 0 1 1
    0 0 1 1 0 0
    0 0 0 1 0 0
```

每一行/列表示一个节点，相邻节点之间的值为 1。

---

### 2. 度矩阵（Degree Matrix, $D$）

度矩阵是一个对角矩阵，用来表示每个节点的“度”——也就是它连接了几个边（邻居节点数）。

* 是一个 $N \times N$ 的**对角矩阵**
* 第 $i$ 行第 $i$ 列的值 $D_{ii}$ 表示节点 $i$ 的度（它有多少邻居）

在图中可以看到：

```
    D =
    2 0 0 0 0 0
    0 3 0 0 0 0
    0 0 3 0 0 0
    0 0 0 3 0 0
    0 0 0 0 2 0
    0 0 0 0 0 1
```

例如节点 2 有 3 个邻居，所以它的度为 3。

---

### 3. 拉普拉斯矩阵（Laplacian Matrix, $L$）

拉普拉斯矩阵是最常用于图信号处理和图神经网络中的结构，它定义为：

$$
L = D - A
$$

即：**度矩阵 - 邻接矩阵**

* 它综合反映了图的结构和连接方式
* 常用于图卷积、频谱分析等领域

在图中可以看到：

```
    L =
    2 -1 -1  0  0  0
   -1  3 -1 -1  0  0
   -1 -1  3  0 -1  0
    0 -1  0  3 -1 -1
    0  0 -1 -1  2  0
    0  0  0 -1  0  1
```

对角线元素是度，非对角线是邻接关系的负值。

---

## 总结

| 矩阵                 | 表示意义          |
| ------------------ | ------------- |
| 邻接矩阵 $A$           | 哪些节点之间有边      |
| 度矩阵 $D$            | 每个节点的连接数（度）   |
| 拉普拉斯矩阵 $L = D - A$ | 图的结构，用于图卷积等操作 |



## 5. 图卷积的公式理解

GCN的核心在于如何基于图结构 进行特征的聚合与传播。

### 总体框架：图卷积的一般形式

$$
H^{(l+1)} = f(H^{(l)}, A)
$$

常见的简化版本为：

$$
H^{(l+1)} = \sigma(AH^{(l)}W^{(l)})
$$

其中：

* $H^{(l)}$：第 $l$ 层节点的特征表示
* $A$：邻接矩阵
* $W^{(l)}$：第 $l$ 层的可训练权重矩阵
* $\sigma$：非线性激活函数（如 ReLU）


### 实现一：基础图卷积（未归一化）

$$
H^{(l+1)} = \sigma(AH^{(l)}W^{(l)})
$$

**特点：**

* 聚合邻居特征，但没有考虑自身特征；
* 邻接矩阵 $A$ 未归一化，容易造成高阶节点影响过大。

类比：只听邻居的，不考虑自己的信息，且说话声音大小没有控制。


### 实现二：引入拉普拉斯矩阵（考虑自身）

$$
H^{(l+1)} = \sigma((D - A)H^{(l)}W^{(l)}) = \sigma(L H^{(l)}W^{(l)})
$$

**特点：**

* 使用组合拉普拉斯矩阵 $L = D - A$，引入自身节点的影响；
* 缓解了特征传递的偏差问题。

类比：开始考虑自己的声音，但邻居声音仍未做“降噪”处理。


### 实现三：标准 GCN（对称归一化）

$$
H^{(l+1)} = \sigma(\hat{D}^{-1/2} \hat{A} \hat{D}^{-1/2} H^{(l)} W^{(l)})
$$

其中：

* $\hat{A} = A + I$：邻接矩阵加上自环
* $\hat{D}$：对应的度矩阵


$\hat{D}^{-1/2}$ 例子：

$$
d_1 = 3, \quad d_2 = 2, \quad d_3 = 1
$$

那么度矩阵：

$$
\hat{D} =
\begin{bmatrix}
3 & 0 & 0 \\
0 & 2 & 0 \\
0 & 0 & 1 \\
\end{bmatrix}
$$

则：

$$
\hat{D}^{-1/2} =
\begin{bmatrix}
\frac{1}{\sqrt{3}} & 0 & 0 \\
0 & \frac{1}{\sqrt{2}} & 0 \\
0 & 0 & 1 \\
\end{bmatrix}
$$

**特点：**

* 自身信息 + 邻居信息；
* 一次性更新所有节点
* 邻接矩阵归一化，控制不同度节点的权重影响；
* 两边乘 可以使结果对称且保持节点间影响平衡
* 是 **Kipf & Welling (2017)** 提出的主流 GCN 实现方式。

类比：你和邻居都发声，而且大家的音量都控制在相似水平，不让“话痨”主导讨论。

### 从节点角度看更新公式（局部视角）

$$
h_i^{(l+1)} = \sigma\left(\sum_{j \in \mathcal{N}(i) \cup \{i\}} \frac{1}{\sqrt{d_i d_j}} h_j^{(l)} W^{(l)}\right)
$$


where：
* $h_j^{(l)}$：是**节点 $j$** 在第 $l$ 层的特征向量
* $d_i$：是节点 $i$ 的度（连接多少节点，**包含自己**，因为 $\hat{A} = A + I$）
* $\frac{1}{\sqrt{d_i d_j}}$：归一化因子，避免高/低度节点影响失衡。


### 实现方式对比总结：

| 实现编号 | 公式形式                                               | 优点         | 缺点         |
| ---- | -------------------------------------------------- | ---------- | ---------- |
| 实现一  | $\sigma(AHW)$                                      | 简洁直接       | 忽略自身，未归一化  |
| 实现二  | $\sigma(LHW)$                                      | 引入自环       | 无归一化，表达力弱  |
| 实现三  | $\sigma(\hat{D}^{-1/2} \hat{A} \hat{D}^{-1/2} HW)$ | 平衡归一化、考虑自身 | 主流方案，结构更复杂 |

