<a href="https://colab.research.google.com/github/njulhy/python_knowledge_summary/blob/main/GNN_Learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# GNN介绍


<table>
<tr><td><img src="https://img-blog.csdnimg.cn/20210617213540144.png"><td><img src="https://img-blog.csdnimg.cn/20210617213815492.png">
</table>


传统机器学习：hand-designed features + ML model

GNN: 使用NN (Neural Network) 进行Embedding（特征提取）。

## Hand-Designed Features

### Node-level Features
1. Node degree
2. Node centrality
   - Engienvector centrality
   - Betweenness centrality
   - Closeness centrality
   - others
3. Clustering coefficient
4. Graphlets

其中1、2为Imporance-based features，可以用于判断graph某节点的影响力/重要性；1、3、4为Structure-based features，可以用于判断节点在graph中扮演的角色

#### Engienvector centrality


centrality为特征矢量
$$c_v=\frac{1}{\lambda}\sum_{u\in N(v)}c_u\Leftrightarrow\lambda\mathbf{c}=\mathbf{A}\mathbf{c}$$

#### Betweenness centrality


有多条最短路径经过的节点更重要
$$c_v=\sum_{s\neq v\neq t}\frac{\text{shortest paths between s and t that contain v}}{\text{shortest paths between s and t}}$$
<img src="https://img-blog.csdnimg.cn/20210617221744423.png" width=50%>

#### Closeness centrality


到达其他所有节点的最短路径<b>之和更短的节点</b>更重要
$$c_v=\frac{1}{\sum_{u\neq v}\text{shortest path between u and v}}$$
<img src="https://img-blog.csdnimg.cn/20210617221524571.png"  width=50%>

#### Clustering Coefficient

此特征考量node的neighbor连接情况
$$e_v=\frac{\text{edges among neighboring nodes}}{(_2^{k_v})}\in[0,1]$$
<img src="https://img-blog.csdnimg.cn/20210617222209841.png"  width=50%>


#### Graphlets


<img src="https://img-blog.csdnimg.cn/20210617223601793.png"  width=50%>

### Link-level Features
在link-level prediction task中，需要根据已有的edge来预测新的edge。关键点在于如何设计node pair的特征 (edge存在于node pairs)
1. Distance-based feature
2. Local neighborhood overlap
2. Global neighborhood overlap

#### Distance-Based Features


两个节点之间的最短距离，该特征无法体现一些结构特征，如the degree of neighborhood overlap.
<img src="https://img-blog.csdnimg.cn/20210617230647447.png" width=50%>


#### Local neighborhood overlap


表征两节点的公共节点，该特征对于无公共节点的node pair恒为0.

<img src="https://img-blog.csdnimg.cn/20210617231049898.png" width=50%>


#### Global Neighborhood Overlap


Katz index: $$S_{v_1,v_2}=\sum^{\infty}_{l=1}\beta^l\mathbf{A}^l_{v_1,v_2}=(\mathbf{I}=\beta\mathbf{A})^{-1}-\mathbf{I}$$
需要对node pair中特定长度的路径计数。Trick在于使用adjcency矩阵来计数——$\mathbf{A}_{uv}^i$的值即为u和v之间长度为i的路径数量。

### Graph-Level Features and Graph Kernels
在传统机器学习方法中，Kernel方法被广泛应用于graph-level的任务中。
许多Kernel被提出：
- Graphlet Kernel
- Weisfeiler-Lehman Kernel
- Random-walk kernel
- Shortest-path graph kernel
- others

如果只考虑节点数量，那么会发生下面的状况：<br>
<img src="https://img-blog.csdnimg.cn/20210617233844423.png" width=50%>
<br>
解决途径之一是使用Bag-of-*类型方法。如上面的例子考虑Bag of node degree，则左侧特征为[1,2,1]，而右侧特征为[0,2,2]，两个graph得以区分

#### Graphlet Features


对graph中不同的graphlets进行计数得到特征。在node-level中，graphlet中的node相互连接并且必须包含期望node；在graph-level中，graphlet略有不同，具体如下图：

<table>
<th>$g_k$<th>$f_G$
<tr><td><img src="https://img-blog.csdnimg.cn/20210617234739928.png"><td>
<img src="https://img-blog.csdnimg.cn/20210617234916463.png">
</table>

graphlet kernel:
$$K(G,G')=f_G^Tf_{G'}$$
问题：如果G和G'具有不同的size，那么$f_G$和$f_{G'}$必须标准化，标准化后计算公式为：
$$K(G,G')=h_G^Th_{G'},h_G=\frac{f_G}{Sum(f_G)}$$


#### Weisfeiler-Lehman Kernel


Graphlet Feature的问题
1. 对size-k的graphlet进行计数非常艰难，随着graph的规模n增长，需要进行的计数与$n^k$成正比
2. This is unavoidable in the worst-case since subgraph isomorphism test (judging whether a graph is a subgraph of another graph) is NP-hard.
3. If a graph's node degree is bounded by d, an O(nd^{k-1}) algorithm exists to count all the graphlets of size k.


<table>
<th colspan="3">Color Refinement
<tr><td><img src="https://img-blog.csdnimg.cn/20210618001707240.png"><td><img src="https://img-blog.csdnimg.cn/20210618003255787.png"><td>
<img src="https://img-blog.csdnimg.cn/20210618002232629.png">
</table>

$$K(G_1,G_2)=\phi(G_1)^T\phi(G_2)$$

## Embedding
可以理解为特征提取

<table>
<tr><td>
<img src="https://img-blog.csdnimg.cn/20210618004036779.png">
<td><img src="https://img-blog.csdnimg.cn/20210618004226831.png">
</table>

### Encoder

Encoder将node映射到embedding space，即将node嵌入为一个低维向量。嵌入后需要保持原网络的结构相似性。
<table>
<tr><td>encoder<td>simplest encoder<td>decoder
<tr><td><img src="https://img-blog.csdnimg.cn/20210618004531313.png"><td><img src="https://img-blog.csdnimg.cn/20210618004837989.png"><td><img src="https://img-blog.csdnimg.cn/202106180117443.png">
</table>

#### Shallow Encoding


直接将每个node映射为一个嵌入向量 (embedding vector)，有许多提出的方法，包括<b>DeepWalk, node2vec</b>
<br>
此种方法的关键在于如何衡量Node Similarity。<br>DeepWalk和node2vec都使用<b>random walk</b>来衡量node similarity

#### Embedding Entire Graphs

<table>
<th>目标<th>方法
<tr><td rowspan="3"><img src="https://img-blog.csdnimg.cn/20210618011144540.png"  width=600px><td><img src="https://img-blog.csdnimg.cn/20210618011327478.png" width=400px><tr><td><img src="https://img-blog.csdnimg.cn/20210618011411592.png" width=400px><tr><td><img src="https://img-blog.csdnimg.cn/20210618011507265.png" width=400px>

## 何为GNN？GNN能做什么？

### 什么是GNN

简单来说，GNN是使用NN (Neural Network) 做Embedding。

$ENC(v)$ =multiple layers of non-linear transformations based on graph
<img src="https://img-blog.csdnimg.cn/20210617202100452.png">

### GNN能做什么

1. Node-level：可以直接使用节点嵌入来预测节点分类——可以直接将GNN的输出映射到类别 (回归任务也适用)
   >$\hat{y}_v=Head_{node}(\mathbf{h}_v^{(L)})=\mathbf{W}^{(H)}\mathbf{h}_v^{(L)}$<br>$\mathbf{W}^{(H)}\in\mathbb{R}^{k*d},\mathbf{h}_v^{(L)}\in\mathbb{R}^d$
   
   <img src="https://img-blog.csdnimg.cn/20210617202849287.png"  width=50%>
2. Edge-level：使用节点对的嵌入来预测$\hat{y}_{uv}=Head_{edge}(\mathbf{h}_u^{(L)},\mathbf{h}_v^{(L)})$
   >1. 拼接+线性变换<br>
   $\hat{y}_{uv}=Linear(Concat(\mathbf{h}_u^{(L)},\mathbf{h}_v^{(L)}))$
   2. 内积<br>
   $\hat{y}_{uv}^{(i)}=(\mathbf{h}_u^{(L)})^T\mathbf{W}^{(i)}\mathbf{h}_v^{(L)}, i\in[1,\dots,k]$
   $\hat{y}_{uv}=Concat(\hat{y}_{uv}^{(1)},\dots,\hat{y}_{uv}^{(k)})$

   <img src="https://img-blog.csdnimg.cn/20210617203006878.png"  width=50%>
3. Graph-level: Community detection & Network similarity使用图中所有节点的嵌入做预测
   >$\hat{y}_G=Head_{graph}(\{\mathbf{h}_v^{(L)}\in\mathbb{R}^d,\forall v\in G\})$<br>如使用简单的均值/最大值/求和pooling。<br>简单的pooling会丢失很多信息，可以使用DiffPool，如Heerarchically pool<img src="https://img-blog.csdnimg.cn/20210617212140251.png"  width=50%>


## GNN的结构

- GNN的网络层
   - GCN
   - graphSAGE
- GNN网络层之间的连接
- augmentation
   - graph feature augmentation
   - graph structure augementaiton
- Learning objective
   - Supervised or Unsupervised
   - Node/Edge/Graph level objectives

### 图卷积是什么？和卷积有什么关系？

graph：
1. no fixed notion of locality or sliding window on the graph
2. permutation invariant

<table>
<th>CNN on an image<th>graph
<tr><td><img src="https://img-blog.csdnimg.cn/20210618092043741.png" width=400px><td><img src="https://img-blog.csdnimg.cn/20210618091831862.png" width=400px>

#### GNN中的卷积
1. 局部连接
2. 计算图
3. arbitrary depth
4. neighborhood aggregation

<img src="https://img-blog.csdnimg.cn/20210618092153719.png">

### GNN的网络层

Dropout、BathNorm、Activation等操作在GNN中同样适用
<strong>Message + Aggregation</strong>
<table>
<th>网络结构<th>计算图<th>Message<th>Aggregation
<tr><td><img src="https://img-blog.csdnimg.cn/20210618032449873.png"><td><img src="https://img-blog.csdnimg.cn/20210618013011192.png"><td>邻近节点+自身节点输入当前层的嵌入<td>神经网络
</table>

GNN网络层包括两部分：Message和Aggregation


#### Message

<b>每个node都会创建一个Message，这个message会传到网络的下一层，该message也是当前node在经过上一层后的嵌入</b>

Message方程：
$$\mathbf{m}_u^{(l)}=MSG^{(l)}(\mathbf{h}_u^{(l-1)})$$
较为直接的Message方程为线性映射：
$$\mathbf{m}_u^{(l)}=\mathbf{W}^{(l)}\mathbf{h}_u^{(l-1)}$$
这里$\mathbf{W}^{(l)}$的作用即为将上一层的嵌入映射到当前层空间中，更显式地说$\mathbf{W}^{(l)}\in\mathbb{R}^{d^l*d^{l-1}}$，即l-1层的嵌入/输出在$d^{l-1}$维空间中，通过$\mathbf{W}^{(l)}$将其映射到$d^{l}$维空间中。

#### Aggregation

**每个node都会整合**
1. 从其近邻传递来的消息
   $$\mathbf{h}_v^{(l)}=AGG^{(l)}(\{\mathbf{m}_u^{(l)},u\in N(v)\})$$
较为直接的aggregation包括求和、求均值、求极大值。例如<b>GCN使用求均值，graphSAGE使用求极大值</b>
2. 自身的信息
   $$\mathbf{m}_v^{(l)}=\mathbf{B}^{(l)}\mathbf{h}_v^{(l-1)}$$

Aggregation方程
$$\mathbf{h}_v^{(l)}=\text{AGG}(\{\mathbf{m}_u^{(l)},u\in N(v)\},\mathbf{m}_v^{(l)})$$

#### Nonlinearity

加入非线性层作为激活层来增加网络的表达能力，与普通卷积神经网络相同，这些非线性层包括ReLU层、Sigmoid层

#### 经典网络层结构


1. GCN
   $$h_v^{(l)}=\sigma(W^{(l)}\sum_{u\in N(v)}\frac{h_u^{(l-1)}}{|N(v)|}+B_lh_v^{(l-1)}),\forall l\in\{0,\dots,L-1\}$$
   <img src="https://img-blog.csdnimg.cn/20210618024958735.png" width=50%><br>
   - message为线性变换<br>
   - aggregation为求和
2. graphSAGE
   $$h_v^{(l)}=\sigma(W^{(l)}.\text{CONCAT}(\mathbf{h}_v^{(l-1)},\text{AGG}(\{\mathbf{h}_u^{l-1},\forall u\in N(v)\})$$
   - message通过AGG(.)完成，可以有不同形式<br>
   <img src="https://img-blog.csdnimg.cn/2021061803105624.png" width=50%>
   - aggregation分为两步，第一步为$$\mathbf{h}_{N(v)}^{(l)}\leftarrow\text{AGG}(\{\mathbf{h}_u^{l-1},\forall u\in N(v)\})$$第二步为$$h_v^{(l)}\leftarrow\sigma(W^{(l)}.\text{CONCAT}(\mathbf{h}_v^{(l-1)},\mathbf{h}_{N(v)}^{(l)}))$$
   - $\mathcal{l}_2$正则化：与GCN相比，graphSAGE的一个重要改变就是添加了正则化。<img src="https://img-blog.csdnimg.cn/20210618031321862.png" width=50%>
3. GAT (Graph Attention Networks)
   $$\mathbf{h}_v^{(l)}=\sigma(\sum_{u\in N(v)}\alpha_{vu}\mathbf{W}^{(l)}\mathbf{h}_u^{(l-1)})$$


### GNN网络层之间的连接

Skip connection


### Augmentation
计算图不完全使用原始图结构

为什么需要进行augmentation？为什么不直接使用原始的图结构？

Over-smoothing问题——在连接较为密集的图中，若干曾的网络会使得不同node从相同的节点接收信息，导致不同node的embedding相同。

<img src="https://img-blog.csdnimg.cn/20210618033527591.png" width=50%>

解决over-smoothing
1. 根据具体问题添加网络层——与CNN不同，更多网络层并不一定带来更好的表达能力。此时可以考虑使用浅层网络。并通过下面方法增强表达能力：
   - 在浅层网络中添加其他网络层如MLP来增强表达能力。
   - 添加不进行消息传递的网络层——GNN模型中具体的GNN层前后添加网络层，如添加MLP
2. 添加skip connections——类似resnet，相当于多个网络模型的集成，从而提高表达能力
3. **Graph Manipultion**
   - Graph feature augmentation
   - Graph structure manipulation
   
   <img src="https://img-blog.csdnimg.cn/20210618035417687.png" width=50%>

## GNN的训练

<img src="https://img-blog.csdnimg.cn/20210617212545868.png" width=50%>

重要的一点在于训练集/验证集/测试集的划分。

### 训练集/验证集/测试集的划分
1. Transductive
2. Inductive

#### Node-level

<table>
<th colspan="2">Node-level
<tr><td>Transductive<td>Inductive
<tr><td><img src="https://img-blog.csdnimg.cn/20210618044358716.png" ><td><img src="https://img-blog.csdnimg.cn/20210618044649678.png">
<tr><td colspan="2"><img src="https://img-blog.csdnimg.cn/20210618044536175.png" width=50%>
</table>

#### Link Prediction


<table>
<th colspan="2">Edge-level
<tr><td colspan="2">首先将edge划分为Message edges和Supervision edges，然后根据两种策略划分
<tr><td><img src="https://img-blog.csdnimg.cn/20210618045328634.png"><td><img src="https://img-blog.csdnimg.cn/20210618045402653.png">
</table>

#### Graph Classification

天然适合inductive setting

## GNN的表达能力

<table><tr><td>
<img src="https://img-blog.csdnimg.cn/2021061804565863.png"><td>
<img src="https://img-blog.csdnimg.cn/20210618045824601.png">

### GCN

<table>
<th>方法<th>缺点
<tr><td><img src="https://img-blog.csdnimg.cn/20210618045928907.png"><td><img src="https://img-blog.csdnimg.cn/20210618050134895.png">

### GraphSAGE

<table>
<th>方法<th>缺点
<tr><td><img src="https://img-blog.csdnimg.cn/20210618045956427.png"><td><img src="https://img-blog.csdnimg.cn/20210618050249334.png">

### GIN

<img src="https://img-blog.csdnimg.cn/20210618050351459.png" width=50%>

与WL Kernel的联系

<img src="https://img-blog.csdnimg.cn/20210618050543777.png" width=50%>

## Heterogeneous Graphs


Heterogeneous Graphs是指图中具有不止一种node/edeg。Heterogeneous graph定义为$G=(V,E,R,T)$。知识图谱等许多类型的图都属于Heterogeneous graph
1. Relational GCNs
2. Knowledge Graphs

### Relational GCNs

在节点具有不同类型关系时如何训练？
<table>
<th colspan="2">different weight
<tr><td><img src="https://img-blog.csdnimg.cn/20210618040216996.png"><td><img src="https://img-blog.csdnimg.cn/20210618040424647.png">
<tr><td colspan="2">当嵌入维度较高以及边的关系较多时，参数数量迅速增长。解决方法如下
<tr><td>方法一<td>方法二
<tr><td><img src="https://img-blog.csdnimg.cn/20210618040847353.png"><td><img src="https://img-blog.csdnimg.cn/20210618040918629.png">
</table>





<table>
<th colspan="2">Link Prediction
<tr><td colspan="2">需要注意的点：对不同类型的edge划分training/validation/test set，这是因为不同类型的edge不均衡。
<tr><td><img src="https://img-blog.csdnimg.cn/2021061804145786.png"><td><img src="https://img-blog.csdnimg.cn/20210618041630438.png">

### KG

<table>
<th>KG<th>Examples<th>bio knowledge graph
<tr><td rowspan="8"><img src="https://img-blog.csdnimg.cn/20210618041856357.png"><td>Google Knowledge Graph<td rowspan="8"><img src="https://img-blog.csdnimg.cn/20210618042015559.png">
<tr><td>Amazon Product Graph
<tr><td>Facebook Graph API
<tr><td>IBM Watson
<tr><td>Microsoft Satori
<tr><td>Project Hanover/Literome
<tr><td>LinkedIn Knowledge Graph
<tr><td>Yandex Object Answer

#### 公开数据集
Publicly available KGs:
1. FreeBase
2. Wikidata
3. Dbpedia
4. YAGO
5. NELL
6. many others

#### 特征
1. Massive：大量的不同类型的nodes和edges
2. Incomplete：许多真实的edge都被忽略




### Knowledge Graphs Completion with **Embeddings**

<table>
<th colspan="2">KG completion
<tr><td>任务<td>例子
<tr><td>给出head,relation，预测tail<br>
<td><img src="https://img-blog.csdnimg.cn/20210618043022371.png">

#### 如何完成？

1. 将实体和关系都进行嵌入
2. 划分训练/验证/测试集
3. 训练时对于真实的(h,r,t)三元组，目标是(h,r)的嵌入需要和t的嵌入相近，这带来两个问题
   - 如何嵌入(h,r)？
   - 如何定义相近嵌入？

#### 策略一：TransE


<table>
<th>(h,r)的嵌入以及相近嵌入定义<th>训练过程
<tr><td>
<img src="https://img-blog.csdnimg.cn/20210618043708180.png" width=90%><td><img src="https://img-blog.csdnimg.cn/20210618043743664.png">

例子: <a href="https://github.com/gnn4dr/DRKG">DRKG</a>

#### 策略二：TransR

#### 策略三：DistMult

#### 策略四：ComplEx

#### 策略对比
<img src="https://img-blog.csdnimg.cn/20210618044040532.png">