特色：高效性——支持Scatter-Gather及LodTensor消息传递

对比于一般的模型，图神经网络模型最大的优势在于它利用了节点与节点之间连接的信息。但是，如何通过代码来实现建模这些节点连接十分的麻烦。PGL采用与DGL相似的消息传递范式用于作为构建图神经网络的接口。用于只需要简单的编写send还有recv函数就能够轻松的实现一个简单的GCN网络。如下图所示，首先，send函数被定义在节点之间的边上，用户自定义send函数会把消息从源点发送到目标节点。然后，recv函数负责将这些消息用汇聚函数汇聚起来。

如下面左图所示，为了去适配用户定义的汇聚函数，DGL使用了Degree Bucketing来将相同度的节点组合在一个块，然后将汇聚函数作用在每个块之上。而对于PGL的用户定义汇聚函数，我们则将消息以PaddlePaddle的LodTensor的形式处理，将若干消息看作一组变长的序列，然后利用LodTensor在PaddlePaddle的特性进行快速平行的消息聚合。

用户只需要简单的调用PaddlePaddle序列相关的函数sequence_ops就可以实现高效的消息聚合了。举个例子，下面就是简单的利用sequence_pool来做邻居消息求和。

    import paddle.fluid as fluid
    def recv(msg):
        return fluid.layers.sequence_pool(msg, "sum")

尽管DGL用了一些内核融合（kernel fusion）的方法来将常用的sum，max等聚合函数用scatter-gather进行优化。但是对于复杂的用户定义函数，他们使用的Degree Bucketing算法，仅仅使用串行的方案来处理不同的分块，并不会充分利用GPU进行加速。然而，在PGL中我们使用基于LodTensor的消息传递能够充分地利用GPU的并行优化，在复杂的用户定义函数下，PGL的速度在我们的实验中甚至能够达到DGL的13倍。即使不使用scatter-gather的优化，PGL仍然有高效的性能表现。当然，我们也是提供了scatter优化的聚合函数。

性能测试

我们用Tesla V100-SXM2-16G测试了下列所有的GNN算法，每一个算法跑了200个Epoch来计算平均速度。准确率是在测试集上计算出来的，并且我们没有使用Early-stopping策略。

数据集	模型	PGL准确率	PGL速度 (epoch)	DGL 0.3.0 速度 (epoch)
Cora	GCN	81.75%	0.0047s	0.0045s
Cora	GAT	83.5%	0.0119s	0.0141s
Pubmed	GCN	79.2%	0.0049s	0.0051s
Pubmed	GAT	77%	0.0193s	0.0144s
Citeseer	GCN	70.2%	0.0045	0.0046s
Citeseer	GAT	68.8%	0.0124s	0.0139s

如果我们使用复杂的用户定义聚合函数，例如像GraphSAGE-LSTM那样忽略邻居信息的获取顺序，利用LSTM来聚合节点的邻居特征。DGL所使用的消息传递函数将退化成Degree Bucketing模式，在这个情况下DGL实现的模型会比PGL的慢的多。模型的性能会随着图规模而变化，在我们的实验中，PGL的速度甚至能够能达到DGL的13倍。

数据集	PGL速度 (epoch)	DGL 0.3.0 速度 (epoch time)	加速比
Cora	0.0186s	0.1638s	8.80x
Pubmed	0.0388s	0.5275s	13.59x
Citeseer	0.0150s	0.1278s	8.52x

特色：易用性——原生支持异构图

图可以很方便的表示真实世界中事物之间的联系，但是事物的类别以及事物之间的联系多种多样，因此，在异构图中，我们需要对图网络中的节点类型以及边类型进行区分。PGL针对异构图包含多种节点类型和多种边类型的特点进行建模，可以描述不同类型之间的复杂联系。

支持异构图MetaPath walk采样

上图左边描述的是一个购物的社交网络，上面的节点有用户和商品两大类，关系有用户和用户之间的关系，用户和商品之间的关系以及商品和商品之间的关系。上图的右边是一个简单的MetaPath采样过程，输入metapath为UPU（user-product-user），采出结果为

然后在此基础上引入word2vec等方法，支持异构图表示学习metapath2vec等算法。

支持异构图Message Passing机制

在异构图上由于节点类型不同，消息传递也方式也有所不同。如上图左边，它有五个邻居节点，属于两种不同的节点类型。如上图右边，在消息传递的时候需要把属于不同类型的节点分开聚合，然后在合并成最终的消息，从而更新目标节点。在此基础上PGL支持基于消息传递的异构图算法，如GATNE等算法。

特色：规模性——支持分布式图存储以及分布式学习算法

在大规模的图网络学习中，通常需要多机图存储以及多机分布式训练。如下图所示，PGL提供一套大规模训练的解决方案，我们利用PaddleFleet(支持大规模分布式Embedding学习)作为我们参数服务器模块以及一套简易的分布式存储方案，可以轻松在MPI集群上搭建分布式大规模图学习方法。

丰富性——覆盖业界大部分图学习网络

下列是框架中部分已经实现的图网络模型，更多的模型在这里可以找到。详情请参考这里

模型	特点
ERNIESage	能同时建模文本以及图结构的ERNIE SAmple aggreGatE
GCN	图卷积网络
GAT	基于Attention的图卷积网络
GraphSage	基于邻居采样的大规模图卷积网络
unSup-GraphSage	无监督学习的GraphSAGE
LINE	基于一阶、二阶邻居的表示学习
DeepWalk	DFS随机游走的表示学习
MetaPath2Vec	基于metapath的表示学习
Node2Vec	结合DFS及BFS的表示学习
Struct2Vec	基于结构相似的表示学习
SGC	简化的图卷积网络
GES	加入节点特征的图表示学习方法
DGI	基于图卷积网络的无监督表示学习
GATNE	基于MessagePassing的异构图表示学习

上述模型包含图表示学习，图神经网络以及异构图三部分，而异构图里面也分图表示学习和图神经网络。

依赖

PGL依赖于:

paddle >= 1.6
cython

PGL支持Python 2和3。

安装

你可以简单的用pip进行安装。

pip install pgl

团队

PGL由百度的NLP以及Paddle团队共同开发以及维护。

联系方式 E-mail: nlp-gnn[at]baidu.com

License

PGL uses Apache License 2.0.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.zh.md

README.zh.md

最新消息

特色：高效性——支持Scatter-Gather及LodTensor消息传递

性能测试

特色：易用性——原生支持异构图

支持异构图MetaPath walk采样

支持异构图Message Passing机制

特色：规模性——支持分布式图存储以及分布式学习算法

丰富性——覆盖业界大部分图学习网络

依赖

安装

团队

License

Files

README.zh.md

Latest commit

History

README.zh.md

File metadata and controls

最新消息

特色：高效性——支持Scatter-Gather及LodTensor消息传递

性能测试

特色：易用性——原生支持异构图

支持异构图MetaPath walk采样

支持异构图Message Passing机制

特色：规模性——支持分布式图存储以及分布式学习算法

丰富性——覆盖业界大部分图学习网络

依赖

安装

团队

License