Add use_hierarchical_allreduce for DistributedFusedLAMB #44821

sneaxiy · 2022-08-02T10:47:38Z

PR types

Performance optimization

PR changes

OPs

Describe

Add use_hierarchical_allreduce for DistributedFusedLAMB.

假设有N个节点，每个节点有M张GPU卡。当打开use_hierarchical_allreduce=True和设置nproc_per_node=M后，会建立链两个通信组：

第i + k * M (k = 0, 1, ..., N-1)号卡建立一个通信组A。现在该通信组A上做allreduce。
每个节点内的GPU卡建立一个通信组B。然后在通信组B上做allreduce。

paddle-bot · 2022-08-02T10:47:41Z

你的PR提交成功，感谢你对开源项目的贡献!
请关注后续CI自动化测试结果，详情请参考Paddle-CI手册。
Your PR has been submitted. Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

FeixLiu

LGTM

sneaxiy added 2 commits August 2, 2022 11:43

add use_hierarchical_allreduce

e4a5655

support hierarchical allreduce for more cases

3117b56

sneaxiy requested review from Shixiaowei02 and FeixLiu August 2, 2022 10:49

FeixLiu approved these changes Aug 2, 2022

View reviewed changes

Shixiaowei02 approved these changes Aug 2, 2022

View reviewed changes

sneaxiy assigned sneaxiy and unassigned sneaxiy Aug 2, 2022

sneaxiy requested a review from XieYunshen August 3, 2022 01:58

sneaxiy merged commit c770053 into PaddlePaddle:develop Aug 3, 2022

sneaxiy deleted the add_allreduce_opt branch August 3, 2022 02:41

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add use_hierarchical_allreduce for DistributedFusedLAMB #44821

Add use_hierarchical_allreduce for DistributedFusedLAMB #44821

sneaxiy commented Aug 2, 2022

paddle-bot bot commented Aug 2, 2022

FeixLiu left a comment

Add use_hierarchical_allreduce for DistributedFusedLAMB #44821

Add use_hierarchical_allreduce for DistributedFusedLAMB #44821

Conversation

sneaxiy commented Aug 2, 2022

PR types

PR changes

Describe

paddle-bot bot commented Aug 2, 2022

FeixLiu left a comment

Choose a reason for hiding this comment