【PaddlePaddle Hackathon】50、基于 PaddleNLP 语义索引实现 Gradient Cache 策略，实现超大 batch 语义索引模型训练 #1080

TCChenlong · 2021-09-23T08:44:07Z

（此 ISSUE 为 PaddlePaddle Hackathon 活动的任务 ISSUE，更多详见PaddlePaddle Hackathon）

【任务说明】

任务标题：基于 PaddleNLP 语义索引实现 Gradient Cache 策略，实现超大 batch 语义索引模型训练
技术标签：python、语义索引
任务难度：困难
详细描述：语义索引模型的效果受 batch_size 影响很大，一般 batch_size 越大模型效果越好，但是受限于 GPU 显存大小，batch_size 在普通硬件上往往无法开到很大；这篇 paper(Paper: https://arxiv.org/pdf/2101.06983.pdf) 提出的 Gradient Cache 算法可以有效扩展 batch_size , 在显存较小条件下也能实现大 batch 语义索引模型训练。

【提交内容】

任务 PR 到 PaddleNLP
相关技术文档（模型效果验证符合预期）

【技术要求】

熟练掌握 python
理解深度学习模型原理
了解语义索引模型基础算法(非必须)

【参考资料】

paper: https://arxiv.org/pdf/2101.06983.pdf
github: https://github.com/luyug/GradCache

github-actions · 2023-02-09T01:19:51Z

This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动，被标记为stale。

This was referenced Sep 23, 2021

【PaddlePaddle Hackathon】PaddleNLP 任务合集 #1082

Closed

【PaddlePaddle Hackathon】任务总览 PaddlePaddle/Paddle#35940

Closed

chenxiaozeng added the PaddlePaddle Hackathon label Sep 23, 2021

ZeyuChen removed the Hackathon label Dec 4, 2021

github-actions bot added the stale label Feb 9, 2023

sijunhe closed this as completed Feb 21, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

【PaddlePaddle Hackathon】50、基于 PaddleNLP 语义索引实现 Gradient Cache 策略，实现超大 batch 语义索引模型训练 #1080

【PaddlePaddle Hackathon】50、基于 PaddleNLP 语义索引实现 Gradient Cache 策略，实现超大 batch 语义索引模型训练 #1080

TCChenlong commented Sep 23, 2021

github-actions bot commented Feb 9, 2023

【PaddlePaddle Hackathon】50、基于 PaddleNLP 语义索引实现 Gradient Cache 策略，实现超大 batch 语义索引模型训练 #1080

【PaddlePaddle Hackathon】50、基于 PaddleNLP 语义索引实现 Gradient Cache 策略，实现超大 batch 语义索引模型训练 #1080

Comments

TCChenlong commented Sep 23, 2021

github-actions bot commented Feb 9, 2023