Skip to content

Cut Your Losses in Large-Vocabulary Language Models #4794

@ChengzhiHuang

Description

@ChengzhiHuang

推荐收录

链接

https://github.com/apple/ml-cross-entropy

理由

该项目是基于论文《Cut Your Losses in Large-Vocabulary Language Models》,提出了一种新方法Cut Cross-Entropy (CCE),用于优化大词汇量语言模型的交叉熵损失计算。该方法通过只计算正确标记的logit,从而大幅减少内存需求,测试表明在小型模型中,内存消耗从24GB降至1MB,提高训练速度。

推荐人信息

如果收录这个资源,我们会在点评后面说明推荐信息人。

Metadata

Metadata

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions