您现在的位置是:首页 > 学术成果

规模法则(Scaling Law)与参数效率的提高,

研思启迪坊 2025-10-12【学术成果】238人已围观

简介上一篇:《人工智能大语言模型起源篇(三),模型规模与参数效率》规模法则与效率提高如果你想了解更多关于提高变换器效率的各种技术,我推荐阅读2020年的《EfficientTransformers:ASurvey》,接着是2023年的《ASurveyonEfficientTrainingofTransf...

上一篇:《人工智能大语言模型起源篇(三),模型规模与参数效率》

规模法则与效率提高

如果你想了解更多关于提高变换器效率的各种技术,我推荐阅读2020年的《EfficientTransformers:ASurvey》,接着是2023年的《ASurveyonEfficientTrainingofTransformers》。

此外,下面是我发现特别有趣和值得阅读的几篇论文。

(10)FlashAttention:FastandMemory-EfficientExactAttentionwithIO-Awareness(2022),由Dao、Fu、Ermon、Rudra和Ré合著,

虽然大多数变换器论文没有专门讨论如何替代原始的缩放点积机制来实现自注意力,但FlashAttention是我最近看到最多被提到的一种机制。

(11)Geiping和Goldstein于2022年发表的《Cramming:TrainingaLanguageModelonaSingleGPUinOneDay》,

在这篇论文中,研究人员用一块GPU训练了一个掩蔽语言模型/编码器风格的大型语言模型(这里是BERT),训练时间为24小时。做个对比,2018年原始的BERT论文是用16块TPU训练了四天。一个有趣的发现是,尽管小模型的吞吐量更高,但小模型的学习效率较低。因此,大模型并不需要更长的训练时间就能达到特定的预测性能阈值。

很赞哦!(94)