from 加拿大蒙特利尔的两所大学 : https://arxiv.org/abs/2308.04014

动机

验证继续预训练中,如何warmup你的模型。

结论

1.warmup是没有必要的,即使前期loss会进入“混沌期”,但是在经历混沌期后很快就会下降回来,最终效果没有区别。

2.增加最大学习率会对模型性能有损失

实验设置

作者使用了Pile作为初始预训练模型。使用RedPajama(采样)作为continue pretrain的数据。

采样后的数据分布如下,不过好奇为什么人为采样了这么大的c4和cc这种低质量数据。

Untitled

不过整体看起来和Pile似乎并不是同分布(不过本文只采样了大概40%的pile,和全集的pile确实不是同分布)

Untitled

训练了一个410M的GPT-NeoX。使用AdamW默认参数,3e-4的学习率,cosine to 0.1调度。权重衰减0.1,梯度裁剪1。

实验

1.warmup多久?

实验设置了不同的warmup rate。实验发现,虽然不同的warmup会对模型一开始的性能(无论是上游任务还是下游任务)有的很大的loss上升(论文称作混沌时期),但是在一段时间的训练后,模型的loss会回落回去,并且上游任务的损失整体上也很接近。

Untitled

2.warmup最大学习率到多少?