0%

papers-LLaMA系列

重点回顾LLaMA系的重要节点,很多trick都是老朋友了

LLaMA1

架构

这里重点分析LLaMA1究竟和最原始的decoder-only架构有哪些区别

  • Pre-normalization

    这里的Pre-和Post-指的是norm是放在MHA以及FFN前面还是后面(当然放后面就得放在add后了),二者主要的区别是post版的不易训练,pre更容易训练(这里有一些数学推导需要注意)。

image-20251012223444181
  • RMSNorm

    另一方面也把layernorm换成了RMSNorm,主要是出于减少计算量的考虑(下面的gig_i是可学习参数,通常不会像batchnorm一样加偏置项)

    image-20251012224740532
  • SwiGLU

    • 传统的ReLU–GPT3 GELU–LLaMA SwiGLU
  • RoPE

数据和训练

  • 参考Chinchilla对Scaling law的修正,认为模型大小和数据大小要平衡(同等增加)
  • 只使用public data
  • 开源,公开训练细节

LLaMA2

大体和InstructGPT相似,主要的差异在LLM结构上,除1代的特征外其它最大的差异是GQA

LLaMA3

除数据量、性能提升外,值得注意的突破有两方面:

  • context window:4096(LLaMA2)👉8192(LLaMA3初期)👉128K(LLaMA3后续)
  • multi-modal

LLaMA4

  • MOE(稀疏化)

  • Early Fusion的multi-modality

    • LLaMA3是在训完纯文本的LLM后,用adapter把vision信息(通过ViT等)finetune进去,具体可以参考LLaVA的玩法
    • LLaMA4则是从一开始就把image patch token和text token混合预训练(这部分细节需要考究)
  • window干到10M或1M

    • iRoPE

      • 有的层有RoPE,有的层没有(即NoPE),NoPE层有助于学习全局的、上下文无关的信息
      • (当然还有其他方面的小调整)
    • attention temperature

      • 原理其实和采样温度差不多(采样温度是加在输出部分的softmax里),用来让attn部分的softmax输出更锐利一些,以突出长程context中的重点

      image-20251012231033899

  • 注:LLaMA4可能大有问题,看看技术得了,之后找qwen的仔细看看

欢迎关注我的其它发布渠道