0%

papers-LLaMA系列

发表于 2025-10-12 更新于 2025-10-15 分类于 LLM 阅读次数：

重点回顾LLaMA系的重要节点，很多trick都是老朋友了

LLaMA1

架构

这里重点分析LLaMA1究竟和最原始的decoder-only架构有哪些区别

Pre-normalization

这里的Pre-和Post-指的是norm是放在MHA以及FFN前面还是后面（当然放后面就得放在add后了），二者主要的区别是post版的不易训练，pre更容易训练（这里有一些数学推导需要注意）。

RMSNorm

另一方面也把layernorm换成了RMSNorm，主要是出于减少计算量的考虑（下面的 $g_i$ 是可学习参数，通常不会像batchnorm一样加偏置项）
SwiGLU
- 传统的ReLU–GPT3 GELU–LLaMA SwiGLU
RoPE

数据和训练

参考Chinchilla对Scaling law的修正，认为模型大小和数据大小要平衡（同等增加）
只使用public data
开源，公开训练细节

LLaMA2

大体和InstructGPT相似，主要的差异在LLM结构上，除1代的特征外其它最大的差异是GQA

LLaMA3

除数据量、性能提升外，值得注意的突破有两方面：

context window：4096（LLaMA2）👉8192（LLaMA3初期）👉128K（LLaMA3后续）
multi-modal

LLaMA4

MOE（稀疏化）
Early Fusion的multi-modality
- LLaMA3是在训完纯文本的LLM后，用adapter把vision信息（通过ViT等）finetune进去，具体可以参考LLaVA的玩法
- LLaMA4则是从一开始就把image patch token和text token混合预训练（这部分细节需要考究）
window干到10M或1M
- iRoPE
  - 有的层有RoPE，有的层没有（即NoPE），NoPE层有助于学习全局的、上下文无关的信息
  - （当然还有其他方面的小调整）
- attention temperature
  - 原理其实和采样温度差不多（采样温度是加在输出部分的softmax里），用来让attn部分的softmax输出更锐利一些，以突出长程context中的重点
注：LLaMA4可能大有问题，看看技术得了，之后找qwen的仔细看看

欢迎关注我的其它发布渠道