Megatron-LM 的 ckpt format 探析
从一次 teacher checkpoint 加载报错出发,梳理 Megatron-LM 中 torch legacy 与 torch_dist checkpoint 格式的差异。
megatroncheckpointdistributed-trainingtorch-dist 3 min 1,343 wordsTechnical Field Guide
这里不按“博客流”组织,而是把分布式训练、Megatron-LM、显存优化和通信基础整理成可逐步扩展的技术地图。适合从概念查起,也适合回看某个工程问题的来龙去脉。
并行策略、Rank 组织和多 GPU 通信的基础地图。
3围绕 Megatron-LM checkpoint、torch distributed 和工程格式的整理。
2ZeRO、混合精度、激活重算与训练显存预算。
Page 1 · Showing 6 technical notes
从一次 teacher checkpoint 加载报错出发,梳理 Megatron-LM 中 torch legacy 与 torch_dist checkpoint 格式的差异。
megatroncheckpointdistributed-trainingtorch-dist 3 min 1,343 words理解 All-Reduce、Broadcast、Reduce-Scatter 以及 NCCL 在大模型训练中的作用。
distributed-trainingncclcommunication 2 min 599 words比较三个训练工具在抽象层级、侵入程度、目标规模和能力重心上的差异。
megatrondeepspeedaccelerate 1 min 337 words用通俗例子理解 ZeRO Stage 1/2/3、参数通信、激活值和重算的关系。
zerodeepspeedactivation-checkpointing 4 min 1,920 words从数据并行、张量并行、流水线并行和 Rank/Node 概念入门分布式训练。
distributed-trainingparallelismrank 1 min 498 words用混合精度、参数、梯度和优化器状态拆解大模型训练的显存来源。
distributed-trainingmemorymixed-precision 2 min 621 words