Technical

一份面向训练系统的工程笔记索引。

按主题放分布式训练、Megatron-LM、显存优化和通信基础。查概念时可以先看专题和标签，再进具体文章。

distributed training megatron checkpoint systems notes

Parallel Training

并行策略、Rank 组织和多 GPU 通信基础。

Megatron-LM checkpoint、torch distributed 和工程格式。

ZeRO、混合精度、激活重算与训练显存预算。

6 篇技术笔记，按日期排序

从一次 teacher checkpoint 加载报错出发，梳理 Megatron-LM 中 torch legacy 与 torch_dist checkpoint 格式的差异。

理解 All-Reduce、Broadcast、Reduce-Scatter 以及 NCCL 在大模型训练中的作用。

比较三个训练工具在抽象层级、侵入程度、目标规模和能力重心上的差异。

用通俗例子理解 ZeRO Stage 1/2/3、参数通信、激活值和重算的关系。

从数据并行、张量并行、流水线并行和 Rank/Node 概念入门分布式训练。

用混合精度、参数、梯度和优化器状态拆解大模型训练的显存来源。