一份面向训练系统的工程笔记索引。

这里不按“博客流”组织,而是把分布式训练、Megatron-LM、显存优化和通信基础整理成可逐步扩展的技术地图。适合从概念查起,也适合回看某个工程问题的来龙去脉。

distributed training megatron checkpoint systems notes
Public Notes
6
当前 Technical 分类文章
Estimated Words
5.3k
按 Markdown 正文粗略估算
Topic Tags
14
用于后续做知识导航
Latest Update
来自最新公开笔记日期
4

Parallel Training

并行策略、Rank 组织和多 GPU 通信的基础地图。

4 related notes
3

Megatron Practice

围绕 Megatron-LM checkpoint、torch distributed 和工程格式的整理。

3 related notes
2

Memory Systems

ZeRO、混合精度、激活重算与训练显存预算。

2 related notes