在LLama 3训练期间，英伟达H100和HBM3内存故障-小张不咕咕-最后一片净土

✖

☞ 点击这里获取免费大流量卡 ☜

7月28日消息，Meta近期发布了目前全球最强的开源大模型LLAMA 3.1 405B，引发了业界的关注。近日，Meta发布了关于LLAMA 3.1 405B的研究文章，详细介绍了其在 16,384 个英伟达（NVIDIA）H100 80GB GPU 的集群上训练Llama 3.1 405B 模型所遇到的问题。

据介绍，LLAMA 3.1 405B在16,384 个 H100 80GB GPU 的集群上持续训练了54天，在此期间遇到了 419 个意外的组件故障，平均每三个小时就发生一次故障。其中一半的故障，都是由于GPU 或其板载 HBM3 内存问题。

超级计算机是极其复杂的设备，使用数以万计的处理器、数十万个其他芯片和数百英里的电缆连接在一起。在一台复杂的超级计算机中，每隔几个小时就会发生故障，这是正常的，开发人员的主要技巧是尽量确保系统保持正常运行，无论这种局部故障如何。

比如高达16,384个H100 GPU 训练的规模和同步性质使其容易失败。如果故障未得到正确缓解，单个 GPU 故障可能会中断整个训练作业，从而需要重启。然而，LLAMA 3 团队保持了超过90%的有效训练时间。

总结来说，在为期 54 天的训练中，有 466 次工作中断，其中 47 次是计划性的，419 次是意外的。计划内中断是由于自动化维护造成的，而意外的中断主要源于硬件问题。其中，GPU 问题是最大的一类，占意外中断的 58.7%。只有三起中断事件需要大量的人工干预，其余的则由自动化管理。

在 419 次意外中断中，148 次（30.1%）是由各种 GPU 故障（包括 NVLink 故障）引起的，而 72 次（17.2%）是由 HBM3 内存故障引起的，这并不奇怪，因为 Nvidia 的 H100 GPU 消耗约 700W 并承受大量热应力。有趣的是，在 54 天内只有两个 CPU 出现故障。

虽然 GPU 是最重要的组件，但恰好也很脆弱，但 41.3% 的意外中断是由多种因素引起的，包括软件错误、网络电缆和网络适配器。

为了提高效率，Meta 的团队减少了作业启动和检查点时间，并开发了专有的诊断工具。PyTorch 的 NCCL 飞行记录器被广泛用于快速诊断和解决挂起和性能问题，尤其是与 NCCLX 相关的问题。该工具可捕获集体元数据和堆栈跟踪，有助于快速解决问题。

编辑：芯智讯-浪客剑

✖

☞ 点击这里获取免费大流量卡 ☜

如果您喜欢本站，点击这儿可以捐赠本站
这些信息可能会帮助到你：联系作者 | 报毒说明
修改版本软件，加群提示等均为修改者自留，非本站信息，注意鉴别

在LLama 3训练期间，英伟达H100和HBM3内存故障

评论(0)

提示：请文明发言取消回复

推荐文章

美光确认启动“生产可用”版 12 层堆叠 HBM3E 3

第二个“华为”出现?美国主动撤销禁令,人民日报

不准维修中国的光刻机？ASML正式宣布，外媒：弯

联发科天玑8400首曝：首发A725全大核架构

传联发科携手英伟达研发AI PC芯片，三季度将完

连续15个季度手机芯片出货量全球第一！联发科天

热门文章

Tvbox接口合集

影视仓-电视版（手机也可使用）

Tvbox本地包配置使用教程

TVBox takagen99版

EasyBox-Tvbox魔改手机版

影视仓-手机版

TVBoxQ版

我的电视·〇 v1.1.2清爽版

Android 多邻国 v5.136.3 高级版

ToDesk(免费远程工具) v4.6.0.1 绿色版

在LLama 3训练期间，英伟达H100和HBM3内存故障

相关文章

评论(0)

提示：请文明发言 取消回复

推荐文章

热门文章

提示：请文明发言取消回复