在 Hot Chips 34 大会上,NVIDIA 分享了有关即将推出的基于 Hopper 架构的 H100 加速器的新细节。GH100 芯片包含 800 亿个晶体管,采用台积电 N4 工艺技术制造,专为满足 NVIDIA 的需求而优化,与 NVIDIA 合作开发。该加速器将是世界上第一个接收 HBM3 内存的加速器。
在这种模式下,NVIDIA 支持两种最常见的 FP8 格式:E5M2 和 E4M3,即分别以 5 位或 4 位的指数和 2 位或 3 位的尾数表示数字。每个 FP8 张量块提供 FP8 格式的两个矩阵的乘法,并进一步累加和转换结果,但这里最重要的是,由于新的 Transformer Engine 块的存在,最合适的 FP8 变体的选择是自动进行。据 NVIDIA 称,支持 FP8 的张量处理器的高级架构可提供与 FP16 相当的精度,但性能却是其两倍,内存占用量减少了一半。

每个 SM 块总共有 128 个 FP32 模块、64 个 INT32 和 FP64 模块、4 个张量核心,以及一个张量内存加速器和总 256 KB 的 L1 缓存。L2 缓存的容量高达 50 MB。在当前的实现中,18432 个可能的 16896 个 CUDA 核心和 576 个中的 528 个张量核心可用。根据 NVIDIA 的说法,新的第四代张量计算模块的速度也提高了两倍。实现了对一组新的 DPX 指令的支持,支持移动数据时的异步等。

MIG(多实例GPU)技术已经发展到第二代。现在,每个这样的虚拟加速器都拥有三倍的计算能力和两倍的内存带宽。后者是通过使用 HBM3 实现的。在此版本中,使用了每个容量为 16 GB(5120 位总线)的 HBM3 程序集。五个组件提供 80 GB 的本地内存,内存带宽为 3 TB / s。有六个装配座,但一个仅用于调平芯片的高度。

同时,GH100的虚拟化也尽可能的完善:在硬件层面提供了可信计算的支持,包括专门的防火墙块,用于隔离每个vGPU的内存区域,以及用于检查完整性的块并维护数据机密性。我们之前谈到了对新一代NVLink 4 互连的支持——该接口提供了高达 900 GB/s 的速度,用于组合多个芯片和加速器,但最重要的是,它提供了灵活的扩展选项。

GH100 还有另一项重要创新——改进的内存层次结构。因此,SM 到 SM 互连允许每四个 SM 直接相互通信,而不用不必要的事务加载公共总线。这提高了虚拟化的效率,并大大节省了加速器“主要路径”的带宽。再加上对异步执行和数据交换的支持,这将减少延迟,在某些情况下最多可减少七倍。

目前尚不清楚 NVIDIA 是否充分发挥了 GH100 的全部潜力,但这可能会增加本已严重的新奇潜力。然而,这样的力量并没有白费:即使在截断版本中,即使使用了优化的技术流程,基于 GH100 的 SXM5 格式(PG520 板)的加速器也将具有 700 W 的 TDP。

毫无疑问,GH100 相比 GA100 是一个巨大的进步,但竞争会很激烈:例如,新产品将不得不与基于 Intel Ponte Vecchio 的加速器展开竞争,他们承诺 FP32/FP64 比率为 1: 1 对 2:1 的 NVIDIA 解决方案。一个有趣的事实:新芯片的单个 GPC 集群比 10 年前发布的整个 GK110 Kepler 芯片强大 20%。
转载请注明:VPS资讯_海外云服务器资讯_海外服务器资讯_IDC新闻 » NVIDIA分享了有关基于Hopper架构的H100加速器的详细信息