最新消息:本站介绍:国外VPS、云服务器,海外服务器,一手资源推荐平台

NVIDIA分享了有关基于Hopper架构的H100加速器的详细信息

行业文章 快米云 来源:快米云 155浏览

在 Hot Chips 34 大会上,NVIDIA 分享了有关即将推出的基于 Hopper 架构的 H100 加速器的新细节。GH100 芯片包含 800 亿个晶体管,采用台积电 N4 工艺技术制造,专为满足 NVIDIA 的需求而优化,与 NVIDIA 合作开发。该加速器将是世界上第一个接收 HBM3 内存的加速器。

该芯片一次有 144 个流式多处理器 (SM),比 A100 中的多,后者有 128 个这样的块。只有 132 个活动块,但 NVIDIA 声称新 SM 的性能是之前的两倍上一代以相同的频率。这适用于 FP32 和 FP64 FMA 模块。此外,还有对 FP8 格式的支持,这种格式在对计算精度要求不高的机器学习场景中越来越常见。

此处和下方的图像来源:NVIDIA via ServeTheHome

在这种模式下,NVIDIA 支持两种最常见的 FP8 格式:E5M2 和 E4M3,即分别以 5 位或 4 位的指数和 2 位或 3 位的尾数表示数字。每个 FP8 张量块提供 FP8 格式的两个矩阵的乘法,并进一步累加和转换结果,但这里最重要的是,由于新的 Transformer Engine 块的存在,最合适的 FP8 变体的选择是自动进行。据 NVIDIA 称,支持 FP8 的张量处理器的高级架构可提供与 FP16 相当的精度,但性能却是其两倍,内存占用量减少了一半。

每个 SM 块总共有 128 个 FP32 模块、64 个 INT32 和 FP64 模块、4 个张量核心,以及一个张量内存加速器和总 256 KB 的 L1 缓存。L2 缓存的容量高达 50 MB。在当前的实现中,18432 个可能的 16896 个 CUDA 核心和 576 个中的 528 个张量核心可用。根据 NVIDIA 的说法,新的第四代张量计算模块的速度也提高了两倍。实现了对一组新的 DPX 指令的支持,支持移动数据时的异步等。

MIG(多实例GPU)技术已经发展到第二代。现在,每个这样的虚拟加速器都拥有三倍的计算能力和两倍的内存带宽。后者是通过使用 HBM3 实现的。在此版本中,使用了每个容量为 16 GB(5120 位总线)的 HBM3 程序集。五个组件提供 80 GB 的本地内存,内存带宽为 3 TB / s。有六个装配座,但一个仅用于调平芯片的高度。

同时,GH100的虚拟化也尽可能的完善:在硬件层面提供了可信计算的支持,包括专门的防火墙块,用于隔离每个vGPU的内存区域,以及用于检查完整性的块并维护数据机密性。我们之前谈到了对新一代NVLink 4 互连的支持——该接口提供了高达 900 GB/s 的速度,用于组合多个芯片和加速器,但最重要的是,它提供了灵活的扩展选项。

GH100 还有另一项重要创新——改进的内存层次结构。因此,SM 到 SM 互连允许每四个 SM 直接相互通信,而不用不必要的事务加载公共总线。这提高了虚拟化的效率,并大大节省了加速器“主要路径”的带宽。再加上对异步执行和数据交换的支持,这将减少延迟,在某些情况下最多可减少七倍。

目前尚不清楚 NVIDIA 是否充分发挥了 GH100 的全部潜力,但这可能会增加本已严重的新奇潜力。然而,这样的力量并没有白费:即使在截断版本中,即使使用了优化的技术流程,基于 GH100 的 SXM5 格式(PG520 板)的加速器也将具有 700 W 的 TDP。

毫无疑问,GH100 相比 GA100 是一个巨大的进步,但竞争会很激烈:例如,新产品将不得不与基于 Intel Ponte Vecchio 的加速器展开竞争,他们承诺 FP32/FP64 比率为 1: 1 对 2:1 的 NVIDIA 解决方案。一个有趣的事实:新芯片的单个 GPC 集群比 10 年前发布的整个 GK110 Kepler 芯片强大 20%。

转载请注明:VPS资讯_海外云服务器资讯_海外服务器资讯_IDC新闻 » NVIDIA分享了有关基于Hopper架构的H100加速器的详细信息