电子发烧友网讯(文 / 黄晶晶)最近,阿里平头哥的 AI 算力卡 PPU 在央视新闻中惊艳亮相。从 “国产卡与 NV 卡重要参数对比” 表来看,PPU 的显存、片间带宽等多项硬件指标十分亮眼,已超越英伟达 A800,性能介于英伟达 A800 和 H20 之间。
平头哥 PPU 选用 HBM2e 显存,单卡显存容量高达 96GB,片间带宽为 700GB/s ,采用 PCIe5.0×16 通道接口,单卡功耗 400W。对比之下,英伟达 A800 同样采用 HBM2e 显存,单卡显存 80GB,片间带宽仅 400GB/s,接口是 PCIe4.0×16,功耗 400W;H20 的显存和片间带宽更出色,拥有单卡 96GB HBM3 显存,片间带宽达 900GB/s,使用 PCIe5.0×16 接口,不过功耗较高,为 550W。此外,华为昇腾 910B 单卡配备 64GB HBM2 显存,片间带宽 392GB/s,接口为 PCIe4.0×16,功耗 350W;壁仞 104P 单卡搭载 32GB HBM2e 显存,片间带宽 256GB/s,采用 PCIe5.0×16 接口,功耗 300W 。不难发现,性能相当的 AI 算力卡,存储规格大多处于 HBM2/2e、HBM3 阶段。

高带宽内存 HBM 是基于 3D 堆栈技术的 DRAM,借助 TSV(硅通孔)和芯片堆叠架构,实现了高速数据传输与低能耗。该技术由三星、AMD 和 SK 海力士联合提出,2013 年 SK 海力士率先量产 HBM 芯片,并于 2015 年首次应用于 AMD Fiji GPU。
随着 AI 大模型朝着千亿、万亿级大参数以及 FP8/FP4 高精度低比特计算方向发展,传统内存方案已无法满足数据传输效率需求。AI 计算需要频繁调用海量参数,像 GPT-3 的 1750 亿参数需占用数百 GB 内存,且计算单元为大规模并行架构,每秒需从内存读取 / 写入 TB 级数据。一旦数据供给不及时,芯片实际性能将远低于理论峰值。
HBM 凭借 3D 堆叠技术提升内存带宽、减少延迟,已成为 AI 服务器 GPU 的主流解决方案,是突破 AI 算力芯片性能瓶颈的核心技术。
目前,HBM 已发展到六代产品,分别为 HBM1、HBM2、HBM2E、HBM3、HBM3E、HBM4 。SK 海力士在 2013 年推出首款 HBM DRAM(第一代)产品,随后依次开发出 HBM2(第二代)、HBM2E(第三代)、HBM3(第四代) 。
2018 年,SK 海力士发布第二代 HBM 产品 HBM2,2020 年推出的第三代产品 HBM2E 是 HBM2 的扩展版,速度更快、容量更大、散热性能更佳。2021 年 10 月,SK 海力士推出全球首款 HBM3,并于 2022 年 6 月实现量产。这款 HBM3 每个引脚传输速率达 6.4Gbps,拥有 1024 位宽接口,最高带宽可达 819GB/s ,相比 HBM2E(460GB/s)提升约 78%。其采用 16Gb 内核密度、尖端的 TSV 垂直堆叠技术,满足了系统对更高密度的要求,可实现 12 层堆叠内存立方体,最大封装密度达 24GB 。
2024 年,SK 海力士率先量产 8/12 层 HBM3E,实现现有 HBM 产品中最大的 36GB 容量。同年 11 月 4 日,海力士宣布开发出全球最大容量的 16 层堆叠 HBM3E。今年 9 月,SK 海力士宣布成功完成面向 AI 的超高性能存储器新产品 HBM4 的开发,并构建了全球首个量产体系。HBM4 采用翻倍的 2048 条数据传输通道(I/O),带宽翻倍,能效提升 40% 以上,实现了全球顶尖的数据处理速度和能效。据公司预测,将 HBM4 引入客户系统后,AI 服务性能最高可提升 69%,既能从根本上解决数据瓶颈,又能显著降低数据中心电力成本。此外,HBM4 运行速度高达 10Gbps(每秒 10 千兆比特)以上,远超 JEDEC 标准规定的 8Gbps(每秒 8 千兆比特)。SK 海力士在 HBM4 开发中采用了自主先进 MR-MUF 技术和第五代 10 纳米级(1b)DRAM 工艺,有效降低了量产风险。
在近日的全联接大会 2025 上,华为披露了昇腾 950PR 芯片架构的新进展,新增对低精度数据格式的支持,如 FP8/MXFP8/HIF8: 1 PFLOPS,MXFP4: 2 PFLOPS ,重点提升向量算力,并将互联宽带提升 2.5 倍,同时支持华为自研的 HBM 高带宽内存,包括 HiBL 1.0 和 HiZQ 2.0 两个版本。HiBL 1.0 容量 128GB,带宽 1.6TB/s;HiZQ 2.0 容量 144GB,带宽 4TB/s 。
昇腾 950PR 芯片搭配 950 核心与 HiBL 1.0 内存,可提升推理 Prefill(预填充)性能及推荐业务性能;昇腾 950DT 采用 HiZQ 2.0 内存,能提升推理 Decode(解码)性能、训练性能,扩大内存容量并提高带宽。按照规划,2026 年第一季度将推出昇腾 950PR,2026 年第四季度推出昇腾 950DT。2027 年第四季度,昇腾 960 芯片将登场,预计各项规格较前代产品会有大幅提升。2028 年第四季度,高端产品昇腾 970 芯片也在规划中,有望在算力和互联带宽等方面实现全面升级。
此前有消息称,深圳远见智存成功实现 HBM2e 芯片量产,并计划在 2025 年春节前后初步完成下一代 HBM3/HBM3e 前端设计。远见智存成立于 2023 年,团队汇聚了行业精英,在 HBM 技术领域经验丰富。通过技术创新,公司成功绕开 TSV(Through-Silicon Via)及 CoWoS(
Chip-on-Wafer-on-Substrate)等关键技术瓶颈,推动了 HBM2e 的国产化进程。同时,远见智存依规提供符合高堆叠 JEDEC 标准的 HBM 产品,并整合国内高端封装资源,推出自主可控的 HBM3/3e 产品,为 AI 训练芯片产业注入活力。
中天精装间接持有深圳远见智存股权,穿透计算持股比例为 6.71%。中天精装表示,深圳远见智存专注于高带宽存储芯片(HBM)领域,目前 HBM2/2e 产品已完成终试,正在推进量产和升级;HBM3/3e 处于研发阶段,已完成前期预研和部分设计工作。此外,今年 7 月,赛博格机器人与芯玑半导体和量子芯云联合推出内置 DNPU 和 LPDDR5 的存算一体化芯片以及全球首颗移动 HBM。
随着 AI 大模型不断向更大参数、更多模态演进,HBM 与 AI 芯片的联系将愈发紧密。HBM 的技术迭代,必将为 AI 算力发展注入强大动力,助力国产 AI 芯片在全球竞争中实现更大突破 。