当HBM高带宽内存的发热越来越严重、工艺越来越复杂,高通拿出了另一种解法——HBC近内存计算架构。这到底是噱头还是真突破?
一、背景:"内存墙"——AI芯片的隐形天花板
过去五年,AI算力需求以每年超过4倍的速度增长,但内存带宽的提升速度却远跟不上节奏。这就是业界常说的"内存墙"(Memory Wall)——处理器的计算能力再强,数据喂不进去,一切都是空谈。
即便是当前最先进的HBM(高带宽内存),也在面对越来越严峻的挑战:
- 发热失控:HBM的功耗密度持续攀升,散热成本水涨船高
- 封装复杂:需要硅中介层(Interposer),工艺难度大、良率低
- 成本高昂:一套HBM系统的设计成本动辄数千万美元
正是在这样的背景下,高通在2026年投资者日上公开了全新的HBC(High Bandwidth Compute Near-Memory)架构,尝试用一种截然不同的思路来打破内存墙。
二、HBC架构的核心原理:把AI加速器"贴"在内存上
图:半导体芯片架构概念示意图
HBC的设计思路并不复杂,但足够巧妙:
将AI加速器从SoC系统芯片中单独分离出来,直接堆叠在LPDDR内存堆栈之下,通过TSV(硅通孔)实现直连。
这一设计的核心优势在于:
| 指标 | HBC方案 | 传统HBM方案 |
|---|---|---|
| 延迟 | SRAM级别 | 需通过中介层 |
| 封装 | 无需硅中介层 | 需要复杂中介层 |
| 功耗 | 极低(风冷即可) | 高(需液冷) |
| 成本 | 显著降低 | 高昂 |
| 单位功耗带宽 | HBM的5-7倍 | 基准线 |
关键突破点在于:HBC避开了HBM复杂封装工艺的同时,获得了堆叠内存的高密度和大容量。TSV直连的延迟被压缩到了SRAM级别,这意味着AI推理时,数据在计算单元和存储单元之间的搬运速度将大幅缩短。
三、三阶段路线图:从AI200到AI300的跨越
图:芯片技术演进概念图
高通为HBC架构规划了一条清晰的演进路径:
第一阶段:AI200(2026年)
- 搭配传统LPDDR5X内存
- 最大容量:43TB
- 散热方案:风冷即可
- 这是HBC架构的预演版本,主要用于验证平台
第二阶段:AI250(2027年)
- 第一代真正的HBC产品
- 最大容量仍为43TB
- 有效带宽对比AI200提升18倍
- 首次实现近内存计算架构落地
第三阶段:AI300(2028年)
- 第二代HBC产品
- 增强扩展能力
- 带宽对比AI200提升54倍
- 这是高通规划的最终形态
四、不只是一家之言:近内存计算的行业竞速
图:科技产业竞争示意图
高通并非唯一在研究近内存计算架构的公司。事实上,多家存储和芯片厂商都在探索类似方向:
- 智邦集成电路(GUC):推出了DRAM-on-Logic(DoL)技术,在逻辑芯片上堆叠1-4层DRAM,带宽可达约5TB/s,部分指标甚至优于HBM3E
- 三星、SK海力士:也在研发存算一体(PIM)技术
- AMD:通过3D V-Cache技术在CPU层面探索近缓存架构
但高通的差异化在于:将方案锁定在AI加速器场景,通过简化设计(无需中介层)来降低门槛,使得"风冷也能跑AI大模型"成为可能。
五、影响与展望:这意味着什么?
对AI行业
大模型推理的成本将大幅下降。目前GPT-5.6级别的大模型推理,内存带宽往往是瓶颈。HBC架构有望让单台服务器的推理吞吐量提升数倍。
对数据中心
如果HBC方案能够落地,数据中心可以省去昂贵的液冷系统,改用风冷方案,仅散热一项就能节省30%以上的TCO(总拥有成本)。
对消费者
短期内影响有限,但长期来看,更高效的AI硬件意味着更低的云端AI服务价格,以及更强大的端侧AI能力。
风险与挑战
- 生态适配:软件栈需要针对近内存计算重新优化
- 量产良率:TSV堆叠工艺的大规模量产仍有挑战
- 市场竞争:HBM阵营(三星、SK海力士、美光)不会坐以待毙
六、总结
高通HBC架构的提出,是对当前"内存墙"困境的一次有力回应。它不像HBM那样追求极致带宽,而是通过架构创新——把计算单元搬到内存旁边——用更低的功耗、更低的成本、更简单的封装实现了令人瞩目的性能提升。
54倍的带宽提升或许只是理论峰值,但即便只实现其中的十分之一,也足以改变AI硬件的游戏规则。
2027年的AI250和2028年的AI300,值得我们拭目以待。
本文发布于2026年6月27日 | 关键词:高通HBC、内存架构、内存墙、AI算力、近内存计算




