AI Inference时代的新记忆体需求
摘要
2026年1月NVIDIA发表由BlueField-4 DPU管理的CMX情境记忆储存平台(CMX Context Memory Storage Platform),扩展Local SSD、Share Storage之间的记忆体阶层,以因应在AI Inference时代庞大的KV Cache储存需求。此外,NVIDIA、Arm接连推出CPU机柜以因应Agentic AI的CPU需求,也创造CPU RAM的增量市场。
本篇报告主要深度解析:(1) AI Inference的记忆体需求;(2) KV Cache Offloading带动的SSD POD需求;(3) Agentic AI带动的CPU RAM需求。期能解析AI Inference时代记忆体容量需求膨胀原因、现有解决方案与未来新记忆体需求结构。
一. AI Inference的记忆体需求
二. KV Cache Offloading带动的SSD POD需求
三. Agentic AI带动的CPU记忆体需求
四. 拓墣观点
图一 2023~2026年AI Models Average Output Tokens per Question
图二 KV Cache应用范例
图三 Agentic AI应用的CPU:GPU比例变化
图四 NVIDIA Dynamo KV Cache Offloading顺序(G1~G4)
图五 NVIDIA Vera CPU架构
图六 2026年NVIDIA CPU需求量情境分析结果
表一 2023~2026年各厂商CPU记忆体规格
表二 2026年NVIDIA CPU出货量情境分析假设
表三 AI Inference带动的记忆体需求动能汇整
