术语表

AI 算力中心存储加速领域的核心术语解释（KV Cache、存算分离、EBOF、NVMe-oF 等）。

速答

AI 存储有哪些必须先搞懂的术语？

大模型推理时缓存的注意力键值对，用于避免重复计算、加速长上下文生成；占用大量 GPU 显存。

把 KV Cache 分层卸载到外置高速存储，以扩展上下文、提升并发与 token 产出（行业最高降本约 73.7%，S5）。

将存储与计算解耦、独立扩展的架构，避免“为扩存储而买算力”，提升资源利用率与弹性。

Ethernet-attached Bunch of Flash，以太网直连的全闪存储扩展单元，配合 NVMe-oF 实现存算独立扩展。

让 GPU 绕过 CPU 直接与存储交换数据的技术，降低拷贝与时延（顺序读可达 351 GiB/s，S4）。

NVMe over Fabrics，把 NVMe 协议扩展到网络，使远端全闪存储具备接近本地盘的低时延。

RDMA over Converged Ethernet v2，在以太网上实现低时延、无损的 RDMA 数据传输。

并行文件系统，为多 GPU 并发训练/推理提供高聚合带宽的共享存储。

单位算力在单位时间内可生成的有效 token 数，是衡量算力中心经济性的关键指标。

GPU 处于有效计算状态的时间占比；IO 受限时常仅 30–50%，存储加速可提升 2–3 倍（S4）。

全部采用 NVMe SSD 介质的存储系统，具备高 IOPS、高带宽、低时延特性。

中科存储的存算分离全闪加速一体机产品线：WS5000 已定型量产；WS7000 面向 AI 算力中心（7000 万 IOPS 级）。

指将大模型推理过程中的中间状态数据集中存放于共享存储层，并通过标准化协议进行统一管理的架构。该设计通过解耦计算与上下文存储，缓解单节点显存瓶颈，支持多实例共享与动态迁移，从而提升集群资源调度效率与横向扩展能力。

指面向AI负载构建的存储传输架构，通过多链路聚合提供极低访问延迟与高并发读写能力。该通道可保障计算单元在密集调度时获得稳定数据供给，典型访问时延约20 μs，随机IOPS约50,000,000，有效支撑国产GPU适配约90%+的异构算力集群。

最后更新：2026-06-24