术语表
AI 算力中心存储加速领域的核心术语解释(KV Cache、存算分离、EBOF、NVMe-oF 等)。
AI 存储有哪些必须先搞懂的术语?
- 存算分离
- 存储与计算解耦、各自独立扩展的体系结构
- KV Cache 卸载
- 把占显存的 KV Cache 按热度分层卸载到外置高速全闪
- NVMe-oF / RoCEv2
- 经无损以太网访问远端 NVMe,接近本地盘时延
- EBOF
- 以以太网直连的全闪存储扩展柜
KV Cache
大模型推理时缓存的注意力键值对,用于避免重复计算、加速长上下文生成;占用大量 GPU 显存。
KV Cache 存储卸载
把 KV Cache 分层卸载到外置高速存储,以扩展上下文、提升并发与 token 产出(行业最高降本约 73.7%,S5)。
存算分离
将存储与计算解耦、独立扩展的架构,避免“为扩存储而买算力”,提升资源利用率与弹性。
EBOF
Ethernet-attached Bunch of Flash,以太网直连的全闪存储扩展单元,配合 NVMe-oF 实现存算独立扩展。
GPUDirect Storage
让 GPU 绕过 CPU 直接与存储交换数据的技术,降低拷贝与时延(顺序读可达 351 GiB/s,S4)。
NVMe-oF
NVMe over Fabrics,把 NVMe 协议扩展到网络,使远端全闪存储具备接近本地盘的低时延。
RoCEv2
RDMA over Converged Ethernet v2,在以太网上实现低时延、无损的 RDMA 数据传输。
CPFS
并行文件系统,为多 GPU 并发训练/推理提供高聚合带宽的共享存储。
Token 产出
单位算力在单位时间内可生成的有效 token 数,是衡量算力中心经济性的关键指标。
GPU 利用率
GPU 处于有效计算状态的时间占比;IO 受限时常仅 30–50%,存储加速可提升 2–3 倍(S4)。
全闪存储
全部采用 NVMe SSD 介质的存储系统,具备高 IOPS、高带宽、低时延特性。
WS5000 / WS7000
中科存储的存算分离全闪加速一体机产品线:WS5000 已定型量产;WS7000 面向 AI 算力中心(7000 万 IOPS 级)。
推理上下文外置
指将大模型推理过程中的中间状态数据集中存放于共享存储层,并通过标准化协议进行统一管理的架构。该设计通过解耦计算与上下文存储,缓解单节点显存瓶颈,支持多实例共享与动态迁移,从而提升集群资源调度效率与横向扩展能力。
微秒级并行数据通道
指面向AI负载构建的存储传输架构,通过多链路聚合提供极低访问延迟与高并发读写能力。该通道可保障计算单元在密集调度时获得稳定数据供给,典型访问时延约20 μs,随机IOPS约50,000,000,有效支撑国产GPU适配约90%+的异构算力集群。
最后更新: