开云kaiyun体育app登录入口 智谱AI推出ZCube组网架构: 大模子推感性能与成本双突破, 重构智算基础步调

在大模子推理限度抓续膨大、长高下文与智能体任务成为主流的行业布景下,网罗架构已成为制约AI算力着力的中枢瓶颈。
2026年5月21日,智谱AI 辘集 驭驯网罗、清华大学 崇拜秘书,新一代 ZCube组网架构 已在 GLM‑5.1 coding 坐蓐环境完成限度化落地——在 不更换GPU、不更正软件栈与应用逻辑 的前提下,竣事:
🔼 推理蒙眬晋升 15% 💰 网罗硬件成本削减 33% ⚡首Token时延抑遏 40.6%
该本领后果最早于2025年9月在网罗界限海外顶会 ACM SIGCOMM 2025 公建造表,被评价为"权贵改变行业对大模子网罗架构的贯通姿首"。这次落地是ZCube架构初次从学术照应走向产业级部署,秀丽着智算基础步调崇拜进入 模子流量驱动、网罗拓扑深度协同 的全新发展阶段。

📌 一、行业痛点:传统网罗架组成为大模子推理的性能瓶颈
跟着大模子从对话交互向代码生成、长文本惩处、智能体扩充等复杂场景演进,KV Cache跨节点传输远离称、长高下文高频通讯、Prefill‑Decode分离部署 成为常态。传统以 ROFT(Rail‑Optimized Fat‑Tree)为代表的多层Clos架构,继承 Spine‑Leaf 层级化堆叠联想,在万卡级集群中暴涌现难以侧目的结构性弱势。
❌传统ROFT架构三大中枢短板:
① 静态拓扑导致局部拥塞 固定链路分拨易造成热门,出现"总带宽充裕、局部赓续防碍"的矛盾征象,激发 PFC 反压与流量冲突,平直拉低举座推理着力。
② 硬件成本居高不下 多层交换机与光模块冗余建立,大幅晋升数据中心老本开销,限度越大成本滥用越显著。
③ 扩展才智受限 层级化联想在超大限度集群中链路复杂度指数级上涨,难以高效支抓数万张GPU的线性扩展。
这些问题平直导致 GPU算力无法充分开释、推理时延波动大、硬件参预产出比偏低,成为制约大模子生意化落地的枢纽扼制。
📌 二、ZCube架构中枢创新:扁平化拓扑从根源摒除拥塞
ZCube架构透彻冲破传统Clos架构的层级化想维,以 十足扁平化二部图互联 为中枢,重构大模子推理集群的网罗通讯体系,竣事 流量无防碍、硬件极简、扩展无上限 三大本领突破。
🧱 1. 中枢联想旨趣
🔸取消Spine层交换机 放弃多层堆叠,继承两组Leaf交换机平直构建扁平网罗,大幅减少转发层级与硬件数目。
🔸二部图最优旅途 确保自便GPU之间存在 独享最短旅途,从拓扑结构上阻绝流量冲突,博亚体育app中国官方入口竣事全局负载平衡。
🔸双端口网卡夹杂接入 衔尾单轨/多轨夹杂接入机制,适配大模子推理的非对称流量特征,晋升链路诈欺率。
🔸智能路由战术 基于模子通讯方法动态调动,保险长高下文、KV Cache同步等枢纽任务的低时延传输。
📊 2. ZCube vs 传统ROFT架构枢纽对比
对比维度传统ROFT架构ZCube架构中枢上风网罗拓扑Spine‑Leaf多层堆叠十足扁平化二部图无层级转发,抑遏时延流量调动静态分拨,易拥塞动态最优旅途,无冲突全局负载平衡,摒除热门硬件组成需多层交换机+光模块取消Spine层,硬件减半成本抑遏33%扩展才智千卡级瓶颈显著支抓数十万GPU线性扩展适配超大限度集群推感性能易受反压影响,蒙眬波动结识高蒙眬,低时延蒙眬+15%,时延‑40.6%

📌 三、坐蓐环境实测数据:性能与成本双丰充
ZCube架构已在智谱 GLM‑5.1 coding 线上 千卡坐蓐集群 结识初始超两周,开云kaiyun体育app登录入口统统目的均通过严苛业务考据:
🔼推理蒙眬 GPU平均推理蒙眬晋升 15%,同等硬件条目下每秒可多反应15%的API恳求,权贵晋升并发承载才智。
⚡反当令延 首Token时延(TTFT P99)抑遏 40.6%,大幅减少用户恭候时间,岑岭时段职业结识性权贵增强。
💰硬件成本 交换机与光模块老本开销减少 33%,硬件参预平直削减三分之一,大限度部署经济效益凸起。
🔄兼容性 GPU、软件栈、应用 十足不变,无需代码校正即可平滑升级,保护现存算力金钱,抑遏搬动风险。
实测驱散解说,ZCube架构通过 网罗拓扑与大模子通讯特征深度耦合,竣事了 不增硬件、不降性能、大幅降本 的产业级目的,为MaaS职业商提供了可复制的优化有盘算推算。
📌 四、工程落地突破:自动化部署保险沉稳升级
超大限度网罗架构校正濒临 布线复杂、路由战术重构、业务零中断 等多重挑战。驭驯网罗团队依托自主研发的 自动化放手与校验器用链,完成三大枢纽工程突破:
BG真人(BigGaming)官方网站🔧自动化布线盘算推算 快速生成最优物理开通有盘算推算,裁汰部署周期,抑遏东说念主工时弊。
🔀路由战术一键切换 平滑替换原有网罗轨则,业务无感知升级,幸免职业中断。
📡全链路及时监控 对流量、带宽、时延等目的抓续校验,确保集群结识初始。
这次落地考据了ZCube架构的 工程可行性与大限度兼容性,可快速推广至各样智算中心与大模子推理集群。
📌 五、行业价值:引颈智算基础步调新范式
ZCube架构的得胜落地,不仅是智谱AI在AI基础步调界限的要害突破,更对环球大模子产业产生潜入影响:
算力着力创新 通过网罗架构创新开释存量硬件潜能,同等算力产出晋升15%,鼓励AI算力从拼硬件向拼架构转型。
成本结构优化网罗硬件成本直降三分之一,大幅抑遏大模子推理与MaaS职业的准初学槛,加快普惠AI落地。
本清醒线引颈 解说 网罗拓扑、通讯库、调动战术深度协同 是下一代智算中心的中枢目的,为行业提供全新本清醒径。
海外竞争力晋升 中国团队原创网罗架构当先竣事产业落地,在超大限度AI基础步调界限达到海外跳跃水平。
📌 六、回来
ZCube架构以 扁平化无拥塞拓扑 为中枢,在 GLM‑5.1 coding 坐蓐环境中考据了 推理蒙眬+15%、硬件成本‑33%、首Token时延‑40.6% 的荒谬性能,破解了传统网罗架构制约大模子着力的行业穷困。
手脚首个从顶会照应走向限度化落地的大模子专用网罗架构,ZCube再行界说了智算基础步调的联想理念,鼓励行业从 通用互联 迈向 模子流量驱动的系统协同。
将来开云kaiyun体育app登录入口,跟着ZCube在更多大模子场景与智算中心的普及,将抓续晋升AI算力着力、抑遏产业成本,为大模子本领的深度生意化提供坚实底层营救。