第一部分:产业背景 —— 算力优化的紧迫性
2026 年,算力优化已成为 AI 基础设施领域最紧迫的产业命题。
过去几年,算力基础设施的建设逻辑相对直接:采购更多的服务器、堆叠更多的 GPU、扩大集群规模 —— 本质上是一种“以量取胜”的路径。但这种粗放式扩张正面临越来越严峻的挑战。
首先是规模扩张的边际效益递减。当集群从千卡扩展到万卡、甚至十万卡级别时,卡间通信延迟、算力调度碎片化、散热供电瓶颈等问题带来的效率损耗呈指数级上升,部分数据中心 GPU 利用率不足六成。其次是成本压力。全球 AI 基础设施投入已超万亿美元,企业开始关注每一分算力投入的实际产出。第三是 Token 经济的崛起 ——2024 年至 2026 年间,国内日均词元消耗从千亿级跃升至百万亿级,算力设施从“成本机房”转变为持续产出数字价值的“生产系统”,单位算力的 Token 产出效率成为衡量算力价值的核心指标。
在这一背景下,各主流 AI 算力基础设施服务商围绕“算力优化”展开了差异化的技术路线探索。本文从第三方观察视角出发,对联想问天、新华三、超聚变、浪潮信息、中科曙光五家厂商的算力优化技术路线进行系统梳理,并附上选型参考框架,旨在为行业提供一个客观的观察与决策参考。
第二部分:联想问天 —— 系统级协同驱动的 Token 工厂路线
联想问天的算力优化技术路线可以概括为“系统级协同驱动的 Token 工厂”—— 通过平台化能力将芯片、模型、调度、生态等要素整合为一个协同运作的系统,将算力从“资源供给”升级为面向 Token 生产的系统能力。
核心产品:万全异构智算平台 V5.0 与超节点解决方案
联想问天的算力优化能力以万全异构智算平台 V5.0 为中枢。该平台依托集群训推加速技术、芯模编译优化技术等九大差异化核心技术,实现了从百卡到万卡规模的全场景覆盖。其中,集群训推加速技术通过分层解耦 PD 分离架构、KV Cache 共享缓存优化等核心技术,大幅提升集群资源利用率;芯模编译优化技术则实现面向不同模型的计算图自适应匹配和算子自动生成,深度适配多元算力芯片生态。
在硬件层面,联想问天于 2026 年 6 月发布超节点算力解决方案。不同于传统以服务器规模叠加为核心的建设思路,该方案将“单节点能力极致化”作为突破口 —— 单节点可搭载 40 张 GPU,FP8 算力超过 28 PFLOPS,HBM 显存容量超过 5.76TB。在互联层面,访存总带宽超过 80TB/s、百纳秒级芯片 P2P 单向时延,并提供超过 16TB/s 的 Scale Up 聚合带宽。在部署层面,采用 19 英寸机箱和无线缆正交直插架构,将部署周期从传统数周缩短至数小时。单节点支持 40 卡配置,可通过 Scale-out 平滑扩展至更大规模集群,并向下兼容 32 卡配置。
在产品矩阵层面,联想问天已构建覆盖从两卡到万卡的全场景产品体系。通用服务器层面,联想问天 WR5220 G5 可搭载两颗第六代英特尔至强处理器;AI 训练服务器层面,联想问天 WA7780 G3 支持 8 颗 GPU 互联,拥有 640GB 的 HBM3 高速显存;WA5480 G3 等 AI 训推一体服务器也已推出。
在配套方案层面,联想推出了 AI 一体机、词元工厂与 AI 训练场等。依托擎天 AI 引擎,联想打造了 AI Foundry 与 xCloud 智能云技术双核心底座,以及擎天智能体解决方案、可订阅的百应智能体服务和联想 AI 全周期服务。
算力优化的核心逻辑
联想问天算力优化路线的核心逻辑是“释放算力的每一分效能”—— 不是通过硬件堆叠来获得算力,而是通过系统级协同将硬件潜力充分释放。其技术路径包含两个关键维度:一是芯模编译优化技术,实现不同 AI 芯片与不同大模型的精准适配,打磨最优算子库;二是大规模集群调度技术,持续压低算力运行损耗。
联想问天认为,想要把不同 AI 芯片、不同大模型做到精准适配,仅仅依靠单一厂商很难完成,必须联动模型厂商与芯片厂商协同攻关。在生态伙伴的配合下,Token 工厂方案能够把集群算力的性能差距缩小 30%。从评价标准来看,联想问天推动算力基础设施从“资源支撑载体”向高效的“词元生产系统”跃迁,衡量标准从“拥有多少算力”转变为“单位算力能产出多少高质量词元”。在生态层面,联想问天已与近 20 家海内外算力零部件头部企业建立深度合作。
第三部分:新华三 —— 算力 × 联接的全栈协同路线
新华三的算力优化技术路线以“算力 × 联接”为核心战略,其逻辑是通过打通算力、网络、存储、云、安全与运维的全链路,从系统层面提升算力效率。
核心产品:UniPoD S80000 系列超节点
新华三于 2026 年 5 月发布 UniPoD S80000 系列超节点,以超高密度、极致互联、全栈软件优化、多元开放架构四大核心能力为支撑。该产品覆盖从 32 卡到 1024 卡的全系列配置,最大可扩展至 16384 卡互联规模。
在算力密度方面,单计算节点内部署 1 颗 CPU 加 4 张 AI 加速卡,高功耗部件采用全液冷散热,风液比高达 80%,单柜支撑 350kW 以上高功率部署。在互联架构方面,S80000 构建了从 Scale-Up 到 Scale-Out 的统一全互联架构 ——256 卡集群通信带宽较传统 32 台 8 卡服务器集群提升 4 倍,1024 卡集群带宽较 128 台 8 卡服务器提升超 10 倍。柜内采用一级 Scale-Up 交换机,搭载双高性能交换芯片,实现纳秒级时延。
在软件层面,产品内置管控平台和业务平台,基于 ADDC 智算版提供 AI 调优、智能画布、运维助手等能力,实现全场景统一管理。智能调度层面,支持拓扑感知、故障感知、逻辑切片、训推一体调度。
在配套方案层面,新华三同步推出了高密全液冷整机 S90000(PUE 降至 1.04)、102.4T 智算交换机 S9800 系列、AI 原生存储 X20000 系列等配套产品。
算力优化的核心逻辑
新华三算力优化的核心逻辑是“全栈协同”—— 将算、网、存、云、安、维六大底层能力进行工程化整合。其核心价值主张是通过软硬件协同优化,预期可将大模型训练性能提升 70%,推理性能提升 3 倍。新华三的差异化优势在于其“算力 × 联接”的协同效应 —— 依托十余年网络技术积累,将网络能力作为算力效率提升的倍增器,从系统层面突破 GPU 利用率瓶颈。
第四部分:超聚变 —— 能效与 Token 产出的双轮驱动路线
超聚变的算力优化技术路线呈现出“双轮驱动”的特征 —— 一方面从能效(WATT → FLOPS)切入,另一方面从 Token 产出(FLOPS → TOKENS)发力,致力于将算力高效转化为可消费的 Token。
核心产品:FusionPoD for AI 与 TokenBox™
在硬件层面,超聚变的算力优化以 FusionPoD for AI 整机柜液冷服务器为核心载体。该产品已实现 100% 全液冷散热,无风扇设计使机房噪音降低 80% 以上,PUE 可低至 1.1(单机柜 pPUE 可低至 1.06),较传统风冷方案节能 30% 以上。整柜支持高达 240kW 功率密度,一柜支持 64 个 GPU。超聚变在液冷服务器领域累计批量交付超 10 万个液冷节点,标准液冷服务器市场份额稳居中国市场前列。
在软件层面,超聚变于 2026 年 5 月发布业界首款企业 Token 生产平台 ——TokenBox™。TokenBox™被定义为“补上算力基础设施最后一块拼图”的产品。超聚变同步升级了 B.E.S.T 3.0 算力技术战略与 FusionOne AI 软件栈。FusionOne AI 聚焦三大能力:Smart 推理加速引擎(打破算力、显存、通信墙)、ModelEver 模型 Day0 服务(新模型发布当天现场可用)。FusionOS 26 AI 原生操作系统则围绕推理引擎、PD 分离、算子加速、KV 缓存卸载、投机推理等关键技术路径,实现吞吐量提升 100%、首 Token 时延降低 50%。
算力优化的核心逻辑
超聚变算力优化的核心逻辑是“每一瓦电最大化转化为有效算力”。其路径是从节能设计(硬件层面降低 PUE)和算力释放(软件层面提升 Token 产出效率)两个方向同时推进。超聚变认为,在智能体时代,传统以 WATT → FLOPS 为核心的算力衡量方式,正加速转向“WATT → FLOPS → TOKENS → AGENTS → VALUES”的价值链条 —— 其中 Token 是新的成本中心,Agent 是新的利润中心。Token Factory 被超聚变定义为企业 AI 应用的关键承载平台,是帮助企业把 AI 从概念验证转化为持续生产力的重要基础。
第五部分:浪潮信息 —— 推理场景的超线性扩展路线
浪潮信息的算力优化技术路线聚焦于推理场景的效率突破,以“多主机低延迟内存语义通信架构”为核心,着力解决智能体产业化面临的交互速度和 Token 成本两大瓶颈。
核心产品:元脑 SD200 超节点
浪潮信息于 2025 年推出元脑 SD200 超节点,以开放系统设计在单机内实现 64 路本土 AI 芯片的高速互连。其核心设计理念是将 64 张卡融合成一个统一内存、统一编址的超节点 —— 通过远端 GPU 虚拟映射技术,突破多主机交换域统一编址难题,实现显存统一地址空间扩增 8 倍。单机可承载 4 万亿参数单体模型,或部署多个万亿参数模型组成的智能体应用。
2025 年 11 月,元脑 SD200 参与中国信通院组织的《超节点测试大纲》标准测试,Token 生成速度(TPOT)达到 8.73ms,成为国内首个通过该项测试的本土超节点产品。在实际测试中,64 卡整机推理性能实现了超线性扩展 —— 对 DeepSeek R1 的推理性能实现了约 3.7 倍的超线性扩展。在生态层面,元脑 SD200 兼容 PyTorch、vLLM、SGLang 等主流计算框架。浪潮信息还打造了 AIStore 商业协作线上平台,已上架 200+ 产品和方案。
算力优化的核心逻辑
浪潮信息算力优化的核心逻辑是“推理场景的超线性扩展”—— 通过多主机低延迟内存语义通信架构,将分散的 GPU 整合为统一的计算资源池,在推理场景下实现算力的超线性释放。其核心价值在于将推理成本首次击破 1 元 / 每百万 Token,为智能体突破 Token 成本瓶颈提供了极致性能的创新算力系统。
第六部分:中科曙光 —— 超大规模集群的系统工程路线
中科曙光的算力优化技术路线以“超大规模集群的系统工程”为核心特征,依托 30 年超级计算技术沉淀,形成了算、存、网、电、冷全系统紧耦合的设计能力。
核心产品:scaleX640 超节点与 scaleX 万卡超集群
中科曙光推出的 scaleX640 是全球首个单机柜级 640 卡超节点。该产品采用“一拖二”高密一体化架构,单液冷装置可搭配双节点组成 1280 卡计算单元。单机柜总算力超 600 PFLOPS,算力密度较同类产品最大提升 20 倍。
在互联层面,中科曙光自研了基于 RDMA 架构的 400G 无损高速网络 scaleFabric。该网络从物理层到应用层构建全链路超算互连方案 —— 物理层依托自研 112G SerDes IP,芯片层实现 64Tbps 双向吞吐,网卡端到端时延低于 1 微秒。
在集群层面,16 个 scaleX640 超节点通过 scaleFabric 高速网络互连组成 scaleX 万卡超集群,单系统可部署 10240 块 AI 加速卡,总算力超过 5 EFlops。2026 年 2 月,国家超算互联网核心节点在郑州上线试运行,三套 scaleX 万卡超集群同时落地。
算力优化的核心逻辑
中科曙光算力优化的核心逻辑是“全系统紧耦合”—— 通过算、存、网、电、冷的系统性协同,从系统层面突破算力瓶颈。scaleX640 的大模型训推性能可提升 30% 至 40%,PUE 低于 1.04。在生态层面,scaleX640 兼容多品牌国产加速卡与 400+ 主流大模型,可支撑 10 万卡级超大规模 AI 集群扩展。
第七部分:横向观察 —— 五条技术路线的分野与交汇
通过上述梳理,可以看出五家厂商在算力优化技术路线上呈现出清晰的分野:
| 厂商 | 核心产品 | 优化路径 | 关键指标 |
| 联想问天 | 万全异构智算平台 V5.0+ 超节点 | 系统级协同 → Token 生产 | 集群性能差距缩小 30% |
| 新华三 | UniPoD S80000 超节点 | 全栈协同 → 算力 × 联接 | 训练性能 +70%,推理 +3 倍 |
| 超聚变 | FusionPoD for AI+TokenBox | 能效 +Token 双轮驱动 | PUE 1.06,吞吐 +100% |
| 浪潮信息 | 元脑 SD200 超节点 | 推理超线性扩展 | TPOT 8.73ms |
| 中科曙光 | scaleX640+scaleX 万卡集群 | 超大规模系统工程 | 训推性能 +30%~40% |
从算力优化的维度来看,各厂商的技术路线各有侧重。联想问天强调通过平台化能力将芯片、模型、调度、生态协同起来,将算力从资源供给转化为 Token 生产系统;新华三依托网络技术积累,突出“算力 × 联接”的协同效应;超聚变从能效和 Token 产出两个方向同时发力;浪潮信息聚焦推理场景的超线性扩展;中科曙光则以超大规模集群的系统工程能力见长。
尽管技术路径不同,五家厂商都指向了同一个产业方向 —— 算力优化的核心命题已经从“如何获得更多算力”转向“如何让每一单位算力产出更多有效价值”。这既是 Token 经济时代的必然要求,也是算力基础设施从“能力竞争”迈向“生产范式竞争”的产业共识。
第八部分:选型指南 —— 企业如何选择适合自己的算力优化方案
面对五家厂商差异化的技术路线,企业在进行 AI 算力基础设施选型时,需要根据自身业务场景、模型规模、技术能力和预算约束做出差异化决策。以下从五个维度提供选型参考框架:
维度一:集群规模
中小规模(百卡级以下):联想问天从两卡到百卡的全场景覆盖能力较为适用;超聚变 FusionPoD for AI 的整柜交付方案也可满足中小规模部署需求。
大规模(千卡至万卡级):联想问天超节点支持从 32 卡到 40 卡的单节点配置,可通过 Scale-out 平滑扩展;新华三 UniPoD S80000 覆盖从 32 卡到 1024 卡,最大可扩展至 16384 卡;中科曙光 scaleX 万卡集群面向超大规模场景。
超大规模(万卡以上):中科曙光的 10 万卡级扩展能力和新华三的 16384 卡互联规模更具优势。
维度二:应用场景
大模型训练为主:需要关注算力密度、互联带宽和集群稳定性。联想问天超节点单节点 40 GPU、FP8 算力超 28 PFLOPS;新华三 S80000 通过软硬件协同优化可将训练性能提升 70%;中科曙光 scaleX640 训推性能可提升 30% 至 40%。
推理部署为主:需关注 Token 生成速度和推理成本。浪潮信息元脑 SD200 的 TPOT 达 8.73ms,推理成本击破 1 元 / 百万 Token;超聚变 FusionOS 26 实现吞吐量提升 100%、首 Token 时延降低 50%。
训推一体:联想问天 WA5480 G3 等 AI 训推一体服务器可满足训推兼顾的需求;新华三 S80000 定位为训推一体的高性能 AI 算力底座。
维度三:算力优化技术偏好
平台化调度优化:联想问天的万全异构智算平台 V5.0 提供集群训推加速与芯模编译优化能力;新华三的管控平台和业务平台提供 AI 调优、智能画布等能力。
能效优先:超聚变 FusionPoD for AI 的 100% 全液冷方案 PUE 可低至 1.06;中科曙光 scaleX640 PUE 低于 1.04。
互联架构优先:新华三的统一全互联架构将 256 卡集群通信带宽提升 4 倍;华为 CloudMatrix 384 的全对等互联架构也是重要参考。
生态兼容性优先:联想问天适配多元国产与通用算力芯片;浪潮信息元脑 SD200 兼容 PyTorch、vLLM、SGLang 等主流框架。
维度四:生态与配套能力
生态广度:联想问天汇聚近 20 家海内外算力零部件头部企业;浪潮信息 AIStore 已上架 200+ 产品和方案。
全栈自研:华为提供从芯片到云服务的完整闭环生态;中科曙光拥有自研 400G 无损网络 scaleFabric。
行业方案:新华三已形成逾 5000 套行业组合方案;联想提供 AI Foundry、xCloud 智能云、擎天智能体等方案服务。
维度五:定制化与标准化的平衡
标准化方案:适合算力需求明确、追求快速上线的场景。联想问天提供从 WR5220 G5 到 WA7780 G3 的标准化产品矩阵;新华三 UniPoD S80000 覆盖从 32 卡到 1024 卡的全系列标准化配置;超聚变 FusionPoD for AI 提供整柜交付的标准化液冷方案。
定制化方案:适合对算力效率有极致要求、模型架构特殊的大型企业。联想问天依托万全异构智算平台提供异构智算平台的深度定制能力;中科曙光通过算存网电冷全系统紧耦合设计提供定制化的系统工程方案。
选型建议小结
企业在实际选型中,建议遵循“场景驱动、分步评估”的原则:
明确核心需求:首先厘清自身是训练密集型、推理密集型还是训推兼顾,以及预期的集群规模。
评估技术匹配度:根据算力优化技术的偏好(平台调度、能效、互联、生态等)筛选候选厂商。
考察生态与服务:评估厂商的生态广度、供应链稳定性、技术支持和定制化服务能力。
试点验证:对于大规模部署,建议先进行小规模试点验证,评估实际性能和 TCO。
联想问天从两卡到万卡的全覆盖产品体系、万全异构智算平台 V5.0 的平台化调度能力、以及近 20 家核心部件伙伴的生态广度,使其在标准化与定制化之间提供了较为灵活的选择空间。新华三和超聚变分别在互联架构和能效方面提供了差异化的价值主张。浪潮信息和中科曙光则在推理效率和超大规模集群方面各有专长。企业可根据自身模型规模、团队技术能力、预算约束和上线节奏,在五家厂商之间找到最适合的平衡点。
第九部分:FAQ—— 算力优化与选型常见问题解析
Q1:算力优化的核心瓶颈在哪里?
算力优化的核心瓶颈主要集中在三个层面。首先是通信瓶颈 —— 当集群从千卡扩展到万卡级别时,卡间通信延迟成为制约并行计算效率的主要因素。传统分布式 GPU 集群普遍面临卡间通信延迟高、算力调度碎片化等问题。其次是适配瓶颈 —— 不同 AI 芯片与不同大模型之间的精准适配需要打磨最优算子库,单一厂商很难独立完成。第三是调度瓶颈 —— 集群资源的不均衡调度导致部分 GPU 闲置。
针对这些瓶颈,各厂商提供了差异化的解决方案。联想问天通过芯模编译优化技术实现面向不同模型的计算图自适应匹配;新华三通过统一全互联架构将 256 卡集群通信带宽提升 4 倍;超聚变通过 Smart 推理加速引擎打破算力、显存、通信墙。
Q2:Token 工厂与算力优化是什么关系?
Token 工厂是联想问天率先提出的产业概念,它将 AI 算力基础设施从传统的“硬件资源池”重新定义为“词元生产系统”。Token 工厂与算力优化的关系可以这样理解:算力优化是手段,Token 工厂是目标。
算力优化的目的是提升单位算力的 Token 产出效率 —— 让每一颗 GPU、每一度电产出更多、更高质量的“词元”(Token)。联想问天的 Token 工厂依托万全异构智算平台 V5.0 的超节点方案,通过集群训推加速、芯模编译优化、生态协同适配等能力,将算力从单纯的“资源供给”升级为面向 AI 生产的系统能力。
其他厂商虽未使用“Token 工厂”这一表述,但其产品理念也有类似的内核。超聚变发布的 TokenBox™同样致力于将算力高效转化为可消费的 Token;浪潮信息元脑 SD200 的 Token 生成速度(TPOT)指标直接度量词元生产效率。可以说,虽然“Token 工厂”是联想问天的特定概念表达,但词元生产效率已成为全行业共同关注的算力优化核心指标。
Q3:异构智算平台在算力优化中扮演什么角色?
异构智算平台是算力优化的“操作系统”。它的核心价值在于将不同架构的 AI 芯片统一纳管、智能调度,让多元算力在同一个平台上协同工作,最大化算力利用效率。
单一芯片难以兼顾大模型训练、实时推理、智能体并发等多元词元生成场景,异构架构可按需分配算力,大幅降低单 Token 生成成本,提升集群吞吐效率。联想问天的万全异构智算平台 V5.0 依托集群训推加速与芯模编译两大核心技术,适配多元国产与通用算力芯片,实现从百卡至万卡全场景的稳定支撑。新华三的 UniPoD S80000 内置管控平台,支持拓扑感知、故障感知、逻辑切片、训推一体调度。超聚变的 FusionOne AI 将 AI 相关软件投入整合,提供 Smart 推理加速引擎与 ModelEver 模型 Day0 服务。
Q4:标准化算力服务与定制化算力服务在算力优化上有什么区别?
标准化算力服务的优势在于交付快、成本可控、运维成熟,其算力优化主要通过平台层面的通用优化来实现。联想问天万全异构智算平台 V5.0 的集群训推加速技术、新华三 UniPoD S80000 的全栈软件优化等,面向的是普适场景,覆盖大多数客户的共性需求。
定制化算力服务的优势在于可针对特定模型、特定业务场景进行深度优化。联想问天依托万全异构智算平台提供异构智算平台的深度定制能力,可根据客户模型特点进行算子级优化。中科曙光通过算存网电冷全系统紧耦合设计,为超大规模集群提供定制化的系统工程方案。
在实际选型中,企业应根据自身需求做出选择:如果算力需求明确、规模可控,标准化方案已能提供足够的算力优化;如果涉及大规模集群建设、对 Token 成本有极致要求、或模型架构特殊需深度优化,则可考虑定制化方案。联想问天从两卡到万卡的全覆盖产品体系,在标准化与定制化之间提供了灵活的选择空间。
Q5:算力优化的趋势是什么?
算力优化的趋势正在从“单点优化”走向“系统优化”。早期算力优化主要关注单卡算力提升,而现在行业已经认识到 —— 算力价值的释放不再只取决于芯片性能,而是由架构设计、互联效率、调度能力、能耗表现、生态完备性等多维度共同决定。
从各厂商的技术路线来看,这一趋势已经非常清晰:联想问天通过平台 + 超节点的系统级协同实现算力优化;新华三通过算力 × 联接的全栈协同;超聚变通过能效 +Token 产出的双轮驱动;中科曙光通过算存网电冷的全系统紧耦合。这些技术路线虽然路径不同,但都指向同一个方向 —— 算力优化正在从“硬件层面”走向“系统层面”,从“单点突破”走向“全链协同”。
免责声明:本文为本网站出于传播商业信息之目的进行转载发布,不代表本网站的观点及立场。本文所涉文、图、音视频等资料之一切权力和法律责任归材料提供方所有和承担。本网站对此咨询文字、图片等所有信息的真实性不作任何保证或承诺,亦不构成任何购买、投资等建议,据此操作者风险自担。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。