适用于 AI 工作负载市场的 RoCE(2025-2034)
报告概述
全球人工智能工作负载 RoCE 市场规模预计将从 2024 年的12.6 亿美元增至 2034 年的68.2 亿美元左右,在预测期内复合年增长率为18.4% 2025 年至 2034 年。2024 年,北美占据市场主导地位,占据52.6%以上份额,收入6.6 亿美元。
随着数据中心采用高性能网络技术支持快速模型训练和大规模推理,AI 工作负载 RoCE 市场不断扩大。增长反映出对加速器之间低延迟通信的需求不断增长、集群规模不断扩大以及对能够处理大量并行工作负载的网络的需求。 RoCE现已广泛应用于AI优化数据中心、云计算集群和企业超级计算环境
人工智能工作负载中采用 RoCE 的主要驱动因素包括对低延迟网络和高带宽处理广泛数据集的需求不断增长。人工智能模型和训练环境通常需要同步数据交换,即使很小的延迟也会减慢整个系统的速度。 RoCE 能够将数据传输延迟降低至微秒并支持多千兆位速度,确保 AI 集群高效可靠地运行。
用于 AI 工作负载的 RoCE 市场是由训练大规模模型时对超低延迟和高带宽数据传输的需求激增所推动的。 RoCE 跳过 CPU 参与,通过以太网直接访问内存,将延迟缩短至微秒,并释放处理器来执行核心 AI 任务。这非常适合处理庞大数据集的超大规模数据中心,无需昂贵的新电缆即可提高速度和效率。
例如,2025 年 11 月,Broadcom 加入了 OCP 峰会上的以太网扩展网络推动活动,与合作伙伴一起推进大规模 AI 结构的 RoCE。该目标针对对 GPU 密集型工作负载至关重要的无拥塞路径。
关键要点
- 2024 年,硬件细分市场占 AI 工作负载全球 RoCE 市场的61.4%,表明其在实现基于 RDMA 的加速方面发挥着强大作用。
- 2024 年,模型训练细分市场捕获了71.6%,表明 RoCE 的采用主要是由高强度人工智能培训工作负载推动的。
- 2024 年,云服务提供商细分市场达到78.3%,反映出大型云环境中对支持 RDMA 的以太网结构的强烈依赖。
- 美国市场在 2024 年创造了6 亿美元,复合年增长率为16.8%,凸显了对基于 RoCE 的性能优化的稳定需求。
- 2024 年,北美占据 52.6%,证实了该地区在部署先进技术方面的领导地位面向 AI 工作负载的基于以太网的 RDMA 解决方案。
关键性能和指标
- 由于数据直接在服务器之间移动,无需通过 CPU 进行路由,因此延迟降至微秒,从而支持对实时 AI 任务的更快响应。
- 由于该技术利用先进的以太网速度,因此带宽达到极高的速率,确保在繁重的深度学习工作负载期间,数据流保持稳定。
- 由于网络处理由专用硬件处理,CPU 使用率急剧下降,从而使 CPU 能够专注于核心计算工作。
- 在优化配置中,吞吐量接近400 Gbps,与传统虚拟机网络相比,显示出巨大的性能差距。
- 跨分布式节点的扩展效率保持接近线性,这表明基于 RDMA 的以太网结构支持要求苛刻的 AI 训练的增长集群。
- 当使用高性能以太网结构而不是专有互连系统时,运营成本可在多年内下降55%。
- 性能对数据包丢失仍然敏感,这需要仔细使用流量控制和拥塞管理,以在流量高峰期间保持稳定性。
生成式的作用人工智能
生成式人工智能在推动更快、更高效的人工智能工作负载处理需求方面发挥着重要作用。在计算机科学和数学等领域,员工将近 12% 的工作时间用于使用生成式 AI,平均节省了5.4% 的任务时间。使用生成式 AI 每小时可将生产率提高约 33%。
这些生产率的提高迫切需要能够满足生成式人工智能的快速数据处理和低延迟要求的基础设施人工智能模型。通过实现快速训练和推理过程,生成式人工智能增加了工作负载需求的复杂性。
这推动了 RoCE 等先进网络协议的采用,这些协议提供了必要的低延迟和高带宽来支持大规模、分布式人工智能训练和实时人工智能应用。改进的网络性能直接有助于更快地获得人工智能洞察并提高运营效率。
投资和业务效益
投资机会重点关注数据中心网络的现代化,以支持人工智能、云基础设施、增强分布式人工智能训练以及补充 RoCE 的硅光子和数据处理单元 (DPU) 等新兴技术。
边缘人工智能基础设施也因其能够使处理更接近数据源而受到关注,从而显着减少实时推理应用程序中的延迟。投资针对这些网络基础设施组件的产品往往受益于人工智能工作负载密度的增加以及大规模人工智能运营中对能源效率不断增长的需求。
RoCE 的商业优势包括更快的人工智能模型训练周期、更高的资源利用率以及通过最大限度地减少 CPU 开销和减少所需服务器数量来降低运营成本。该协议与现有以太网系统的兼容性还可以节省成本和提高能源效率,减少人工智能数据中心的环境足迹。
美国市场规模
美国人工智能工作负载的 RoCE 市场正在大幅增长,目前价值6 亿美元,预计该市场的复合年增长率为16.8%。这种增长主要源于人工智能在各行业的快速采用,这需要高性能、低延迟的网络来支持不断增长的数据中心工作负载。作为AI模式随着环境变得更加复杂,通过 RoCE 进行的高效数据传输对于加速模型训练和推理变得至关重要。
此外,对云基础设施和数据中心的投资正在推动这一市场的发展。超大规模云提供商的兴起和企业采用增加了对支持 RoCE 的硬件的需求,这些硬件能够有效处理大量人工智能工作负载。美国数据中心的能源需求和基础设施升级也支持了这一增长轨迹,反映了人工智能对技术和能源行业的广泛影响。
例如,2025 年 10 月,Arista Networks 推出了专为现代数据中心高密度人工智能工作负载而设计的 R4 系列平台。该系统支持 800 Gbps 连接并集成3.2 Tbps HyperPorts 以加强基于 RoCE 的网络。其低延迟和无损架构提高了分布式 AI 训练效率,作业完成时间最多减少 44%。
2024 年,北美在全球 AI 工作负载 RoCE 市场中占据主导地位,占据52.6%以上份额,收入6.6 亿美元。这种主导地位源于该地区先进的数据中心基础设施、大型科技公司的强大影响力以及云计算领域的领先地位。这些因素为快速采用 RoCE 技术来支持高性能人工智能工作负载创造了成熟的环境。
此外,私营和政府部门对人工智能研究、开发和部署的大量投资也推动了这一增长。超大规模云提供商和尖端半导体制造商的存在增强了市场扩张,使北美能够满足对高效 AI 工作负载管理和网络解决方案日益增长的需求。
例如,2025 年 2 月,NVIDIA 通过其 Spectrum-X 平台扩展了 RoCE 功能,这意味着与主要 OEM 合作伙伴合作,将 AI 存储性能提升高达 48%。该平台已部署在面向 129K-GPU 环境扩展的大型以太网和 RoCE 结构中,能够以更低的延迟实现基于 RDMA 的更快数据移动。
产品类型分析
2024 年,硬件细分市场占据主导市场地位,占据了61.4% 的市场份额AI 工作负载市场的全球 RoCE。专用网卡和以太网适配器通过实现直接内存访问来构成这一细分市场,从而减少人工智能设置中数据移动的等待时间。这些组件可以处理在服务器和处理器之间转移大量数据的繁重工作,而不会减慢速度。
对硬件的关注来自于其在提高速度和处理人工智能任务所需的恒定数据流方面的良好记录。构建人工智能系统的团队选择这些部件是因为嘿,释放主处理器来进行实际的计算工作,而不是网络杂务。这使得繁忙数据中心的一切顺利运行。
例如,2025 年 10 月,NVIDIA 宣布将其 BlueField-4 数据处理单元 (DPU) 与 Oracle 的 AI 基础设施一起部署,通过卸载关键基础设施服务来优化大规模 AI 工作负载。此次合作体现了人们越来越依赖 DPU 和 RoCE 兼容网络设备等专用硬件组件来满足苛刻的 AI 工作负载需求。
应用分析
2024 年,模型训练细分市场占据了市场主导地位,占据了 AI 工作负载全球 RoCE 市场71.6%的份额。训练复杂的人工智能模型需要高效处理海量数据集以及计算节点之间的高吞吐量数据传输。 RoCE 能够在 GPU 之间提供低延迟、可靠的通信服务器显着加快了训练过程。这种效率对于缩短洞察时间并加快人工智能解决方案的开发至关重要。
专注于模型训练的投资利用 RoCE 的直接内存访问功能来优化分布式训练工作流程,这在人工智能研发中越来越普遍。模型训练的主导地位反映了对支持不断增长的人工智能工作负载并增强机器学习基础设施可扩展性的卓越网络结构的需求。
例如,2025 年 7 月,AMD 在其 Advancing AI 活动中展示了增强的 AI 计算能力,强调其最新 GPU 与高效内存子系统相结合,促进了推理和训练速度的代际飞跃。这凸显了支持 RoCE 的基础设施在支持强化模型训练方面的重要作用。
最终用户分析
2024 年,Cloud 服务提供商细分市场占据主导市场地位,在人工智能工作负载市场的全球 RoCE 市场中占据78.3%份额。这些提供商将 RoCE 技术集成到其数据中心内,为从企业到初创公司的各种客户提供可扩展的高性能 AI 计算服务。
采用 RoCE 使云提供商能够提高网络效率、减少延迟并为其客户提供更好的性价比。随着人工智能应用程序在各行业中激增,云提供商投入巨资,利用支持 RoCE 的以太网结构来优化其基础设施。这带来了更大的灵活性、更高的硬件利用率,并能够满足对人工智能处理能力日益增长的需求。
例如,2025 年 11 月,戴尔科技集团推出了新的人工智能工厂解决方案,将自动化基础设施与高性能 PowerEdge 服务器相结合,使云提供商能够部署可扩展的人工智能有效地训练和推理工作负载。戴尔产品组合中的网络创新支持云环境的大规模人工智能部署。
新兴趋势
一个新兴趋势是在 RoCE 网络中增强队列对扩展和高级路由技术的实施,在 AllReduce 等集体 AI 操作中实现高达 40% 的性能提升。这一趋势通过优化消息分发和有效平衡整个网络的流量,有助于适应人工智能工作负载的突发性和高吞吐量特性。
另一个趋势是优先流量控制 (PFC) 机制的集成,该机制可管理 RoCE 网络中的拥塞并优先考虑关键 RDMA 流量。这可确保确定性和一致的性能,这对于自动驾驶汽车和医疗诊断等安全关键型人工智能部署至关重要,其中可预测的延迟至关重要。
增长因素
低延迟和高带宽是 AI 工作负载中 RoCE 的核心增长因素。 RoCE 通过允许服务器之间直接内存访问、绕过 CPU 和传统网络堆栈,将延迟缩短至微秒。这加速了神经网络训练和推理,使人工智能解决方案能够在大型数据集上有效扩展,同时保持响应能力。
可扩展性是另一个驱动因素。 RoCE 促进越来越多的分布式计算和存储节点之间的高效通信。其每秒支持数十或数百千兆位的能力确保人工智能基础设施可以在不影响数据流速度的情况下水平扩展,满足人工智能和机器学习模型激增的数据需求。
主要细分市场
按产品类型
- 硬件
- 软件
- 服务
按应用划分
- 模型训练
- 高性能计算
- 超融合基础设施
- 云租赁
最终用户
- 云服务提供商
- 企业
- 数据中心
- 其他
区域分析和覆盖
- 北方美国
- 美国
- 加拿大
- 欧洲
- 德国
- 法国
- 英国
- 西班牙
- 意大利
- 俄罗斯
- 荷兰
- 其他国家/地区欧洲
- 亚太地区
- 中国
- 日本
- 韩国
- 印度
- 澳大利亚
- 新加坡
- 泰国
- 越南
- 拉丁美洲其他地区
- 拉丁语美洲
- 巴西
- 墨西哥
- 拉丁美洲其他地区
- 中东和非洲
- 南非
- 沙特阿拉伯
- 阿联酋
- 中东和非洲其他地区
驱动程序
面向 AI 的超低延迟和高带宽
RoCE 可实现服务器之间直接内存到内存的数据传输,无需依赖 CPU 或操作系统进程,从而使延迟降至微秒级。此改进通过减少数据移动期间的延迟来支持更快的模型训练和实时推理。它能够在标准以太网基础设施上运行,同时提供类似于 InfiniBand 的性能,这对于寻求更高吞吐量和响应能力的数据中心来说很有价值。
该技术提供高带宽来处理大型数据集和分布式人工智能工作负载。通过将数据传输任务转移到专用网卡,RoCE 释放 CPU 资源用于核心 AI 计算。这种方法可以减少使用密集型人工智能应用程序的组织的运营时间和成本,从而在数据密集的环境中创建更有效的性能提升途径。
2025 年 9 月,NVIDIA 推出了 Spectrum-X,这是一种基于以太网的解决方案。适用于生成式 AI,应用 GPU Direct RDMA 将训练延迟减少高达 90%。此功能允许 GPU 直接跨 RoCE 网络进行通信,无需 CPU 参与,从而能够更快地执行大规模 AI 模型并提高整体数据中心效率。
限制
复杂的集成和基础设施挑战
RoCE 的采用仍然受到精确网络调整的限制,以防止数据包丢失和拥塞,这取决于优先级流量控制和显式等机制拥堵通知。这些要求使得在不支持专门流量模式的数据中心中进行集成变得困难。许多组织都在努力升级旧系统,或者缺乏设计和维护 RoCE 优化环境所需的专业知识。
混合 IT 基础设施之间的互操作性进一步增加了复杂性。 RoCE 部署必须与传统以太网操作保持一致同时依赖专门的硬件和软件调整。小型企业经常面临成本和技能限制,即使性能优势显而易见,这也会减缓采用速度。这些兼容性和资源挑战继续推迟 AI 工作负载 RoCE 的更广泛标准化。
2025 年 7 月,Arista Networks 详细介绍了其具有 RDMA 感知 QoS 的 Etherlink 系统,以提高 AI 集群内的 RoCE 性能,同时承认在大规模执行动态负载平衡方面持续存在困难。许多现有设施需要对每个交换机和网络接口卡进行自定义配置,而劳动力短缺使得在运营要求较高的环境中全面部署速度变慢。
机遇
不断扩大的人工智能和云计算需求
人工智能应用的快速增长,尤其是在超大规模数据中心,推动了对 RoCE 高性能网络的需求不断增长。随着组织规模的扩大人工智能基础设施,对 RoCE 等高效数据移动协议的需求变得至关重要。云和混合云架构的兴起也为 RoCE 的采用提供了机会,因为它支持跨分布式系统和多个地理位置的快速、可扩展的数据访问。
优先考虑数字化转型和实时 AI 洞察的企业将受益于 RoCE 的功能。提供可互操作、安全且可扩展的 RoCE 解决方案的供应商可以在不断发展的市场中占据重要份额。北美和快速数字化的亚太地区等地理市场预计将在未来几年推动 AI 工作负载 RoCE 部署的大幅增长机会。
例如,2025 年 6 月,AMD 与 Oracle Cloud 合作打造 zettascale 集群,在 AI 超级计算中使用 Pensando Pollara NIC 和 RoCE,支持多达 131,072 个 Instinct MI355X GPU。低抖动RDMA组网满足分布式推理需求激增穿越云层。超大规模企业看到了通过这种高效设置构建人工智能工厂的巨大机会。
挑战
安全和数据隐私问题
由于 RoCE 网络通过直接内存访问处理敏感的人工智能数据传输,因此保护数据免遭未经授权的访问或泄露是一个主要问题。绕过传统 CPU 处理层可能会使网络面临新的漏洞,需要针对 RDMA 流量量身定制的强大加密和安全协议。在不影响 RoCE 性能优势的情况下确保数据流安全,对网络架构师来说是一项复杂的挑战。
此外,遵守数据隐私法规为在医疗保健和金融等人工智能越来越多地使用的行业中广泛部署 RoCE 增加了另一层难度。解决这些安全问题需要对与 RoCE 解决方案集成的安全功能进行持续创新和投资,而无需增加大量开销可能会削弱延迟和带宽优势。
例如,2025 年 2 月,瞻博网络与 IBM 合作,将 Mist AI 和 watsonx 混合在一起,以实现更安全的网络操作,通过更好的诊断来解决 AI 数据流中的 RoCE 漏洞。隐私规则要求严格控制金融和健康人工智能应用程序中的 RDMA 流量。平衡安全性与性能仍然是广泛使用的关键障碍。
主要参与者分析
作为市场领先参与者之一,NVIDIA 于 2025 年 9 月与英特尔合作,使用 NVLink 构建定制数据中心 CPU,以实现更流畅的 AI 处理,此外 NVIDIA 还向英特尔股票投入了50 亿美元,以推动联合 AI 设置。此举有助于 RoCE 通过更快地链接芯片来更好地处理繁重的 AI 流量。它为大型人工智能集群中的混合 CPU-GPU 系统打开了大门。
市场上的主要参与者
- NVIDIA
- AMD
- 英特尔
- 思科
- Arista Networks
- Broadcom
- Marvell
- 戴尔科技
- HPE
- 瞻博网络
- IBM
- 富士通
- 联想
- 超微
- 浪潮
- 其他
近期发展
- 2025 年 1 月,英特尔在 CES 上首次推出 Core Ultra 处理器,内置用于边缘推理的 AI Boost,通过 NVIDIA NVLink 等合作伙伴关系融入 RoCE 生态系统。它们以较低的功耗处理视频和实时 AI。
- 2025 年 10 月,HPE 完成了对瞻博网络的收购,通过适用于高速 AI 集群的 RoCE 就绪结构推动 AI 原生网络。该交易使政府和企业数据中心处理万亿参数模型的能力加倍。





