本文是RoCE网络协议调研报告
📊 扩展阅读:为了更直观地理解 RoCE ,你可以查看 RoCE分析报告 页面。
RoCE网络协议调研报告
1. RDMA技术基础
1.1 RDMA核心概念
远程直接内存访问(Remote Direct Memory Access, RDMA)是一种革命性的网络通信技术,它允许一台计算机(主机)直接访问另一台计算机(远程主机)的内存,而无需经过远程主机操作系统内核的干预,也无需CPU的参与 。这种“内核旁路”(Kernel Bypass)和“零拷贝”(Zero-Copy)的特性,使得数据可以直接从发送端的用户空间内存传输到接收端的用户空间内存,极大地降低了数据传输的延迟和CPU开销 。RDMA技术的核心在于将网络协议栈的处理逻辑卸载到专用的硬件(如支持RDMA的网卡,即RNIC)上,从而绕过了传统TCP/IP协议栈中复杂的软件处理流程,包括上下文切换、数据拷贝和协议处理等。这种硬件卸载的方式不仅显著提升了数据传输效率,还释放了宝贵的CPU资源,使其能够专注于应用程序的计算任务,从而提升了整个系统的性能 。
RDMA技术的实现依赖于一套完整的协议栈和硬件体系。在RDMA通信模型中,通信双方通过创建“队列对”(Queue Pair, QP)来建立连接。每个QP由一个发送队列(Send Queue)和一个接收队列(Receive Queue)组成,用于存放工作请求(Work Request, WR) 。应用程序通过向QP中投递WR来发起RDMA操作,例如发送数据、接收数据、读取远程内存或写入远程内存。RDMA网卡会异步地处理这些请求,并在操作完成后生成工作完成(Work Completion, WC)事件通知应用程序。这种基于QP的通信模型,结合硬件卸载,实现了高吞吐、低延迟和高能效的网络通信,尤其适用于对性能要求极高的场景,如高性能计算(HPC)、人工智能(AI)训练、高频交易和大型数据中心 。 (一个用户态进程可以创建任意多个 QP,它们之间的典型对应关系如下:
- 进程 ↔ QP
一个应用程序(进程/线程)为了跟 N 个远端通信,通常会- 为每个远端建一个 QP(1:1 模型,最简单);
- 或者建一个 QP 池,多个线程复用(N:1);
- 也可以一个线程管多个 QP(1:N)。
总之“进程 ↔ QP”是多对多,取决于软件设计。
- QP 内部 ↔ SQ/RQ
每个 QP 固定包含- 1 个 Send Queue(SQ)——本端发 SEND/WRITE/READ 请求
- 1 个 Receive Queue(RQ)——本端收远端 SEND 数据
所以是 1 QP == 1 SQ + 1 RQ,永远 1:1:1。
- 本端 SQ 与远端 RQ
只有当本端发 SEND 类 WR 时,才需要远端 在某个 QP 的 RQ 里预先 post 接收 WQE;
本端 SQ 与远端 RQ 之间是“按需消费”,不是固定 1:1。
一句话:
进程可以拥有 N 个 QP;每个 QP 内部固定 1 SQ + 1 RQ;
本端 SQ 与远端 RQ 只有在 SEND 操作时才短暂“配对”,除此之外没有强制对应关系。)
1.2 RDMA技术优势
RDMA技术相较于传统的基于TCP/IP的网络通信,具有三大核心优势:超低延迟、高带宽利用率和低CPU占用率 。首先,在延迟方面,RDMA通过内核旁路和零拷贝技术,避免了数据在用户空间和内核空间之间的多次拷贝,以及操作系统内核协议栈的处理开销。这使得RDMA的端到端延迟可以达到微秒甚至亚微秒级别。例如,在100Gbps的网络环境下,RoCE v2的端到端延迟可以低至1微秒以内,而传统的TCP/IP协议栈的延迟通常在10-20微秒之间 。这种极低的延迟对于需要快速响应的应用场景,如高频交易和实时数据分析,至关重要。
其次,RDMA能够实现极高的网络带宽利用率。由于数据传输直接在网卡之间进行,绕过了CPU的处理瓶颈,因此可以充分利用高速网络(如100GbE、400GbE甚至800GbE)的带宽。RDMA网卡通常支持大规模并发连接,单个网卡可以支持数百万个活跃的队列对(QP),这使其能够轻松应对微服务、容器化环境等高并发场景的需求 。此外,RDMA的零拷贝特性也减少了内存带宽的消耗,进一步提升了数据传输效率。最后,RDMA显著降低了CPU的负载。在传统网络通信中,CPU需要参与数据打包、解包、校验和协议处理等多个环节,这会占用大量的CPU周期。而RDMA将这些任务完全卸载到网卡硬件上,使得CPU可以从繁重的网络通信任务中解放出来,专注于运行应用程序和处理数据,从而提高了整个系统的计算效率和可扩展性 。
1.3 RDMA技术分类
目前,主流的RDMA技术主要分为三种:InfiniBand、iWARP和RoCE 。这三种技术都旨在实现RDMA的功能,但在协议栈、实现方式和应用场景上有所不同。
InfiniBand 是最早出现的RDMA技术,它采用了一套完整的、独立的网络架构,包括专用的InfiniBand网卡(HCA)和交换机 。InfiniBand协议栈从物理层到传输层都进行了优化,以提供极致的低延迟和高带宽性能。它广泛应用于高性能计算(HPC)领域,尤其是在大型超级计算机集群中。InfiniBand的优势在于其原生支持RDMA,性能卓越,但其缺点是需要部署独立的网络基础设施,成本较高,且与现有的以太网生态系统不兼容 。
iWARP(Internet Wide Area RDMA Protocol)是一种在TCP/IP协议栈上实现RDMA的技术,由IETF标准化 。iWARP通过将RDMA协议封装在TCP报文中,使其可以在标准的以太网基础设施上传输。这种方式的优点是兼容性好,可以利用现有的IP网络进行部署。然而,由于TCP协议本身较为复杂,处理开销较大,导致iWARP的延迟相对较高,通常高于InfiniBand和RoCE 。
RoCE(RDMA over Converged Ethernet)是InfiniBand Trade Association(IBTA)定义的一种在以太网上实现RDMA的技术 。RoCE将InfiniBand的传输层协议直接封装在以太网帧中,从而实现了RDMA功能。RoCE有两个版本:RoCE v1和RoCE v2。RoCE v1基于以太网链路层,只能在同一个广播域内通信。RoCE v2则基于UDP/IP协议,支持三层路由,可以在不同子网之间通信,具有更好的可扩展性 。RoCE结合了InfiniBand的高性能和以太网的普及性,成为现代数据中心中主流的RDMA解决方案 。
| 特性 | InfiniBand | iWARP | RoCE |
|---|---|---|---|
| 协议栈 | 专有协议栈,从物理层到传输层 | 基于TCP/IP协议栈 | 基于以太网,融合InfiniBand传输层 |
| 网络设备 | 专用IB网卡和交换机 | 支持iWARP的网卡,标准以太网交换机 | 支持RoCE的网卡,支持DCB的以太网交换机 |
| 性能 | 最优(最低延迟,最高带宽) | 稍差(受TCP协议影响) | 与InfiniBand相当 |
| 成本 | 高 | 中 | 低 |
| 兼容性 | 差(需独立建网) | 好(兼容现有IP网络) | 好(兼容现有以太网) |
| 部署复杂度 | 高 | 中 | 中(需配置无损网络) |
| 主要应用 | 传统HPC、超算中心 | 广域网RDMA、对兼容性要求高的场景 | 数据中心、云计算、AI、存储 |
2. RoCE技术原理与协议细节
2.1 RoCE概述
RDMA over Converged Ethernet (RoCE) 是一种网络协议,它允许在标准的以太网基础设施上实现远程直接内存访问(RDMA)功能 。RoCE由InfiniBand Trade Association (IBTA) 定义,旨在将InfiniBand协议的高性能特性与以太网的广泛部署和成本效益相结合 。通过RoCE,服务器可以直接访问另一台服务器的内存,而无需经过远程服务器的CPU或操作系统,从而实现超低延迟、高带宽和低CPU开销的数据传输 。RoCE的出现,使得企业无需部署昂贵的专用InfiniBand网络,即可享受到RDMA技术带来的性能优势,因此在现代数据中心、云计算、高性能计算和存储网络等领域得到了广泛应用 。
RoCE协议的核心思想是将InfiniBand的传输层协议和数据包格式封装在以太网帧中进行传输。为了实现这一点,RoCE定义了一套独特的协议栈和数据包格式。RoCE协议栈在传输层及以上与InfiniBand保持一致,但在网络层和链路层则采用了以太网的技术 。这种设计使得RoCE能够充分利用现有的以太网硬件(如网卡和交换机),同时保留了InfiniBand协议的高效数据传输机制。然而,由于传统的以太网是“尽力而为”的网络,存在丢包和拥塞的风险,而RDMA对丢包非常敏感,因此部署RoCE通常需要构建一个无损的以太网环境,通过数据中心桥接(DCB)等技术来保证数据传输的可靠性 。
2.2 RoCE v1与RoCE v2对比
RoCE协议主要有两个版本:RoCE v1和RoCE v2,它们在协议层次、封装方式和网络能力上存在显著差异 。
2.2.1 RoCE v1:基于以太网链路层
RoCE v1是2010年推出的第一个版本,它是一个基于以太网链路层(Layer 2)的协议 。RoCE v1将InfiniBand的数据包直接封装在以太网帧中,并使用一个特定的以太网类型(Ethertype)0x8915来标识RoCE流量 。由于RoCE v1工作在第二层,它只能在同一个以太网广播域(即同一个VLAN)内的主机之间进行通信,无法跨越不同的IP子网 。这种限制使得RoCE v1的部署范围相对较小,主要适用于小规模的、扁平化的二层网络环境。尽管存在这个局限性,RoCE v1的优点是其协议栈相对简单,延迟非常低,因为它不需要经过IP和UDP层的处理 。
2.2.2 RoCE v2:基于UDP/IP,支持路由
为了解决RoCE v1的扩展性问题,IBTA在2014年推出了RoCE v2 。RoCE v2是一个基于UDP/IP协议栈的网络层(Layer 3)协议,因此也被称为“可路由的RoCE”(Routable RoCE, RRoCE) 。RoCE v2在RoCE v1的基础上,增加了一个UDP/IP头部,将InfiniBand的数据包作为UDP的载荷进行封装 。RoCE v2使用一个固定的UDP目的端口号4791来标识RoCE流量 。通过引入IP头部,RoCE v2数据包可以被标准的IP路由器转发,从而能够跨越不同的子网,实现了在三层网络中的大规模部署 。此外,RoCE v2还可以利用UDP源端口号进行哈希,以实现基于流的负载分担(ECMP),提高了网络的利用率和可扩展性 。由于这些优势,RoCE v2已经成为现代数据中心和智算网络中的主流选择 。
| 特性 | RoCE v1 | RoCE v2 |
|---|---|---|
| 协议层次 | 以太网链路层 (Layer 2) | UDP/IP网络层 (Layer 3) |
| 封装方式 | 以太网头部 + IB传输层 | 以太网头部 + IP头部 + UDP头部 + IB传输层 |
| 路由能力 | 不可路由,仅限同一广播域 | 可路由,支持跨子网通信 |
| 标识方式 | Ethertype 0x8915 | UDP目的端口 4791 |
| 主要优势 | 延迟极低 | 可扩展性强,支持大规模部署 |
| 适用场景 | 小规模二层网络 | 大规模三层数据中心网络 |
2.3 RoCE协议栈与数据包格式
RoCE的协议栈设计巧妙地融合了InfiniBand和以太网的技术,其数据包格式也体现了这种混合的特性。
2.3.1 RoCE v2数据包结构解析
RoCE v2的数据包格式是在标准的以太网帧基础上,嵌入了IP、UDP和InfiniBand的头部信息。一个典型的RoCE v2数据包结构如下 :
- 以太网头部 (Ethernet Header) :包含源MAC地址和目的MAC地址,用于在二层网络中寻址。
- VLAN标签 (可选) :用于标识VLAN,实现网络隔离。
- IP头部 (IP Header) :包含源IP地址和目的IP地址,用于在三层网络中路由。
- UDP头部 (UDP Header) :包含源UDP端口和目的UDP端口。目的UDP端口固定为4791,用于标识RoCE v2流量。源UDP端口通常用于携带流标识符,以支持ECMP负载分担 。
- InfiniBand基础传输头 (Base Transport Header, BTH) :这是InfiniBand传输层的核心头部,包含了RDMA操作的关键信息,如操作码(Opcode)、目的队列对号(Dest QP)和包序列号(PSN)等 。
- InfiniBand扩展传输头 (Extended Transport Header, ETH) :根据BTH中的操作码,可能会包含一个或多个扩展传输头,用于携带更详细的操作信息,如远程内存地址、密钥和数据长度等 。
- RDMA有效载荷 (Payload) :即要传输的应用数据。
- 不变CRC (Invariant CRC, ICRC) :对InfiniBand层中在传输过程中保持不变的字段进行校验,用于检测错误 。
- 帧校验序列 (Frame Check Sequence, FCS) :标准的以太网链路层校验码,用于检测整个以太网帧的错误。
这种分层封装的方式,使得RoCE v2数据包在网络上看起来就像一个普通的UDP/IP数据包,能够无缝地与现有的IP网络设备集成,同时又在载荷中保留了InfiniBand高效的RDMA传输语义 。
2.3.2 InfiniBand基础传输头(BTH)详解
InfiniBand基础传输头(BTH)是RoCE数据包中至关重要的部分,它承载了RDMA通信的核心控制信息。BTH的格式和字段定义遵循InfiniBand架构规范,其主要字段包括 :
- 操作码 (Opcode) :一个8位的字段,用于标识RDMA操作的类型。它分为两部分:高3位表示传输服务类型(如可靠连接RC、不可靠连接UC、不可靠数据报UD等),低5位表示具体的操作(如SEND、RDMA WRITE、RDMA READ、ACK等) 。
- 目的队列对号 (Destination QP, Dest QP) :一个24位的字段,用于标识接收端的队列对(QP)。类似于TCP/UDP中的端口号,Dest QP用于将数据包路由到正确的应用程序通道 。
- 包序列号 (Packet Sequence Number, PSN) :一个24位的字段,用于检测数据包的顺序和丢包。发送端为每个发出的数据包分配一个递增的PSN,接收端通过检查PSN的连续性来判断是否发生丢包,并据此请求重传 。
- 分区键 (Partition Key, P_Key) :用于将RDMA网络划分为多个逻辑分区,实现不同应用或租户之间的隔离。在RoCE中,P_Key的功能可以被更现代的虚拟化技术(如VXLAN)所替代 。
- 显式拥塞通知 (Explicit Congestion Notification, ECN) :在RoCE v1中,BTH中包含ECN字段,用于在链路层进行拥塞标记。但在RoCE v2中,这一功能被IP头部的ECN字段所取代 。
BTH之后可能跟着扩展传输头(ETH),其内容取决于具体的RDMA操作。例如,在RDMA WRITE或READ操作中,ETH会包含远程虚拟地址、内存访问密钥(R_Key)和数据长度等信息,这些信息使得发送端能够直接访问接收端指定的内存区域 。
2.4 RoCE地址解析机制
在RoCE网络中,地址解析是实现节点间通信的关键环节。RoCE使用全局标识符(Global Identifier, GID)来唯一标识网络中的每个节点,并通过GID与以太网的MAC地址或IP地址进行关联。
2.4.1 GID与MAC地址的映射关系
GID是一个128位的标识符,类似于IPv6地址,用于在RoCE网络中进行全局寻址 。每个RoCE网卡都维护着一个GID表,其中存储了该网卡的所有GID信息 。GID的生成方式与网卡的地址配置有关,主要有两种模式:
- 基于MAC地址的GID:这种GID是根据网卡的MAC地址生成的。在RoCE v1中,由于通信依赖于二层MAC地址,因此使用基于MAC的GID是常见的做法 。
- 基于IP地址的GID:这种GID是根据网卡配置的IP地址(IPv4或IPv6)生成的。在RoCE v2中,由于通信依赖于IP地址,因此使用基于IP的GID更为普遍 。当网卡的IP地址发生变化时,对应的GID也会自动更新 。
在RoCE通信建立连接时,通信双方需要交换彼此的GID信息。应用程序通过RDMA的Verbs API获取对端的GID,并将其填入地址向量(Address Vector)中。RoCE网卡的驱动程序负责将GID解析为对应的MAC地址或IP地址,以便在以太网中进行数据包的发送和接收 。例如,在Linux系统中,可以使用show_gids命令来查看网卡的GID表,其中会显示每个GID对应的IP地址和RoCE版本(v1或v2) 。在Windows和Linux系统之间进行RoCE通信时,需要确保双方使用相同的GID模式(通常是基于IP的模式),否则可能会导致通信失败 。
3. RoCE性能优化与拥塞控制机制
3.1 无损以太网构建
RDMA协议对网络丢包极为敏感,即使是极低的丢包率也会导致性能急剧下降 。这是因为RDMA的重传机制通常采用回退n步(Go-Back-N)的策略,一旦一个数据包丢失,其后所有已发送的数据包都需要重传,这会严重影响吞吐量和延迟。因此,为RoCE构建一个无损(Lossless)的以太网环境是确保其高性能运行的基础 。无损以太网的核心目标是在网络发生拥塞时,通过流量控制机制来避免数据包的丢弃,而不是像传统以太网那样简单地丢弃数据包。
3.1.1 数据中心桥接(DCB)技术
数据中心桥接(Data Center Bridging, DCB)是一组由IEEE 802.1工作组定义的以太网扩展标准,旨在将传统“尽力而为”的以太网改造为能够提供低丢包、低延迟和可预测带宽的高质量网络,从而满足存储和高性能计算等对网络质量要求苛刻的应用需求 。DCB技术套件是实现无损以太网的关键,它主要包括以下几个核心协议:
- 基于优先级的流量控制 (Priority-based Flow Control, PFC) :PFC是DCB中最核心的技术之一,它允许网络设备在检测到某个优先级的流量发生拥塞时,向上游设备发送一个暂停帧(Pause Frame),请求其暂停发送该优先级的流量,从而避免缓冲区溢出和数据包丢失 。与传统的以太网PAUSE机制(会暂停整个端口的所有流量)不同,PFC是基于优先级的,可以实现对特定流量类型的精细化控制,确保高优先级的RDMA流量不会因为低优先级流量的拥塞而受到影响 。
- 增强型传输选择 (Enhanced Transmission Selection, ETS) :ETS用于在启用了PFC的链路上进行带宽管理。它可以为不同的流量类别(Traffic Class)分配保证的带宽比例,确保即使在拥塞情况下,每种流量类型都能获得其应有的带宽份额,防止某些流量(如无损的RDMA流量)被其他流量“饿死” 。
- 数据中心桥接交换 (Data Center Bridging eXchange, DCBX) :DCBX是一个链路层发现和能力交换协议。它允许交换机和支持DCB的网卡(NIC)之间自动协商和交换DCB的配置信息,如PFC和ETS的设置。通过DCBX,可以实现端到端的DCB配置同步,简化了无损以太网的部署和管理 。
通过部署DCB技术,特别是PFC,可以在以太网中创建一个无损的传输环境,为RoCE的稳定运行提供了基础保障 。
3.1.2 优先流量控制(PFC)机制
优先流量控制(PFC)是实现无损以太网的核心机制,其工作原理类似于IEEE 802.3x的以太网PAUSE机制,但提供了更精细化的控制能力 。PFC允许网络设备(如交换机)在特定优先级的接收队列(Receive Queue)即将发生拥塞时,向上游设备发送一个PFC PAUSE帧。这个PAUSE帧中包含了需要暂停的优先级(Priority)和暂停时间(Pause Time)信息。上游设备在收到PAUSE帧后,会立即停止发送该优先级的数据包,直到暂停时间结束或收到一个恢复(Resume)帧。
PFC的工作流程如下 :
- 流量分类与标记:在RoCE网络中,通常会为RDMA流量分配一个较高的优先级(例如,通过VLAN Priority Code Point, PCP字段进行标记)。
- 拥塞检测:当交换机某个端口的出方向队列(egress queue)中,对应于RDMA优先级的缓冲区占用率超过预设的阈值(XOFF阈值)时,交换机判定该优先级流量发生拥塞。
- 发送PAUSE帧:交换机会向该端口连接的入方向(ingress)的上游设备(通常是服务器网卡)发送一个PFC PAUSE帧,该帧指明了需要暂停的RDMA流量优先级。
- 流量暂停:上游网卡在收到PAUSE帧后,会立即停止从该优先级队列中发送数据包。
- 拥塞缓解与恢复:当交换机的出方向队列占用率下降到另一个预设的阈值(XON阈值)以下时,交换机会再次发送一个PAUSE帧,但这次帧中的暂停时间为0,表示可以恢复发送。上游网卡收到此帧后,便会恢复该优先级流量的发送。
通过这种方式,PFC在链路层实现了基于优先级的逐跳(hop-by-hop)流量控制,有效地防止了因缓冲区溢出导致的数据包丢失,为RoCE提供了无损的传输保障 。然而,PFC也存在一些潜在问题,如可能导致队头阻塞(Head-of-Line Blocking)和PFC风暴,因此通常需要与端到端的拥塞控制机制(如ECN)结合使用,以达到更好的效果 。
3.2 拥塞控制机制
虽然PFC可以在链路层防止丢包,但它是一种被动的、逐跳的流量控制机制,无法从根本上解决网络拥塞问题。为了实现更高效、更主动的网络拥塞管理,RoCE v2引入了端到端的拥塞控制机制,主要包括显式拥塞通知(ECN)和数据中心量化拥塞通知(DCQCN)。
3.2.1 显式拥塞通知(ECN)机制
显式拥塞通知(Explicit Congestion Notification, ECN)是一种在IP层实现的端到端拥塞控制机制,最初在RFC 3168中定义 。ECN允许网络设备(如交换机)在检测到拥塞时,不是直接丢弃数据包,而是在数据包的IP头部进行标记,以通知通信端点网络中发生了拥塞。RoCE v2利用ECN机制来实现主动的拥塞控制,其工作流程如下 :
- ECN能力协商:通信双方在建立连接时,会协商是否启用ECN功能。如果启用,发送端会在发出的IP数据包中设置ECN字段为“10”(表示支持ECN)。
- 拥塞标记:当网络路径上的交换机检测到拥塞(例如,队列长度超过阈值)时,它会将经过的、支持ECN的数据包的IP头部ECN字段修改为“11”(表示遭遇拥塞,Congestion Experienced, CE)。
- 接收端处理:接收端网卡在收到带有CE标记的数据包后,会正常处理该数据包,并生成一个拥塞通知包(Congestion Notification Packet, CNP)。
- 发送CNP:接收端会定期(例如,每毫秒)或在收到一定数量的CE标记包后,向发送端发送一个CNP。CNP是一个特殊的RoCE v2数据包,其IP头部的ECN字段被设置为“01”,表示这是一个拥塞通知,不应被网络设备丢弃 。
- 发送端响应:发送端在收到CNP后,会识别出网络中发生了拥塞,并启动相应的拥塞控制算法(如DCQCN)来降低其发送速率,从而从源头上缓解网络拥塞。
ECN机制与PFC形成了互补。PFC是一种“局部暂停”机制,用于防止丢包;而ECN是一种“全局调速”机制,用于主动预防拥塞的发生和扩散 。在RoCE v2网络中,通常建议同时启用PFC和ECN,以构建一个既无损又高效的通信环境。
3.2.2 数据中心量化拥塞通知(DCQCN)算法
数据中心量化拥塞通知(Data Center Quantized Congestion Notification, DCQCN)是一种专门为RoCE v2设计的端到端拥塞控制算法,它结合了ECN标记和速率限制机制 。DCQCN的目标是在网络拥塞时,能够快速、准确地调整发送端的发送速率,以维持高吞吐量和低延迟。DCQCN算法主要在发送端和接收端的网卡上实现,其基本工作原理如下:
- 速率调整状态机:DCQCN为每个QP(队列对)维护一个速率调整状态机,该状态机有三个状态:快速恢复(Fast Recovery) 、主动增加(Active Increase) 和 超主动增加(Hyper Active Increase) 。
- CNP触发与反馈:当接收端收到ECN标记的数据包时,它会按照一定的概率(由网卡配置决定)向发送端发送CNP。这个概率与拥塞的严重程度相关。
- 发送端响应:
- 速率降低:当发送端收到一个CNP时,它会立即将其发送速率降低一个固定的比例(例如,降低到当前速率的5/6),并进入“快速恢复”状态。如果连续收到CNP,速率会持续降低。
- 速率恢复与探测:在“快速恢复”状态,如果在一段时间内没有收到CNP,发送端会认为拥塞已经缓解,并开始以较小的步长逐渐增加发送速率,以探测可用的带宽。这个过程会持续到速率恢复到拥塞发生前的水平,或者再次收到CNP。
- 主动增加:如果网络长期处于空闲状态,发送端会进入“主动增加”或“超主动增加”状态,以更快的速度增加发送速率,以充分利用网络带宽。
通过DCQCN算法,RoCE网络能够在保证无损传输的同时,实现高效、公平的带宽利用,避免了PFC可能带来的队头阻塞和性能抖动问题,为高性能应用提供了稳定、可靠的网络环境。
3.3 其他性能优化技术
3.3.1 零接触路由(ZTR)技术
零接触路由(Zero-Touch Routing, ZTR)是一种旨在简化RoCE网络部署和管理的技术。传统的RoCE网络配置,特别是涉及PFC、ECN等DCB参数时,通常需要在交换机和服务器网卡上进行复杂的手动配置,不仅耗时,而且容易出错。ZTR技术通过自动化和智能化的手段,实现了网络设备的即插即用。它能够自动发现网络拓扑,协商并下发DCB配置,从而大大简化了RoCE网络的部署过程。例如,一些厂商的解决方案支持通过DCBX协议自动交换和配置PFC、ETS等参数,实现了端到端的配置同步,这可以被视为ZTR理念的一种实现。通过ZTR,网络管理员可以更快地将RoCE网络投入生产,并降低了因配置错误导致网络故障的风险。
3.3.2 SR-IOV虚拟化支持
随着虚拟化和容器化技术的普及,如何在虚拟环境中提供高性能的网络通信成为一个重要课题。单根I/O虚拟化(Single Root I/O Virtualization, SR-IOV)技术为此提供了解决方案。SR-IOV允许一个物理的PCIe设备(如支持RoCE的网卡)被虚拟化为多个独立的虚拟功能(Virtual Function, VF)。每个VF都可以作为一个独立的网络接口,直接分配给虚拟机(VM)或容器使用。通过SR-IOV,虚拟机可以直接访问物理网卡的功能,包括RDMA,从而绕过了虚拟化软件层(Hypervisor)的网络处理瓶颈。这使得虚拟机也能够享受到RoCE带来的超低延迟和高带宽优势,极大地提升了虚拟化环境下的网络性能。SR-IOV的引入,使得RoCE技术能够更好地适应云数据中心和虚拟化应用场景,为构建高性能的虚拟网络提供了坚实的基础。
4. RoCE应用场景与部署案例
4.1 主要应用领域
RoCE(RDMA over Converged Ethernet)技术凭借其低延迟、高带宽和CPU卸载的特性,在多个对网络性能要求极高的领域得到了广泛应用。这些应用场景通常涉及大规模数据处理、实时计算和高频通信,传统网络协议在这些场景下往往成为性能瓶颈。RoCE通过直接内存访问(RDMA)机制,绕过了操作系统内核,实现了数据在服务器间的直接传输,极大地降低了通信延迟和CPU负载,从而显著提升了整体系统性能。从高性能计算集群到云数据中心,再到金融行业的高频交易系统,RoCE都扮演着至关重要的角色,为这些关键业务提供了强大的网络支撑。
4.1.1 高性能计算(HPC)
在高性能计算(HPC)领域,RoCE技术被广泛应用于加速并行计算任务。HPC应用通常涉及大量计算节点之间的紧密协作和数据交换,例如气候模拟、分子动力学建模和天体物理计算等。在这些场景中,节点间的通信效率直接决定了整个计算任务的完成速度。传统的基于TCP/IP的通信方式,由于其较高的协议栈处理开销和延迟,难以满足HPC应用对微秒级延迟的需求。RoCE通过RDMA技术,实现了节点间内存的直接读写,将通信延迟降低至微秒级别,同时大幅减少了CPU在数据收发过程中的参与度,使其能够专注于计算任务本身。例如,在运行WRF(Weather Research and Forecasting)和LAMMPS(Large-scale Atomic/Molecular Massively Parallel Simulator)等典型HPC应用时,采用RoCE网络的集群相比传统以太网,能够显著缩短并行计算时间,提升整体计算效率 。尽管在某些测试中,国产RoCE网卡的性能相比国际顶级产品(如Mellanox)有约10%的差距,但其依然为构建高性价比的HPC集群提供了可行的解决方案 。
4.1.2 数据中心与云计算
在现代数据中心和云计算环境中,RoCE技术正成为构建高性能、低延迟网络的核心技术之一。随着人工智能(AI)、大数据分析和虚拟化技术的普及,数据中心内部的流量模式发生了巨大变化,东西向流量(服务器之间的通信)占据了主导地位,并且对网络延迟和带宽提出了前所未有的要求。RoCE技术能够显著提升虚拟机(VM)之间的通信效率,加速分布式存储系统中的数据读写,并优化容器化应用的网络性能。例如,在AI大模型训练和推理场景中,RoCE能够将GPU集群间的通信延迟压缩至2-5微秒,极大地提升了模型训练的效率和吞吐量 。腾讯云在其高性能服务器集群中部署了基于RoCEv2的网络架构,用于支持千亿级参数模型的分布式推理,实测结果显示,其推理延迟相比传统的InfiniBand网络降低了30%,展现了RoCE在AI应用中的巨大潜力 。此外,RoCE还被用于加速数据中心内的存储网络,通过NVMe over RoCE技术,实现了对高性能NVMe SSD的远程高效访问,为云存储服务提供了强大的性能保障 。
4.1.3 金融行业高频交易
金融行业,特别是高频交易(HFT)领域,对网络延迟的要求达到了极致。在毫秒甚至微秒级别就能决定盈亏的交易环境中,任何微小的延迟都可能导致巨大的经济损失。RoCE技术凭借其超低延迟的特性,成为构建高频交易系统的理想选择。通过RDMA机制,交易指令和市场数据可以在交易服务器之间以最快的速度传输,绕过了传统网络协议栈带来的延迟。例如,中国工商银行在其新一代高性能存储网络建设中,就选用了基于RoCE的技术路线,以满足金融业务对高可用、低延迟存储访问的严苛要求 。中国银行也成功部署了业界首个基于RoCE-SAN的新一代智能无损存储网络,用于支撑其核心生产系统,实现了智能缓存管理、逐流精准控速和故障秒级切换等技术创新,显著提升了系统的稳定性和性能 。这些实践案例表明,RoCE技术不仅满足了金融行业对极致性能的追求,同时也提供了高可靠性和安全性保障,为金融业务的数字化转型提供了坚实的技术基础。
4.1.4 存储网络(NVMe over RoCE)
在存储网络领域,RoCE技术与NVMe(Non-Volatile Memory Express)协议的结合,催生了NVMe over RoCE(简称NVMe-oF over RoCE)这一高性能存储网络解决方案。传统的存储网络,如基于FC(Fibre Channel)的SAN(Storage Area Network),虽然稳定可靠,但存在成本高、扩展性差、协议栈复杂等问题。NVMe over RoCE通过标准的以太网基础设施,实现了对远程NVMe SSD的低延迟、高带宽访问,为数据中心提供了更具性价比和灵活性的存储网络方案。国内多家厂商,如华为、宏杉科技等,都推出了支持NVMe over RoCE的存储产品和解决方案 。例如,宏杉科技为中国移动提供的全闪存存储解决方案,就采用了基于国产X86平台的NVMe over RoCE组网,不仅实现了对FC SAN的国产化替代,还在IOPS性能、访问延迟和网络管理等方面展现出明显优势 。中国工商银行、中国银行等金融行业的头部用户,也率先基于NVMe over RoCE技术进行了高性能存储网络的转型,有效缓解了骨干网流量压力,并降低了整体拥有成本 。
4.2 实际部署案例分析
RoCE技术的价值不仅体现在其理论性能优势上,更在于其在各行各业的实际部署中取得的显著成效。通过分析具体的部署案例,我们可以更深入地理解RoCE在解决实际业务问题、提升系统性能和降低运营成本方面的作用。从金融行业的核心交易系统,到电信运营商的大规模数据中心,再到信创领域的国产化替代,RoCE都展现出了强大的生命力和广阔的应用前景。这些案例不仅为其他企业提供了宝贵的实践经验,也推动了RoCE技术的不断成熟和完善。
4.2.1 中国工商银行高性能存储网络转型
中国工商银行作为国内金融行业的领军者,率先启动了高性能存储网络的转型工作。面对日益增长的数据量和业务对实时性的高要求,传统的存储网络架构逐渐暴露出瓶颈。经过深入的技术调研和评估,工商银行最终选定NVMe over RoCE技术作为其新一代高性能存储网络的技术路线 。该行成功构建了基于RoCE-SAN的“多地多中心”高可用架构,并进入了规模化推广应用阶段。这一转型带来了多方面的收益:首先,通过采用开放的以太网标准和RoCE协议,摆脱了对专有FC网络的依赖,实现了硬件的解耦和供应链的多样化,有效降低了“卡脖子”的风险 。其次,RoCE网络的高带宽和低延迟特性,极大地提升了存储系统的I/O性能,满足了核心业务系统对数据访问的严苛要求。最后,该架构的部署有效缓解了金融广域骨干网的流量压力,并通过采用更通用的以太网设备,降低了网络建设和运维的总体成本 。工商银行的这一实践,为金融行业构建新一代高性能、高可靠、低成本的数据中心网络提供了重要的参考和借鉴。
4.2.2 中国移动数据中心应用
作为国内最大的电信运营商之一,中国移动在其数据中心和云计算基础设施的建设中,也积极拥抱RoCE技术。随着5G、AI和大数据等业务的快速发展,中国移动对数据中心的网络性能提出了更高的要求。为了应对这些挑战,中国移动与是德科技等合作伙伴共同推进以太无损网络(RoCE)测试方案的开发与标准化工作 。通过合作,双方旨在提高RoCE性能的测试效率和可靠性,为RoCE技术在数据中心的规模部署提供技术保障。此外,中国移动在其智算中心网络解决方案中,也明确提出了基于400G端到端高性能RoCE无损网络的构建目标 。中兴通讯为中国移动提供的智算网络解决方案,就包含了基于自研芯片的400G RoCE网卡和交换机,旨在为AI算力提供强大的网络引擎 。这些举措表明,中国移动正积极将RoCE技术融入其算力基础设施的建设中,以满足未来业务发展对网络性能的极致需求。
4.2.3 信创领域的应用实践
在信息技术应用创新(信创)的大背景下,RoCE技术凭借其开放性和基于标准以太网的优势,成为实现网络基础设施国产化替代的重要技术路径。传统的SAN网络,特别是基于FC协议的存储网络,长期以来一直被国外厂商垄断,存在供应链安全和“卡脖子”的风险。RoCE组网方案以标准的IP协议取代了专有的FC协议,为构建自主可控的存储网络提供了可能 。国内众多厂商,如华为、新华三、锐捷网络等,都已经能够提供成熟的国产以太网交换机和RoCE解决方案 。在网卡层面,虽然高端市场仍由Intel、Mellanox等国际厂商主导,但华为等国内厂商也已推出支持RoCE v2的自研网卡产品,并且在信创场景下,这些非国产品牌的网卡也普遍被接受和使用 。在存储端,华为OceanStor、宏杉科技等国内厂商的高端存储产品也已支持NVMe over RoCE 。这些国产化的RoCE解决方案,不仅在技术上实现了对国外产品的替代,更在金融、电信等关键行业得到了成功应用,为信创产业的发展注入了强大的动力。
5. RoCE与其他RDMA技术对比
远程直接内存访问(RDMA)技术旨在通过网络实现服务器间内存的直接读写,从而绕过CPU和操作系统内核,达到降低延迟、提升吞吐量和解放CPU资源的目的。目前,主流的RDMA技术实现主要有三种:InfiniBand、iWARP(Internet Wide Area RDMA Protocol)和RoCE(RDMA over Converged Ethernet)。这三种技术各有其技术架构、性能特点、成本考量和生态系统,适用于不同的应用场景。对它们进行深入比较,有助于用户根据自身业务需求、现有网络基础设施和预算,做出最合适的技术选型。
5.1 RoCE与InfiniBand对比
RoCE和InfiniBand是当前高性能计算和数据中心领域两种最主要的RDMA技术。InfiniBand作为一种专为高性能计算设计的网络技术,长期以来在HPC领域占据着主导地位。而RoCE则依托于无处不在的以太网生态系统,近年来发展迅速,尤其是在云数据中心和AI应用中,展现出强大的竞争力。
5.1.1 协议栈层级与性能差异
InfiniBand和RoCE在协议栈层级上存在本质区别。InfiniBand定义了一整套从物理层到应用层的完整网络协议栈,其设计初衷就是为了实现极致的低延迟和高带宽。它采用基于信用的流控机制,从根本上避免了网络拥塞和数据包丢失,从而保证了数据传输的可靠性。相比之下,RoCE则是将RDMA技术“嫁接”到以太网之上。RoCE v1工作在以太网链路层,无法跨网段路由;而RoCE v2则基于UDP/IP协议,实现了三层路由能力,使其能够部署在更复杂的数据中心网络中 。在性能方面,InfiniBand由于其专用的协议栈和硬件实现,通常在延迟和吞吐量上略优于RoCE。例如,在AI训练场景中,InfiniBand能够支持更大规模的GPU集群(如万卡级别)且保证整体性能不下降,其时延也通常小于RoCE v2 。然而,随着以太网技术的不断进步,特别是400G、800G甚至更高速率的普及,以及RoCE拥塞控制机制(如DCQCN)的成熟,RoCE与InfiniBand之间的性能差距正在不断缩小。在某些场景下,经过优化的RoCE网络甚至能提供与InfiniBand相媲美的性能 。
5.1.2 成本与部署复杂度
成本和部署复杂度是用户在选择网络技术时非常关注的因素。InfiniBand作为一种专有技术,其设备(如交换机、网卡)的价格通常远高于同等级别的以太网设备。此外,InfiniBand网络的部署和维护需要专业的技术人员,其网络管理工具也与主流的以太网管理工具不兼容,这增加了运维的复杂性和成本。相比之下,RoCE的最大优势之一就是其能够复用现有的以太网基础设施。用户可以在现有的数据中心网络中,通过升级网卡和交换机固件的方式,平滑地引入RoCE技术,从而大大降低了部署成本和复杂度 。以太网设备市场竞争充分,供应商众多,这也使得RoCE的整体拥有成本(TCO)远低于InfiniBand。因此,对于那些对成本敏感,或者希望在现有以太网基础上进行性能提升的用户来说,RoCE无疑是一个更具吸引力的选择。
5.1.3 生态系统与市场占有率
生态系统是决定一项技术能否长期发展的关键因素。InfiniBand的生态系统相对封闭,主要由NVIDIA(通过收购Mellanox)主导,其市场份额超过70% 。虽然InfiniBand在高性能计算领域拥有深厚的根基和广泛的应用,但其封闭性也限制了其向更广泛的市场扩展。相比之下,RoCE依托于庞大的以太网生态系统,拥有更广泛的支持者。几乎所有主流的网络设备厂商,如思科、Arista、华为、新华三等,都提供支持RoCE的交换机和路由器产品 。在网卡端,除了NVIDIA和Intel等传统巨头,还涌现出如云脉芯联等专注于RDMA技术的新兴厂商,为用户提供了丰富的选择 。近年来,随着AI和云计算的兴起,RoCE的市场占有率正在快速提升。根据Dell’Oro Group的预测,到2027年,以太网将超越InfiniBand,成为AI后端网络中的主流技术 。超以太网联盟(UEC)的成立,以及英伟达等InfiniBand领域的领导者也加入其中,共同推动基于以太网的AI网络解决方案,进一步加速了RoCE生态系统的壮大 。
5.2 RoCE与iWARP对比
RoCE和iWARP都是基于以太网的RDMA技术,但它们在协议栈的实现方式上存在显著差异,这导致了它们在性能、兼容性和市场定位上的不同。
5.2.1 协议栈与实现方式
RoCE和iWARP最核心的区别在于它们所依赖的传输层协议。RoCE v2直接封装在UDP/IP协议之上,绕过了复杂的TCP协议栈,从而实现了更低的延迟和更小的协议处理开销 。而iWARP则是将RDMA操作封装在TCP协议之上,利用TCP的可靠传输机制来保证数据的正确性和顺序。这种设计使得iWARP能够更好地兼容现有的、可能存在丢包和延迟变化的广域网(WAN)环境。然而,TCP协议栈本身较为复杂,其拥塞控制和流量控制机制会引入额外的延迟,这在一定程度上抵消了RDMA带来的性能优势。相比之下,RoCE v2的设计更侧重于在数据中心这种低丢包、低延迟的局域网(LAN)环境中提供极致的性能。为了实现无损传输,RoCE网络通常需要配合PFC(Priority Flow Control)和ECN(Explicit Congestion Notification)等以太网扩展技术来避免网络拥塞和数据包丢失 。
5.2.2 性能与兼容性
由于协议栈的差异,RoCE和iWARP在性能表现上有所不同。在数据中心这种理想的网络环境下,RoCE通常能提供比iWARP更低的延迟和更高的吞吐量,这得益于其更轻量级的UDP封装和对以太网硬件的直接利用。而在不稳定的广域网环境中,iWARP基于TCP的可靠传输机制则更具优势,能够保证数据的完整性和顺序。在兼容性方面,iWARP由于基于标准的TCP/IP协议,理论上可以部署在任何支持TCP/IP的网络中,对网络设备的要求较低。而RoCE则需要网络交换机支持DCB(Data Center Bridging)等扩展功能,以实现无损以太网,这在一定程度上限制了其部署范围。然而,随着现代数据中心交换机对DCB功能的普遍支持,这一限制正在逐渐减弱。在市场定位上,RoCE主要面向对性能要求极高的数据中心应用,如AI训练、高性能计算和分布式存储。而iWARP则更多地被应用于需要跨越广域网的场景,或者那些希望在现有以太网基础上进行简单升级的用户。
5.3 技术选型考量
在选择RDMA技术时,需要综合考虑性能、成本、现有网络基础设施、应用场景和未来扩展性等多个因素。下表对三种主流RDMA技术进行了总结对比,可作为技术选型的参考。
| 考量维度 | InfiniBand | RoCE v2 | iWARP |
|---|---|---|---|
| 性能 | 最优:延迟最低,带宽最高,原生无损 | 优秀:延迟极低,带宽高,性能接近InfiniBand | 良好:延迟和带宽低于RoCE,受TCP协议影响 |
| 成本 | 最高:专用硬件昂贵,运维成本高 | 中等:可利用现有以太网,硬件成本较低 | 中等:标准以太网网卡即可,但TCP卸载可能增加成本 |
| 部署复杂度 | 高:需要独立建网,专业技术要求高 | 中等:需配置DCB(PFC/ECN),但可复用现有网络 | 低:基于标准TCP/IP,部署简单 |
| 可扩展性 | 高:专为大规模HPC设计 | 高:支持三层路由,适用于大规模数据中心 | 中:受TCP连接数和性能限制 |
| 生态系统 | 封闭:主要由NVIDIA主导 | 开放:以太网生态庞大,多厂商支持 | 较小:主要由Intel等少数厂商推动 |
| 适用场景 | 超算中心、大型AI训练集群(万卡级) | 云数据中心、AI、分布式存储、HPC | 广域网RDMA、对兼容性要求高的企业应用 |
结论:
- 如果追求极致性能,且预算充足,应用场景是大型HPC或AI集群,InfiniBand是首选。
- 如果希望在性能和成本之间取得平衡,并且数据中心基于以太网构建,RoCE v2是当前最主流和最具性价比的选择,尤其适合AI、云计算和存储等场景。
- 如果需要利用现有IP网络进行长距离RDMA通信,或者对部署简单性要求极高,iWARP是一个可行的选项,但性能上会有所妥协。
6. RoCE市场趋势与主要厂商方案
随着人工智能、大数据和云计算等技术的蓬勃发展,数据中心对网络性能的需求达到了前所未有的高度。RoCE技术凭借其低延迟、高带宽和CPU卸载的优势,正成为构建新一代高性能数据中心网络的核心技术之一。全球及中国市场对RoCE的需求持续增长,推动了相关产品和解决方案的快速迭代与创新。同时,在信创(信息技术应用创新)的大背景下,国产RoCE厂商也迎来了重要的发展机遇。
6.1 市场发展趋势
RoCE市场正处于高速增长阶段,其发展受到多方面因素的驱动,包括技术演进、应用需求和市场格局的变化。未来几年,RoCE有望在更多领域取代传统的网络技术,成为数据中心的主流选择。
6.1.1 全球市场增长预测
全球市场对RoCE的需求正在快速增长。根据市场研究公司Dell’Oro Group的预测,在2025年至2029年间,仅用于加速服务器的AI后端网络中的交换机支出就将超过1000亿美元 。在这一巨大的市场中,以太网正凭借其开放的生态和不断优化的性能,逐渐挑战InfiniBand的主导地位。越来越多的大规模AI集群,包括一些基于英伟达GPU的大型集群,也开始选择以太网作为主要架构 。Dell’Oro Group预计,到2027年,以太网将超越InfiniBand,成为AI后端网络的主流技术 。这一趋势的背后,是超以太网联盟(UEC)等行业组织的推动,以及博通、英伟达、Meta、微软等产业链巨头的共同努力,他们致力于构建一套完整的、面向AI计算的高性能以太网解决方案 。
6.1.2 中国市场发展动态
中国市场对RoCE技术的需求同样旺盛,尤其是在AI算力、数据中心和信创等领域。随着国内AI大模型的快速发展,对高性能计算集群的需求激增,这直接带动了对RoCE网络的需求。国内主要的电信运营商,如中国移动、中国电信和中国联通,在2024年都进行了大规模的AI服务器及配套网络设备的集采,其中就包括了大量的RoCE交换机 。例如,中国联通在2024年的人工智能服务器集采中,明确采购了688台关键组网设备RoCE交换机,总金额达20亿元左右 。此外,国内的互联网巨头,如百度、阿里巴巴和腾讯,也在持续加大对云基础设施,特别是AI基础设施的投资,进一步推动了RoCE市场的增长 。根据预测,到2027年,RoCE将凭借其以太网生态优势,成为中国市场的主流技术 。
6.1.3 信创背景下的国产化进程
在信创(信息技术应用创新)的大背景下,实现网络基础设施的自主可控成为国家战略。传统的FC SAN网络长期被国外厂商垄断,存在供应链安全风险。RoCE技术基于开放的以太网标准,为构建国产化的存储和网络解决方案提供了理想的技术路径 。国内厂商在RoCE领域积极布局,已经形成了较为完整的产业链。在交换机层面,华为、新华三、锐捷网络等厂商已经能够提供成熟的国产替代方案 。在网卡层面,虽然高端市场仍由国际厂商主导,但华为等国内厂商也已推出自研产品,并且在信创场景下,国际主流网卡也被广泛接受和使用 。在存储层面,华为、宏杉科技等厂商的高端存储产品也已支持NVMe over RoCE 。这些国产化的RoCE解决方案,不仅在技术上实现了对国外产品的替代,更在金融、电信等关键行业得到了成功应用,有力地推动了信创产业的发展 。
6.2 主要厂商与解决方案
RoCE市场的繁荣吸引了众多厂商的参与,形成了多元化的竞争格局。这些厂商在硬件产品、软件支持、解决方案和生态系统等方面各具特色,为用户提供了丰富的选择。
6.2.1 全球主要厂商
全球范围内,NVIDIA(Mellanox)、Intel和Broadcom等厂商在RoCE领域占据领先地位,他们凭借深厚的技术积累和强大的市场影响力,主导着全球RoCE市场。
6.2.1.1 NVIDIA(Mellanox)
NVIDIA通过收购Mellanox,成为了RDMA技术领域的绝对领导者。其ConnectX系列网卡是业界公认的高性能RDMA解决方案,广泛支持InfiniBand和RoCE协议。在RoCE市场,NVIDIA不仅提供高性能的网卡产品,还推出了Spectrum系列以太网交换机,构建了从端到端的完整RoCE网络解决方案。其产品线覆盖了从25G到400G的各种速率,能够满足不同规模和应用场景的需求。NVIDIA的优势在于其强大的软硬件协同优化能力,通过其DOCA(Data Center on a Chip Architecture)软件框架,用户可以方便地开发和部署各种网络应用,充分发挥其硬件的性能潜力。此外,NVIDIA还积极推动RoCE技术的标准化和生态建设,是超以太网联盟(UEC)的重要成员 。
6.2.1.2 Intel
Intel作为以太网领域的传统巨头,其以太网控制器和网卡产品在市场上拥有广泛的用户基础。Intel的以太网产品,如E810系列,原生支持RoCE v2协议,为用户提供了高性能的RDMA解决方案。Intel的优势在于其强大的生态整合能力,其网卡产品与自家的CPU、芯片组以及各种软件解决方案(如DPDK、SPDK)深度集成,能够为用户提供端到端的优化方案。Intel还积极参与开源社区和标准组织的工作,推动RoCE技术的普及和发展。在市场策略上,Intel主要面向数据中心、云计算和高性能计算等领域,与各大OEM厂商和云服务提供商建立了紧密的合作关系。
6.2.1.3 Broadcom
Broadcom是全球领先的有线和无线通信半导体公司,在RoCE领域也拥有深厚的技术积累和丰富的产品组合。Broadcom的RoCE产品线涵盖了控制器、适配器、网卡和交换机等多个方面,其产品以高性能、高可靠性和高集成度而著称 。近期,Broadcom基于其第四代RoCE技术,推出了单端口400GbE的以太网适配器N1400GD和网卡P1400GD,主要面向AI、云计算、高性能计算和存储等应用 。Broadcom的优势在于其强大的芯片设计能力和广泛的客户基础,其产品被众多网络设备制造商和服务器厂商所采用。
6.2.2 中国主要厂商
在中国市场,华为、新华三等传统网络设备巨头,以及云脉芯联等新兴厂商,都在积极布局RoCE市场,并推出了各具特色的产品和解决方案。
6.2.2.1 华为
华为是中国RoCE市场的领导者之一,其产品和解决方案覆盖了从网卡、交换机到存储的完整产业链。华为的CloudEngine系列数据中心交换机全面支持RoCE功能,并提供了智能无损网络(iLossless)解决方案,通过AI算法动态调整网络参数,实现网络拥塞的智能预测和主动规避。在网卡方面,华为自研的昇腾(Ascend)AI芯片和Atlas系列加速卡,都集成了高性能的RoCE v2接口,为构建AI集群提供了强大的算力和网络连接 。在存储方面,其OceanStor系列高端全闪存存储也支持NVMe over RoCE,为金融行业等关键应用提供了高性能的存储解决方案 。
6.2.2.2 新华三(H3C)
新华三(H3C)作为国内领先的网络设备厂商,在RoCE领域也拥有强大的实力。其S12500系列核心交换机和S6800系列接入交换机都支持RoCE功能,并提供了完整的智能无损网络解决方案。新华三的优势在于其深厚的技术积累和广泛的市场覆盖,其产品和解决方案在政府、金融、教育、企业等各个行业都有广泛的应用。新华三还积极参与RoCE相关的标准制定和生态建设,与产业链上下游厂商紧密合作,共同推动RoCE技术的发展。
6.2.2.3 云脉芯联等新兴厂商
除了传统巨头,中国还涌现出一批专注于RDMA技术的新兴厂商,如云脉芯联。这些厂商通常聚焦于特定的细分市场,通过技术创新提供差异化的产品和解决方案。例如,云脉芯联推出了面向AI和云计算的metaConnect和metaScale系列智能网卡,支持从25G到400G的各种速率,并提供了多路径负载均衡、乱序重排、可编程拥塞控制等高级功能,旨在提升AI计算和存储网络的通信效率 。这些新兴厂商的崛起,为中国RoCE市场注入了新的活力,也为用户提供了更多样化的选择。
6.3 生态系统与标准化进展
一个健康的生态系统是技术持续发展的关键。RoCE技术的成功,离不开其背后强大的生态系统支持,包括标准组织、开源社区和产业链上下游的协同合作。
在标准化方面,InfiniBand Trade Association(IBTA)负责定义和维护RoCE协议标准。此外,IEEE、IETF等标准组织也在推动与RoCE相关的以太网扩展技术(如PFC、ECN)的标准化工作。近年来成立的超以太网联盟(UEC),更是汇聚了全球顶尖的科技公司,旨在共同构建一套超越现有以太网功能的、面向HPC和AI计算的高性能传输层协议,RoCE是其重要的技术基础之一 。
在开源社区方面,Linux内核已经原生支持RoCE协议,并提供了丰富的驱动程序和工具。DPDK(Data Plane Development Kit)、SPDK(Storage Performance Development Kit)等开源项目,也为基于RoCE的高性能网络应用开发提供了强大的支持。
在产业链方面,从芯片、网卡、交换机到存储和软件,RoCE已经形成了完整的产业生态。各大厂商之间的紧密合作,以及对开源社区的积极参与,共同推动了RoCE技术的快速发展和广泛应用。