Ultra Ethernet erklärt – Grundlagen, Einsatzbereiche und Praxisbeispiel

RoCEv2 nutzt Standard-IP-Netzwerke. Du musst keine spezielle Netzwerk-Hardware kaufen, sondern kannst deine bestehende Ethernet-Infrastruktur weiterverwenden.

💡 Wichtige Hinweise: Dieser Artikel ist ein Anfänger-Artikel, der dir Ultra Ethernet von Grund auf erklärt.  Du lernst hier die technischen Grundlagen, verstehst die Unterschiede zu Standard-Ethernet und erfährst, wann und warum Ultra Ethernet in modernen IT-Umgebungen zum Einsatz kommt. Dabei gehen wir praxisnah vor und zeigen dir konkrete Beispiele aus der Linux-Administration.

Operation	Wofür gut?	Beispiel-Anwendung
Send/Receive	Nachrichten	Chat-Programme, E-Mail
Write	Große Dateien	Backup, Datenreplikation
Read	Datenabfrage	Datenbank-Abfragen
Atomic	Synchronisation	Verteilte Berechnungen

Anwendungstyp	Standard-Ethernet	Ultra Ethernet	Verbesserung	Auswirkung
Ping (ICMP)	50-200 μs	5-15 μs	90% schneller	Bessere Diagnostik
Datenbank-Abfrage	500-2000 μs	50-200 μs	80% schneller	Flüssigere Anwendungen
Storage-Zugriff	1000-5000 μs	100-500 μs	90% schneller	Schnellere Dateizugriffe
RDMA-Write	N/A	1-3 μs	Nicht verfügbar	Neue Möglichkeiten
RDMA-Read	N/A	2-5 μs	Nicht verfügbar	Verteilte Datenstrukturen
VM-zu-VM	200-800 μs	20-80 μs	90% schneller	Bessere Virtualisierung

Paketgröße	Standard-Ethernet	Ultra Ethernet	Verbesserung
64 Byte	1,2 Mpps	14,8 Mpps	1133%
128 Byte	2,1 Mpps	11,8 Mpps	462%
256 Byte	3,8 Mpps	9,7 Mpps	155%
512 Byte	6,2 Mpps	8,9 Mpps	43%
1024 Byte	8,1 Mpps	9,2 Mpps	14%
1518 Byte	8,8 Mpps	9,6 Mpps	9%

Paketgröße	Standard-Ethernet	Ultra Ethernet	Verbesserung
1518 Byte	6,8 Gbps	9,6 Gbps	41%
4096 Byte	8,2 Gbps	9,8 Gbps	20%
8192 Byte	8,8 Gbps	9,9 Gbps	13%
64KB (TSO)	9,1 Gbps	9,95 Gbps	9%

Eigenschaft	Standard-Ethernet	Ultra Ethernet	InfiniBand
Latenz	10-100 μs	1-10 μs	0,5-3 μs
Durchsatz	60-80% der Nennleistung	90-98% der Nennleistung	95-99% der Nennleistung
CPU-Overhead	30-80%	5-20%	2-10%
Protokoll	TCP/IP	TCP/IP + RDMA	InfiniBand Verbs
Hardware-Kosten	Niedrig	Mittel	Hoch
Betriebskosten	Niedrig	Mittel	Hoch
Lernkurve	Niedrig	Mittel	Hoch
Vendor-Lock-in	Gering	Gering	Mittel bis hoch
Skalierbarkeit	Gut	Sehr gut	Exzellent
Anwendungsänderungen	Keine	Teilweise	Meist erforderlich

Komponente	Standard-Ethernet	Ultra Ethernet	InfiniBand
NIC (25G)	200-400€	800-1500€	1200-2500€
Switch (48-Port)	3000-8000€	15000-35000€	25000-60000€
Kabel (3m)	20-50€	100-200€	150-300€
Software-Stack	Kostenlos	Kostenlos	Lizenzgebühren möglich

Faktor	Standard-Ethernet	Ultra Ethernet	InfiniBand
Stromverbrauch	100%	70-80%	60-70%
Personalschulung	Niedrig	Mittel	Hoch
Wartungsaufwand	Gering	Mittel	Hoch
Ersatzteile	Günstig	Mittel	Teuer

Metrik	Standard-Ethernet	Ultra Ethernet	InfiniBand
Random 4K Read IOPS	50.000	180.000	250.000
Sequential Read	800 MB/s	1.200 MB/s	1.400 MB/s
Storage Latency	2-8 ms	0,5-2 ms	0,2-1 ms

Aspekt	Standard-Ethernet	Ultra Ethernet	InfiniBand
Konfiguration	Einfach	Mittel	Komplex
Monitoring	Standard-Tools	Erweiterte Tools	Spezial-Tools
Troubleshooting	Gut dokumentiert	Lernkurve	Expertenwissen
Automatisierung	Vollständig	Teilweise	Eingeschränkt

Technologie	Idle Power	Active Power	Effizienz
Standard-Ethernet	15W	25W	0,4 Gbps/W
Ultra Ethernet	12W	18W	0,55 Gbps/W
InfiniBand	18W	22W	0,45 Gbps/W

Sektor	Standard-Ethernet	Ultra Ethernet	InfiniBand
Web-Services	95%	5%	0%
Databases	70%	25%	5%
HPC	20%	30%	50%
AI/ML	40%	45%	15%
Financial Trading	30%	50%	20%

Kostenfaktor	Gewichtung	Standard-Ethernet	Ultra Ethernet	InfiniBand
Hardware	30%	1.0	3.0	5.0
Software	10%	1.0	1.2	2.0
Betrieb	25%	1.0	1.5	3.0
Schulung	15%	1.0	2.0	4.0
Wartung	20%	1.0	1.5	3.5
Gewichtete Gesamtkosten	100%	1.0	1.9	3.6

Anwendungsbereich	Latenz-Anforderung	Durchsatz-Anforderung	Kommunikations-Pattern	Skalierungsverhalten
Klimamodellierung	< 5 μs	> 50 GB/s	All-to-All	Schwach skalierend
Crash-Simulation	< 3 μs	> 80 GB/s	Neighbor-to-Neighbor	Stark skalierend
Molekulardynamik	< 2 μs	> 100 GB/s	Many-to-Many	Mäßig skalierend
Öl-/Gas-Exploration	< 4 μs	> 60 GB/s	Point-to-Point	Stark skalierend
Wettervorhersage	< 6 μs	> 40 GB/s	Broadcast/Reduce	Schwach skalierend

ML-Modell	Parameter-Größe	Gradient-Größe	Kommunikations-Frequenz	Bandbreiten-Anforderung
BERT-Base	110M	440 MB	Jede 100 ms	4,4 GB/s
BERT-Large	340M	1,36 GB	Jede 150 ms	9,1 GB/s
GPT-2	1,5B	6 GB	Jede 200 ms	30 GB/s
GPT-3	175B	700 GB	Jede 500 ms	1400 GB/s
T5-11B	11B	44 GB	Jede 300 ms	147 GB/s

Kriterium	Gewichtung	HPC	ML/AI	Cloud	Storage	Database
Latenz-Sensitivität	25%	9/10	8/10	6/10	7/10	8/10
Kommunikations-Intensität	20%	9/10	9/10	7/10	8/10	7/10
Skalierbarkeit	15%	8/10	8/10	9/10	8/10	6/10
ROI-Potenzial	20%	9/10	8/10	7/10	8/10	8/10
Implementierungs-Aufwand	10%	6/10	7/10	5/10	6/10	7/10
Zukunftssicherheit	10%	8/10	9/10	8/10	7/10	7/10
Gewichtete Gesamtbewertung	100%	8,4/10	8,2/10	6,9/10	7,6/10	7,4/10

Begriff	Kurze, praxisnahe Erklärung
Ultra Ethernet	Weiterentwickeltes Ethernet mit RDMA-Support, optimierten Protokollen und sehr niedriger Latenz (`1–10 µs`).
Standard-Ethernet	Klassisches IEEE-802.3-Netz, arbeitet primär mit TCP/IP, Latenz `10–100 µs.`
InfiniBand	Hochperformantes Fabric-Netz für HPC-Cluster, Sub-µs-Latenz, proprietärer Stack.
RDMA	„Remote Direct Memory Access“ – Netzwerkkarte greift direkt auf den RAM des Zielsystems zu; CPU-Entlastung und Zero-Copy.
RoCEv2	„RDMA over Converged Ethernet v2“ – RDMA-Pakete in UDP/IP gekapselt, layer-3-routing-fähig.
UET	„Ultra Ethernet Transport“ – TCP-Ersatz mit schneller Congestion Control und Multipath-Fähigkeit.
LLR	„Link Level Retry“ – Frame-Wiederholung auf Link-Ebene, Fehlerkorrektur in Mikrosekunden.
QoS	„Quality of Service“ – Priorisierung und Bandbreitengarantien für verschiedene Traffic-Klassen.
MPI	„Message Passing Interface“ – Standard-API für Prozess-Kommunikation in HPC-Programmen.
AllReduce	Kollektive MPI-Operation: alle Knoten summieren Daten und verteilen das Ergebnis.
Ring-AllReduce	AllReduce-Variante in Ring-Topologie, nutzt Bandbreite aller Links optimal aus.
Parameter Server	Zentrales Modell-Repository im Distributed-ML; sammelt Gradienten, verteilt Gewichte.
HPC	„High-Performance Computing“ – paralleles Rechnen auf Clustern für Wissenschaft und Ingenieurwesen.
CFD	„Computational Fluid Dynamics“ – Strömungssimulation, sehr kommunikationsintensiv.
GROMACS	Open-Source-Software für Molekulardynamik-Simulationen, stark MPI-lastig.
BERT / GPT	Sprachmodelle (NLP); große Parametermengen, hohe Netzwerk-Last beim Training.
NCCL	NVIDIA-Bibliothek für schnelle GPU-zu-GPU-Kommunikation (AllReduce etc.).
Horovod	Open-Source-Framework, integriert NCCL/MPI in TensorFlow, PyTorch u. a. für verteiltes Training.
Ceph	Verteiltes Objekt- und Block-Storage-System; repliziert Daten über das Netzwerk.
GlusterFS	Scale-out-Dateisystem; verteilt und repliziert Files per TCP/RDMA.
WAL	„Write-Ahead Log“ – Änderungsprotokoll in Datenbanken (z. B. PostgreSQL) für Replikation.
IOPS	„Input/Output Operations Per Second“ – Kennzahl für Storage-Performance.
P99-Latenz	99-Perzentil; 99% aller Anfragen sind schneller, 1% langsamer – wichtig für SLO-Messungen.
Service Mesh	Sidecar-basiertes Netzwerk für Microservices (z. B. Istio); steuert Routing, mTLS, Observability.
CNI	„Container Network Interface“ – Plug-in-Spezifikation zum Anbinden von Netzwerken an Container (Calico, Cilium).

Speed	PCIe-Generation	Theoretische Bandbreite (x16)	Ausreichend für
2.5 GT/s	PCIe 1.0	4 GB/s	Nicht empfohlen
5 GT/s	PCIe 2.0	8 GB/s	Bis 25 GbE
8 GT/s	PCIe 3.0	16 GB/s	Bis 100 GbE
16 GT/s	PCIe 4.0	32 GB/s	Bis 200 GbE
32 GT/s	PCIe 5.0	64 GB/s	Bis 400 GbE

Modell	Geschwindigkeiten	RDMA-Features	PCIe-Anforderung	Stromverbrauch	Straßenpreis
ConnectX-5	25/50/100 GbE	RoCEv2, GPUDirect	PCIe 3.0 x16	8-12 W	€400-600
ConnectX-6	25/50/100 GbE	RoCEv2, NVME-oF	PCIe 4.0 x16	9-14 W	€600-900
ConnectX-7	100/200/400 GbE	RoCEv2, UEC	PCIe 5.0 x16	15-25 W	€1200-1800

Modell	Geschwindigkeiten	RDMA-Features	PCIe-Anforderung	Stromverbrauch	Straßenpreis
Intel E810	25/50/100 GbE	iWARP, RoCEv2	PCIe 4.0 x16	10-15 W	€500-800
Intel E823	25/50/100 GbE	iWARP, ADQ	PCIe 4.0 x8	8-12 W	€450-700

Modell	Geschwindigkeiten	RDMA-Features	PCIe-Anforderung	Stromverbrauch	Straßenpreis
BCM957508	25/50/100 GbE	RoCEv2	PCIe 4.0 x16	12-18 W	€550-850
BCM957414	10/25 GbE	RoCEv2	PCIe 3.0 x8	6-9 W	€200-350

Distanz	Geschwindigkeit	Empfohlener Kabeltyp	Kosten pro Link	Latenz
0-1m	25-400 GbE	Passive DAC	€20-40	<1ns
1-3m	25-400 GbE	Passive DAC	€30-60	<3ns
3-7m	25-400 GbE	Active DAC	€80-150	<7ns
7-30m	25-400 GbE	AOC MM	€150-300	<150ns
30-100m	25-100 GbE	OM4 + SR4	€200-400	<500ns
100m-2km	25-100 GbE	OS2 + LR4	€400-800	<10μs
2km-10km	25-100 GbE	OS2 + ER4	€800-1500	<50μs

Hersteller	Produktbereich	Hauptprodukte	Marktposition	Zielgruppe
NVIDIA (Mellanox)	NICs, Switches	ConnectX-6/7, Spectrum	Marktführer	HPC, AI/ML
Intel	NICs, Switches	E810, E823 Serie	Starker Konkurrent	Enterprise
Cisco	Switches, NICs	Nexus 9000, UCS	Enterprise-Leader	Unternehmen
Arista	Switches	7000 Serie	Cloud-fokussiert	Hyperscale
Broadcom	NICs, Chips	NetXtreme-E	Etabliert	Storage, Cloud

Distribution	Ultra Ethernet-Support	RDMA-Pakete	Kernel-Version	Support-Status
Red Hat Enterprise Linux 8/9	Vollständig	rdma-core, perftest	4.18+ / 5.14+	Produktiv
Ubuntu 20.04/22.04 LTS	Vollständig	rdma-core, ibverbs	5.4+ / 5.15+	Produktiv
SUSE Linux Enterprise 15	Vollständig	rdma-core, ofed	4.12+	Produktiv
CentOS Stream 8/9	Vollständig	rdma-core	4.18+ / 5.14+	Community

Organisation	Rolle	Relevanz für Administratoren
Ultra Ethernet Consortium	Spezifikationsentwicklung	Zukünftige Standards und Roadmaps
IEEE 802.3	Ethernet-Grundlagen	Kompatibilität und Interoperabilität
Linux Foundation	Open Source-Entwicklung	Kernel-Support und Treiber

Unternehmen	Anwendungsfall	Implementierungsgrad	Nutzen
Meta	AI-Training, Datenanalyse	Vollständig	3x schnellere Modell-Trainings
Microsoft Azure	Cloud-Infrastruktur	Rollout-Phase	Verbesserte VM-Performance
CERN	Wissenschaftliche Berechnungen	Vollständig	40% weniger Berechnungszeit
NVIDIA	Interne AI-Forschung	Vollständig	Grundlage für GPU-Entwicklung

Kategorie	Empfohlene Anbieter	Besonderheiten
Direktvertrieb	NVIDIA, Intel, Cisco	Vollständiger Support, höhere Preise
Systemintegratoren	HPE, Dell, Lenovo	Komplettlösungen, Dienstleistungen
Distributoren	TD Synnex, Ingram Micro	Konkurrierende Preise, größere Auswahl
Spezialhändler	FS.com, ProLabs	Kompatible Transceiver, günstigere Kabel

Praktische Relevanz für den Administrator-Alltag

Was ist Ultra Ethernet? – Definition und Einordnung

Die Basis: Standard-Ethernet als Fundament

Entstehungsgeschichte und Motivation von Ultra Ethernet

Abgrenzung zu anderen Hochgeschwindigkeits-Netzwerktechnologien

Relevanz für moderne Rechenzentren und Cloud-Infrastrukturen

Technische Grundlagen und Architektur

RDMA (Remote Direct Memory Access)

Das Herzstück von Ultra Ethernet

Funktionsweise und Architektur

RDMA-Operationen im Detail

Integration in Ultra Ethernet

Linux-Kernel-Integration

Performance-Charakteristika

Anwendungsgebiete und Use Cases

Wichtige Protokolle und Standards

(RoCEv2, TCP/IP Optimierungen)

RoCEv2 – RDMA über Standard-Ethernet

RoCEv2 Operationen verstehen

Netzwerk-Anforderungen für RoCEv2

TCP/IP-Optimierungen in Ultra Ethernet

Link Level Retry (LLR) – Schnelle Fehlerkorrektur

Quality of Service (QoS) – Verschiedene Prioritäten

Praktische Konfiguration unter Linux

Monitoring und Troubleshooting

Wann welches Protokoll nutzen?

Erste Schritte mit Ultra Ethernet-Protokollen

Latenz, Durchsatz und Effizienz-Verbesserungen

Latenz-Reduzierung: Die Grundlage für Performance

Detaillierte Latenz-Analyse: Standard vs. Ultra Ethernet

Technische Implementierung der Latenz-Reduzierung

Jitter-Reduzierung und Deterministische Latenz

Durchsatz-Steigerung: Maximale Bandbreiten-Nutzung

Detaillierte Durchsatz-Analyse nach Paketgrößen

Multipath und Aggregation

Packet Aggregation und Coalescing

Effizienz-Verbesserungen: Ressourcen-Optimierung

Memory-Effizienz und Zero-Copy

Energie-Effizienz: Green Computing

Skalierbarkeit unter variablen Lasten

Advanced Performance Tuning

Praktische Auswirkungen auf verschiedene Workloads

Monitoring und Performance-Messung

Troubleshooting Performance-Probleme

Best Practices für maximale Performance

Ultra Ethernet vs. Standard-Ethernet vs. InfiniBand

Vergleichstabelle der wichtigsten Eigenschaften

Detaillierte Analyse: Standard-Ethernet

Detaillierte Analyse: Ultra Ethernet

Detaillierte Analyse: InfiniBand

Kostenvergleich der Technologien

Anwendungsspezifische Leistungsvergleiche

Skalierbarkeits-Vergleich

Kompatibilität und Interoperabilität

Vor- und Nachteile der verschiedenen Technologien

Energieeffizienz und Umweltaspekte

Zukunftssicherheit und Entwicklungstrends

Wann welche Technologie die richtige Wahl ist

Migration und Übergangsstrategien

Entscheidungshilfen für die Technologiewahl

Kostenanalyse-Framework:

Praxisnahe Entscheidungshilfen

Anwendungsbereiche und Use Cases

High-Performance Computing (HPC)

Message Passing Interface (MPI) Deep Dive

Monte Carlo und Statistische Simulationen

Künstliche Intelligenz und Machine Learning

All-Reduce-Operationen Performance

Framework-spezifische Optimierungen

Konkrete ML-Training-Benchmarks

Computer Vision und CNN-Training

Reinforcement Learning

Cloud Computing und Hyperscale-Rechenzentren

Kubernetes-Cluster Performance

Serverless Computing Performance

Storage-Systeme und Datenbanken

Anwendungsfall-spezifische ROI-Berechnung

Entscheidungshilfen für Anwendungsfälle

Migrations-Strategien nach Anwendungsfall

Glossar wichtiger Fachbegriffe