In der KI ist Geschwindigkeit Trumpf. Innovationen zur Steigerung der reinen Rechenleistung gibt es immer wieder, aber die Steuerung und Kontrolle bleibt oft ein Engpass. Arista und Nvidia stellen nun eine Orchestrierung des Grafikprozessors mit dem zugrundeliegenden Netzwerk vor.
Arista Networks präsentiert in Kooperation mit Nvidia eine technische Demonstration, wie KI-Rechenzentren Rechen- und Netzwerkdomänen in einer einzigen verwalteten KI-Einheit zusammenführen können. Um optimierte Netzwerke für generative KI mit kurzen Verarbeitungszeiten aufzubauen, können Unternehmen KI-Cluster einheitlich über wichtige Komponenten wie Netzwerke, NICs und Server konfigurieren, verwalten und überwachen. Dies ist der erste Schritt hin zu einem herstellerunabhängigen, interoperablen Ökosystem, das die Steuerung und Koordinierung zwischen KI-Netzwerken und KI-Recheninfrastrukturen ermöglicht.
Einheitliche Kontrollinstrumente erforderlich
Mit dem Wachstum von KI-Clustern und Large Language Models (LLMs) nehmen auch die Komplexität und die Anzahl der verschiedenen Systemkomponenten rapide zu. GPUs, NICs, Switches, optische Komponenten und Kabel müssen zusammenarbeiten, um ein integriertes Netzwerk zu bilden. Kunden benötigen jedoch eine einheitliche Steuerung zwischen ihren KI-Servern, die NICs und GPUs hosten, und den KI-Netzwerk-Switches auf verschiedenen Ebenen. All diese Komponenten sind voneinander abhängig, um eine ordnungsgemässe Verarbeitung von KI-Aufgaben zu gewährleisten, arbeiten jedoch unabhängig voneinander. Dies kann zu Fehlkonfigurationen oder einer schlechten Abstimmung zwischen den einzelnen Modulen des gesamten Ökosystems führen, z. B. zwischen den NICs und dem Switch-Netzwerk, was sich erheblich auf die Dauer der Verarbeitung von KI-Jobs auswirken kann, da Netzwerkfehler sehr schwer zu diagnostizieren sind. Große KI-Cluster erfordern auch ein koordiniertes Lastmanagement, um den Verlust von Datenpaketen oder eine zu geringe Auslastung der Grafikprozessoren zu vermeiden. Sie benötigen auch ein koordiniertes Management und Monitoring, um Rechen- und Netzwerkressourcen im Einklang zu optimieren.
Der neue Arista AI Agent
Das Herzstück dieser Lösung ist ein auf Arista EOS basierender Agent, der es dem Netzwerk und dem Host ermöglicht, miteinander zu kommunizieren und Konfigurationen zu koordinieren, um die KI-Cluster zu optimieren. Mit Hilfe eines Remote-AI-Agenten kann EOS, das auf Arista-Switches läuft, auch auf direkt angeschlossene NICs und Server erweitert werden, um eine ganzheitliche Lösung mit einem einzigen Kontroll- und Überblickspunkt in einem KI-Rechenzentrum zu ermöglichen. Dieser entfernte KI-Agent, der direkt auf einer Nvidia BlueField-3 SuperNIC gehostet wird oder auf dem Server läuft und Telemetriedaten von der SuperNIC sammelt, ermöglicht EOS auf dem Netzwerk-Switch selbst, Netzwerkprobleme auf dem Server zu konfigurieren, zu überwachen und zu debuggen - und so eine End-to-End-Netzwerkkonfiguration und QoS-Konsistenz sicherzustellen. KI-Cluster können so als eine einzige homogene Lösung verwaltet und optimiert werden.
Durchgängige KI-Kommunikation und -Optimierung
Die Demonstration der neuen Technologie veranschaulicht, wie ein Arista EOS-basierter Remote-KI-Agent die Verwaltung eines kombinierten, interdependenten KI-Clusters als eine einzige Lösung ermöglicht. EOS, das im Netzwerk läuft, kann mittels Remote-KI-Agenten auf Server oder SuperNICs ausgeweitet werden. Dadurch ist ein sofortiges Tracking und Reporting von Performance-Verschlechterungen oder Ausfällen zwischen Hosts und Netzwerken möglich. So lassen sich Probleme schnell isolieren und deren Auswirkungen minimieren. Dank der ständigen Kenntnis der genauen Netzwerktopologie durch EOS-basierte Netzwerk-Switches kann die Ausweitung von EOS auf SuperNICs und Server mit dem Remote-KI-Agenten eine koordinierte Optimierung der Ende-zu-Ende-QoS zwischen allen Elementen im KI-Rechenzentrum vornehmen. Dadurch lässt sich die Zeit für die Job-Bearbeitung reduzieren.
"Arista verfolgt das Ziel, die Effizienz der Kommunikation zwischen dem eingesetzten Netzwerk und der GPU-Topologie zu verbessern, um die Job- Bearbeitungszeiten durch koordinierte Orchestrierung, Konfiguration, Validierung und Überwachung von Nvidia Accelerated Compute, Nvidia SuperNICs und der Arista-Netzwerkinfrastruktur zu verbessern", sagt John McCool, Chief Platform Officer bei Arista Networks.