banner
Heim / Nachricht / Generative KI und die Zukunft von Rechenzentren: Teil VI
Nachricht

Generative KI und die Zukunft von Rechenzentren: Teil VI

Jul 18, 2023Jul 18, 2023

Der CEO von DE-CIX darüber, wie sich Rechenzentren anpassen müssen

In Ausgabe 48 des DCD>Magazine haben wir einen Feature-Artikel über generative KI und ihre Auswirkungen auf die digitale Infrastruktur veröffentlicht. Wenn Sie direkt hierher gefunden haben, möchten Sie vielleicht am Anfang beginnen: Generative KI: Hype, Chance und die Zukunft von Rechenzentren // Teil I – Die Modelle

So wie Silizium bei der Bewältigung riesiger KI-Modelle an seine Grenzen stößt, stehen auch die Vernetzung und die Architektur von Rechenzentren vor Herausforderungen.

„Bei diesen großen Systemen können Sie es auf keinen Fall auf einem einzigen Chip unterbringen, selbst wenn Sie Cerebras sind“, sagte Dylan Patel von SemiAnalysis. „Nun, wie verbinde ich all diese aufgeteilten Chips miteinander? Wenn es 100 sind, ist das beherrschbar, aber wenn es Tausende oder Zehntausende sind, dann fangen Sie an, echte Schwierigkeiten zu bekommen, und Nvidia setzt genau das ein. Wahrscheinlich sind es entweder sie oder Broadcom, die über das beste Netzwerk der Welt verfügen.“

Aber auch die Cloud-Unternehmen engagieren sich stärker. Sie verfügen über die Ressourcen, um ihre eigene Netzwerkausrüstung und Topologien aufzubauen, um wachsende Rechencluster zu unterstützen.

Amazon Web Services hat Cluster von bis zu 20.000 GPUs mit den speziell entwickelten Nitro-Netzwerkkarten von AWS bereitgestellt. „Und wir werden mehrere Cluster einsetzen“, sagte Chetan Kapoor vom Unternehmen. „Das ist meiner Meinung nach eines der Dinge, die AWS in diesem speziellen Bereich auszeichnen. Wir nutzen unsere Nitro-Technologie, um über eigene Netzwerkadapter zu verfügen, die wir Elastic Fabric Adapters nennen.“

Das Unternehmen ist dabei, seine zweite Generation von EFA auf den Markt zu bringen. „Und wir sind auch dabei, die Bandbreite pro Knoten zu erhöhen, etwa um das Achtfache zwischen A100 und H100“, sagte er. „Wir werden die Geschwindigkeit pro Knoten auf bis zu 3.200 Gbit/s steigern.“

Bei Google beginnen sich die ehrgeizigen, mehrjährigen Bemühungen zur Überarbeitung der Netzwerke seiner riesigen Rechenzentrumsflotte auszuzahlen.

Das Unternehmen hat damit begonnen, die maßgeschneiderte optische Schalttechnologie von Mission Apollo in einem noch nie dagewesenen Ausmaß in einem Rechenzentrum einzusetzen.

Herkömmliche Rechenzentrumsnetzwerke verwenden eine Spine-and-Leaf-Konfiguration, bei der Computer mit Top-of-Rack-Switches (Leafs) verbunden werden, die dann mit dem Spine verbunden werden, der aus elektronischen Paketschaltern besteht. Project Apollo ersetzt die Wirbelsäule durch vollständig optische Verbindungen, die Lichtstrahlen mit Spiegeln umlenken.

„Der Bandbreitenbedarf für das Training und in gewisser Weise für die Inferenz ist einfach enorm“, sagte Amin Vahdat von Google.

Unser bisher größtes Feature befasst sich mit der nächsten Welle der Computertechnik

Apollo hat es dem Unternehmen ermöglicht, Netzwerktopologien aufzubauen, die besser auf die Kommunikationsmuster dieser Trainingsalgorithmen abgestimmt sind, sagte er. „Wir haben spezielle, dedizierte Netzwerke eingerichtet, um Parameter zwischen den Chips zu verteilen, wobei enorme Bandbreitenmengen synchron und in Echtzeit ablaufen.“

Dies habe mehrere Vorteile, sagte er. Bei dieser Größenordnung fallen regelmäßig einzelne Chips oder Racks aus, und „ein optischer Schaltkreisschalter ist bei der Neukonfiguration als Reaktion recht praktisch, da meine Kommunikationsmuster jetzt mit der logischen Topologie meines Netzes übereinstimmen“, sagte er.

„Ich kann meinem optischen Schaltkreisschalter sagen: ‚Nimm ein paar andere Chips von irgendwo anders, konfiguriere den optischen Schaltkreisschalter neu, um diese Chips in das fehlende Loch zu stecken, und mache dann weiter.‘ Es besteht keine Notwendigkeit, die gesamte Berechnung neu zu starten oder – im schlimmsten Fall – von vorne zu beginnen.“

Apollo hilft auch dabei, Kapazitäten flexibel einzusetzen. Das TPUv4 des Unternehmens lässt sich auf Blöcke mit 4.096 Chips skalieren. „Wenn ich hier 256, dort 64, hier 128 und dort noch einmal 512 einplane, werde ich plötzlich einige Löcher schaffen, in denen ich einen Haufen von 64 Chipsblöcken zur Verfügung habe.“

Wenn ein Kunde in einer herkömmlichen Netzwerkarchitektur 512 dieser Chips hätte, wäre er nicht in der Lage, diese zu nutzen. „Wenn ich keinen optischen Schaltkreisschalter hätte, wäre ich untergegangen und müsste warten, bis einige Arbeiten erledigt sind“, sagte Vahdat. „Sie nehmen bereits Teile meines Netzes ein, und ich habe keine zusammenhängende 512, obwohl ich vielleicht 1.024 Chips zur Verfügung hätte.“

Aber mit dem optischen Schaltkreisschalter kann das Unternehmen „die richtigen Teile miteinander verbinden, um ein schönes 512-Knoten-Netz zu schaffen, das logisch zusammenhängend ist.“ Daher ist die Trennung der logischen von der physischen Topologie äußerst wirkungsvoll.“

Wenn generative KI zu einer großen Arbeitsbelastung wird, könnte jedes Rechenzentrum auf der Welt feststellen, dass es sein Netzwerk neu aufbauen muss, sagte Ivo Ivanov, CEO des Internet-Austauschs DE-CIX. „Wir sehen drei kritische Sätze von Diensten: 1) Cloud-Austausch, also direkte Konnektivität zu einzelnen Clouds, 2) direkte Verbindung zwischen verschiedenen vom Unternehmen genutzten Clouds und 3) Peering für die direkte Verbindung zu anderen Netzwerken von Endbenutzern und Kunden .“

Er argumentierte: „Wenn diese Dienste von grundlegender Bedeutung für die Schaffung der Umgebung sind, die generative KI in Bezug auf die Infrastruktur benötigt, dann muss heute jeder einzelne Rechenzentrumsbetreiber eine Lösung für eine Verbindungsplattform haben.“

Dieser zukunftssichere Netzwerkdienst müsse nahtlos sein, sagte er: „Wenn Rechenzentrumsbetreiber ihren Kunden dies heute und in Zukunft nicht anbieten, werden sie sich nur zu Betreibern von Serverschränken reduzieren.“

Lernen Sie im nächsten und letzten Teil von den Rechenzentrumsbetreibern von morgen.