banner
Heim / Blog / Google beschreibt TPUv4 und sein Crazy Optically Reconfigurable AI Network
Blog

Google beschreibt TPUv4 und sein Crazy Optically Reconfigurable AI Network

Aug 17, 2023Aug 17, 2023

Auf der Hot Chips 2023 präsentierte Google sein verrücktes, optisch rekonfigurierbares KI-Netzwerk. Das Unternehmen führt eine optische Schaltkreisumschaltung durch, um eine bessere Leistung, einen geringeren Stromverbrauch und mehr Flexibilität für sein KI-Trainingscluster zu erreichen. Das Erstaunlichere daran ist, dass sie es schon seit Jahren in Produktion haben.

Dies wird live durchgeführt. Tippfehler entschuldigen Sie bitte.

Das große Ziel dabei ist, die Google-TPU-Chips zusammenzubinden.

Hier ist das 7-nm-Google TPUv4. Wir gehen davon aus, dass wir diese Woche mehr über TPUv5 erfahren werden. Google kann in der Regel Vorträge und Präsentationen über eine Generation alte Hardware verfassen. Die TPU v4i war die Inferenzversion, aber hier geht es eher um die auf TPUv4 fokussierte Version.

Google gibt an, dass es im Vergleich zur normalen Stromversorgung zu viel Strom bereitstellt, sodass ein SLA mit einer Servicezeit von 5 ms eingehalten werden kann. Die TDP auf den Chips ist also viel höher, aber das dient dazu, Bursts zu ermöglichen, diese SLA-Bursts zu erfüllen.

Hier ist das TPUv4-Architekturdiagramm. Google baut diese TPU-Chips nicht nur als einzelner Beschleuniger, sondern auch zur Skalierung und zum Betrieb als Teil einer groß angelegten Infrastruktur.

Hier sind die Google TPUv4- und TPUv3-Statistiken in einer der übersichtlichsten Tabellen, die wir je gesehen haben.

Google hat die Spitzen-FLOPS mehr als verdoppelt, aber die Leistung zwischen TPUv3 und TPUv4 reduziert.

Google hat einen SparseCore-Beschleuniger in das TPUv4 integriert.

Hier ist die TPUv4 SparseCore-Leistung von Google.

Das Board selbst verfügt über vier TPUv4-Chips und ist flüssigkeitsgekühlt. Google sagte, dass sie Rechenzentren und Betriebsabläufe umstellen müssten, um auf Flüssigkeitskühlung umzusteigen, aber die Energieeinsparungen lohnen sich. Das Ventil auf der rechten Seite steuert den Durchfluss durch die Flüssigkeitskühlrohre. Google sagt, es sei wie ein Lüftergeschwindigkeitsregler, nur für Flüssigkeiten.

Google sagt außerdem, dass es PCIe Gen3 x16 zurück zum Host verwendet, da es sich um ein Design aus dem Jahr 2020 handelt.

Google verfügt wie viele Rechenzentren über die Stromversorgung von der Oberseite des Racks, verfügt dann aber über eine Reihe von Verbindungen. Innerhalb eines Racks kann Google elektrische DACs verwenden, außerhalb eines Racks muss Google jedoch optische Kabel verwenden.

Jedes System verfügt über 64 Racks mit 4096 miteinander verbundenen Chips. In gewisser Weise verfügen die KI-Cluster von NVIDIA mit 256 Knoten über halb so viele GPUs.

Ebenfalls am Ende der Racks sehen wir ein CDU-Rack. Wenn Sie mehr über Flüssigkeitskühlung erfahren möchten, können Sie sich unsere Anleitung zur Funktionsweise von Flüssigkeitskühlungsservern mit Gigabyte und CoolIT ansehen. Wir werden bald mehr Flüssigkeitskühlungsinhalte haben. Laut Google sind die Durchflussraten von Flüssigkeiten im Schlauch eines Feuerwehrautos mit Haken und Leiter höher als die von Wasser.

Jedes Rack ist ein 4x4x4-Würfel (64 Knoten) mit Optical Circuit Switching (OCS) zwischen den TPUs. Die Anschlüsse innerhalb des Racks sind DACs. Die Flächen des Würfels sind alle optisch.

Hier ist ein Blick auf das OCS. Anstelle eines elektrischen Schalters ermöglicht die Verwendung des OCS eine direkte Verbindung zwischen den Chips. Google verfügt über interne 2D-MEMS-Arrays, Linsen, Kameras und mehr. Durch die Vermeidung des gesamten Netzwerkaufwands können Daten effizienter geteilt werden. Abgesehen davon fühlt es sich in mancher Hinsicht wie ein DLP-Fernseher an.

Google gab an, im Super Pod über mehr als 16.000 Verbindungen und eine ausreichende Glasfaserentfernung zu verfügen, um den Bundesstaat Rhode Island zu umkreisen.

Da es so viel Punkt-zu-Punkt-Kommunikation gibt, sind viele Glasfaserstränge erforderlich.

Darüber hinaus kann jeder Pool mit größeren Pools verbunden werden.

Da das OCS rekonfigurierbar ist, kann es zu einer höheren Auslastung der Knoten führen.

Google kann dann Topologien ändern, indem es das optische Routing anpasst.

Hier zeigt Google den Nutzen verschiedener Topologien.

Dies ist wichtig, da Google sagt, dass die Änderungen der Modellanforderungen zu Systemänderungen führen können.

Hier ist die Skalierung von Google im logarithmischen Maßstab mit linearen Beschleunigungen auf bis zu 3072 Chips.

Google hat außerdem den On-Chip-Speicher auf 128 MB erhöht, um den Datenzugriff lokal zu halten.

Hier ist Googles Vergleich mit der NVIDIA A100 auf Basis der Leistung pro Watt.

Hier ist das PaLM-Modell, das über 6144 TPUs in zwei Pods trainiert.

Das ist eine riesige Zahl!

Es ist an der Zeit, dass Google über TPUv5 spricht, und es kommt vor, dass Google NEXT diese Woche stattfindet. Dennoch ist diese optische Verbindung eine wirklich innovative Technologie.

Mittlerweile ist ziemlich klar, dass Google große Probleme mit einer riesigen Infrastruktur löst. Es besteht die Möglichkeit, stärker in den KI-Bereich vorzudringen. Es stellt sich nur die Frage, wie schnell Google damit beginnen wird, seine KI-Hardware und Cloud-Dienste gegen NVIDIA durchzusetzen, während es gleichzeitig für seine Kunden NVIDIA-GPUs kaufen muss, die diese anstelle von TPUs verwenden.