Ein Supercomputer ist ein Cray-Vektorrechner (2)
So, heute geht es nahtlos weiter, der erste Teil dieses Artikels erschien, damit er nicht zu lange wird schon gestern.
Was mich damals beeindruckte, war aber das Aussehen. Die Cray 1 (wie oben erwähnt reden wir immer nur von der Zentraleinheit) hätte auch in einer Lobby als Ruhepol stehen können. Es war ein Kreissegment (das ein „C“ formte) aus zwei Teilen: einem mannhohen inneren Teil und einem äußeren Ring, der auch gepolstert sein konnte. Der Rechner sah aus wie eine Säule mit Sitzbank, die auch angenehm warm war (darin steckte die Kühlung). Der Rechner war klein, der Unterschied zu anderen Großrechnern fiel vor allem auf, wenn man ihn in seiner natürlichen Umgebung mit vielen Band- und Magnetplattenlaufwerken sah, die viel mehr Platz einnahmen. Man sollte sich aber nicht beirren lassen: die enge Packung zusammen mit einer Flüssigkeitskühlung bedeutete das auf einer Fläche von 2 m² ein Gewicht von mehreren Tonnen lastete, bei Garching wurden eigens Stützpfeiler im Untergeschoss eingezogen, um die Last zu tragen.

Auf die Cray 1, die 1976 erschien, folgten verbesserte Nachfolgemodelle. Mit der Cray 1 XMP wurde erstmals eine Multiprozessormaschine eingeführt. Die Herausforderung lag zum einen in der Hardware, denn die Prozessoren mussten miteinander kommunizieren, Werte austauschen ohne das dadurch Geschwindigkeit verloren ging wie auch auf der Softwareseite – ein Compiler musste den Code so aufteilen, dass er beide Prozessoren auslastete. Schon bei der Cray XMP gab es daher in der Firma Diskussionen über den Kurs. Cray selbst arbeitete an der Cray 2: auch eine Multiprozessormaschine, aber schneller, noch kleiner, die Schaltungen schwommen nun im Kühlmittel, damit dies möglich war und wesentlich mehr Speicher. Während andere Ingenieure bei Cray die Cray 1 Architektur weiter verbesserten, weil sich diese Maschinen besser verkauften gab es einen firmeninternen Konflikt über die weitere Forschungsrichtung. Nach der Cray 2, die 1985 erschien, verließ Seymour Cray seine Firma, genauer gesagt, sie widre gesplittet in einen Teil (Cray Inc) der kommerzielle Rechner weiter entwickelte und einem Teil „Cray Research“, die neue fortschrittliche Rechner entwickelte. Offiziell war dies eine Symbiose: Cray Inc baute das, was man am besten verkaufte und Cray Research entwickelte neue Technologien für noch schnellere Rechner.
Seymour Cray arbeitete bei Cray Research an seinem nächsten Rechner, der Cray 3. Doch die Entwicklung zog sich hin. Der Grund war relativ einfach: Die Geschwindigkeit war physikalisch bedingt immer schwerer steigerbar. In den Dekaden von 1950 bis 1960 und 1960 bis 1970 stieg die Geschwindigkeit von Schaltungen um den Faktor 100, zwischen 1970 und 1980 nur noch um den Faktor 10. Seymour Cray wollte Galliumarsenid als Halbleiter einsetzen. Diese Verbindung schaltet viel schneller als Elemente aus Silizium und Galliumarsenid wird heute z.B. bei der Wandlung von Lichtimpulsen in Glasfaserkabeln in elektrische Impulse und umgekehrt eingesetzt. Die Technik war aber in den Neunziger Jahren noch nicht einsatzreif. Das Hauptproblem war aber das seine Rechner aus vielen integrierten Schaltungen – über 100.000 pro Rechner bestanden. Dass die Rechner immer kleiner wurden, lag daran, dass bei der Steigerung des Taktes die Schaltungen zusammenzurücken mussten. Schon sein Erstling, die CDC-6600 hatte die ungewöhnliche Form eines Kreuzes – es war bei rechteckigen Schränken die Form, wo die entferntesten Teile den kürzesten Abstand zum Zentrum hatten. Die folgenden Modelle waren um die Abstöände weiter zu reduzieren dann kreisrund. Innerhalb eines Taktes musste ein Signal alle Schaltungen bis zur letzten passieren. Neben den Verzögerungen beim Schalten haben elektrische Signale aber auch eine endliche Geschwindigkeit beim Durchlaufen der Leitungsbahnen – maximal die Lichtgeschwindigkeit, meist aber weniger. Das sind knapp 30 cm in 1 ns. Kabel in der Cray 1 waren immer ein Vielfaches von 30 cm lang. Die Cray 3 hatte einen Takt von 500 MHz, damit durfte kein Weg im Rechner länger als 60 cm sein, der Rechner hatte so nur einen Durchmesser von 107 cm und war etwas größer als eine Waschmaschine. Cray Research konnte nur zwei Kunden für die Cray 3 gewinnen und ging so bankrott.
Letztendlich war bei der Technologie bei der eine CPU aus hunderten von Platinen besteht einfach der Takt nicht so steigerbar wie dies nötig war. Die Cray 1 hatte, als sie 1976 herauskam, einen Takt von 80 MHz. Die Cray 3 erreichte knapp 20 Jahre später 500 MHz, es gelang also den Takt nur um den Faktor 6 zu steigern. Dagegen stieg der Maximaltakt eines Mikroprozessors in derselben Zeitspanne von 3 auf 100 MHz, also um den Faktor 33 und er betrug nun schon 20 Prozent des Taktes einer Cray 1.
Die bisher Vektorrechner bauende „Hauptfirma“ Cray Inc schwenkte Anfang der Neunziger weg von den monolithischen Architekturen der Vektorrechner auf Parallelrechner: Sie bestehen aus vielen parallel an einer Aufgabe arbeitenden Hochleistungsmikroprozessoren. Anders als Supercomputer stiegen die Rechengeschwindigkeiten von Prozessoren für PC nämlich weiter an. Intel versuchte früh (schon ab dem 8086) viele Prozessoren zu einem Rechner zu kombinieren und diese Rechner als Supercomputer zu verkaufen. Mit dem Pentium Pro, der speziell für diesen Einsatz optimiert wurde, hatte Intel Erfolg: Erstmals war ein Rechner mit PC-Prozessoren im Jahre 1997 der schnellste Rechner der Welt. Der ASC-Red hatte nicht weniger als 9.268 Pentium Pro Prozessoren. Die Aufgabe war es, wie schon beim Übergang von der Cray 1 zur Cray X-MP die Rechnungen auf die Prozessoren zu verteilen nur eben auf viel mehr Prozessoren deren Speicherbus auch nicht auf das Teilen mit anderen Prozessoren ausgelegt war. Cray Inc. Nutzte für die ersten Parallelrechner übrigens Alpha-Prozessoren. Heute sind fast alle weltschnellsten Rechner solche Parallelrechner. Crays Erfindungen werden nach wie vor eingesetzt. Die Pipeline führte Intel beim 80286 ein. Der Pentium hatte erstmals superskalare Fähigkeiten und die Vektorberechnungen findet man heute in Form der AVX-Erweiterung in jedem Prozessor. Unterstützt werden die CPUs von Hochleistungsrechnern durch GPU, die eigentlich für Spiele entwickelt wurden und Hunderte oder Tausende von Recheneinheiten haben, die bei parallelen Operationen natürlich noch besser geeignet sind.

Die physikalischen Grenzen, die Vektorrechner schlussendlich begrenzten, gelten aber auch für CPU. Ihr Takt ist heute höher als der einer Cray der damaligen Zeit. Aber nur deswegen, weil eine CPU maximal 2 cm Kantenlänge hat und nicht 107 cm wie bei der Cray 3. Nachdem der Pentium 4 im Jahre 2000 die Marke von 3 GHz erreicht hatte, stiegen die CPU-Takte immer langsamer an. Von 1975 bis 2000, also in ersten 25 Jahren von 3 auf 3000 MHz, in den letzten 25 Jahren aber nur von 3 auf 6 GHz.
Was die heutigen Supercomputer nicht mehr haben, ist der ästhetische Charme, auch wenn die Kabinette (Schränke) heute bunt bemalt werden. Eine Cray 1 bis 3 sah einfach cool aus, ein Rechner, der ästhetisch und kompakt ist. Heutige Supercomputer bestehen aus Hunderten bis Tausenden von Schränken, jeder so groß wie ein kleiner Kleiderschrank und sie belegen enorm viel Platz. Schon der erste Paralellrechner ASC Red belegte 1.600 m², also so viel wie sechs Tennisplätze oder ein halbes Fußballfeld. Dafür brauchte er eine eigene Halle und ein eigenes Kraftwerk. Der beim Schrieben des Blogs schnellste Rechner ist der El Capitain mit 11 Millionen Kernen und 44.000 CPUs ü weitere GPUs. Er belegt eine Fläche von 600 m² und verbraucht 30 MW Strom.
Der Rechner steht im Lawrence Livermore Lab, der Kernforschungszentrale der USA, die schon früher der beste Kunde von Supercomputern war. Was sich allerdings geändert hat, ist das seit den Achtziger Jahren vermehrt die Wirtschaft eigene Supercomputer betreibt. Zuerst gemeinsam mit Forschungseinrichtungen, dann bauten sie eigene Kapazitäten auf. Firmen wie Exxon nutzten Supercomputer, um seismische Daten auszuwerten auf der Suche nach Erdöl und Erdgaslagerstätten. Das spart Sondierungen die sehr teuer sind. Flugzeugbauer und Automobilhersteller optimierten über Strömungssimulationen die Aerodynamik ihrer Produkte und sparten so viel Zeit in Windtunneln. Motorenhersteller simulierten die Vorgänge bei einem Verbrennungsmotor und optimierten diese, sodass die heutigen Motoren viel weniger Benzin pro PS verbrauchen als vor einigen Jahrzehnten. Mit dem KI-Trend wird die Nachfrage noch steigen, dafür braucht man enorme Rechenkapazitäten. In den Modellen der KI, wie sie in ChatGPT oder Gemini eingesetzt werden, stecken Hunderttausende Stunden an Rechnungen. Allerdings braucht man dafür eine andere Architektur: Anstatt mit 64 Bit-Fließkommazahlen rechnen solche Modelle mit nur 8 oder 16 Bit breiten Werten. Dafür sind die schon als Coprozessoren eingesetzten GPUs viel besser geeignet, da diese schon aus Tausenden von Recheneinheiten bestehen, die nativ nur 16 oder 32 Bit breite Werte verarbeiten – Farbwerte in Spielegrafiken sind eben 16 oder 32 Bit breit. NVIDIA hat durch den KI-Trend – sie sind der führende Hersteller von KI-GPUs – den Firmenwert in fünf Jahren in der spitze um 2000 Prozent steigern können und war zeitweise mehr wert, als alle DAX30 Unternehmen zusammen.

Elon Musk hat jetzt sogar ein eigenes Unternehmen für KI gegründet „X AI“. Das paradoxe: Musk war Mitgründer von OpenAI, dem heutigen Marktführer (von ihm stammt z.B. ChatGPT) stieg aber schon 2018 aus dem Unternehmen aus. Obwohl so technikverliebt, scheint die Simulation, die heute Standard bei dem Produktdesign ist, bei SpaceX keine Rolle zu spielen, anders sind die spektakulären Fehlschläge des Starships kaum zu erklären. Auf der anderen Seite: das Starship wurde ja seit 2016 entwickelt und noch vor einem Jahr konnte man eine KI mit einer Frage wie „Wenn ein Ei 6 Minuten braucht um weich zu sein, wie lange brauchen dann 4 Eier?“ reinlegen. Heute geht das nicht mehr. Die KI erkennt das als Scherzfrage. Vielleicht hat SpaceX einfach nur eine veraltete und unpräzise KI eingesetzt …
Vieles was Seymour Cray erstmals in seinen Rechnern eingeführt hat, ist heute ein selbstverständlicher Teil von CPU-Architekturen. Dieser Artikel informiert über einige der Errungenschaften. Technisch gesehen waren seine Rechner übrigens RISC-Computer.
Zwei Videos aus den Achtzigern zum Anschauen von den Computer Chronicles
https://www.youtube.com/watch?v=6Dn6vLCN4F0&ab_channel=TheComputerChronicles
Die Sendung von 1984 beschäftigt sich mit neuen Technologien für mehr Geschwindigkeit und der Bedrohung der US-Industrie durch japanische Vektorrechner – Japan blieb lange Zeit der Vektorarchitektur treu und der NEC SX Aurora war vor einigen Jahren noch der schnellste Rechner der Welt.
https://www.youtube.com/watch?v=yDfz7tgf3OE&ab_channel=TheComputingChronicles
Die Sendung von 1987 gibt einen guten Einblick über den Einsatz von Supercomputern und ihren Vorteilen gegenüber Experimenten.