Chipdesigner Ampere: 256-Core CPU für Server und KI-Partnerschaft mit Qualcomm
Jeff Wittich, Chief Product Officer bei Ampere Computing, sprach mit CRN, über die Entwicklung des CPU-Marktes, neue Produkte, Partner, Pläne und Allianzen.
Der von Oracle unterstützte Chipdesigner Ampere Computing hat eine Server-CPU mit 256 Kernen vorgestellt, die schon nächstes Jahr auf den Markt kommen soll. Bei einem Video-Update diese Woche Donnerstag teilte das Unternehmen auch mit, dass OEM- und ODM-Serverplattformen für seine AmpereOne-CPUs in einigen Monaten verfügbar sein werden. Ebenfalls noch in diesem Jahr sollen verfügbar sein: eine 12-Kanal-Speicherversion der bestehenden AmpereOne-CPUs, eine gemeinsame Lösung mit dem Anbieter von Videoverarbeitungs-Chips Netint, neue Funktionen, die es ermöglichen, ausgewählte Modelle mit höheren oder benutzerdefinierten Frequenzen laufen zu lassen, sowie eine erweiterte Chiplet-basierte Designstrategie, die die potenzielle Implementierung von Drittanbietertechnologien in künftigen Prozessoren einschließt.
Ampere, das unter der Leitung der ehemaligen Intel-Führungskraft Renee James steht, präsentierte außerdem neue Parameter, die besagen, dass seine CPUs AMDs EPYC-Prozessoren der vierten Generation bei der Leistung pro Rack schlagen können und eine effizientere Inferenzleistung für große Sprachmodelle bieten als Nvidias A10-GPU.
Markt und Wettbewerb
Das Unternehmen macht diese Ankündigungen zu einer Zeit, in der die viel größeren x86-Anbieter Intel und AMD versuchen, mit den "Cloud-nativen", auf Arm-basierten Serverprozessoren von Ampere zu konkurrieren, indem sie Prozessoren mit zunehmend hoher Kernzahl entwickeln. Letztes Jahr brachte AMD seine auf die Cloud ausgerichteten EPYC 97X4 CPUs (vormals Bergamo genannt) auf den Markt, die bis zu 128 Kerne haben. Intel will in Kürze eine neue Version der Xeon-Prozessoren mit dem Codenamen Sierra Forest verfügbar machen, die bis zu 288 Kerne haben sollen.
Daneben muss sich Ampere auch mit zunehmenden Wettbewerb von Cloud-Service-Anbietern auseinandersetzen, die ihre eigenen CPUs entwickeln. Während Amazon Web Services mit diesem Ansatz jahrelang allein dastand, haben Microsoft Azure und Google Cloud - beides Kunden von Ampere - in den letzten Monaten erklärt, dass auch sie ihre eigenen Server-CPUs entwickeln, um ihr Angebot zu verbessern.
Die Wichtigkeit des Channels
In einem Interview mit der amerikanischen CRN wies Jeff Wittich, Chief Product Officer bei Ampere, darauf hin, dass die auf Ampere basierenden Azure-Instanzen seit der ersten Ankündigung des Cloud-Anbieters um weitere 6 Regionen erweitert worden sind und sagte, dass "viele großen Kunden" alle der nunmehr 20 Instanzen weiterhin nutzen.
Er sei nicht besorgt darum, dass mehr konkurrierende CPU-Lösungen auf den Cloud-Infrastrukturmarkt kommen. "Ich erwarte, dass wir ein kontinuierliches Wachstum in der Public Cloud und auch eine Menge verschiedener Lösungen in der Public Cloud sehen werden."
Zu den Cloud-Unterstützern des Unternehmens gehören Alibaba, Baidu AI Cloud, Gcore, Hetzner, JD Cloud, Kingsoft Cloud, Leaseweb, Tencent Cloud und Oracle Cloud Infrastructure. Oracle ist zudem ein wichtiger Investor bei Ampere und wird es wohl auch bleiben. Larry Ellison, Oracle-Gründer und Vorsitzender, hatte verschiedenen Berichten zufolge im vergangenen Jahr von Plänen gesprochen, beträchtliche Summe n in Ampere-CPUs zu investieren.
Während sich das Unternehmen anfangs auf den Aufbau von Partnerschaften mit Server-Anbietern und Cloud-Service-Providern konzentriert hatte, um sich etablieren, hat es in letzter Zeit verstärkt Beziehungen zu Channel-Partnern aufgebaut, um den Absatz von Ampere-basierten Lösungen auszuweiten.
Wittich sagte, dass die Liste der Channel-Partner von Ampere "ziemlich schnell wächst" und mittlerweile US-Unternehmen wie 2CRSI, Avantek Computer, Equuus Compute Solutions, Exxact, Thinkmate und andere umfasst. "Wir sind jetzt an einem Punkt, an dem wir eine so breite Nachfrage haben, dass die Rolle des Channels wirklich bedeutend ist", so Wittlich.
256-Core AmpereOne CPU ab 2024
Ampere will im nächsten Jahr neue Versionen seiner AmpereOne-Server-CPU auf den Markt bringen, die auf 256 Kerne skalieren und den 3-Nanometer-Fertigungsprozess von TSMC nutzt. "Das Ganze findet jetzt bei TSMC statt, das Produkt werden wir nächstes Jahr sehen", bestätigte Wittich im Gespräch mit CRN. AmpereOne hatte der Anbieter letztes Jahr als kundenspezifisches CPU-Design vorgestellt, das maximal 192 Kerne hat und mit der Arm-Befehlssatzarchitektur kompatibel ist.
Wittich berichtete, dass die bestehende Serverplattform die neuen Modelle, die nächstes Jahr auf den Markt kommen, unterstützen wird und Unterstützung für 12 Speicherkanäle bieten werden. "Diese werden die Anzahl der Kerne, die Gesamtleistung, die Leistung pro Kern und die Leistung pro Watt steigern. All das wird sich mit diesem Produkt erheblich verbessern", so der Ampere-Produktchef.
Partnerschaft mit Qualcomm für KI-Inferenzlösung
Eine weitere große Nachricht für CRN war die Erläuterung des Plans, eine gemeinsame Lösung mit Qualcomm herauszubringen, die KI-Inferenz für große Sprachmodelle bereitstellt. Die gemeinsame Lösung werde einen Supermicro-Server umfassen, der mit Ampere-CPUs - Ampere Altra oder AmpereOne - und Qualcomms Cloud AI 100 Beschleunigerchips ausgestattet ist.
Laut Wittlich sei diese gemeinsame Lösung "einfach zu implementieren" und werde effizientes Inferencing-Computing für große Sprachmodelle bietet, die in ihrem Größe stark variieren können. "Wir haben zwar eine großartige Leistung für Inferencing auf den CPUs [...], aber wenn man in den Bereich von Hunderten von Milliarden Parametern kommt, wünscht man sich vielleicht eine andere Lösung, die sich auf immer mehr Rechenleistung ausdehnt. Diesen Bedarf können wir decken."
Höhere und dabei vorhersagbare Frequenzen
Zu den weiteren Ampere-Ankündigungen gehörten zwei Funktionen für ausgewählten AmpereOne-Modelle: FlexSpeed und FlexSKU.
Mit FlexSpeed hat der Prozessor die Möglichkeit, seine Frequenz vorübergehend zu erhöhen, wenn ein entsprechendes Energiebudget vorhanden ist. Bei FlexSKU geht es darum, mehrere benutzerdefinierte Kombinationen von Kernanzahl und Frequenz zu ermöglichen, was Rechenzentren bei der Optimierung der Dichte oder der Leistung pro Kern helfen kann.
Laut Wittich unterscheidet sich FlexSpeed von einer Funktion wie Intels Turbo-Boost-Technologie dadurch, dass es dem Prozessor ermöglicht, mit einer höheren, aber vorhersehbaren Frequenz zu arbeiten. "Gedacht ist das für Situationen, in denen nicht die gesamte Leistung gebraucht wird, sei es, weil die Auslastung niedrig ist oder weil eine Anwendung nicht viel Rechenleistung benötigt. Sie können mit einer höheren Frequenz und mehr Leistung arbeiten", sagte er.
FlexSKU ist eine "ähnliche Idee, aber ein anderer Anwendungsfall", berichtete Wittich. "Wir haben Kunden, die sagen: 'Nun, ich habe eine Reihe von Anwendungen, die ich gerne auf vorhersehbare Weise mit höheren Frequenzen laufen lassen würde, wenn ich nicht wirklich alle Kerne benötige'", sagte er.
Design-Strategie und Leistungszahlen
In seinen neuen Leistungsdaten behauptet der Anbieter, dass seine bestehende 192-Kern-CPU AmpereOne im Vergleich zu AMDs 96-Kern-CPU EPYC 9654 "Genoa" eine bis zu 50 Prozent höhere Leistung pro Watt und eine bis zu 34 Prozent bessere Leistung pro Rack ermöglicht.
Diese Aussage basiert auf dem SPECrate 2017_int_base Benchmark. Demnach könne die AmpereOne CPU auch AMDs 128-Core EPYC 9754 "Bergamo" CPU übertreffen. "Wir haben einen 50-prozentigen Vorsprung bei der Leistung pro Watt gegenüber Genua und einen 15-prozentigen Vorsprung gegenüber Bergamo", sagte Wittich.
In Bezug auf reale Arbeitslasten würde ein AmpereOne-basiertes Rechenzentrum, in dem containerisierte Webdienste wie Redis, MySQL, NGINX und Memcached laufen, bis zu 15 Prozent weniger Server und 35 Prozent weniger Energie benötigt als ein AMD Genoa-basiertes Rechenzentrum.
Im Bereich der künstlichen Intelligenz behauptet Ampere, dass eine 80-Kern-CPU von Ampere Altra im Vergleich zur A10-GPU von Nvidia eine Kostenersparnis von 28 Prozent (bei der Produktion von einer Million Token bei einer Geschwindigkeit von etwa 80 Token pro Sekunde mit dem 8-Milliarden-Parameter-Sprachmodell Llama 3 von Meta) ermöglicht. Dabei würde der Beschleuniger auch 67 Prozent weniger Energie verbrauchen.
Que sera, sera
Was die Zukunft angeht, so werde Ampere seine Chiplet-Design-Strategie weiterentwickeln und im Rahmen einer Zusammenarbeit mit anderen Chip-Designern die Integration von Drittanbieter-Technologien prüfen, berichtete Wittlich. Eines Tages könnte Ampere also Prozessoren auf den Markt bringen, die neben den selbst entwickelten CPU-Kernen auch Technologien anderer Unternehmen in Form von Chiplets enthalten.
Diese Möglichkeiten erforscht das Unternehmen im Rahmen einer neuen Arbeitsgruppe der AI Plattform Alliance. Zu deren Zielen gehört die Entwicklung von Standards für die Chiplet-Integration unter Verwendung des Universal Chiplet Interconnect Express, einer Spezifikation, die mehrere große Chip-Hersteller, darunter auch Arm, mitentwickelt haben.
"Jetzt gehen wir noch einen Schritt weiter und sagen: Wenn man Chiplets und eine offene Schnittstelle verwendet, warum sollte man da aufhören? Jetzt kann man alle Arten von geistigem Eigentum von Drittanbietern einbinden, man kann IP von Kunden und Partnern einbinden. Man kann eine Reihe von wirklich coolen Lösungen schaffen", sagte Wittich.
Zu den weiteren Mitgliedern der AI Platform Alliance, die im vergangenen Jahr gegründet wurde und das Ziel verfolgt, KI-Plattformen "offener, effizienter und nachhaltiger" zu machen, gehören KI-Chipdesigner wie Cerebras Systems, Furiosa, Rebellions und Untether AI. Dazu gehört auch Graphcore, das Berichten zufolge gerade in Übernahmegesprächen mit dem japanischen Investmentgiganten SoftBank steht.
Wittlich kommentiert die bisherigen gemeinsamem Bemühungen so: "Jemand muss aufstehen und einen Rahmen und eine Plattform dafür schaffen, denn Chiplets und offene Schnittstellen machen es zwar einfacher, aber das Ganze erfordert immer noch eine Menge Koordination."