NET 12/2025

36 www.net-im-web.de 12/25 Verteilte KI-Inferenz als Lösung Die Aufgabenstellung bei der KI-Inferenz wird immer komplexer, denn mit der zunehmenden Optimierung von KI-Modellen nehmen diese auch an Umfang zu. So kann beispielsweise ein LLM mehrere hundert Milliarden Parameter enthalten. Je mehr Parameter ein Modell aufweist, desto komplexer und genauer sind die Aufgaben, die es ausführen kann. Mit der steigenden Anzahl von Parametern in einem Modell steigt aber auch der Bedarf an Hardwareressourcen. Zur Bewältigung dieser Herausforderung bestehen prinzipiell mehrere Möglichkeiten: Die Leistungsfähigkeit der vorhandenen Rechner kann durch Hinzufügen weiterer GPUs erhöht werden: Mehr GPUs bedeuten mehr Rechenleistung, allerdings ist das auch kostenintensiv. Eine weitere Möglichkeit besteht im Verschlanken der Modelle durch Modellquantisierung: Bei dieser Optimierungstechnik werden die Parameter eines Modells vereinfacht. Dabei wird die numerische Präzision der Parameter verringert, um die Modellgröße insgesamt zu verkleinern. Die Modellquantisierung ist eine erste wichtige Strategie für die optimierte Verarbeitung großer Modelle, da sie weniger komplex zu implementieren ist als die verteilte Inferenz. Vor allem aber kann die Effizienz der vorhandenen Hardware durch eine Workload-Verteilung mit verteilter Inferenz verbessert werden. Dieser Ansatz bietet die Geschwindigkeit, Zuverlässigkeit und Skalierbarkeit, die für Unternehmensanforderungen nötig sind. Die verteilte Inferenz sollte deshalb als Methode zusätzlich zur Modellquantisierung verwendet werden. An diesem Punkt kommt wieder der Open-Source-Bereich mit seinem Inferenz-Ökosystem ins Spiel. Es zeigt sich hier eine Dynamik, die stark an die Entwicklung der frühen Linux-Jahre erinnert: Projekte wie vLLM oder llm-d treiben Innovationen wie verteilte Inferenz, Routing und Caching massiv voran. Bausteine moderner KI vLLM ist eine Library von Open Source Codes, die von der vLLM Community verwaltet werden. Das Modell unterstützt LLMs, Berechnungen effizienter durchzuführen. Konkret handelt es sich bei einem vLLM um einen Inferenzserver, der den Output generativer KI-Anwendungen durch eine bessere Nutzung des GPUSpeichers beschleunigt. Damit adressiert der Inferenzserver eine zentrale Herausforderung: GenAI-Modelle werden immer komplexer und in immer größerem Umfang produktiv eingesetzt, sodass die Inferenz zum Flaschenhals wird. Sie benötigt viele Hardwareressourcen, beeinträchtigt die Reaktionsfähigkeit und treibt die Kosten in die Höhe. Mit robusten Inferenzservern kann die für KI-Workloads erforderliche Hardware nun wesentlich effizienter genutzt werden. Während vLLM eine umfassende Modellunterstützung für eine Vielzahl von Hardwareplattformen bietet, geht llm-d noch einen Schritt weiter. Aufbauend auf bestehenden IT-Infrastrukturen in Unternehmen bietet llm-d verteilte und fortschrittliche Inferenzfunktionen, die zur Ressourceneinsparung und Leistungssteigerung beitragen, darunter eine deutliche Verbesserung der Time-to-First-Token und des Durchsatzes unter Latenzbedingungen. llm-d ist eine leistungsstarke Suite von Neuerungen, entscheidend sind aber zwei Innovationen, die zur Verbesserung der Inferenz beitragen: die Disaggregation und der intelligente Scheduling Layer. Durch die Disaggregation können Hardware-Beschleuniger während der Inferenz wirksamer genutzt werden. Dabei wird die Prompt-Verarbeitung (Prefill-Phase) von der Token-Generierung (Decode-Phase) in einzelne Workloads, sogenannte Pods, getrennt. Diese Aufteilung ermöglicht eine unabhängige Skalierung und Optimierung in den einzelnen Phasen, die schließlich unterschiedliche Rechenanforderungen haben. Der intelligente Scheduling Layer erweitert zudem die Kubernetes Gateway API und ermöglicht differenziertere Routing-Entscheidungen für eingehende Anfragen. Dafür werden Echtzeitdaten wie die Cache- und Pod-Auslastung genutzt, um Anfragen an die optimale Instanz weiterzuleiten, wodurch die Arbeitslast im Cluster ausgeglichen wird. Disaggregation steigert Durchsatz Prinzipiell erschwert der fundamentale Unterschied zwischen der Prefill- und der Decode-Phase der LLM-Inferenz die optimale Ressourcenzuweisung. So ist die Prefill-Phase, in der der Input-Prompt verarbeitet wird, in der Regel rechenintensiv, um die ersten Cache-Einträge zu erstellen. Umgekehrt kommt es in der Decode-Phase, in der Token einzeln generiert werden, auf die Speicherbandbreite an, da sie in erster Linie das Lesen aus und Schreiben in den Cache mit relativ geringem Rechenaufwand umfasst. Durch die Implementierung der Disaggregation ermöglicht llm-d, dass diese beiden unterschiedlichen Rechenprofile von separaten Kubernetes-Pods bedient werden. So können die Prefill-Pods mit Ressourcen bereitgestellt werden, die für rechenintensive Aufgaben optimiert sind, und die Decode-Pods mit Konfigurationen, die auf Speicherbandbreiteneffizienz zugeschnitten sind. Durch die Unterteilung einer Nutzeranfrage in diese Phasen können verteilte Systeme die einzelnen Teile der jeweils am besten geeigneten Hardware zuweisen und so die Effizienz steigern. Performance erhöhen Das Kernelement der Leistungssteigerungen von llm-d ist der intelligente Scheduling Layer, der orchestriert, wo und wie Open Source als Turbo der KI-Inferenz

RkJQdWJsaXNoZXIy MjE2Mzk=