In einer spannenden Wendung der Ereignisse in der Welt der künstlichen Intelligenz hat Meta die Llama API auf der ersten LlamaCon vorgestellt und verspricht, die Art und Weise, wie Entwickler mit ihren KI-Modellen interagieren, zu revolutionieren. Dieser neue Dienst, der sich in einer Phase der begrenzten kostenlosen Testversion befindet, ermöglicht es Entwicklern, auf verschiedene Modelle der Llama-Familie zuzugreifen, einschließlich der neu veröffentlichten Llama 4 Scout und Llama 4 Maverick.
Die Llama API zeichnet sich durch ihre Benutzerfreundlichkeit aus und bietet die Erstellung von API-Schlüsseln mit einem einzigen Klick sowie leichte SDKs in TypeScript und Python. Das Beste daran ist die Kompatibilität mit dem OpenAI SDK, was es Entwicklern erleichtert, ihre auf OpenAI basierenden Anwendungen auf diese neue Plattform zu portieren.
Unprecedented Inference Speeds
Doch das ist noch nicht alles, denn Meta hat sich mit Cerebras und Groq zusammengetan und verspricht Rekordgeschwindigkeiten bei der Inferenz. Cerebras behauptet, dass ihr Modell Llama 4 Cerebras Tokens bis zu 18 Mal schneller generieren kann als herkömmliche, auf NVIDIA-GPU basierende Lösungen und andere. Laut der Benchmark-Website Artificial Analysis übertraf das Cerebras-Modell 2.600 tokens/s für Llama 4 Scout, im Vergleich zu nur 130 tokens/s von ChatGPT und 25 tokens/s von DeepSeek.
Andrew Feldman, CEO und Mitbegründer von Cerebras, äußerte seine Begeisterung: “Cerebras ist stolz darauf, die Llama API zur schnellsten Inferenz-API der Welt zu machen. Entwickler, die Echtzeitanwendungen erstellen, benötigen Geschwindigkeit. Mit Cerebras in der Llama API können sie KI-Systeme schaffen, die für führende GPU-basierte Inferenz-Clouds grundsätzlich unerreichbar sind.”
Interessierte Entwickler können auf diese unglaubliche Inferenzgeschwindigkeit zugreifen, indem sie Cerebras aus den Modelloptionen innerhalb der Llama API auswählen. Darüber hinaus ist Llama 4 Scout auch über Groq verfügbar, obwohl es derzeit mit mehr als 460 tokens/s arbeitet, was ungefähr 6 Mal langsamer ist als die Lösung von Cerebras, aber immer noch 4 Mal schneller als andere GPU-basierte Lösungen.
0 Kommentare