Entdecke die Agenten der künstlichen Intelligenz und ihre Funktionsweise in der neuen digitalen Ära

Startseite · Blog IA · Grundbegriffe · Entdecke die Agenten der künstlichen Intelligenz und ihre Funktionsweise in der neuen digitalen Ära

Die künstliche Intelligenz verändert sich rasant und es geht nicht mehr nur um Chatbots, die Fragen beantworten. Seit der Einführung von ChatGPT Ende 2022 hat sich die Aufmerksamkeit auf aktionsgesteuerte KI-Agenten verlagert. Im Gegensatz zu Chatbots, die Informationen verarbeiten und in natürlicher Sprache antworten, sind diese Agenten in der Lage, komplexe Aufgaben autonom auszuführen. Lassen Sie uns eingehend erkunden, was KI-Agenten sind, wie sie funktionieren und welche verschiedenen Typen es gibt. Schauen wir uns zunächst eine Zusammenfassungstabelle mit all diesen Informationen an und dann gehen wir ins Detail:

Aspekt Beschreibung
Unterschied zu Chatbots Im Gegensatz zu Chatbots (z.B. ChatGPT, Gemini), die sich darauf beschränken, Informationen in ihrer Umgebung zu verarbeiten und zu antworten, können KI-Agenten Werkzeuge aufrufen, Daten kurz- und langfristig speichern und mehrere Schritte ausführen, um Aufgaben zu erledigen.
Schlüsseltechnologien Basierend auf großen Sprachmodellen (LLMs), die für Aktionen feinabgestimmt sind, Verstärkungslernen und visuellen Sprachmodellen; integrieren externe Werkzeuge (APIs, Funktionen, GUIs).
Typen von Agenten 1. Einfache Reflex-Agenten: bedingte Logik ohne Gedächtnis.
2. Modellbasierte Reflex-Agenten: internes Gedächtnis und feste Regeln.
3. Zielbasierte Agenten: planen, um spezifische Ziele zu erreichen.
4. Nutzungsbasierte Agenten: optimieren eine Belohnungsfunktion.
5. Lernende Agenten: verbessern sich mit Erfahrung.
Herausragende Beispiele Operator (OpenAI): navigiert und bedient GUIs im Web, um einzukaufen, zu buchen und Formulare auszufüllen (benötigt menschliche Aufsicht).
Deep Research (OpenAI/Gemini): erstellt detaillierte Berichte mit Zitaten.
Computer Use (Anthropic): steuert einen Computer über Bildschirmansicht.
Manus (China).

Was sind KI-Agenten?

Der Begriff „KI-Agent“ bezieht sich auf ein Softwaresystem, das künstliche Intelligenz nutzt, um zu planen, zu schlussfolgern, Entscheidungen zu treffen und mehrere Aktionen autonom auszuführen, um Ziele zu erreichen. Im Gegensatz zu Chatbots, die Informationen in einer geschlossenen Umgebung verarbeiten, interagieren KI-Agenten mit externen Systemen, um ihre Aufgaben zu erfüllen.

Wie Chatbots arbeiten KI-Agenten mit großen Sprachmodellen (LLMs), sind jedoch darauf abgestimmt, aktiongesteuert zu sein. In der heutigen KI-Welt setzen viele Unternehmen Verstärkungslernen und fortgeschrittenes Schlussfolgern über visuelle Sprachmodelle ein, um diese Agenten zu entwickeln. Darüber hinaus integrieren sie externe Werkzeuge wie APIs, Funktionen und Datenbanken, um eine Vielzahl von Aufgaben auszuführen.

Im Wesentlichen sind KI-Agenten mehr als ein Modell; sie sind ein KI-System, das die Interaktion mit Werkzeugen, kurz- und langfristigem Gedächtnis sowie die Verbindung zu Drittsystemen ermöglicht, um spezifische Aufgaben zu erledigen. Ein herausragendes Beispiel ist der Operator-Agent von OpenAI, der entwickelt wurde, um mit grafischen Benutzeroberflächen im Web zu interagieren.

Dieser Agent kann im Internet surfen, Lebensmittel bestellen, Formulare ausfüllen und Flüge buchen, unter vielen anderen Aktionen. Obwohl er die Sichtfähigkeit von GPT-4 nutzt, um Bildschirme zu analysieren und zu bestimmen, wo geklickt werden soll, ist er nicht vollständig autonom und benötigt manchmal menschliche Aufsicht, um Aufgaben abzuschließen.

Typen von KI-Agenten

Laut Stuart Russell und Peter Norvig in ihrem Buch „Artificial Intelligence: A Modern Approach“ werden KI-Agenten in fünf Typen klassifiziert: einfache Reflex-Agenten, modellbasierte Reflex-Agenten, zielbasierte Agenten, nutzungsbasierte Agenten und lernende Agenten.

Die einfachen Reflex-Agenten arbeiten mit bedingter Logik und sind die grundlegendste Form. Sie lernen nicht und behalten keine Gedächtnismuster. Auf der anderen Seite haben die modellbasierten Reflex-Agenten Gedächtnis und bauen ein grundlegendes Verständnis der Welt auf der Grundlage ihrer Aktionen auf. Zum Beispiel passt ein Staubsauger-Roboter sein Verhalten an, um Hindernisse zu vermeiden, während er sie erkennt.

Die zielbasierten Agenten sind nicht durch Regeln eingeschränkt und müssen spezifische Ziele erreichen, indem sie planen und schlussfolgern, um den besten Weg zu finden, diese zu erfüllen. Ein gutes Beispiel wäre eine KI, die Schach spielt und alle möglichen Züge in Betracht zieht, um einen Sieg zu erzielen.

Die nutzungsbasierten Agenten maximieren die „Zufriedenheit“ oder „Glück“ durch eine Belohnungsfunktion. Schließlich haben die lernenden Agenten ähnliche Fähigkeiten wie andere Agenten, können jedoch neues Wissen aus einer unbekannten Umgebung erwerben und sich im Laufe der Zeit verbessern.

Beispiele für KI-Agenten

Ein Pionier auf diesem Gebiet ist der Operator-Agent von OpenAI, der Aufgaben im Web über einen Cloud-Browser ausführen kann. Er kann Essen bestellen, Hotels finden und Tickets für Konzerte kaufen. Derzeit befindet er sich in einer Forschungs-Vorschau und ist nur für ChatGPT Pro-Abonnenten verfügbar, die 200 $ pro Monat kosten.

Zusätzlich zu Operator hat OpenAI den Deep Research-Agent veröffentlicht, der in jedes Thema eintaucht und vollständige Berichte erstellt, einschließlich Zitationen zur Überprüfung der Informationen. Es gibt auch den Deep Research-Agent von Gemini, der ähnliche Dienste kostenlos anbietet.

Auf der anderen Seite hat Anthropic den Computer Use-Agent eingeführt, der einen Computer steuern kann, indem er den Bildschirm visuell analysiert. Obwohl er etwas langsam ist, erfüllt er seine Funktion. Der MCP-Standard von Anthropic wird von Unternehmen wie Google und Microsoft übernommen, um KI-Agenten mit KI-Modellen zu verbinden.

Vor kurzem wurde der Manus-Agent aus China viral, der in der Lage ist, im Web zu navigieren, Code auszuführen und mit einem Computer in der Cloud zu interagieren. Trotz seiner beeindruckenden Demonstration arbeitet er mit dem Modell Claude 3.5 von Anthropic.

Schließlich entwickelt Google Project Mariner, einen Agenten, der Aufgaben im Chrome-Browser ausführen wird, ähnlich wie Operator, der derzeit mit ausgewählten Benutzern getestet wird.

Obwohl wir uns in den frühen Tagen der Ära der KI-Agenten befinden, ist es offensichtlich, dass die Zukunft in Richtung aktiongesteuerter Anwendungen geht. Wir haben noch nicht das Niveau erreicht, auf dem KI-Modelle kritische Aufgaben vollständig autonom ausführen können, und KI-Unternehmen integrieren menschliche Aufsicht als Teil des Prozesses.

0 Kommentare

Einen Kommentar abschicken

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert