Seit über einem Jahr hat der Begriff nativ multimodal in der Welt der künstlichen Intelligenz Widerhall gefunden, doch nur wenige haben es geschafft, diese Fähigkeiten voll auszuschöpfen. Jetzt hat Google seinen Zug mit der Einführung seines neuesten Modells, Gemini 2.0 Flash Experimental, gemacht, das nicht nur Bilder generieren, sondern sie auch nativ bearbeiten kann. Man könnte sagen, es hat Photoshop einen kleinen Stupser gegeben 🤏🏼…
Warum ist die Bildgenerierung so wichtig? Obwohl die Bildgenerierung durch KI über Chatbots wie ChatGPT verfügbar ist, hängen diese oft von spezialisierten Modellen wie Dall-E 3 oder Imagen 3 ab, die Erweiterungen des Hauptmodells sind und nicht dessen integraler Bestandteil. Im Gegensatz dazu sind Modelle wie Gemini nativ multimodal, was bedeutet, dass sie sowohl Text als auch Bilder intrinsisch verstehen und erstellen können.
Nativ Bildgenerierung mit Gemini 2.0 Flash Experimental
Derzeit ist diese Funktion der nativen Bildgenerierung nicht für alle Nutzer verfügbar. Das Modell Gemini 2.0 Flash Experimental kann kostenlos im AI Studio von Google getestet werden und wird bald einem breiteren Publikum zur Verfügung stehen. Nach meinen Erfahrungen mit diesem Modell kann ich sagen, dass die Erfahrung wirklich beeindruckend war.
Ich begann damit, Gemini zu bitten, einen visuellen Leitfaden zu erstellen, wie man Bolognese-Makkaroni zubereitet. Die Ergebnisse waren überraschend und zeigten eine bemerkenswerte Konsistenz zwischen den generierten Bildern, von der Pfanne bis zu den Zutaten. Jedes Bild hat die gleiche Auflösung von 1024 x 680, was die Erstellung visueller Leitfäden zu jedem Thema erleichtert.

Dann bat ich Gemini, ein leeres Zimmer zu generieren, und forderte es auf, Änderungen an der Dekoration und der Nutzung des Zimmers vorzunehmen. Die Kontinuität, die es beibehielt, war erstaunlich.

Nativ Bildbearbeitung mit Gemini 2.0 Flash Experimental
Um die Funktion der Bildbearbeitung zu demonstrieren, lud ich ein Foto meiner Garage hoch und bat es, mein Auto gegen einen weißen Tesla auszutauschen, und das Ergebnis war beeindruckend. Schließlich bat ich es, einige Tische mit Computern hinzuzufügen, und so zeigte es mir das Potenzial der Bildbearbeitung dank der nativen multimodalen Fähigkeit von Gemini. Sie waren nicht perfekt, aber sehr gut. Außerdem bat ich Gemini, ein altes Schwarz-Weiß-Foto zu kolorieren, und das Ergebnis übertraf meine Erwartungen, mit optimaler visueller Qualität und ohne sichtbare Fehler.
Die Möglichkeiten mit Gemini sind vielfältig und aufregend. Google hat bewundernswerte Arbeit geleistet, um die Bildgenerierung und -bearbeitung nativ zu integrieren. Mit der kürzlichen Einführung von Veo 2 für die Videoerzeugung und Imagen 3 für die spezialisierte Bilderzeugung scheint es, dass Google OpenAI in mehreren Aspekten übertroffen hat, nicht nur in der Textgenerierung. Es wird interessant sein zu sehen, wie OpenAI auf diesen Fortschritt mit seinem ChatGPT reagiert.
0 Kommentare