Midjourney und DALL-E 2 erobern die Kunstwelt. Werden Text-zu-Bild-Generatoren bald zu deinen kreativen Assistenten und Helfern im Alltag?

“Coffee on a table” – Der Tisch ist krumm und die Tasse nicht immer als Kaffeetasse zu erkennen.

“A cup of coffee on a table” – Schon besser. Allerdings hat die Tasse zwei Henkel.

“A cup if coffee on a wood table outside in rainy autumn weather” – Damit erziele ich mittlerweile die schönsten Ergebnisse.

 

Woran ich arbeite? Ich lasse eine KI für mich arbeiten. Durch die Eingabe einer Textbeschreibung kann ich maschinell Bilder generieren.

Die Möglichkeiten der Text-zu-Bild-Generatoren reichen von erstaunlich bis grotesk. Hier kommt es auf die Wahl der passenden künstlichen Intelligenz an.

Diesen visuellen Trend hast du sicherlich schon mitbekommen, oder? Schließlich ist er überall zu sehen. Zahlreiche Medien und Blogger haben sich damit auseinandergesetzt, den Hype in den Himmel gelobt oder diesen verflucht.

Mein persönlicher Eindruck: Die Generatoren können Beachtliches leisten. Doch sind die Anwendungsmöglichkeiten derzeit noch überschaubar.

Lass uns gemeinsam einen Blick auf die Text-zu-Bild-Generatoren werfen und herausfinden, was dahintersteckt.

Wie funktionieren Text-zu-Bild-Generatoren?

Zwar gibt es mittlerweile viele verschiedene Anbieter, doch deren Generatoren basieren alle auf dem gleichen Prinzip. Eine Vielzahl zuvor beschrifteter oder kategorisierter Bilder bilden die Grundlage. Text-zu-Bild-Generatoren erhalten Zugriff auf diese Bilddatenbank und analysieren diese automatisch.

Um die Funktionsweise der Generatoren zu erklären, muss ich etwas weiter ausholen:

Stelle dir vor, dass du einem Kleinkind, während es aufwächst, immer wieder ein Bild zeigst – beispielsweise einen Astronauten, der auf einem Pferd reitet.

Du erklärst dem Kleinkind, dass es sich dabei um einen “Astronauten auf einem Pferd” handelt. Das Kleinkind verknüpft im Laufe der Zeit die Beschreibung mit dem Bild.

Wenn das Kleinkind älter ist und du es darum bittest, einen “Astronauten auf einem Pferd” zu malen, fertigt es mit hoher Wahrscheinlichkeit ein Bild an, das der Illustration ähnelt, die du ihm oder ihr über die Jahre hinweg immer wieder gezeigt hast.

Auf diese Art und Weise funktioniert auch die künstliche Intelligenz:

  • Der KI wird immer wieder ein Bild gezeigt.
  • Diesem Bild wird eine Beschreibung zugeordnet.
  • Die KI verknüpft die Beschreibung mit dem Bild.
  • Die künstliche Intelligenz ist imstande, auf Anfrage dieses Bild darzustellen.

Doch die Programme lernen nicht nur das. Sie verstehen, wie Menschen, Tiere und Gegenstände zusammenhängen und untereinander interagieren. Der Astronaut reitet beispielsweise das Pferd – und nicht umgekehrt. Oder dass sich Pferde auf dem Land aufhalten und vier Beine haben. Liegen dem Programm genügend Daten (Bilder) zur Verfügung, lernt es auch, bestimmte Bildsprachen sowie Kunststile zu erkennen und nachzuahmen.

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Warum maschinelle Bildgenerierung heute und nicht schon früher?

Es gibt viele Gründe, warum die Entwicklung der Text-zu-Bild-Generatoren erst jetzt an Fahrt zugenommen hat:

  • Die künstlichen Intelligenzen, die in den Programmen stecken, mussten zunächst entwickelt werden. Heute profitieren wir von den erstaunlichen Fortschritten dieser Technologien, die wir nicht nur für die Bildgenerierung nutzen.
  • Hinzu kommt die scheinbar unendliche Menge an Bildern und Daten, die wir über das World Wide Web miteinander teilen. Sie bilden die Grundlage, damit die Generatoren überhaupt funktionieren können.
  • Damit die maschinelle Bildgenerierung laufen kann, braucht es Rechenleistung. Es hat eine Zeit lang gebraucht, bis wir diese Leistung auch auf unseren Alltagsgeräten abrufen konnten. 

Der derzeitige Hype um die Text-zu-Bild-Generatoren entstand auch die Verfügbarmachung. Den Zugriff auf Programme wie DALL-E 2 oder Midjourney sind eingeschränkt. Erst die Bereitstellung für die Masse – durch Stable Diffusion sowie seit Kurzem Canva und TikTok – löste die Begeisterung aus.

Angebote im Überblick: Welche Text-zu-Bild-Generatoren gibt es?

Einen ersten Überblick habe ich dir bereits in meinem Beitrag zu Visual-Content-Erstellungsmöglichkeiten Anfang September gegeben. Es ist möglich, dass dir ein paar der folgenden Generatoren etwas sagen.

Die bekanntesten Text-to-Image-KIs

Mittlerweile gibt es eine Reihe von Generatoren, die aufgrund ihrer erstaunlichen Ergebnisse bekannt wurde. DALL-E 2, Midhourney und Stable Diffusion zählen zu diesen Text-zu-Bild-Generatoren.

DALL-E 2

DALL-E 2:  Der Vorgänger hieß DALL-E, der Name ist angelehnt an Salvador Dalí. DALL-E 2 ist ebenfalls ein KI-System, das aus einer Textbeschreibung in natürlicher Sprache realistische Bilder erstellen kann.

DALL-E erzeugte beim Generieren neuer Bilder noch zahlreiche Effekte und Artefakte.

DALL-E 2 soll diese laut Angaben des Betreibers kaum noch vorweisen.

Mittlerweile ist Dall-E 2 sogar in der Lage, Bilder auf Wunsch zu erweitern.

Hast du dich schon mal gefragt, wie der Raum aussieht, in dem die Dame mit dem Perlenohrring sitzt? Jetzt kannst du es herausfinden.

DALL-E 2 ist eine OpenAI. Das heißt, du kannst das Tool kostenlos nutzen. Allerdings musst du dich auf einer Warteliste eintragen.

Midjourney

Von Midjourney wirst du sicherlich auch schon gehört haben. Es ist wie DALL-E ein Programm mit einer künstlichen Intelligenz, das aus deinen Textbeschreibungen Bilder erstellen kann. Derzeit befindet sich Midjourney in einer Open Beta. Doch hatte ich die Möglichkeit, bereits vorab ein wenig mit dem Tool herumzuspielen. Gesteuert wird das Tool über Discord:

  • Du wählst einen der vorhandenen “Newbie” Kanäle aus.
  • Dann nutzt du den /imagine-Befehl. Es öffnet sich ein Pop-up.
  • Hier wählst du “/imagine prompt” aus.
  • In diesem Fenster gibst du dann deine Bildbeschreibung ein.
  • Der Midjourney-Bot verarbeitet dann deine Anfrage.
  • Der Bot generiert bis zu 4 Optionen.
  • Wenn du willst, kannst du die Ergebnisse weiter bearbeiten.
  • Du kannst das Bild deiner Wahl vergrößern oder du kannst den Midjourney-Bot dazu auffordern, weitere Variationen zu einer von dir ausgewählten Variante zu erstellen.
  • Wenn du mit dem Ergebnis zufrieden bist, kannst du das Bild herunterladen. 

Du kannst kostenlos bis zu 25 Anfragen an den Bot stellen. Wenn du mehr experimentieren möchtest, musst du ein Abonnement abschließen. Bei Midjourney ist darüber hinaus auf die Abrechnungs- und Lizenzierungsformalien zu achten. Einfach so nutzen kannst du das Bildmaterial (leider) nicht. Eine der Gründe, warum ich dir an dieser Stelle keines meiner Midjourney-Bilder zeige. 😉 Die Ergebnisse sind genauso erstaunlich wie die Bilder, die du mit DALL-E 2 generieren kannst.

Neben vielen guten Schlagzeilen hat Midjourney auch einige Skandal-Überschriften produziert. Mit einem KI-generierten Bild bei einem Kunstwettbewerb mitzumachen und zu gewinnen, gefiel einigen Künstlern nicht. Das Erstaunliche: Die Preisrichter hatten nicht erkannt, dass es sich beim Gewinner um ein KI-Werk handelte.

Stable Diffusion

Stable Diffusion zählt ebenfalls zu den besten Text-zu-Bild-Generatoren, die es derzeit gibt. Der Vorteil gegenüber Midjourney und DALL-E 2: Stable Diffusion ist öffentlich zugänglich. 

Dieser Text-zu-Bild-Generator ist für seine Geschwindigkeit und Qualität bei der Bildergenerierung bekannt. Mehr zu der Entstehungsgeschichte von Stable Diffusion erfährst du auf dem Blog der Entwickler.

neuroflash

neuroflash – Moment, ist das nicht das Unternehmen mit dem KI-Text-Programm? Eigentlich schon. Doch ist es nicht abwegig, auch die firmeneigene künstliche Intelligenz auf Bilder loszulassen. Ich kann mir zumindest vorstellen, dass das die Entscheidung der Betreiber war.

Zwar steht auf der Übersichtsseite von neuroflash, dass du dich zunächst auf einer Warteliste eintragen musst, doch nach einer kostenlosen Anmeldung kannst du das KI-Bild-Tool, das sich derzeit in der Betaphase befindet, ausprobieren. Allerdings musst du deine Textbausteine, die du der KI vorgibst, auf Englisch formulieren.

Das ist aber bei den meisten Text-zu-Bild-Generatoren so. Meine Erfahrungen: die KI von neuroflash ist gut. Allerdings habe ich festgestellt, dass sie noch viele Artefakte und Effekte erzeugt.

Klar, der Text-zu-Bildgenerator ist noch in der Betaphase. Mit den Ergebnissen von DALL-E 2 oder Midjourney lassen sich die neuroflash-Bilder nicht vergleichen.

Schade ist auch, dass du im Test nicht mehr als zwei Bildanfragen stellen kannst. Zum Ausprobieren sollte die Menge ausreichen.

Lese dir auch die Anleitung von neuroflash durch, um bessere Ergebnisse zu erzielen.

Applikationen für Smartphones

Text-zu-Bild-Generatoren können auch auf einem Smartphone genutzt werden. Die folgenden Applikationen zeigen, welche Ergebnisse mit dem Mobilgerät erzielt werden kann.

WOMBO Dream

Warum das KI-Programm nicht in eine Applikation packen? Das werden sich wohl die Entwickler von WOMBO Dream gedacht haben. Die App kannst du dir für Android- und iOS-Geräte holen. Wenn du auf deinem Desktop bleiben möchtest, kannst du das Programm auch unter app.wombo.art ausprobieren. Mittlerweile hat WOMBO Dream auch einen eigenen Discord-Kanal. Das ist praktisch, wenn du die App-Variante nicht verwenden möchtest.

In der App gibst du in einem Formularfeld kannst du bis zu 100 Zeichen ein. Danach wählst du den Stil aus, mit dem die künstliche Intelligenz das Bild “malen” soll.

Sobald du dich für WOMBOVERSE (Discord) verifiziert hast, wählst du #wombot-1 oder #wombot-2 aus. Dort kannst du dann die folgenden Befehle für die Bildgenerierung verwenden:

  • /dream – Bilder mit #dreamdiffusion erzeugen
  • /meme – Die KI erzeugt eine Reihe von Meme mit Bild und Text
  • /styles – Die KI greift bestimmte Nutzerstile mit #VGGAN und #dreamdiffusion auf.

Wie die anderen Programme erzeugt auch WOMBO Dream Artefakte und merkwürdige Effekte. WOMBO Dream weist übrigens in seinen Terms of Service darauf hin, dass das Unternehmen weder für Einzigartigkeit, Originalität, Qualität noch die Verfügbarkeit oder den Umfang des Urheberrechtsschutzes für die von den Nutzern mithilfe des Dienstes erstellten Kunstwerke garantiert. Nutze die Applikation also mit Bedacht.

Craiyon

Ein weiterer Generator, der im Web und für Android verfügbar ist, ist Craiyon.

Früher nannte sich die Applikation DALL-E mini. Die KI von Craiyon wird mit Google TRC trainiert.

Wie bei WOMBO Dream gibt es einige Dinge zu beachten, wenn du die generierten Bilder nutzen willst. Wirf auch hier einen Blick auf die Nutzungsbedingungen.

Was mir beim Test der Desktop-Variante aufgefallen ist: Die KI benötigt bis zu zwei Minuten, um ein Bild zu erstellen. Auch die Effekte und Artefakte sind hier sehr deutlich zu erkennen.

 

Weitere Smartphone Applikationen, die du ausprobieren kannst:

Plattformen mit integrierten Text-zu-Bild-Generatoren

Meiner Wahrnehmung nach war Canva etwas schneller als TikTok. Beide Plattformen bieten inzwischen eigene Text-zu-Bild-Generatoren an. Ihr Funktionsumfang ist aber bei Weitem nicht so beeindruckend, wie die von DALL-E 2, Midjourney oder Stable Diffusion.

Doch, wer Canva nutzt oder TikTok für die regelmäßige Kommunikation mit Gleichgesinnten nutzt, sollte die plattformeigenen Generatoren einmal ausprobieren.

Wie die Text-to-Image-Funktion auf Canva funktioniert, habe ich mit einem kleinen Video bereits im Canva-Übersichtsartikel gezeigt. Gegenstände kann die Canva-KI gut darstellen. Mit Menschen tut sich die künstliche Intelligenz noch schwer. Doch auf diese Weise kann der Missbrauch des Tools verhindert werden. Nacktbilder oder brutale Motive kannst du nicht erstellen. Achte bei der Nutzung darauf, englische Begriffe zu nutzen. Die deutsche Sprache versteht die KI noch nicht so gut.

The Verge hat bereits einen Blick auf den TikTok-Generator geworfen. Die Ergebnisse, die du mit dem Addon erzielen kannst, sind weitaus weniger beeindruckend. Derzeit kann es nur abstrakte und wirbelnde Bilder darstellen. Dadurch wirken maschinell generierte Bilder sehr verträumt. Aber vielleicht ist das bei einer Video-Plattform mit Millionen von Nutzern auch sinnvoll? Schließlich verhindert TikTok auf diese Weise das Generieren von Nacktfotos oder besonders brutalen Motiven.

Bild- und Urheberrechte: Wem gehören die KI-generierten Bilder?

Den Überblick bei Bild- und Urheberrechten zu behalten, ist keine leichte Angelegenheit. Denn jeder Generator hat eigene Vorgaben. Lies dir auf jeden Fall die Nutzungsbedingungen aufmerksam durch, bevor du deine generierten Bilder teilst oder auf eine andere Art und Weise nutzt.

Ob und wie die KI-generierten Werke geschützt sind, haben wir uns bereits im “Visual-Content-Erstellung”-Beitrag angeschaut. Die Betrachtung von Bild- und Urheberrecht unterscheidet sich nicht nur zwischen den Tool-Anbietern. Auch viele Länder betrachten dieses Bildmaterial unterschiedlich. In Amerika gelten sie bisher als ungeschützt. In Deutschland ist die Sache deutlich komplizierter.

Falls dich das Thema interessiert: Im genannten Blogbeitrag habe ich auch einen Beitrag der Telemedicus verlinkt.

Was halten Künstler und Designer von Text-zu-Bild-Generatoren?

Das viele Künstler derzeit irritiert sind, ist eine Untertreibung. Denn schließlich geht es um eine Branche, die zuvor nur von Menschen und nicht von künstlichen Intelligenzen gefüllt wurde.

Karen X. Cheng, freischaffende Creative Director, hatte am Anfang die Befürchtung durch KIs ersetzt zu werden. Doch diese Angst legte sich bei ihr schnell wieder. Mittlerweile sieht sie die Generatoren als hilfreiches und kreatives Werkzeug für den Menschen.

Robert Lennon, Entrepreneur und Influencer, ist davon überzeugt, dass die Text-zu-Bild-Generatoren neue Berufsbezeichnungen schaffen könnten. Ein möglicher Beruf könnte seiner Meinung nach “Prompt Engineering” sein. Und tatsächlich gibt es schon eine gleichnamige Plattform, die diese Leistung vermarktet.

Kritiker wie Vlad Savov, Editor bei Bloomberg, sehen die Generatoren und deren Möglichkeiten kritischer. Seiner Meinung nach werden Künstler mit diesen Werkzeugen unterdrückt und ausgebeutet.

Aber bedeuten die Text-zu-Bild-Generatoren automatisch das Aus für kreative Menschen? Ich denke nicht. Dem Großteil der KI-generierten Bilder merkt man an, dass sie maschinell erstellt wurden. Artefakte und Effekte stehen an der Tagesordnung. Außerdem dürfen wir nicht vergessen, welche Basis künstliche Intelligenzen benötigen, um Bilder überhaupt generieren zu können: Bilder und Illustrationen, die Menschen erstellt und entwickelt haben.

Weitere Gedanken von Künstlern und kreativen Köpfen hat Vox in einem weiteren Video zusammengefasst:

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Wie kannst du die maschinell generierten Bilder einsetzen?

Prinzipiell sind deiner Fantasie keine Grenzen gesetzt. Im Weg stehen dir nur die Nutzungsbedingungen der Plattformen und die Handhabung der Bild- und Urheberrechte in deinem Land.

Viele Künstler nutzen die Generatoren für Recherchen oder Studien. Basierend auf den Erkenntnissen fertigen sie dann handgezeichnete Werke an. Einige Kreative haben auch ihre eigenen KIs entwickelt und trainieren diese, um verschiedene Bildmotive zu generieren.

Du könntest es, wie die Künstler machen, und Bildrecherchen mithilfe der Generatoren machen. Denkbar wäre auch, dass du in Zukunft die KI-generierten Bilder für Social-Media-Zwecke nutzt.

Ansonsten bleibt abzuwarten, wie und was wir mit den Text-zu-Bild-Generatoren zukünftig anstellen können. 😉

Fazit: Text-zu-Bild-Generatoren noch ganz am Anfang

Noch erzeugen die künstlichen Intelligenzen bei der maschinellen Bildgenerierung zu viele Artefakte und Effekte. Damit ist dieses Bildmaterial leicht von Menschen gemachten Werken zu unterscheiden.

Klar, sollte man sich nicht der Illusion hingeben, dass KIs für immer auf diesem Level bleiben werden. DALL-E 2 und Midjourney haben uns hier schon eines Besseren belehrt.

Einer Meinung bin ich mit Karen X. Cheng: Es besteht (noch) kein Grund zur Angst. Lass uns lieber neugierig bleiben und die verschiedenen Werkzeuge ausprobieren. Schlussendlich steht uns damit ein weiteres Werkzeug zur Verfügung, mit dem wir uns alle kreativ ausdrücken können.

In Sachen Bilder- und Urheberrechte braucht es unbedingt eine klare Regelung. Nutzer sollten wissen, was sie tun und nicht tun dürfen. Künstler sollten die Hoheit über ihre Werke behalten können. Missbrauch dieser Generatoren gilt es zu unterbinden – auch vom Gesetzgeber.

Text-zu-Videogeneratoren schon am Start

Natürlich gibt es in diesem Bereich auch Visionäre, die bereits einen Schritt weiter sind. So gibt es bereits eine Reihe von Experimenten, bei denen eine künstliche Intelligenz aus Textbausteinen Videos generiert. Doch hier ist man noch ganz am Anfang.

Zwar gibt es einen ersten Kurzfilm, “The Crow”, von Glenn Marschall, der einige Preise gewinnen konnte. Doch ist das noch kein Grund zu glauben, dass künstliche Intelligenzen bald auf dem Regisseur-Stuhl von Hollywoodfilmen sitzen werden.

Auch Runway arbeitet derzeit an der Entwicklung eines Text-zu-Videogenerators. Hierfür gibt es nur eine Warteliste – eine Beta-Phase wurde noch nicht angekündigt. Mit den Entwicklungen steht Runway also noch ganz am Anfang.

Wäre die Entwicklung von Text-zu-Augmented-Reality- oder Text-zu-Virtual-Reality-Generatoren zu abwegig?