Künstliche Intelligenz (KI) erlangt zunehmend Bedeutung beim Erstellen von Webinhalten. Durch den Einsatz von ChatGPT kann sie Redakteure und Editoren unterstützen, während Midjourney oder Stable Diffusion bei der Erstellung von Grafiken helfen können. Diese Anwendungen ermöglichen eine schnelle und effiziente Generierung von Webinhalten, was zu erheblichen Zeit- und Kostenersparnissen führen kann.
Grundlage für diese generativen KI-Modelle sind das maschinelle Lernen (Machine Learning) und das Deep Learning. Das maschinelle Lernen ist ein Teilbereich der künstlichen Intelligenz, bei dem Computer aus Erfahrungen lernen und Entscheidungen treffen können, ohne explizit programmiert zu werden. Es basiert auf Algorithmen, die Muster und Beziehungen in Daten erkennen können. Das Deep Learning ist wiederum ein spezialisierter Teilbereich des maschinellen Lernens, der sich auf künstliche neuronale Netzwerke konzentriert. Im Gegensatz zu herkömmlichen maschinellen Lernverfahren, bei denen die Merkmale manuell ausgewählt und extrahiert werden müssen, ermöglicht das Deep Learning den Computern, relevante Merkmale automatisch aus den Rohdaten zu erlernen. Das bedeutet, dass das Netzwerk in der Lage ist, hierarchische Muster und komplexe Abhängigkeiten zu erkennen.
Das Deep Learning hat zu bedeutenden Fortschritten in vielen Bereichen geführt, darunter:
- Natural Language Processing: die Verarbeitung von natürlicher Sprache durch Computersysteme
- Computer Vision: das maschinelle Erkennen und Verarbeiten von Bildmaterial (statische und bewegte Bilder)
- Generative KI: das Erstellen neuer Inhalte wie Text, Bilder, Videos, Audio usw. mithilfe von KI-Technologie
Insbesondere die generativen Modelle haben im letzten Jahr große Fortschritte gemacht und sind aus den Newsfeeds nicht mehr wegzudenken.
Generative KI in der Praxis
Im Kontext von Bildern und Grafiken kann generative KI beispielsweise dazu eingesetzt werden, Visuals basierend auf einer Beschreibung oder einem Konzept zu erstellen. Die Text-Bild-KI stützt sich dabei auf ein umfangreiches Training mit Text- und Bilddaten. Während dieses Trainings lernt die KI, Textbeschreibungen von Bildern mit den entsprechenden Bildern zu verknüpfen. Sobald das Training abgeschlossen ist, kann die KI Eingaben in neue Bilder umwandeln. Dafür übersetzt sie die Prompts in eine Zahlenfolge, welche Merkmale des Bildes repräsentieren, wie Farben, Formen und Objekte. Mithilfe dieser Zahlen erzeugt die KI ein neues Bild. Die Qualität der generierten Bilder hängt sowohl von der Güte des Trainingsdatensatzes als auch der Komplexität der KI ab.
Seit 2022 konkurrieren insbesondere die Organisationen OpenAI (mit »DALL·E«), Midjourney und Stability AI (mit »Stable Diffusion«) um die schnellsten Fortschritte auf dem Gebiet der generativen Bild-KI. Dies führte dazu, dass auch Google (mit »Imagen KI«), TikTok (mit »AI Avatars«) und Meta (zum Beispiel mit »Segment Anything Model«) eigene Projekte präsentierten. Seit Anfang 2023 befindet sich zudem »Firefly«, eine Anwendung von Adobe, in der offenen Beta-Phase.
Bereits in der Layout- und Moodboard-Phase unterstützen diese Anwendungen den Prozess der Ideenfindung. Mit wenigen Eingaben lassen sich verschiedene Farbkonzepte, Stile und Motive testen. Mithilfe von KI-Generierungen lassen sich eigene Ideen schneller visualisieren und präsentieren.
Zum Teil sind die Ergebnisse bereits so hochwertig, dass sie sich kommerziell nutzen lassen. So wurden beispielsweise die Keyvisuals von Martinis »Unbottling Martini«-Kampagne mit Midjourney erstellt. Das deutsche E-Bike-Startup »Sushi Bikes« setzt in seiner neuesten Kampagne sogar komplett auf von DALL·E generierte Fotos.
Für die schnelle Integration von Stock-Material bieten viele Content Management Systeme Schnittstellen zu KI-Systemen an. CoreMedia setzt im Feedback Hub auf die Anbindung an DALL·E. AEM bietet mit der Content-Intelligenz auf Basis von Adobe Sensei Funktionen wie intelligentes Tagging, intelligentes Zuschneiden und automatische Bildbearbeitung an. Darüber hinaus existieren bereits Plugins für Wordpress, welche die freien Schnittstellen von OpenAI nutzen.
KI kann jedoch auch dazu beitragen, bestehende Prozesse zu beschleunigen, ohne dass gleich komplette Grafiken von der KI übernommen werden müssen. Verschiedene Tools, wie beispielsweise die von TopazLabs oder chaiNNer, unterstützen mit KI beim Skalieren, Entrauschen und Schärfen von Fotos. In Stable Diffusion können mithilfe von ControlNet unter anderem fertige Grafiken aus Skizzen erstellt und Model-Posen von einem Bild zum nächsten übertragen werden. Metas »Segment Anything Model« ist auf das Erkennen und Freistellen von Objekten in komplexen Szenen spezialisiert, und selbst das Freistellen und die Hintergrundretusche in Photoshop basieren längst auf KI-Algorithmen. In Adobes »Firefly« können Vektorgrafiken mit einem Klick in verschiedenen Varianten umgefärbt werden und seit Mai 2023 ist es möglich, über die Funktion »Generative Fill« in der Photoshop Beta-Version komplette Bildinhalte auszutauschen, zu entfernen oder komplett neu zu generieren. Dies stellt einen echten Gamechanger in der Arbeit mit Stockmaterial dar.
Wo gerät die KI bei der Bilderstellung an ihre Grenzen?
KI stößt bei der Bilderstellung in einigen Schlüsselbereichen an ihre Grenzen. Es ist wichtig, diese Einschränkungen zu verstehen, um generative KI verantwortungsvoll und ethisch einzusetzen.
- Qualität: KI-generierte Bilder können von hoher Qualität, aber dennoch in Bezug auf Detailtreue und Realismus eingeschränkt sein. Das liegt daran, dass KI-Modelle auf einem begrenzten Datensatz von Bildern trainiert werden und möglicherweise nicht alle Nuancen realer Bilder erfassen können. Besonders Hände stellen viele Algorithmen auf eine harte Probe.
- Kreativität: KI-Systeme haben die Fähigkeit, kreative Bilder zu erzeugen, jedoch können sie in ihrer Einzigartigkeit begrenzt sein, da ihnen nur begrenzte Trainingsdaten zur Verfügung stehen. Je umfangreicher und vielfältiger die Datenbank, desto einzigartiger können die Ergebnisse werden.
- Voreingenommenheit: KI-Modelle können voreingenommen sein, was zur Erzeugung von Bildern führen kann, die diese Voreingenommenheit widerspiegeln. Ein KI-Modell, das auf einem Datensatz mit Bildern trainiert wurde, auf denen überwiegend weiße Menschen abgebildet sind, erzeugt beispielsweise mit größerer Wahrscheinlichkeit Bilder von weißen Menschen. Durch das Training mit Stockmaterial sind die meisten dargestellten Personen überdurchschnittlich sportlich und jung. Hier helfen präzise Text-Prompts, um realistischere Ergebnisse zu erzielen.
- Styleguides und Konsistenz: Bei spezifischen Anforderungen an Inhalt und Stil von Bildern kann man auf Hindernisse stoßen. Während in einigen Anwendungen Referenzbilder zur Verfügung gestellt werden können, ist es oft nicht einfach, genaue Vorgaben zu machen, wie Randabstände, Bildausschnitte, exakte Farbwerte und Kleidungsrichtlinien.
- Benutzerfreundlichkeit: Aktuell stehen Nutzer:innen bei den führenden Anbietern vor der Wahl zwischen umfangreichen Funktionen und leichter Bedienbarkeit. Lokale Installationen von Programmen wie Stable Diffusion, Automatic1111 und ControlNet bieten zwar eine Vielzahl technischer Möglichkeiten, verlangen jedoch einen hohen Lernaufwand. Einfacher zu erlernende Anwendungen wie Midjourney, DALL·E und Firefly sind in ihrer Funktionalität allerdings noch begrenzt.
- Urheberrechtsfragen und Datenschutz: KI-Modelle können dazu genutzt werden, Bilder zu erschaffen, die das Urheberrecht verletzen. So könnten beispielsweise Bilder, die auf urheberrechtlich geschützten Gemälden oder Fotos basieren, von einem KI-Modell erzeugt werden. Zudem ist noch nicht geklärt, wer das Urheberrecht von KI-generierten Bildern hält. Unternehmen sollten hier Rechtsberatung einholen.
Warum Midjourney nicht immer die beste Wahl ist
Midjourney ist eine beliebte KI-Plattform und liefert Ergebnisse in beeindruckender Qualität. So wurden z.B. die KI-Bilder vom Papst in Daunenjacke mit Midjourney erstellt. Diese Plattform ist jedoch für Unternehmen aus strategischen und rechtlichen Gründen nicht die beste Wahl. Die Hauptgründe dafür sind die Nutzungsbedingungen und das Konzept der Plattform.
Die Nutzung der KI erfolgt über Discord-Channel. Im öffentlichen Channel von Midjourney sind dabei alle Schritte der Bildgenerierung von allen Nutzer:innen einsehbar. Midjourney verbietet es den Anwender:innen zwar, von anderen generierte Bilder ohne weitere Änderungen für eigene Zwecke zu nutzen oder zu veröffentlichen, veröffentlicht in den Standard-Lizenzen allerdings die Textprompts, welche zum Erstellen der Bilder genutzt wurden. Obwohl Nutzer:innen den Bot in private Channels einladen können, sind alle generierten Inhalte inklusive der Prompts auf der Midjourney-Website sichtbar, wo jede:r Benutzer:in ein Profil hat und seine Assets angezeigt werden. Beiträge können zwar gelöscht werden, aber sie bleiben bis zu diesem Zeitpunkt öffentlich zugänglich. Damit können Prompts kopiert und von anderen Nutzer:innen weiterverwendet werden.
Zwar verhindert der »Stealth-Modus« für »Pro«-Abonnenten, dass generierte Grafiken und Eingaben auf der Midjourney-Website sichtbar sind, jedoch sind Eingaben auf öffentlichen Kanälen immer für alle Nutzer:innen erkenn- und kopierbar. Obwohl Nutzer:innen die von ihnen erstellten Grafiken veröffentlichen, verändern, verkaufen und auch als NFTs anbieten können, gibt die Plattform keine Garantien oder Zusicherungen bezüglich der gültigen Urheberrechte, die sich für Nutzer:innen verschiedener Länder und Einsatzmöglichkeiten unterscheiden.
Eine Alternative zu Midjourney für Unternehmen könnte Stable Diffusion sein, da es dezentral auf den Servern und Rechnern der Anwender läuft und nicht von Dritten erreicht werden kann. Darüber hinaus können eigene Modelle trainiert werden, was den Algorithmus für den markenspezifischen Einsatz interessant macht. Auch Adobes FireFly könnte sich zu einer guten Alternative entwickeln. Hier wurde besonders viel Wert daraufgelegt, beim Training des Modells keine Urheberrechte zu verletzen und nur auf das Adobe Stock-Material zurückzugreifen. Auch die Integration in die Creative Cloud macht Firefly interessant für den professionellen Einsatz.
Fazit
Die Anwendung künstlicher Intelligenz in der Bildgenerierung zeigt deutliche Fortschritte und bringt erhebliche Vorteile in Bezug auf Effizienz und Kostenersparnis. Generative KI-Modelle wie Midjourney und Stable Diffusion ermöglichen die schnelle Erstellung von hochwertigen Bildern. Trotz bemerkenswerter Erfolge weisen KI-generierte Bilder jedoch noch Mängel in Bezug auf Detailtreue, Realismus, Kreativität und Einheitlichkeit auf. Außerdem können sie voreingenommen sein und Urheberrechtsfragen aufwerfen. Bei der Wahl des geeigneten KI-Werkzeugs müssen Nutzer:innen zwischen Funktionsumfang und Benutzerfreundlichkeit abwägen. Unternehmen sollten sorgfältig die Nutzungsbedingungen und das Konzept der KI-Plattformen prüfen, um rechtliche Probleme zu vermeiden und die Vertraulichkeit ihrer Daten zu wahren. Es ist entscheidend, sich über die Grenzen und ethischen Fragen der KI-Bilderzeugung im Klaren zu sein, um sie verantwortungsvoll zu nutzen.