OpenAI Sora: Neues KI-Modell generiert Videos aus Texteingaben

Das KI-Unternehmen OpenAI hat mit Sora ein neues Text-zu-Video-Modell präsentiert, mit dem sich bis zu 60-sekündige Videoclips erzeugen lassen. Die Demos sind nicht perfekt, aber lassen kurzzeitig etwas staunen.

Künstliche Intelligenz ist in aller Munde und aktuell scheint es auch nicht so, als wäre die Spitze bereits erreicht, ganz im Gegenteil. In gefühlt immer kürzeren Abständen gibt es neue Modelle und Möglichkeiten und das wird auch noch eine ganze Weile so weitergehen. Aktueller Hype: Sora. Ein neues KI-Modell aus dem Hause OpenAI, welches Videos von bis zu einer Minute Länge aus Texteingaben erzeugt. Und zumindest die ersten Demo-Videos, die OpenAI mitsamt der dazugehörigen Prompts zeigt, verleiten zum Staunen. Natürlich sind die Videos alles andere als perfekt (man beachte zum Beispiel die Beinbewegungen im ersten Video bei Sekunde 16) und OpenAI gibt selbst zu, dass Sora noch Probleme mit Physik hat. Wenn man aber bedenkt, dass diese aus einer vergleichsweisen kurzen Texteingabe komplett künstlich erzeugt wurden, kann einem schon etwas mulmig werden. Nachfolgend findet ihr meine drei Favoriten, alle der rund 50(!) Demo-Videos lassen sich auf der Projektseite von Sora ansehen.

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.OpenAI

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.OpenAI

Prompt: The story of a robot’s life in a cyberpunk setting.OpenAI

Sora baut auf früheren Forschungen zu DALL-E und den bekannteren GPT-Modellen auf und verwendet die Recaptioning-Technik aus DALL-E 3, bei der hochgradig beschreibende Beschriftungen für die visuellen Trainingsdaten erzeugt werden. Hierdurch ist Sora in der Lage, den Textanweisungen des Benutzers im generierten Video genauer zu folgen. Vereinfacht ausgedrückt beginnt Sora mit einem Video, welches wie statisches Rauschen aussieht und transformiert dieses in vielen Schritten, wobei mit jedem Schritt etwas Rauschen entfernt wird. Das Modell ist aber nicht nur in der Lage, ein Video ausschließlich aus Textanweisungen zu generieren, sondern kann auch Videos aus vorhandenen Standbildern generieren oder vorhandene Videos erweitern beziehungsweise um fehlende Bilder ergänzen. Laut OpenAI ist Sora in der Lage, die reale Welt zu verstehen und simulieren zu können – und damit soll dieses Modell die Grundlage für folgende Modelle liefern.

So etwas hat natürlich, wie Deep Fakes, ein riesiges Missbrauchspotential – man denke nur an die kommenden US-Wahlen oder auch die Bundestagswahlen 2025, zu denen Fakes-Sounds und -Videos nochmal zunehmen werden. Dem ist sich aber auch OpenAI bewusst, weswegen Sora vorerst nur für eine Hand voll ausgewählter Personen verfügbar gemacht wurde. Man möchte wichtige Sicherheitsmaßnahmen ergreifen, bevor Sora allgemein verfügbar gemacht wird – um Fehlinformationen, hasserfüllte Inhalte und Voreingenommenheit möglichst im Kern zu ersticken. Eine solche Maßnahme stellen zum Beispiel digitale Wasserzeichen (und C2PA-Metadaten) dar, außerdem arbeitet OpenAI an Tools zur Erkennung irreführender und KI-generierter Inhalte. Auf der anderen Seite prüft der von DALL-E bekannte Textklassifikator die Eingabeaufforderungen und weist Prompts mit Aufforderungen zu extremer Gewalt, hasserfüllten Bildern und mehr bereits vor Generierung zurück.

Wir werden mit politischen Entscheidungsträgern, Pädagogen und Künstlern auf der ganzen Welt in Kontakt treten, um ihre Bedenken zu verstehen und positive Anwendungsfälle für diese neue Technologie zu ermitteln. Trotz umfangreicher Forschung und Tests können wir weder alle positiven Verwendungsmöglichkeiten unserer Technologie vorhersagen, noch alle Möglichkeiten des Missbrauchs. Deshalb glauben wir, dass das Lernen aus der realen Nutzung eine entscheidende Komponente bei der Entwicklung und Freigabe von immer sichereren KI-Systemen ist.OpenAI

Kaufempfehlung^*

SodaStream Wassersprudler DUO mit CO2-Zylinder, 2x 1L Glasflasche und 2x 1L spülmaschinenfeste Kunststoff-Flasche, Höhe: 44cm, Farbe: Titan, 29x25.6x44.4
Neu ab 137,58 €
Auf Amazon kaufen*