Lumiere: Ein neuer Ansatz zur realistischen Videogenerierung

Forscher von Google, dem Weizmann Institute of Science und der Tel Aviv University haben Lumiere vorgeschlagen, ein Raum-Zeit-Diffusionsmodell zur realistischen Videogenerierung.

ADVERTISEMENT

Was ist Lumiere?

Lumiere ist ein Video-Diffusionsmodell, mit dem Benutzer realistische und stilisierte Videos generieren und bearbeiten können.

Benutzer können natürlichsprachliche Texteingaben liefern, die beschreiben, was sie möchten, und das Modell generiert ein Video basierend auf dieser Beschreibung.

Zusätzlich können Benutzer ein Standbild hochladen und einen Hinweis hinzufügen, um es in ein dynamisches Video zu verwandeln. Lumiere unterstützt auch Funktionen wie Video-Inpainting, Cinemagraphs und stilisierte Generierung.

Unterschiedlicher Ansatz zur Videosynthese

Lumiere verfolgt einen anderen Ansatz als bestehende Modelle und konzentriert sich auf die Synthese von Videos mit realistischer, vielfältiger und kohärenter Bewegung.

Obwohl ähnliche Funktionen von Playern wie Runway und Pika angeboten werden, verwenden diese Modelle einen kaskadierenden Ansatz, der zu Schwierigkeiten bei der Erzielung von zeitlicher Konsistenz und realistischer Bewegung führen kann.

Lumiere behebt diese Lücke durch die Verwendung einer Space-Time U-Net-Architektur, die die gesamte zeitliche Dauer des Videos auf einmal generiert und so zu realistischerer und kohärenterer Bewegung führt.

Leistung und Einschränkungen

Die Forscher verglichen Lumiere mit Modellen von Pika, Runway, Stability AI und ImagenVideo. Sie stellten fest, dass Lumiere 5-Sekunden-Videos mit größerer Bewegungsmagnitude, zeitlicher Konsistenz und insgesamt höherer Qualität produzierte.

Lumiere hat jedoch Einschränkungen. Es kann keine Videos generieren, die aus mehreren Aufnahmen bestehen oder Übergänge zwischen Szenen beinhalten, was eine Herausforderung für zukünftige Forschung bleibt.

Obwohl Lumiere veröffentlicht wurde, sind die Modelle noch nicht für Tests verfügbar.