Najwcześniejszy zachowany film, Scena w ogrodzie Roundhay (1888), przedstawia zaledwie dwie sekundy ludzi spacerujących po dziedzińcu. Dziś sztuczna inteligencja jest w stanie tworzyć wideo na żądanie na skalę niewyobrażalną jeszcze kilkadziesiąt lat temu. Nowe partnerstwo pomiędzy Disneyem i OpenAI sygnalizuje przyszłość: Począwszy od 2026 roku Sora z OpenAI będzie generować filmy z postaciami Disneya, Marvela, Pixara i Gwiezdnych Wojen, które będą przesyłane strumieniowo bezpośrednio do Disney+.
To nie jest odległe marzenie. Disney inwestuje 1 miliard dolarów w OpenAI, aby zapewnić subskrybentom „nowe doświadczenia”, w tym treści generowane przez sztuczną inteligencję, które mogą sami stworzyć. Wyobraź sobie, że prosisz o scenę, w której Elsa i Kopciuszek walczą z Czarownicą – rolka, którą można dostarczyć w ciągu kilku sekund.
Od sekund do przesyłania strumieniowego: ewolucja wideo generowanego przez sztuczną inteligencję
Postęp od gwałtownych, jednosekundowych filmów stworzonych przez sztuczną inteligencję w 2016 roku do potencjału filmów pełnometrażowych jest zdumiewający. Wczesne kino było kiedyś wyśmiewane jako „głupie hobby”, podobnie jak niektórzy obecnie wyśmiewają wideo generowane przez sztuczną inteligencję jako efekciarskie. Jednak ten sam sceptycyzm panował w stosunku do wczesnych filmów, zanim Wielki napad na pociąg (1903) i Przeminęło z wiatrem udowodniły swoją żywotność.
Problemem jest techniczna złożoność tworzenia filmów. Nowoczesne systemy sztucznej inteligencji opierają się na dyfuzji, przetwarzając „szum” w spójne obrazy poprzez wielokrotne przetwarzanie. Każde udoskonalenie zwiększa koszty obliczeniowe, szczególnie w przypadku wideo: miliony pikseli muszą płynnie zmieniać się między klatkami, aby uniknąć usterek, takich jak znikające kubki z kawą lub zmiana rysów twarzy. OpenAI rozwiązuje ten problem, kompresując wideo na uproszczone klatki, a następnie dzieląc te klatki w celu skoordynowania danych wyjściowych modelu — podobnie jak ChatGPT łączy słowa w odpowiedzi.
Droga do wideo generowanego przez sztuczną inteligencję na dużą skalę
Tworzenie dłuższych filmów jest wykładniczo trudniejsze. Niespójności kumulują się z każdą dodaną klatką. Prawdziwe „wideo na żądanie” generowane przez sztuczną inteligencję wymagałoby wydajnych przejść między scenami, co jest obecnie zbyt kosztowne na dużą skalę.
Naukowcy znajdują jednak sposoby na obniżenie kosztów. Jednym z podejść jest generowanie klatka po klatce, ograniczając zasoby obliczeniowe wymagane na każdym etapie. Tianwei Yin z Reve wierzy, że pięciominutowe filmy generowane przez sztuczną inteligencję będą możliwe już w przyszłym roku, a godzinne filmy wkrótce. Dyrektor generalny Google, Sundar Pichai, przewiduje nawet, że w nadchodzących latach uczniowie szkół średnich będą tworzyć filmy pełnometrażowe tworzone przez sztuczną inteligencję. Dyrektor generalny Runway, Cristobal Valenzuela, zgadza się z tym, mówiąc, że „wkrótce” będzie możliwe 60–90-minutowe filmy wideo generowane przez sztuczną inteligencję.
Ekonomika produkcji wideo generowanej przez sztuczną inteligencję
Obciążenie finansowe jest duże, ale maleje. Tak jak koszty przepustowości spadły z 1200 dolarów za Mb/s w 1998 r. do 0,05 dolara za Mb/s w 2025 r., co umożliwiło korzystanie z usług przesyłania strumieniowego takich jak Disney+, koszty technologii AI prawdopodobnie spadną wraz ze wzrostem produkcji i szkoleń. W opracowywanie modeli sztucznej inteligencji zaangażowane są już miliony ludzi, a wzrost wydajności jest nieunikniony.
Zmiana ta będzie wymagała uwzględnienia konsekwencji etycznych i finansowych, w tym wynagrodzeń dla twórców, których praca kształtuje te modele. Jednak trajektoria jest jasna: Wideo generowane przez sztuczną inteligencję nie jest już kwestią czy, ale kiedy. Przyszłość rozrywki może wkrótce zostać ukształtowana przez algorytmy, oferując widzom niespotykaną dotąd kontrolę nad wrażeniami z oglądania.

















