Disney a OpenAI zahajují éru streamování videa poháněného umělou inteligencí

14

Nejstarší dochovaný film, Roundhay Garden Scene (1888), ukazuje pouhé dvě sekundy lidí procházejících nádvořím. Umělá inteligence je dnes připravena vytvářet video na vyžádání v měřítku, které si ještě před několika desítkami let nebylo možné představit. Nové partnerství mezi Disney a OpenAI signalizuje tuto budoucnost: Od roku 2026 bude OpenAI Sora generovat videa s postavami Disney, Marvel, Pixar a Star Wars, která budou streamována přímo do Disney+.

To není vzdálený sen. Disney investuje 1 miliardu dolarů do OpenAI, aby vytvořilo „nové zážitky“ pro předplatitele, včetně obsahu generovaného umělou inteligencí, který si mohou sami vytvořit. Představte si, že požadujete scénu, kde Elsa a Popelka bojují Maleficent – ​​kotouč, který by mohl být doručen během několika sekund.

Od sekund ke streamování: vývoj videa generovaného umělou inteligencí

Pokrok od trhaných sekundových videí vytvořených umělou inteligencí v roce 2016 k potenciálu pro celovečerní filmy je ohromující. Rané kino bylo kdysi vysmíváno jako „hloupý koníček“, stejně jako se někteří nyní vysmívají videu generovanému umělou inteligencí jako nezvyklému. Stejná skepse však existovala i vůči raným filmům, než Velká vlaková loupež (1903) a Gone with the Wind prokázaly svou životaschopnost.

Problémem je technická náročnost tvorby videí. Moderní systémy umělé inteligence se spoléhají na difúzi, která zpřesňuje „šum“ do koherentních obrazů prostřednictvím opakovaného zpracování. Každé vylepšení zvyšuje výpočetní náklady, zejména u videa: miliony pixelů se musí mezi snímky plynule měnit, aby se předešlo závadám, jako jsou mizející hrnky s kávou nebo změna rysů obličeje. OpenAI řeší tento problém komprimací videa do zjednodušených snímků a následným rozdělením těchto snímků pro koordinaci výstupu modelu – podobně jako ChatGPT spojuje slova v odpovědi.

Cesta k videu generovanému umělou inteligencí v měřítku

Vytváření delších videí je exponenciálně obtížnější. Nekonzistence se hromadí s každým přidaným rámem. Skutečné „video na vyžádání“ generované umělou inteligencí by vyžadovalo efektivní přechody mezi scénami, což je v současné době v měřítku neúměrně drahé.

Vědci však hledají způsoby, jak snížit náklady. Jedním přístupem je generovat snímek po snímku, což omezuje výpočetní zdroje požadované pro každý krok. Tianwei Yin z Reve věří, že pětiminutová videa generovaná umělou inteligencí budou možná již příští rok, přičemž hodinová videa budou následovat brzy poté. Generální ředitel Google Sundar Pichai dokonce předpovídá, že středoškoláci budou v příštích letech vytvářet celovečerní filmy vytvořené umělou inteligencí. Generální ředitel společnosti Runway Cristobal Valenzuela souhlasí a říká, že 60-90minutová konsensuální videa generovaná umělou inteligencí budou možná „brzy“.

Ekonomika produkce videa generovaného umělou inteligencí

Finanční zátěž je velká, ale klesá. Stejně jako náklady na šířku pásma klesly z 1 200 USD za Mbps v roce 1998 na 0,05 USD za Mbps v roce 2025, což umožňuje streamovací služby, jako je Disney+, náklady na technologii AI pravděpodobně klesnou s nárůstem produkce a školení. Na vývoji modelů umělé inteligence se již podílejí miliony lidí a zvýšení efektivity je nevyhnutelné.

Tento posun bude vyžadovat řešení etických a finančních důsledků, včetně kompenzací pro tvůrce, jejichž práce tyto modely trénuje. Trajektorie je však jasná: Video generované umělou inteligencí už není otázkou jestli, ale kdy. Budoucnost zábavy může být brzy utvářena algoritmy, které divákům nabídnou bezprecedentní kontrolu nad jejich zážitkem ze sledování.