Le premier film encore existant, Roundhay Garden Scene (1888), montre seulement deux secondes de personnes marchant dans une cour. Aujourd’hui, l’IA est sur le point de créer de la vidéo à la demande à une échelle inimaginable il y a quelques dizaines d’années. Un nouveau partenariat entre Disney et OpenAI signale l’arrivée de cet avenir : à partir de 2026, Sora d’OpenAI générera des vidéos mettant en vedette les personnages de Disney, Marvel, Pixar et Star Wars, diffusées directement sur Disney+.
Ce n’est pas un rêve lointain. Disney investit 1 milliard de dollars dans OpenAI pour créer de « nouvelles expériences » pour les abonnés, y compris du contenu généré par l’IA qu’ils peuvent créer eux-mêmes. Imaginez demander une scène d’Elsa et Cendrillon combattant Maléfique, un clip qui pourrait être livré en quelques secondes.
Des secondes au streaming : l’évolution de la vidéo IA
Les progrès depuis les vidéos saccadées d’IA d’une seconde de 2016 jusqu’au potentiel des longs métrages sont remarquables. Le cinéma des débuts était autrefois considéré comme une « curiosité insensée », tout comme certains tournent désormais en dérision la vidéo basée sur l’IA, la qualifiant de gaspillage. Pourtant, le même scepticisme existait à l’égard des premiers films avant que Le grand vol de train (1903) et Autant en emporte le vent ne prouvent leur endurance.
Le défi réside dans la complexité technique de la génération vidéo. Les systèmes d’IA actuels reposent sur la diffusion, affinant le « bruit » en images cohérentes grâce à des traitements répétés. Chaque raffinement augmente le coût de calcul, en particulier avec la vidéo : des millions de pixels doivent changer de manière transparente d’une image à l’autre pour éviter des problèmes tels que la disparition des tasses de café ou le changement des traits du visage. OpenAI résout ce problème en compressant la vidéo en images simplifiées, puis en divisant ces images en cubes pour coordonner la sortie du modèle – de la même manière que ChatGPT connecte les mots dans une réponse.
Le chemin vers une vidéo IA évolutive
Générer des vidéos plus longues est exponentiellement plus difficile. Les incohérences s’accumulent à chaque image ajoutée. Une véritable télévision IA « à la demande » nécessiterait des coupes efficaces entre les scènes, ce qui est actuellement prohibitif à grande échelle.
Cependant, les chercheurs trouvent des moyens de réduire les coûts. Une approche consiste à générer image par image, limitant le calcul nécessaire à chaque étape. Tianwei Yin de Reve estime que des vidéos d’IA de cinq minutes seront réalisables d’ici l’année prochaine, et que des clips d’une heure suivront peu après. Le PDG de Google, Sundar Pichai, prédit même que des lycéens créeront des longs métrages sur l’IA dans les années à venir. Le PDG de Runway, Cristóbal Valenzuela, est d’accord, déclarant que des vidéos d’IA cohérentes de 60 à 90 minutes seront « bientôt » possibles.
L’économie de la production vidéo IA
La charge financière est importante, mais elle diminue. Tout comme les coûts de bande passante ont chuté de 1 200 dollars par Mbps en 1998 à 0,05 dollars par Mbps en 2025, permettant ainsi des services de streaming comme Disney+, les coûts des technologies d’IA diminueront probablement avec l’augmentation de la production et de la formation. Des millions de personnes participent déjà au développement de modèles d’IA, et des gains d’efficacité sont inévitables.
Ce changement nécessitera de gérer les implications éthiques et financières, y compris la rémunération des créatifs dont le travail forme ces modèles. Cependant, la trajectoire est claire : La vidéo générée par l’IA n’est plus une question de si, mais de quand. L’avenir du divertissement pourrait bientôt être façonné par des algorithmes, offrant au public un contrôle sans précédent sur son expérience de visionnage.

















