Alibaba présente I2VGen-XL : une IA transformant des images en vidéos !

Les progrès dans le domaine de la synthèse vidéo ont atteint un jalon significatif avec l’émergence de modèles capables de convertir des images en vidéos. Cependant, ce secteur est confronté à des défis majeurs tels que l’exactitude sémantique, la netteté et la continuité spatiotemporelle. Ces obstacles résultent principalement du manque de données textuelles-vidéos bien alignées et de la structure complexe des vidéos, rendant complexe la garantie d’une excellence à la fois sémantique et qualitative pour les modèles. Dans ce contexte, le groupe Alibaba a présenté une approche novatrice avec son modèle nommé I2VGen-XL.

Comment fonctionne I2VGen-XL?

I2VGen-XL opère en deux étapes. Dans la première étape, la base assure une cohérence sémantique et préserve le contenu des images d’entrée grâce à deux encodeurs hiérarchiques. La deuxième étape, le raffinement, améliore les détails de la vidéo, intègre un court texte additionnel, et accroît la résolution à 1280×720.

Optimisation de la performance par découplage

La puissance d’I2VGen-XL réside dans son approche en cascade, qui sépare les aspects de l’exactitude sémantique et de la qualité. Cette méthode permet d’aligner les données d’entrée en utilisant des images statiques comme guide essentiel.

Pour améliorer la génération de vidéos par l’IA d’Alibaba, environ 35 millions de paires texte-vidéo à prise unique et 6 milliards de paires texte-image ont été collectées. Cette abondance de données contribue à l’amélioration simultanée de la précision sémantique, de la continuité des détails, et de la clarté des vidéos générées.