DALL-E 2 : les capacités avancées de l'IA génératrice d'images

DALL-E est une création d’OpenAI, une intelligence artificielle qui excelle dans la génération automatique d’images à partir de descriptions textuelles. Entraînée sur une base de données massive de 12 milliards d’images, elle a développé la capacité d’associer des mots-clés à des représentations visuelles. Bien que la technologie sous-jacente de DALL-E soit impressionnante, quelques inconvénients subsistent. Cependant, avec l’avènement de DALL-E 2, bon nombre de ces limitations ont été améliorées. Jetons un coup d’œil à ce que cette nouvelle génération d’IA peut réellement accomplir.

DALL-E 2 : une nouvelle génération d’intelligence artificielle

DALL-E 2 représente la dernière avancée en matière d’intelligence artificielle développée par OpenAI, une entreprise de recherche en IA fondée par d’anciens membres de Google Brain, SpaceX et Tesla. Son objectif principal est de créer des images à partir de descriptions textuelles fournies par des humains. Initialement introduit en janvier 2021, DALL-E a été amélioré au cours de l’année suivante. En 2022, la toute nouvelle version, DALL-E 2, a été dévoilée, capable de générer des images encore plus réalistes et précises, avec une résolution quatre fois supérieure à celle de son prédécesseur, DALL-E 1.

Quel est le but d’OpenAI avec DALL-E ?

Malgré le fait qu’OpenAI soit maintenant une entreprise à but lucratif, l’entreprise a partagé sur son site web l’objectif du projet :

Nous espérons que DALL-E 2 permettra aux gens de s’exprimer de manière créative. DALL-E 2 nous aide également à comprendre comment les systèmes d’IA avancés voient et comprennent notre monde, ce qui est essentiel pour notre mission de création d’IA au service de l’humanité.

Fonctionnement de l’IA DALL-E

DALL-E 2 a assimilé la relation entre les images et les textes les décrivant. Son processus opérationnel repose sur la technique de la « diffusion », débutant avec un motif de points aléatoires qu’il ajuste graduellement vers une image en reconnaissant des aspects spécifiques de celle-ci. Voici en détail son fonctionnement :

Entraînement : DALL-E est formé sur un vaste ensemble de données comprenant des couples d’images et de descriptions textuelles associées. Le modèle apprend ainsi à établir des liens entre les motifs visuels et les descriptions linguistiques.
Encodage du texte : Lorsqu’une description textuelle est fournie en entrée, DALL-E convertit d’abord cette description en une représentation vectorielle à l’aide de son composant de traitement du langage.
Génération d’images : DALL-E produit ensuite une image à partir de la représentation vectorielle de la description textuelle. Contrairement aux générateurs d’images classiques qui travaillent pixel par pixel, DALL-E génère des images à partir de motifs plus larges appelés « patches ».
Diffusion stochastique : La diffusion entre en jeu, utilisant un processus stochastique pour créer l’image finale. Le processus commence avec un motif initial aléatoire, modifié progressivement au fil de plusieurs étapes de diffusion. À chaque étape, les valeurs du motif sont ajustées pour se rapprocher de l’image finale tout en conservant la cohérence globale.
Génération incrémentielle : La diffusion permet à DALL-E de générer des images de manière itérative. À chaque étape, le modèle affine les détails de l’image en fonction des informations contenues dans le motif actuel et la description textuelle.
Raffinement et ajustement : Après plusieurs étapes de diffusion, l’image générée se rapproche davantage de l’image correspondante à la description. DALL-E ajuste les motifs pour saisir les caractéristiques spécifiques mentionnées dans la description, tout en maintenant une cohérence d’ensemble.

Les capacités de DALL-E 2

DALL-E 2 démontre une aptitude à créer des images et des œuvres d’art originales et réalistes à partir de descriptions textuelles. Elle excelle dans la combinaison de concepts, d’attributs et de styles variés.

Voici une liste non exhaustive des types d’images que DALL-E 2 peut générer :

Des images évoquant des peintures artistiques.
Des portraits de personnes imaginaires.
Des paysages fictifs.
Des illustrations reproduisant le style de bande dessinée.
Des logos fictifs.
Des représentations 3D d’éléments imaginaires.

Au-delà de la simple génération d’images, DALL-E 2 peut également :

Apporter des modifications réalistes à des images existantes en se basant sur une description en langage naturel.
Ajouter ou supprimer des éléments d’une image en tenant compte des ombres, des reflets et des textures.
Générer des variantes d’une image source tout en préservant l’essence de l’originale.

Comparaison entre DALL-E 1 et DALL-E 2

Une étude réalisée par OpenAI pour évaluer les performances de DALL-E 2 par rapport à la version précédente, DALL-E 1, indique que dans l’ensemble, DALL-E 2 est préféré pour la concordance des images générées avec les demandes initiales. Les évaluateurs considèrent également que le réalisme photographique est supérieur dans DALL-E 2, basé sur la comparaison de 1 000 générations d’images de chaque modèle. En termes de performances, les images générées par DALL-E 2 présentent une résolution quatre fois supérieure à celles générées par DALL-E 1.

Explorer les créations de DALL-E

Pour admirer des exemples captivants des images produites par l’IA DALL-E, rendez-vous sur leur compte Instagram officiel @openaidalle. C’est là que sont partagées les générations les plus impressionnantes de cette intelligence artificielle.

Tester DALL-E 2

Pour expérimenter DALL-E 2, plus besoin de patienter sur une liste d’attente. L’IA est désormais accessible à tous, il suffit de créer un compte sur le site pour bénéficier d’une période d’essai gratuite.

Utilisation de DALL-E 2

Chaque nouvel utilisateur inscrit reçoit un pack de 50 crédits gratuits, valables pendant le premier mois.
Le compte gratuit offre ensuite 15 crédits par mois.
Chaque crédit permet de générer 4 variantes d’images à partir d’une même consigne, ou 3 variantes dans le cas de demandes de modification ou de création de variation.
Pendant la phase bêta, un système d’achat de crédits sera disponible. Les utilisateurs invités pourront commander 115 crédits supplémentaires pour 15 $. Ces 115 crédits permettront de générer au total 460 images avec l’IA, que ce soit pour des générations ou des variations.

Droits d’utilisation des images générées par DALL-E

Bien que DALL-E ne puisse être assimilé à des sites d’images libres de droits, les utilisateurs de cette intelligence artificielle bénéficient de tous les droits sur les images qu’ils créent. Ils peuvent librement utiliser ces images à des fins commerciales telles que newsletters, illustrations d’articles, montages graphiques, montages vidéo, couvertures de livres, storyboards, films, voire les vendre directement.

Limites de DALL-E : contraintes et politiques d’OpenAI

Les performances exceptionnelles de DALL-E dans la génération d’images à partir de textes ou d’images sont accompagnées de certaines limitations. Bien qu’elle ait été entraînée avec succès, DALL-E a des contraintes évidentes, ne pouvant créer des images que sur la base de ce qu’elle a déjà vu et ne parvenant pas à interpréter de manière exhaustive le sens et le contexte des mots.

Par des considérations éthiques, OpenAI a imposé des restrictions à DALL-E, limitant sa capacité à générer des images de nature violente, haineuse ou destinées à un public adulte. Cette limitation a été mise en œuvre en éliminant les éléments les plus explicites des données d’entraînement, réduisant ainsi l’exposition de DALL-E à de tels concepts. De plus, OpenAI a déployé des techniques avancées pour prévenir la génération réaliste de visages de personnes réelles, y compris celles de personnalités publiques.

La politique de contenu d’OpenAI proscrit également la génération de contenus violents, adultes, politiques, et d’autres catégories spécifiques par les utilisateurs. La société se réserve le droit de bloquer la génération d’images si les filtres identifient des instructions textuelles ou des téléchargements d’images en violation de ces politiques. Pour prévenir les abus, des systèmes de surveillance automatisés et humains sont mis en place.

FAQ sur DALL-E (et DALL-E 2)

Qu’est-ce que la diffusion stochastique et comment fonctionne-t-elle ?

La diffusion stochastique est un processus itératif utilisé par DALL-E 2 pour générer des images. Elle débute avec un motif de points aléatoires et les ajuste progressivement en fonction de l’image cible, tout en préservant la cohérence globale.

Quelles sont les distinctions de DALL-E 2 par rapport à d’autres modèles de génération d’images ?

DALL-E 2 se distingue par sa capacité à créer des images en réponse à des descriptions textuelles complexes, grâce à l’utilisation de la diffusion stochastique. Contrairement à d’autres modèles, il peut produire une diversité de styles artistiques et de concepts visuels spécifiques.

Avantages et inconvénients de l’approche de diffusion stochastique

Avantages

Précision et Cohérence
Contrôle du Processus
Génération Incrémentielle

Inconvénients

Complexité
Besoin en Calcul
Risque de Divergence
Dépendance au Texte

Quelles sont les limites actuelles de DALL-E 2 en termes de génération d’images ?

Bien que DALL-E 2 soit un outil impressionnant, il peut encore éprouver des difficultés à capturer des détails très spécifiques dans certaines images complexes. Il peut également générer des images qui semblent plausibles mais ne sont pas réalistes, nécessitant une vigilance particulière.

Comment OpenAI aborde-t-il les préoccupations liées à l’utilisation abusive de DALL-E 2 ?

OpenAI reconnaît les préoccupations liées à la désinformation visuelle et à l’abus potentiel de DALL-E 2. L’entreprise s’engage à mettre en place des mécanismes de régulation et à encourager des pratiques responsables dans l’utilisation de cette technologie. Des recherches sont en cours pour aborder ces questions.