L’IA générative est l’une des dernières technologies en vogue, capable de produire des images réalistes et des contenus textuels et auditifs en quelques minutes. Gartner prévoit que d’ici 2025, 10 % de toutes les données générées seront produites par l’IA générative.1
Un réseau adversarial génératif (GAN) est un type de modèle d’IA générative qui utilise deux réseaux neuronaux d’une manière unique et contradictoire pour générer de nouvelles données qui ressemblent aux données d’apprentissage.
Certains cas d’utilisation très techniques, tels que la modélisation de distributions probabilistes ou l’échantillonnage à partir d’une distribution arbitraire, peuvent être mieux adaptés à d’autres types de modèles d’IA générative tels que les autoencodeurs variationnels (VAE) ou les réseaux stochastiques génératifs (GSN).
Cependant, la plupart des applications d’IA générative actuellement utilisées sont réalisées par des GAN. Dans cet article, nous vous présentons 10 cas d’utilisation des GAN.
Les 10 principaux cas d’utilisation des réseaux adversoriels génératifs (GAN)
1- Génération d’images
Les réseaux adverbiaux génératifs permettent aux utilisateurs de générer des images photoréalistes à partir de descriptions textuelles spécifiques, telles que :
- cadre
- sujet
- style
- l’emplacement
2- Traduction d’image à image
Les GAN créent de fausses images à partir d’images d’entrée en transformant les caractéristiques externes, telles que la couleur, le support ou la forme, tout en préservant les composants internes (voir figure 2). Cette méthode peut être utilisée comme une méthode générale d’édition d’images.
Figure 2 : Exemple de manipulation d’attributs faciaux
Source : « FAE-GAN : facial attribute editing with multi-scale attention normalization » : « FAE-GAN : édition d’attributs faciaux avec normalisation de l’attention multi-échelle
3- Traduction d’images sémantiques en photos
Il est possible de générer des images à partir d’une image sémantique ou d’un croquis en utilisant des réseaux adversaires génératifs (voir figure 3). Cette capacité a une série d’applications pratiques, en particulier dans le secteur de la santé où elle peut aider à établir des diagnostics.
Figure 3. Exemple de traduction d’une image sémantique en une photo.
Source : « Generating Synthetic Space Allocation Probability Layouts Based on Trained Conditional-GANs « Generating Synthetic Space Allocation Probability Layouts Based on Trained Conditional-GANs » (Génération de schémas synthétiques de probabilité d’allocation d’espace basés sur des GAN conditionnels entraînés)
4- Super résolution
Les GAN peuvent améliorer la qualité des vidéos et des images (voir la figure 4). Ils restaurent les images et les films anciens en les faisant passer à une résolution de 4K ou plus, en générant 60 images par seconde au lieu de 23 ou moins, en supprimant le bruit et en ajoutant de la couleur.
Figure 4 : Restauration d’images à l’aide d’un GAN.
Source : « Towards Real-World Blind Face Restoration With Generative Facial Prior » : « Towards Real-World Blind Face Restoration With Generative Facial Prior » (Vers une restauration aveugle des visages dans le monde réel avec des antécédents faciaux génératifs)
5- Prédiction vidéo
Un système de prédiction vidéo avec des réseaux adversaires génératifs est capable de :
- comprendre les éléments temporels et spatiaux d’une vidéo
- générer la séquence suivante sur la base de cette compréhension (comme le montre la figure 5)
- différencier les séquences probables des séquences non probables
Figure 5. Résultats de la prédiction pour un test d’action fractionné. a : Entrée, b : Vérité au sol, c : FutureGAN.
Source : « FutureGAN : Anticipating the Future Frames of Video Sequences Using Spatio-Temporal 3D Convolutions in Progressively Growing GANs » (Anticiper les images futures des séquences vidéo à l’aide de convolutions 3D spatio-temporelles dans des GAN à croissance progressive)
6- Conversion texte-parole
Les réseaux adversaires génératifs facilitent la génération de sons vocaux réalistes. Les discriminateurs agissent comme des formateurs qui affinent la voix en soulignant, ajustant et modifiant le ton.
La technologie de conversion texte-parole a diverses applications commerciales, notamment :
- L’éducation
- Le marketing
- La baladodiffusion
- La publicité
Par exemple, un éducateur peut transformer ses notes de cours en format audio pour les rendre plus attrayantes, et cette même approche peut être utilisée pour créer des ressources éducatives pour les personnes souffrant de déficiences visuelles.
7- Transfert de style
Les GAN peuvent être utilisés pour transférer le style d’une image à une autre, par exemple pour créer une peinture dans le style de Vincent van Gogh à partir d’une photographie d’un paysage (voir la figure 6).
Figure 6. Le cycleGAN génère des dessins dans le style de différents artistes et genres artistiques, tels que Monet, van Gogh, Cézanne et Ukiyo-e.
Source : « Unpaired image-to-image translation using cycle-consistent adversarial networks » (Traduction d’image à image non appariée à l’aide de réseaux contradictoires cohérents avec le cycle)
8- Génération d’objets en 3D
La génération de formes basée sur les GAN permet de créer des formes qui ressemblent davantage à la source originale. Il est également possible de générer et de modifier des formes détaillées pour obtenir le résultat souhaité. Voyez les objets 3D générés par les GAN dans la figure 7 ci-dessous.
Figure 7. Formes synthétisées par 3D-GAN.
Source : « Apprentissage d’un espace latent probabiliste de formes d’objets via la modélisation générative-adversaire 3D »
La vidéo ci-dessous illustre ce processus de génération d’objets.
« frameborder= »0 »>
9- Génération de vidéos
Les GAN peuvent être utilisés pour générer des vidéos, par exemple en synthétisant de nouvelles scènes dans un film ou en générant de nouvelles publicités. Cependant, ce contenu généré par les GAN, appelé « deepfakes », peut être difficile, voire impossible à distinguer des médias réels, ce qui pose de graves problèmes éthiques (voir la vidéo ci-dessous).
10- Génération de texte
Grâce aux grands modèles de langage, l’IA générative basée sur le modèle GAN dispose d’une gamme d’applications dans la génération de texte, notamment :
- Articles
- Les articles de blog
- Les descriptions de produits
Ces textes générés par l’IA peuvent être utilisés à des fins diverses, telles que :
- Contenu des médias sociaux
- La publicité
- La recherche
- La communication.
En outre, il peut être utilisé pour résumer un contenu écrit, ce qui en fait un outil utile pour digérer et synthétiser rapidement de grandes quantités d’informations.