La fin de l’année 2022 a été marquée par l’adoption généralisée des technologies d’IA grâce à la popularité étonnante d’OpenAI et de ChatGPT. Pour la première fois, l’IA a suscité l’intérêt du marché de masse en prouvant son utilité et sa valeur dans la création de résultats commerciaux réussis.
De nombreuses technologies d’IA qui semblent être une révolution pour les gens ordinaires en 2023 sont en fait utilisées activement par les grandes entreprises et les médias depuis plusieurs années. Rejoignez-moi pour examiner de plus près la technologie qui alimente ces solutions, en particulier les systèmes d’IA générative pour le clonage vocal, ses avantages commerciaux et les approches éthiques de l’utilisation de l’IA.
Comment fonctionne le clonage vocal ?
En bref, le clonage vocal permet à une personne de parler en utilisant la voix d’une autre personne.
Il utilise une technologie d’IA générative pour créer des enregistrements de la voix d’une personne et les utiliser pour générer un nouveau contenu audio avec la voix de cette même personne. Cela permet essentiellement aux gens d’entendre ce qu’une personne aurait dit, même si elle ne l’a pas dit elle-même.
Du point de vue technique, les choses ne semblent pas très compliquées. Mais si vous plongez un peu plus profondément, il y a quelques exigences minimales pour commencer :
- Vous avez besoin d’au moins 5 minutes d’enregistrement audio de haute qualité de la voix source pour la cloner. Ces enregistrements doivent être clairs et exempts de bruit de fond ou d’autres distorsions, car toute imperfection pourrait affecter la précision de la sortie du modèle.
- Ensuite, introduisez ces enregistrements dans un modèle d’IA générative pour créer un « avatar vocal »
- Ensuite, entraînez le modèle à reproduire avec précision les modèles de discours en termes de hauteur et de synchronisation.
- Une fois terminé, ce modèle entraîné peut générer un contenu illimité en utilisant la voix source de n’importe quelle autre personne, devenant ainsi un outil efficace pour créer des répliques de voix au son réaliste.
C’est à ce stade que beaucoup soulèvent des préoccupations éthiques. Que se passe-t-il lorsque nous pouvons insérer n’importe quel texte dans la bouche d’une autre personne et qu’il est impossible de dire si ces mots sont vrais ou faux ?
Oui, cette possibilité est depuis longtemps devenue une réalité. Comme dans le cas d’OpenAI et de ChatGPT, nous sommes actuellement confrontés à un certain nombre de problèmes éthiques qui ne peuvent être ignorés.
Normes éthiques dans l’IA
Comme pour beaucoup d’autres technologies nouvelles en phase initiale d’adoption, la principale menace est de créer un stigmate négatif autour de la technologie plutôt que de reconnaître les menaces comme une source de discussion et de connaissances précieuses. Ce qui est important, c’est d’exposer les méthodes que les mauvais acteurs utilisent pour abuser de la technologie et de ses produits, d’appliquer des outils d’atténuation et de continuer à apprendre.
Aujourd’hui, nous disposons de trois couches de cadres pour les normes éthiques relatives à l’utilisation de l’IA générative. Les couches réglementaires nationales et supranationales en sont à leur stade initial de développement.
Le monde politique ne suit peut-être pas la vitesse de développement des technologies émergentes, mais nous pouvons déjà observer que l’UE est en tête avec la proposition de l’UE sur la réglementation de l’IA et le code de pratique sur la désinformation de 2022 qui décrit les attentes des grandes entreprises technologiques pour lutter contre la diffusion de contenu malveillant manipulé par l’IA.
Au niveau américain, nous voyons les premières mesures réglementaires prises par les États-Unis et le Royaume-Uni pour aborder la question avec la National Deepfake and Digital Provenance Task Force des États-Unis et le Online Safety Bill du Royaume-Uni.
La couche de l’industrie technologique avance plus rapidement, car les entreprises et les technologues acceptent cette nouvelle réalité en ce qui concerne les technologies émergentes et leur impact sur la sécurité sociétale et la vie privée.
Le dialogue sur l’éthique de l’IA générative est dynamique et a ouvert la voie au développement d’initiatives industrielles pour des codes de conduite autour de l’utilisation de l’IA générative (c’est-à-dire le code de conduite du Partnership on AI Synthetic Media) et des déclarations éthiques publiées par différentes entreprises. La question est de savoir comment rendre ces codes de conduite pratiques Et, sont-elles capables d’affecter les produits, les fonctionnalités spécifiques, et les procédures des équipes ?
Après avoir travaillé sur ce problème avec différentes communautés de médias et de divertissement, de cybersécurité et d’éthique de l’IA, j’ai formulé quelques principes pratiques pour traiter le contenu et les voix de l’IA en particulier :
- Les propriétaires de la propriété intellectuelle et l’entreprise qui utilise la voix clonée peuvent éviter bon nombre des complications potentielles liées à l’utilisation des voix originales en signant des accords juridiques.
- Les propriétaires de projets devraient divulguer publiquement l’utilisation d’une voix clonée afin que les auditeurs ne soient pas induits en erreur.
- Les entreprises travaillant sur la technologie de l’IA pour la voix devraient allouer un pourcentage de leurs ressources au développement d’une technologie capable de détecter et d’identifier le contenu généré par l’IA.
- L’étiquetage du contenu généré par l’IA avec des filigranes permet l’authentification de la voix.
- Chaque fournisseur de services d’IA devrait examiner l’impact de chaque projet (au niveau sociétal, commercial et de la vie privée) avant d’accepter d’y travailler.
Bien sûr, les principes d’éthique en IA n’affecteront pas la propagation des faux profonds faits maison en ligne. Cependant, ils pousseront tout projet dans le gris hors de portée du marché public.
En 2021-22, des voix d’IA ont été utilisées dans différents projets grand public qui ont introduit de lourdes implications pour l’éthique et la société. Il s’agissait notamment du clonage de la voix du jeune Luke Skywalker pour la série Mandalorian, de la voix d’Atreus pour God of War 2 et de la voix de Richard Nixon pour l’historique « In Event of Moon Disaster ».
La confiance dans la technologie va au-delà des médias et du divertissement. Les entreprises traditionnelles de nombreux secteurs utilisent des voix clonées dans leurs projets. Voici quelques-uns des cas d’utilisation les plus marquants.
Cas d’utilisation dans l’industrie
En 2023, le clonage vocal poursuivra son ascension aux côtés de diverses entreprises prêtes à récolter ses nombreux avantages. Des soins de santé au marketing en passant par le service client et l’industrie de la publicité, le clonage vocal révolutionne la façon dont les organisations établissent des relations avec leurs clients et rationalisent leurs flux de travail.
Le clonage vocal profite aux professionnels de la santé et aux travailleurs sociaux qui travaillent dans un environnement en ligne. Les avatars numériques présentant la même voix que les professionnels de la santé favorisent l’établissement de liens plus forts entre eux et leurs patients, ce qui augmente la confiance et fidélise les clients.
Les applications potentielles du clonage vocal dans l’industrie du cinéma et du divertissement sont vastes. Le doublage de contenus en plusieurs langues, le remplacement de dialogues supplémentaires (ADR) pour enfants et adultes, ainsi qu’une gamme presque infinie d’options de personnalisation sont tous rendus possibles par cette technologie.
De même, dans le secteur des opérations, le clonage vocal piloté par l’IA peut donner d’excellents résultats pour les marques qui ont besoin de solutions rentables pour les systèmes de réponse vocale interactifs ou les vidéos de formation d’entreprise. Grâce à la technologie de synthèse vocale, les acteurs peuvent étendre leur champ d’action tout en augmentant leur capacité à percevoir des droits résiduels sur les enregistrements.
Enfin, dans les studios de production publicitaire, l’émergence du clonage vocal a permis de réduire considérablement les coûts et le nombre d’heures associés à la production commerciale. Tant qu’il y a un enregistrement de haute qualité disponible pour le clonage (même d’acteurs indisponibles), les publicités peuvent être produites rapidement et de manière plus créative que jamais auparavant.
Il est intéressant de noter que les entreprises et les PME peuvent profiter du clonage vocal pour créer quelque chose d’unique pour leurs marques. Les grands projets peuvent réaliser leurs plans les plus ambitieux, tandis que les petites entreprises peuvent accéder à des modèles réduits dont le coût était auparavant prohibitif. Voilà ce que signifie une véritable démocratisation.
Conclusion
Le clonage vocal de l’IA offre aux entreprises des avantages qui changent la donne, comme la création d’expériences client uniques, l’intégration de capacités de traitement du langage naturel dans leurs produits et services, et la génération d’imitations de voix très précises qui sonnent tout à fait réelles.
Les entreprises qui cherchent à maintenir leur avantage concurrentiel en 2023 devraient s’intéresser au clonage vocal par IA. Les entreprises peuvent utiliser cette technologie pour débloquer une variété de nouvelles possibilités pour gagner des parts de marché et fidéliser les clients tout en le faisant de manière éthiquement responsable.