Un nouveau rapport d’enquête vient de révéler le côté obscur de la formation des outils d’IA comme ChatGPT.
Le Time rapporte qu’OpenAI a utilisé des travailleurs kenyans externalisés gagnant moins de 2 $ par jour pour rendre ChatGPT moins toxique.
Pour ce faire, les travailleurs ont dû examiner et étiqueter de grandes quantités de textes dérangeants pour s’assurer que ChatGPT ne les utilisait pas dans ses réponses. Il s’agissait notamment de contenus violents, sexistes et racistes qui, dans certains cas, étaient extrêmement graphiques.
Certains travailleurs ont signalé de graves traumatismes mentaux résultant de ce travail, qui a finalement été suspendu par OpenAI et Sama, la société d’externalisation impliquée.
Voici ce que vous devez savoir.
1. Malheureusement, ce n’est pas un phénomène nouveau.
Grâce à ChatGPT, tout le monde s’intéresse à l’IA. Mais peu de nouveaux venus dans ce domaine savent comment les modèles d’IA sont formés.
Le rapport du Time, bien qu’inquiétant, n’est pas un phénomène nouveau. Depuis plus d’une décennie, l’IA utilisée pour modérer le contenu des sites de médias sociaux est formée de manière similaire.
Cela ne signifie pas qu’OpenAI n’a pas de responsabilité. Cela signifie que toute entreprise formant des modèles de langage ou d’image – ou des modèles d’IA qui modèrent le contenu – fait quelque chose de similaire pour former des modèles sur du contenu toxique.
« La zone grise, c’est que c’est ainsi que tous ces outils et plateformes sont formés », déclare Roetzer.
2. Et malheureusement, les humains doivent former l’IA au contenu toxique.
L’IA ne reconnaît pas d’elle-même les contenus toxiques.
« La seule façon pour l’IA de détecter et de supprimer automatiquement ces contenus avant qu’ils ne se répandent est d’apprendre qu’ils sont mauvais », explique Roetzer. Elle apprend des humains qui doivent identifier et étiqueter le contenu toxique encore et encore, jusqu’à ce que le système d’IA en apprenne suffisamment pour identifier le contenu par lui-même.
3. Vous devrez de plus en plus poser des questions difficiles sur la technologie d’IA que vous achetez.
Les organisations s’empressent désormais d’intégrer l’IA dans tous les aspects de leurs activités.
Au fur et à mesure que vous évaluez et achetez des technologies d’IA, vous vous retrouverez probablement dans des scénarios où vous devrez comprendre d’où vient la formation et comment les résultats ont été générés.
Ce n’est pas seulement parce qu’elle a été formée par des données étiquetées de manière problématique. (Bien que cela soit important.) C’est aussi parce que vous devez savoir des choses comme :
- L’IA a-t-elle été entraînée sur des données protégées par des droits d’auteur ?
- L’IA a-t-elle été entraînée sur des données comportant des biais inhérents qui remettent en question les résultats ?
- L’IA a-t-elle été entraînée sur des données complètes qui n’entraînent pas de failles dans les résultats ?