Le baiser artificiel
Cet article présente le résultat d’un test rapide sur la manière dont une Intelligence Artificielle représente deux personnes en train de s’embrasser. Il fait suite à un article passionnant sur le même sujet publié par le chercheur Eryk Salvaggio sur Cybernetic Forest. Eryk a étudié de manière systématique comment l’IA DALLE2 de OpenAI représente le baiser et il en tire des observations forts pertinentes.
Cependant DALLE2 est une IA extrêmement censurée. J’ai trouvé intéressant de faire les mêmes tests sur une IA permettant de passer outre la censure, ou presque, à savoir Stable Diffusion.
Voici quelques résultats produits avec la même invite de commande qu’Eryk, à savoir : “studio photography of humans kissing” (une photo de studio d’humains en train de s’embrasser).
Comme dans le cas DALLE2 analysé par Eryk, on trouve majoritairement des couples blancs et hétérosexuels. Mais ici, seulement sur douze tests on trouve un couple homosexuel féminin et un autre masculin de couleur de peau différente, ce que n’a pas obtenu Eryk avec un nombre beaucoup plus important de tests.
De même, on trouve des défauts de représentation des lèvres. L’explication que donne Eryk de ces distorsions est intéressante. Cela serait dû en partie à la censure de DALLE2. Alors qu’en est-il de ces défauts sur une IA non censurée ? J’ai voulu le savoir en demandant une vue rapprochée des lèvres en question.
On constate que ces vues de près font apparaitre majoritairement des lèvres de femmes. Je ne sais pas ce qu’il en est de DALLE2 et si Eryk a tenté l’expérience ?
Comme dans les vues générales, les distorsions des lèvres sont aussi présentes, mais parfois plus prononcées que dans les vues éloignées. Certaines distorsions suggèrent des parties génitales. Or, bien que l’IA Stable Diffusion soit réputée ne pas être censurée, il est pratiquement impossible d’obtenir une vue réaliste des parties en question. Mais c’est aussi le cas des mains qui apparaissent toujours déformées comme c’est le cas aussi dans DALLE2.
Alors d’où proviennent ces distorsions ? L’énigme reste entière.
Réagisssant à cet article, Patrick Peccatte, un chercheur en histoire visuelle contemporaine (voir son site sur hypothese.org), s’est livré à d’autres tests :
“Quelques essais sur Dall-e 2 du prompt “studio photography of humans kissing” en d’autres langues. De haut en bas: en anglais, portugais, français, allemand, russe. Visiblement, le programme ne fonctionne pas bien pour les trois dernières langues. A noter qu’en espagnol, il détecte une violation de sa “content policy”, i.e. ‘humanos besándose’ ça ne passe pas…”