Les limites de l’IA générative (démonstration à l’appui)

Dans cet article, les équipes de Visible vous partagent leurs expériences sur l’utilisation de l’intelligence artificielle à des fins de graphisme. On s’est prêté au jeu de notre directeur artistique en faisant s’affronter la création par l’IA et la création assistée par IA. Ça devrait vous intéresser 😉

Le rôle du prompt

Le principal problème de la création par l’AI réside dans l’écriture de son prompt. Un prompt est une directive textuelle donnée à un système d’IA pour générer une image. Sa précision et sa clarté sont déterminantes dans la qualité et la pertinence des images produites. Un bon prompt doit être suffisamment descriptif pour guider l’IA, tout en laissant place à la créativité et à l’interprétation.

Difficultés et défis

Vous l’aurez compris, votre prompt définit entièrement votre résultat. Les problèmes que nous rencontrons sont majoritairement les suivants :

Vagabondage sémantique : Un prompt vague ou trop général peut conduire à des résultats imprévisibles, où l’IA remplit les vides de manière aléatoire.
Sur-spécification : À l’inverse, un prompt excessivement détaillé peut restreindre la créativité de l’IA, menant à des images surchargées ou incohérentes.
Biais inhérents : L’IA peut reproduire des biais présents dans les données sur lesquelles elle a été entraînée, influençant les résultats d’une manière qui peut ne pas être souhaitée tel que du sexisme, des clichés culturels…
Manque de contexte: L’IA a besoin de savoir quel rôle elle joue et comment elle doit se comporter. Parle t-elle à un enfant ou à un expert, qui ou quel département / entreprise représente-t-elle ?…

Astuces pour un prompt efficace

Il est possible d’améliorer nos prompts en tenant compte des éléments suivants :

Équilibre entre détail et ouverture : Trouver le juste milieu entre donner suffisamment d’informations et laisser de l’espace pour la suggestion.
Utilisation de références et d’analogies : Incorporer des références à des courants artistiques, des époques ou des œuvres connues peut aider l’IA à saisir le style désiré.
Itération et expérimentation : L’exploration de variations d’un prompt peut révéler comment des ajustements mineurs affectent les résultats.
Réécriture par l’IA : utiliser une autre IA (un agent conversationnel tel que Bard ou ChatGPT) pour réécrire votre prompt. Cela vous donnera une base pour comprendre les différents principes de génération.

On peut même aller plus loin et s’inspirer de technique de “prompt engineering”

Si vous comprenez l’anglais, voici une vidéo de formation intéressante sur l’écriture de prompts de qualité: Prompt Engineering Tutorial – Master ChatGPT and LLM Responses – YouTube

Prenons un exemple

Est-il possible de réaliser soit même un graphisme de qualité professionnelle uniquement sur base de l’IA ?

Notre Directeur Artistique André a réalisé sur base d’une image de base de donnée un montage “assisté par IA”. L’image d’origine est la suivante.

A l’aide de l’IA, il a d’abord supprimé des parties de la robe, les fleurs, le panneau sur le scooter… Il a ensuite recréé des parties de Vespa, là où cela était nécessaire. Il a également changé le décors, etc. Tout cela partiellement manuellement, partiellement à l’aide de l’IA, soit “Fait avec l’IA”.

Finalement, on est passé d’une photo de stock de jeunes mariés, à un couple dans une ville italienne. En somme, un travail de graphiste classique mais dans ce cas, assisté par l’IA.

Modification dans photoshop d'un visuel de banque d'image à l'aide des outils d'intelligence artificiel d'Adobe en vue d'obtenir de résultat souhaité. — *Source : Adobe Stock / #120142785*

Effacer les éléments indésirables en quelques prompt.

Pour l’exercice, nous avons demandé à Nicolas, grand utilisateur de l’IA mais pas graphiste, de se prêter à l’exercice et de tenter de reproduire le travail d’André mais cette fois, entièrement sur base de l’IA, soit “fait par l’IA”.

Nicolas a alors rédigé un prompt pour imiter le résultat final obtenu par André. Nous commençons par décrire l’image de la manière la plus factuelle possible: positions, couleurs, ambiance générale. Puis nous voyons ce qu’il se passe.

Première tentative

Prompt créé par Nicolas :

Crée moi une photo d’un couple sur une Vespa. Le couple est une femme et un homme. La femme doit conduire la Vespa. L’homme est derrière elle; en passager et la tient à la hanche. La femme porte une robe courte de couleur rouge. L’homme porte un costard gris et une cravate verte. L’homme perd son chapeau, un borsellino, du fait de la vitesse de la Vespa. Le couple est à la fois content et stressé par la vitesse. La Vespa est de couleur orange. Le fond de l’image est flouté par la vitesse de la Vespa. La Vespa va de gauche à droite. Le couple est visible presque de profil.

Outre le fait que ce résultat soit plus proche du dessin que de la photo et que la ville italienne ne soit pas facile à reconnaitre, on note un biais flagrant avec le positionnement de l’homme et de la femme et de leur look bien trop parfait pour être réaliste. En effet, l’IA semble entraînée avec un corpus qui ne concoit, que très rarement, qu’une femme puisse conduire à la place d’un homme… Un biais sexiste qui ne nous arrange pas pour cet exercice. il y a encore des progrès à faire !

Bien que correspondant dans les grandes ligne au prompt (ma demande), la première image générée n'est pas assez réaliste, mais elle porte surtout un biaisasse sexiste voulant que ce soit l'homme qui conduise le véhicule.

Seconde tentative

On continue. Non content du résultat, nous tentons d’affiner notre prompt à l’aide de ChatGPT 3.0. Ce second test consiste à utiliser le prompt précédent et de demander à GPT de l’améliorer et ce pour deux raisons :

Simple test pour voir les différences
Compréhension du vocabulaire utilisé et de la logique. Cela permet de comprendre comment l’image est détaillée et sur quels aspects de la photo il est possible de jouer.

Prompt généré par ChatGPT :

Une photo capturant un moment de frisson et de joie : un couple sur un scooter Vespa orange, filant de gauche à droite. La scène est dynamique, avec l’arrière-plan flouté à cause de la vitesse. La femme, au volant, est vêtue d’une courte robe rouge, son expression mélangeant bonheur et adrénaline. L’homme, assis derrière elle, est habillé d’un costume gris avec une cravate verte, se tenant à sa taille. Un détail notable est le chapeau borsalino de l’homme s’envolant de sa tête, ajoutant au sentiment de mouvement rapide. Leur position presque de profil et leurs expressions allient excitation et une touche de nervosité.

ChatGPT ne nous aide pas véritablement, même si nous avons enfin la chance que ce soit la femme qui tienne le guidon.

Sur toutes les images générées, seule une proposera une femme conductrice comme demandé. On a bien un chapeau mais c’est un chapeau féminin, le sens de circulation est contraire à celui demandé mais on a le flou, la photo… C’est pas mal.

Les autres images proposées ne nous ont pas convaincus car ne respectant pas l’ensemble de nos critères ou n’étant pas présentables dans un cadre professionnel.

Troisième tentative

Une autre utilisation assez répandue quand on parle d’IA générative est la référence. En effet, il est possible de demander à l’IA de s’inspirer d’une design, d’un artiste ou d’un style. Voyons ce que cela donne. L’utilisation d’un style spécifique lié à un artiste ou à un mouvement. Plus l’artiste/mouvement est célèbre, meilleur sera le résultat.

Prompt utilisé :

Une illustration dans le style élégant et détaillé d’Adolfo de Carolis, évoquant une atmosphère romantique et classique. L’image représente un couple sur un scooter Vespa orange, se déplaçant rapidement de gauche à droite. Le fond est flou, suggérant une vitesse élevée. La femme, conduisant le Vespa, est habillée d’une robe rouge courte, avec un visage exprimant à la fois la joie et l’excitation. L’homme, en costume gris et cravate verte, est assis derrière elle, tenant sa taille. Un détail important est le chapeau borsalino de l’homme, emporté par le vent. Le style devrait refléter l’esthétique classique et les lignes nettes typiques de l’œuvre de de Carolis.

Le résultat est alors fort différent, plus proche du dessin que de la photo et ici aussi, un homme conduit la Vespa. Un beau travail mais au final, assez loin de l’objectif proposé par André.

Beau résultat, mais le sexisme reste de mise et le style n'est pas très réaliste.

Conclusion & choix de Visible

Vous le voyez, ce n’est pas si simple de créer exactement ce que vous avez en tête. Si vous n’avez pas de résultat précisément attendu, alors vous pourriez avoir de belles surprises. Si par contre, vous savez exactement ce que vous cherchez, alors il vous faudra travailler vos prompts et parfois accepter quelques biais. C’est la raison pour laquelle chez Visible, nous préférons le design assisté par l’IA plutôt que créé par l’IA.

Besoins de plus d’informations, de conseils ou tout simplement d’un accompagnement professionnel pour vos créations graphiques ?

Contactez-nous par e-mail ou par téléphone (+32 (0)43 41 47 17) !

03/22/2024