Retoucher, c'est dialoguer : Une nouvelle étape pour les images générées par IA
Et si tu pouvais éditer une image avec une simple consigne ? Bienvenue dans l’édition d'image intuitive et fluide.
Coucou toi 📸, tu savais que l’IA pouvait aussi être ton photographe perso ?
Fini les galères de retouches ou les prompts flous qui donnent des résultats chelous. Les géants de l’IA sortent l’artillerie légère mais ultra-efficace : une nouvelle fonctionnalité d’édition d’image ultra simplifiée, directe, gratos chez certain et sans prise de tête. Tu veux changer le décor, ajouter un perso, une zone spécifique ou carrément twister le style ? Tu le dis, l’IA le fait. Swipe vers le bas, et découvre comment cette update pourrait bien révolutionner ton feed Insta ! 👇
Une mise au point avec l’IA de 10 minutes
Retoucher, c'est dialoguer : Une nouvelle étape pour les images générées par IA
𝐒𝐨𝐦𝐦𝐚𝐢𝐫𝐞 1️⃣ Le coup de pied de Gemini 2.0 Flash (image generation) - Une IA qui comprend (vraiment) ce que tu veux voir - Ce qu’il faut retenir de ce modèle - Comment y accéder ? - La concurrence s’aligne 2️⃣ Reve Image 1.0 cherche humain pour relation sérieuse - De quoi tomber in love - L'addition de notre flirt 3️⃣ L’édition par instructions textuelles en action - Changer le style d’une image - Intégration d’un personnage dans une scène - Mise en situation d’un produit et cohérence visuelle
Le coup de pied de Gemini 2.0 Flash (image generation)
Le modèle Gemini 2.0 Flash est une déclinaison allégée de la gamme Gemini 2.0, lancée par Google en décembre 2024. Ce dernier a été conçu pour conjuguer vitesse et interactivité. Depuis mi-mars 2025, Google muscle sa gamme en intégrant une nouvelle capacité en natif : la génération et l’édition d’images par instruction textuelle. Cette évolution, baptisée en phase expérimentale Gemini 2.0 Flash (Image Generation), est désormais accessible 100% gratuitement via Google AI Studio.
ⓘ Google AI Studio est une plateforme web créée par Google à destination des développeurs (mais accessible à tous) pour tester, prototyper et interagir avec ses modèles d’IA générative, notamment ceux de la gamme Gemini.
Une IA qui comprend (vraiment) ce que tu veux voir
Début 2024, Midjourney a marqué un tournant avec sa fonctionnalité “Vary Region”, qui offrait la possibilité de sélectionner une zone précise – via un pinceau ou des sélections manuelles – afin de régénérer ou d’affiner un détail sans altérer le reste de l’image. Côté Recraft AI — nous l’avons vu dans notre article dédié — c’est quasi identique avec un outil de sélection de type lasso. Dans le jargon, c’est ce qu’on appelle l’inpainting.
Pendant longtemps uniquement réservé aux images générées artificiellement, cette fonctionnalité s’est progressivement ouverte à tous types d’images, y compris celles importées par l’utilisateur.
Mais désormais, fini les sélections à la mano et/ou les allers-retours entre modèles textuels et générateurs d’images tiers. Ici, un seul modèle gère tout : texte en entrée, image en sortie et édition directe de cette même image (importée ou non) dans le flux conversationnel. Tu veux modifier un détail d’une image sans toucher au reste ? Ajouter un personnage ou changer le fond sans repartir de zéro ? Tu n’as qu’à simplement le demander, car c’est exactement ce que propose cette version expérimentale.
L’édition conversationnelle repose sur une segmentation intelligente des images. Ici, Gemini identifie les régions visuelles concernées par la consigne sans avoir besoin de présélection explicite. Cela permet, par exemple, de dire « Remplace le ciel par une nuit étoilée » et de modifier uniquement cette zone sans toucher au reste.
Ce qu’il faut retenir de ce modèle
🧠 Multimodal natif : Entrée texte/image/vidéo/audio, sortie texte + image. Le tout géré par un seul modèle, sans passerelle tierce.
🖌️ Édition conversationnelle : Le modèle comprend où et comment intervenir dans une image générée. Tu peux ajuster le rendu en enchaînant les consignes sans perte de cohérence, grâce à une large fenêtre contextuelle (= capacité de mémoire lors d’une conversation).
🔁 Itérations non destructives : Tu raffines ton image sans repartir de zéro. Le modèle conserve les éléments à ne pas modifier et n'altère que ce que tu demandes.
🔒 SynthID intégré : Chaque image générée est discrètement filigranée. SynthID est un système développé par (Google) DeepMind et activé par défaut dans toutes les images générées. Il s'agit d'un “tatouage numérique” invisible à l’œil nu — mais détectable — permettant de vérifier l’origine IA d’un contenu.
☻ 𝐀𝐬𝐭𝐮𝐜𝐞 : Afin de ne perdre aucun historique de tes conversations, pense bien à sauvegarder tes conversation ou, plus simplement, à actionner la sauvegarde automatique. Pour cela rends-toi dans les paramètres de l’interface → Save Settings → Puis active l’“Autosaving”.
Comment y accéder ?
Rien de plus simple : connecte-toi au Google AI Studio avec un compte Google. Avant de te lancer, pense bien à sélectionner le bon modèle “Gemini 2.0 Flash (Image Generation) Experimental”.
La concurrence s’aligne
Gemini Flash 2.0 n’aura pas eu le monopole très longtemps… Basé sur une technologie similaire, Grok 3, la dernière version du modèle IA d'Elon Musk, a introduit sa capacité d'édition d'images via la fonction “Edit Image”. Cette nouveauté, lancée le 22 mars 2025, n’est accessible pour le moment qu’à travers l’onglet Grok sur X (et non nativement sur l’interface de Grok).
Le 25 mars, c’est au tour de OpenAI de pointer le bout de son nez : GPT4-o introduit la génération d’image intégrée à son modèle. Fini les “appels” au modèle externe de diffusion DALL•E que l’on connaissait jusqu’alors. Avec cette mise à jour, les performances sont très prometteuses en termes de génération de texte dans les images, consistance des personnages, re-texturation d’images, de prise en compte des fonds transparents et, évidemment, de l’édition des images via le flux conversationnel.
ⓘ Voir l’article pour en savoir plus sur cette mise à jour
Mais loin des géants, ces derniers jours ont aussi vu fleurir un nouveau venu dans les modèles de génération d’images. Petit détour sur cette IA avant de passer aux cas pratiques d’édition d’images.
Reve Image 1.0 cherche humain pour relation sérieuse
Salut, moi c’est Reve Image 1.0, mais tu peux m’appeler HalfMoon 🌗 (nom de code utilisé avant mon dévoilement au public). Je suis né sous l’impulsion de la boîte californienne Reve AI et j’ai fait mes premiers pas publics en mars 2025. Dès mon arrivée, j’ai mis tout le gratin d’accord en prenant la tête de l’Image Arena d’Artificial Analysis. Je suis là pour transformer une idée floue en image claire, sans sacrifier ni ton portefeuille, ni tes nerfs.
De quoi tomber in love
🎯 Conçu pour améliorer l’adhérence au prompt
Je suis reconnu pour ma compréhension des instructions, même les plus détaillées.⚙️ Des options de personnalisation
Mon interface te permet de paramétrer différentes options :
- Choisir ton format de sortie (ratio classique 9:16 → 1:1 → 16:9)
- Optimiser/Améliorer automatiquement ton prompt (“Enhance on/off”)
- Possibilité de générer de 1 à 8 images simultanément par prompt🖼️ Qualité esthétique et rendu des textes supérieurs
Je propose une haute qualité visuelle avec une attention particulière à la composition, aux couleurs, à l'éclairage, au rendu des traits, des expressions faciales et de la cohérence stylistique. Mais pas que ! Je me débrouille aussi très bien en génération textuelle :
L'addition de notre flirt
Certainement pour le buzz, j’étais 100% gratuit à ma sortie. Aujourd’hui chaque génération te coûtera 1 crédit, mais pas de panique ! Je propose une formule freemium en t’offrant 20 crédits quotidiennement. De quoi se revoir tous les jours !
Malgré toutes les qualités apparentes de Reve Image 1.0, la modification via le prompt s’assimile davantage à une variation d’une image source qu’à une modification ciblée d’une zone. Après tout, il ne s’agit que de la version 1.0, l’affaire est donc à suivre du coin de l’œil.
L’édition par instructions textuelles en action
Pour rester dans la continuité, voyons ci-dessous quelques cas d’usages. Les images de base sont générées avec Reve Image 1.0 puis importées et éditées avec Google AI Studio car, malgré les perf’ de ses concurrents, il a le mérite d’être gratuit, rapide et à la portée de tous, dont toi !
1️⃣ Changer le style d’une image
Le cas classique : Tu peux appliquer à une image importée un style graphique spécifique. Si ça, c’est pas le feu vert pour envoyer valser les filtres Instagram d’antan…
2️⃣ Intégration d’un personnage dans une scène
Tu as une image d’un personnage que tu souhaites intégrer dans une scène ?
Crée ton personnage d’un côté
Crée ta scène de l’autre
Dans Google AI Studio fusionne l’ensemble en important l’image de ton personnage + ta scène, puis en décrivant la situation que tu aimerais obtenir.
3️⃣ Mise en situation d’un produit et cohérence visuelle
Tu cherches à faire un shooting de ton produit mis en situation bien comme il faut ? Dans le précédent article sur Recraft, nous avions créé une fausse marque de boisson fruitée. J’ai réutilisé le packshot en image source (mais tu peux utiliser le produit que tu souhaites à ton tour), ensuite j’ai simplement décrit la scène que je voulais obtenir. Le résultat est sans appel :
Le système fonctionne aussi avec images préexistantes. Ici, une image d’un vêtement et une image d’un photoshoot tiers, et on fusionne l’ensemble. Toi qui cherchais certainement à savoir si ce pull de Noël allait avec ton teint !