# Créer une application de génération d’images

Les LLM ne se limitent pas à la génération de texte. Il est aussi possible de générer des images à partir de descriptions textuelles. Disposer d’images comme modalité peut s’avérer très utile dans de nombreux domaines, comme la MedTech, l’architecture, le tourisme, le développement de jeux, et bien d’autres. Dans ce chapitre, nous allons nous intéresser aux deux modèles de génération d’images les plus populaires : DALL-E et Midjourney.

## Introduction

Dans cette leçon, nous allons aborder :

- La génération d’images et son utilité.
- DALL-E et Midjourney : ce que c’est et comment ça fonctionne.
- Comment créer une application de génération d’images.

## Objectifs d’apprentissage

À la fin de cette leçon, vous serez capable de :

- Créer une application de génération d’images.
- Définir les limites de votre application avec des méta-prompts.
- Travailler avec DALL-E et Midjourney.

## Pourquoi créer une application de génération d’images ?

Les applications de génération d’images sont un excellent moyen d’explorer les capacités de l’IA générative. Elles peuvent être utilisées, par exemple, pour :

- **Édition et synthèse d’images**. Vous pouvez générer des images pour de nombreux cas d’usage, comme l’édition ou la synthèse d’images.

- **Utilisation dans de nombreux secteurs**. Elles peuvent aussi servir à générer des images pour différents secteurs comme la MedTech, le tourisme, le développement de jeux, etc.

## Scénario : Edu4All

Dans le cadre de cette leçon, nous allons continuer à travailler avec notre startup, Edu4All. Les élèves vont créer des images pour leurs évaluations ; le choix des images leur appartient, mais il peut s’agir d’illustrations pour leur propre conte, de la création d’un nouveau personnage pour leur histoire, ou encore d’images pour les aider à visualiser leurs idées et concepts.

Voici, par exemple, ce que les élèves d’Edu4All pourraient générer s’ils travaillent en classe sur les monuments :

![Startup Edu4All, cours sur les monuments, Tour Eiffel](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.fr.png)

en utilisant un prompt comme

> « Chien à côté de la Tour Eiffel au lever du soleil »

## Qu’est-ce que DALL-E et Midjourney ?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) et [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) sont deux des modèles de génération d’images les plus populaires ; ils permettent de générer des images à partir de prompts.

### DALL-E

Commençons par DALL-E, qui est un modèle d’IA générative capable de créer des images à partir de descriptions textuelles.

> [DALL-E est une combinaison de deux modèles, CLIP et l’attention diffusée](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** est un modèle qui génère des embeddings, c’est-à-dire des représentations numériques de données, à partir d’images et de texte.

- **L’attention diffusée** est un modèle qui génère des images à partir d’embeddings. DALL-E est entraîné sur un ensemble de données d’images et de textes, et peut être utilisé pour générer des images à partir de descriptions textuelles. Par exemple, DALL-E peut servir à créer l’image d’un chat avec un chapeau, ou d’un chien avec une crête.

### Midjourney

Midjourney fonctionne de façon similaire à DALL-E : il génère des images à partir de prompts textuels. Midjourney peut aussi être utilisé pour créer des images à partir de prompts comme « un chat avec un chapeau » ou « un chien avec une crête ».

![Image générée par Midjourney, pigeon mécanique](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Crédit image Wikipedia, image générée par Midjourney*

## Comment fonctionnent DALL-E et Midjourney

Commençons par [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E est un modèle d’IA générative basé sur l’architecture transformer, avec un *transformer autorégressif*.

Un *transformer autorégressif* définit la façon dont un modèle génère des images à partir de descriptions textuelles : il génère un pixel à la fois, puis utilise les pixels déjà générés pour créer le suivant. Ce processus passe par plusieurs couches d’un réseau de neurones, jusqu’à ce que l’image soit complète.

Grâce à ce procédé, DALL-E contrôle les attributs, objets, caractéristiques, et bien plus encore dans l’image générée. Cependant, DALL-E 2 et 3 offrent un contrôle encore plus poussé sur l’image produite,


## Créer votre première application de génération d’images

Alors, que faut-il pour créer une application de génération d’images ? Vous aurez besoin des bibliothèques suivantes :

- **python-dotenv**, il est fortement conseillé d’utiliser cette bibliothèque pour garder vos informations sensibles dans un fichier *.env* séparé du code.
- **openai**, cette bibliothèque vous permet d’interagir avec l’API OpenAI.
- **pillow**, pour manipuler des images en Python.
- **requests**, pour faciliter les requêtes HTTP.


1. Créez un fichier *.env* avec le contenu suivant :

    ```text
    OPENAI_API_KEY='<add your OpenAI key here>'
    ```


1. Rassemblez les bibliothèques ci-dessus dans un fichier appelé *requirements.txt* comme ceci :

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```

1. Ensuite, créez un environnement virtuel et installez les bibliothèques :


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Pour Windows, utilisez les commandes suivantes pour créer et activer votre environnement virtuel :

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Ajoutez le code suivant dans un fichier appelé *app.py* :

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv

    # import dotenv
    dotenv.load_dotenv()

    # Create OpenAI object
    client = OpenAI()


    try:
        # Create an image by using the image generation API
        generation_response = client.images.generate(
            model="dall-e-3",
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=1
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')

        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)

        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')

        # Retrieve the generated image
        print(generation_response)

        image_url = generation_response.data[0].url # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)

        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()

    # catch exceptions
    except client.error.InvalidRequestError as err:
        print(err)

    ```

Expliquons ce code :

- D'abord, nous importons les bibliothèques nécessaires, y compris la bibliothèque OpenAI, dotenv, requests et Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv 
    ```

- Ensuite, nous créons l'objet, qui va récupérer la clé API depuis votre fichier ``.env``.

    ```python
        # Create OpenAI object
        client = OpenAI()
    ```

- Après, nous générons l'image :

    ```python
    # Create an image by using the image generation API
    generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
    ```

    Le code ci-dessus renvoie un objet JSON qui contient l'URL de l'image générée. Nous pouvons utiliser cette URL pour télécharger l'image et l'enregistrer dans un fichier.

- Enfin, nous ouvrons l'image et utilisons la visionneuse d'images par défaut pour l'afficher :

    ```python
    image = Image.open(image_path)
    image.show()
    ```
    
### Plus de détails sur la génération de l'image

Regardons de plus près le code qui génère l'image :

```python
generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
```

- **prompt** correspond au texte utilisé pour générer l'image. Dans cet exemple, on utilise le prompt « Lapin sur un cheval, tenant une sucette, dans une prairie brumeuse où poussent des jonquilles ».
- **size** correspond à la taille de l'image générée. Ici, on génère une image de 1024x1024 pixels.
- **n** correspond au nombre d'images générées. Dans ce cas, on génère deux images.

Il existe d'autres possibilités avec les images que nous verrons dans la prochaine section.

## Capacités supplémentaires de génération d'images

Jusqu'à présent, vous avez vu comment générer une image en quelques lignes de Python. Cependant, il y a d'autres choses que vous pouvez faire avec les images.

Vous pouvez aussi :

- **Faire des modifications**. En fournissant une image existante, un masque et un prompt, vous pouvez modifier une image. Par exemple, vous pouvez ajouter un élément sur une partie de l'image. Imaginez notre image de lapin, vous pouvez ajouter un chapeau au lapin. Pour cela, il suffit de fournir l'image, un masque (qui identifie la zone à modifier) et un prompt texte pour décrire ce qui doit être fait.

    ```python
    response = openai.images.edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```

    L'image de base ne contiendrait que le lapin, mais l'image finale aurait le chapeau sur le lapin.
    
- **Créer des variations**. L'idée est de prendre une image existante et de demander la création de variantes. Pour créer une variation, il suffit de fournir une image, un prompt texte et un code comme ceci :

    ```python
    response = openai.images.create_variation(
      image=open("bunny-lollipop.png", "rb"),
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```



---

**Avertissement** :  
Ce document a été traduit à l’aide du service de traduction par IA [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous nous efforcions d’assurer l’exactitude de la traduction, veuillez noter que les traductions automatiques peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue d’origine doit être considéré comme la source faisant autorité. Pour les informations critiques, il est recommandé de recourir à une traduction humaine professionnelle. Nous déclinons toute responsabilité en cas de malentendus ou d’interprétations erronées résultant de l’utilisation de cette traduction.
