# Creando una aplicación de generación de imágenes

Los LLMs no solo sirven para generar texto. También es posible crear imágenes a partir de descripciones en texto. Contar con imágenes como modalidad puede ser muy útil en áreas como tecnología médica, arquitectura, turismo, desarrollo de videojuegos y más. En este capítulo, veremos los dos modelos de generación de imágenes más populares: DALL-E y Midjourney.

## Introducción

En esta lección, cubriremos:

- Generación de imágenes y por qué es útil.
- DALL-E y Midjourney, qué son y cómo funcionan.
- Cómo podrías construir una aplicación de generación de imágenes.

## Objetivos de aprendizaje

Después de completar esta lección, podrás:

- Crear una aplicación de generación de imágenes.
- Definir límites para tu aplicación usando meta-prompts.
- Trabajar con DALL-E y Midjourney.

## ¿Por qué crear una aplicación de generación de imágenes?

Las aplicaciones de generación de imágenes son una excelente manera de explorar las capacidades de la IA generativa. Se pueden usar, por ejemplo, para:

- **Edición y síntesis de imágenes**. Puedes generar imágenes para distintos casos de uso, como edición y síntesis de imágenes.

- **Aplicación en diversas industrias**. También se pueden usar para generar imágenes en sectores como tecnología médica, turismo, desarrollo de videojuegos y más.

## Escenario: Edu4All

Como parte de esta lección, continuaremos trabajando con nuestra startup, Edu4All. Los estudiantes crearán imágenes para sus evaluaciones; el tipo de imagen depende de cada estudiante, pero podrían ser ilustraciones para su propio cuento de hadas, crear un nuevo personaje para su historia o ayudarles a visualizar sus ideas y conceptos.

Por ejemplo, esto es lo que los estudiantes de Edu4All podrían generar si están trabajando en clase sobre monumentos:

![Startup Edu4All, clase sobre monumentos, Torre Eiffel](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.es.png)

usando un prompt como

> "Perro junto a la Torre Eiffel al amanecer"

## ¿Qué son DALL-E y Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) y [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) son dos de los modelos de generación de imágenes más populares; permiten usar prompts para crear imágenes.

### DALL-E

Comencemos con DALL-E, que es un modelo de IA generativa que crea imágenes a partir de descripciones en texto.

> [DALL-E es una combinación de dos modelos, CLIP y atención difusa](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** es un modelo que genera embeddings, que son representaciones numéricas de datos, a partir de imágenes y texto.

- **Atención difusa** es un modelo que genera imágenes a partir de embeddings. DALL-E se entrena con un conjunto de datos de imágenes y texto, y puede usarse para crear imágenes a partir de descripciones en texto. Por ejemplo, DALL-E puede generar imágenes de un gato con sombrero o un perro con cresta.

### Midjourney

Midjourney funciona de manera similar a DALL-E: genera imágenes a partir de prompts en texto. Midjourney también puede usarse para crear imágenes con prompts como “un gato con sombrero” o “un perro con cresta”.

![Imagen generada por Midjourney, paloma mecánica](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Crédito de la imagen: Wikipedia, imagen generada por Midjourney*

## ¿Cómo funcionan DALL-E y Midjourney?

Primero, [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E es un modelo de IA generativa basado en la arquitectura transformer con un *transformer autorregresivo*.

Un *transformer autorregresivo* define cómo un modelo genera imágenes a partir de descripciones en texto: genera un píxel a la vez y luego usa los píxeles generados para crear el siguiente. Este proceso pasa por varias capas de una red neuronal hasta que la imagen está completa.

Con este proceso, DALL-E controla atributos, objetos, características y más en la imagen que genera. Sin embargo, DALL-E 2 y 3 ofrecen un mayor control sobre la imagen generada,


## Creando tu primera aplicación de generación de imágenes

Entonces, ¿qué se necesita para crear una aplicación de generación de imágenes? Necesitas las siguientes librerías:

- **python-dotenv**, se recomienda mucho usar esta librería para mantener tus secretos en un archivo *.env* separado del código.
- **openai**, esta es la librería que usarás para interactuar con la API de OpenAI.
- **pillow**, para trabajar con imágenes en Python.
- **requests**, para ayudarte a hacer solicitudes HTTP.


1. Crea un archivo *.env* con el siguiente contenido:

    ```text
    OPENAI_API_KEY='<add your OpenAI key here>'
    ```


1. Reúne las bibliotecas anteriores en un archivo llamado *requirements.txt* de la siguiente manera:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```

1. Luego, crea un entorno virtual e instala las bibliotecas:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Para Windows, utiliza los siguientes comandos para crear y activar tu entorno virtual:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Agrega el siguiente código en un archivo llamado *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv

    # import dotenv
    dotenv.load_dotenv()

    # Create OpenAI object
    client = OpenAI()


    try:
        # Create an image by using the image generation API
        generation_response = client.images.generate(
            model="dall-e-3",
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=1
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')

        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)

        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')

        # Retrieve the generated image
        print(generation_response)

        image_url = generation_response.data[0].url # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)

        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()

    # catch exceptions
    except client.error.InvalidRequestError as err:
        print(err)

    ```

Vamos a explicar este código:

- Primero, importamos las librerías necesarias, incluyendo la librería de OpenAI, dotenv, requests y Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv 
    ```

- Después, creamos el objeto, que obtendrá la clave de API desde tu archivo ``.env``.

    ```python
        # Create OpenAI object
        client = OpenAI()
    ```

- Luego, generamos la imagen:

    ```python
    # Create an image by using the image generation API
    generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
    ```

    El código anterior responde con un objeto JSON que contiene la URL de la imagen generada. Podemos usar esa URL para descargar la imagen y guardarla en un archivo.

- Por último, abrimos la imagen y usamos el visor de imágenes estándar para mostrarla:

    ```python
    image = Image.open(image_path)
    image.show()
    ```
    
### Más detalles sobre la generación de imágenes

Veamos el código que genera la imagen con más detalle:

```python
generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
```

- **prompt** es el texto que se utiliza para generar la imagen. En este caso, usamos el prompt "Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils".
- **size** es el tamaño de la imagen que se genera. En este ejemplo, generamos una imagen de 1024x1024 píxeles.
- **n** es la cantidad de imágenes que se generan. Aquí estamos generando dos imágenes.

Hay más cosas que puedes hacer con imágenes y que veremos en la siguiente sección.

## Capacidades adicionales de la generación de imágenes

Hasta ahora has visto cómo pudimos generar una imagen usando unas pocas líneas en Python. Sin embargo, hay más cosas que puedes hacer con imágenes.

También puedes hacer lo siguiente:

- **Realizar ediciones**. Al proporcionar una imagen existente, una máscara y un prompt, puedes modificar una imagen. Por ejemplo, puedes agregar algo a una parte de la imagen. Imagina nuestra imagen del conejo, podrías agregarle un sombrero al conejo. Para hacerlo, debes proporcionar la imagen, una máscara (que identifica la zona donde se hará el cambio) y un prompt de texto que indique lo que se debe hacer.

    ```python
    response = openai.images.edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```

    La imagen base solo tendría el conejo, pero la imagen final mostraría el sombrero en el conejo.
    
- **Crear variaciones**. La idea es que tomas una imagen existente y pides que se creen variaciones. Para crear una variación, proporcionas una imagen y un prompt de texto, y el código sería así:

    ```python
    response = openai.images.create_variation(
      image=open("bunny-lollipop.png", "rb"),
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```



---

**Descargo de responsabilidad**:  
Este documento ha sido traducido utilizando el servicio de traducción automática [Co-op Translator](https://github.com/Azure/co-op-translator). Si bien nos esforzamos por lograr precisión, tenga en cuenta que las traducciones automáticas pueden contener errores o inexactitudes. El documento original en su idioma nativo debe considerarse la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones erróneas que surjan del uso de esta traducción.
