# Construir uma Aplicação de Geração de Imagens

Os LLMs não servem apenas para gerar texto. Também é possível criar imagens a partir de descrições em texto. Ter imagens como uma modalidade pode ser extremamente útil em várias áreas, desde MedTech, arquitetura, turismo, desenvolvimento de jogos e muito mais. Neste capítulo, vamos explorar os dois modelos de geração de imagens mais populares, DALL-E e Midjourney.

## Introdução

Nesta lição, vamos abordar:

- Geração de imagens e a sua utilidade.
- DALL-E e Midjourney, o que são e como funcionam.
- Como construir uma aplicação de geração de imagens.

## Objetivos de Aprendizagem

Depois de concluir esta lição, vais conseguir:

- Construir uma aplicação de geração de imagens.
- Definir limites para a tua aplicação com meta prompts.
- Trabalhar com DALL-E e Midjourney.

## Porquê construir uma aplicação de geração de imagens?

Aplicações de geração de imagens são uma excelente forma de explorar as capacidades da IA Generativa. Podem ser usadas, por exemplo, para:

- **Edição e síntese de imagens**. Podes criar imagens para vários casos de uso, como edição ou síntese de imagens.

- **Aplicação em várias indústrias**. Também podem ser usadas para gerar imagens para diferentes setores como MedTech, Turismo, Desenvolvimento de Jogos, entre outros.

## Cenário: Edu4All

Como parte desta lição, vamos continuar a trabalhar com a nossa startup, Edu4All. Os alunos vão criar imagens para os seus trabalhos, sendo que o tipo de imagem depende deles: podem ser ilustrações para um conto de fadas, criar uma nova personagem para a sua história ou ajudar a visualizar ideias e conceitos.

Por exemplo, se os alunos estiverem a trabalhar numa aula sobre monumentos, podem gerar algo como:

![Startup Edu4All, aula sobre monumentos, Torre Eiffel](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.pt.png)

usando um prompt como

> "Cão ao lado da Torre Eiffel ao nascer do sol"

## O que são DALL-E e Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) e [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) são dois dos modelos de geração de imagens mais conhecidos, permitindo criar imagens a partir de prompts.

### DALL-E

Comecemos pelo DALL-E, que é um modelo de IA Generativa capaz de criar imagens a partir de descrições em texto.

> [O DALL-E é uma combinação de dois modelos, CLIP e atenção difusa](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** é um modelo que gera embeddings, ou seja, representações numéricas de dados, a partir de imagens e texto.

- **Atenção difusa** é um modelo que gera imagens a partir desses embeddings. O DALL-E é treinado com um conjunto de dados de imagens e texto, podendo criar imagens a partir de descrições. Por exemplo, o DALL-E pode gerar imagens de um gato com um chapéu, ou de um cão com um moicano.

### Midjourney

O Midjourney funciona de forma semelhante ao DALL-E, gerando imagens a partir de prompts em texto. Também pode ser usado para criar imagens com prompts como “um gato com um chapéu” ou “um cão com um moicano”.

![Imagem gerada pelo Midjourney, pombo mecânico](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Crédito da imagem: Wikipedia, imagem gerada pelo Midjourney*

## Como funcionam o DALL-E e o Midjourney

Primeiro, [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). O DALL-E é um modelo de IA Generativa baseado na arquitetura transformer com um *transformer autoregressivo*.

Um *transformer autoregressivo* define como o modelo gera imagens a partir de descrições em texto: cria um pixel de cada vez e usa os pixels já gerados para criar o próximo. O processo passa por várias camadas de uma rede neural até a imagem estar completa.

Com este método, o DALL-E controla atributos, objetos, características e outros detalhes na imagem gerada. No entanto, o DALL-E 2 e 3 oferecem ainda mais controlo sobre a imagem criada,


## Criar a sua primeira aplicação de geração de imagens

Então, o que é preciso para criar uma aplicação de geração de imagens? Vai precisar das seguintes bibliotecas:

- **python-dotenv**, é altamente recomendado usar esta biblioteca para guardar os seus segredos num ficheiro *.env* separado do código.
- **openai**, esta é a biblioteca que vai usar para interagir com a API da OpenAI.
- **pillow**, para trabalhar com imagens em Python.
- **requests**, para ajudar a fazer pedidos HTTP.


1. Crie um ficheiro *.env* com o seguinte conteúdo:

    ```text
    AZURE_OPENAI_ENDPOINT=<your endpoint>
    AZURE_OPENAI_API_KEY=<your key>
    ```

    Encontre esta informação no Portal do Azure, na secção "Chaves e Endpoint" do seu recurso.


1. Junta as bibliotecas acima num ficheiro chamado *requirements.txt* da seguinte forma:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. De seguida, cria um ambiente virtual e instala as bibliotecas:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Para Windows, utilize os seguintes comandos para criar e ativar o seu ambiente virtual:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Adicione o seguinte código num ficheiro chamado *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    
    # import dotenv
    dotenv.load_dotenv()
    
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY']     
    
    # Assign the API version (DALL-E is currently supported for the 2023-06-01-preview API version only)
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    
    
    try:
        # Create an image by using the image generation API
        generation_response = openai.Image.create(
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=2,
            temperature=0,
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')
    
        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)
    
        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')
    
        # Retrieve the generated image
        image_url = generation_response["data"][0]["url"]  # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)
    
        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()
    
    # catch exceptions
    except openai.InvalidRequestError as err:
        print(err)

    ```

Vamos explicar este código:

- Primeiro, importamos as bibliotecas necessárias, incluindo a biblioteca OpenAI, a dotenv, a requests e a Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    ```

- De seguida, carregamos as variáveis de ambiente a partir do ficheiro *.env*.

    ```python
    # import dotenv
    dotenv.load_dotenv()
    ```

- Depois, definimos o endpoint, a chave da API da OpenAI, a versão e o tipo.

    ```python
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY'] 

    # add version and type, Azure specific
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    ```

- A seguir, geramos a imagem:

    ```python
    # Create an image by using the image generation API
    generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
    ```

    O código acima devolve um objeto JSON que contém o URL da imagem gerada. Podemos usar esse URL para descarregar a imagem e guardá-la num ficheiro.

- Por fim, abrimos a imagem e usamos o visualizador de imagens padrão para a mostrar:

    ```python
    image = Image.open(image_path)
    image.show()
    ```
    
### Mais detalhes sobre a geração da imagem

Vamos analisar o código que gera a imagem com mais detalhe:

```python
generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
```

- **prompt** é o texto que serve de base para gerar a imagem. Neste caso, estamos a usar o prompt "Coelho em cima de um cavalo, a segurar um chupa-chupa, num prado com nevoeiro onde crescem narcisos".
- **size** é o tamanho da imagem gerada. Neste exemplo, estamos a criar uma imagem de 1024x1024 píxeis.
- **n** é o número de imagens geradas. Aqui, estamos a gerar duas imagens.
- **temperature** é um parâmetro que controla o grau de aleatoriedade do resultado de um modelo de IA generativa. O valor da temperatura varia entre 0 e 1, onde 0 significa que o resultado é determinístico e 1 significa que é aleatório. O valor por defeito é 0.7.

Há mais funcionalidades que podes explorar com imagens, que vamos abordar na próxima secção.

## Funcionalidades adicionais na geração de imagens

Até agora, viste como conseguimos gerar uma imagem com apenas algumas linhas de Python. No entanto, há mais possibilidades quando se trata de imagens.

Também podes fazer o seguinte:

- **Fazer edições**. Ao fornecer uma imagem existente, uma máscara e um prompt, podes alterar uma imagem. Por exemplo, podes adicionar algo a uma parte da imagem. Imagina a nossa imagem do coelho: podes adicionar um chapéu ao coelho. Para isso, forneces a imagem, uma máscara (que identifica a área a alterar) e um prompt de texto a indicar o que deve ser feito.

    ```python
    response = openai.Image.create_edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response['data'][0]['url']
    ```

    A imagem base teria apenas o coelho, mas a imagem final mostraria o chapéu no coelho.
    
- **Criar variações**.
    Consulta o nosso [notebook OpenAI para mais informações](./oai-assignment.ipynb?WT.mc_id=academic-105485-koreyst).



---

**Aviso Legal**:  
Este documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos pela precisão, tenha em atenção que traduções automáticas podem conter erros ou imprecisões. O documento original, na sua língua nativa, deve ser considerado a fonte autorizada. Para informações críticas, recomenda-se a tradução profissional humana. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas resultantes da utilização desta tradução.
