# Construindo um Aplicativo de Geração de Imagens

LLMs vão além da geração de texto. Também é possível gerar imagens a partir de descrições em texto. Ter imagens como uma modalidade pode ser extremamente útil em diversas áreas, como MedTech, arquitetura, turismo, desenvolvimento de jogos e muito mais. Neste capítulo, vamos explorar os dois modelos de geração de imagens mais populares: DALL-E e Midjourney.

## Introdução

Nesta lição, vamos abordar:

- Geração de imagens e por que ela é útil.
- DALL-E e Midjourney: o que são e como funcionam.
- Como você pode construir um aplicativo de geração de imagens.

## Objetivos de Aprendizagem

Após concluir esta lição, você será capaz de:

- Construir um aplicativo de geração de imagens.
- Definir limites para seu aplicativo com meta prompts.
- Trabalhar com DALL-E e Midjourney.

## Por que construir um aplicativo de geração de imagens?

Aplicativos de geração de imagens são uma ótima maneira de explorar as capacidades da IA Generativa. Eles podem ser usados, por exemplo, para:

- **Edição e síntese de imagens**. Você pode gerar imagens para diversos casos de uso, como edição e síntese de imagens.

- **Aplicação em diferentes setores**. Também podem ser usados para gerar imagens para várias áreas, como MedTech, Turismo, Desenvolvimento de Jogos e muito mais.

## Cenário: Edu4All

Como parte desta lição, continuaremos trabalhando com nossa startup, Edu4All. Os alunos vão criar imagens para suas avaliações; quais imagens criar fica a critério dos alunos, podendo ser ilustrações para seus próprios contos de fadas, criação de novos personagens para suas histórias ou para ajudá-los a visualizar ideias e conceitos.

Veja um exemplo do que os alunos da Edu4All poderiam gerar se estivessem trabalhando em sala de aula sobre monumentos:

![Startup Edu4All, aula sobre monumentos, Torre Eiffel](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.br.png)

usando um prompt como

> "Cachorro ao lado da Torre Eiffel ao amanhecer"

## O que são DALL-E e Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) e [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) são dois dos modelos de geração de imagens mais populares, permitindo que você use prompts para criar imagens.

### DALL-E

Vamos começar pelo DALL-E, que é um modelo de IA Generativa que cria imagens a partir de descrições em texto.

> [DALL-E é uma combinação de dois modelos, CLIP e atenção difusa](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** é um modelo que gera embeddings, que são representações numéricas de dados, a partir de imagens e textos.

- **Atenção difusa** é um modelo que gera imagens a partir dos embeddings. O DALL-E é treinado em um conjunto de dados de imagens e textos e pode ser usado para criar imagens a partir de descrições em texto. Por exemplo, o DALL-E pode ser usado para gerar imagens de um gato de chapéu ou de um cachorro com moicano.

### Midjourney

O Midjourney funciona de forma semelhante ao DALL-E, gerando imagens a partir de prompts em texto. O Midjourney também pode ser usado para criar imagens com prompts como “um gato de chapéu” ou “um cachorro com moicano”.

![Imagem gerada pelo Midjourney, pombo mecânico](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Crédito da imagem: Wikipedia, imagem gerada pelo Midjourney*

## Como funcionam o DALL-E e o Midjourney

Primeiro, [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). O DALL-E é um modelo de IA Generativa baseado na arquitetura transformer com um *transformer autoregressivo*.

Um *transformer autoregressivo* define como o modelo gera imagens a partir de descrições em texto: ele gera um pixel de cada vez e usa os pixels já gerados para criar o próximo pixel. Esse processo passa por várias camadas de uma rede neural até que a imagem esteja completa.

Com esse processo, o DALL-E controla atributos, objetos, características e outros detalhes na imagem gerada. No entanto, o DALL-E 2 e 3 oferecem ainda mais controle sobre a imagem criada,


## Construindo seu primeiro aplicativo de geração de imagens

Então, o que é necessário para criar um aplicativo de geração de imagens? Você vai precisar das seguintes bibliotecas:

- **python-dotenv**, é altamente recomendado usar essa biblioteca para manter suas credenciais em um arquivo *.env*, separado do código.
- **openai**, essa é a biblioteca que você vai usar para interagir com a API da OpenAI.
- **pillow**, para trabalhar com imagens em Python.
- **requests**, para facilitar o envio de requisições HTTP.


1. Crie um arquivo *.env* com o seguinte conteúdo:

    ```text
    AZURE_OPENAI_ENDPOINT=<your endpoint>
    AZURE_OPENAI_API_KEY=<your key>
    ```

    Você encontra essas informações no Portal do Azure, na seção "Chaves e Endpoint" do seu recurso.


1. Reúna as bibliotecas acima em um arquivo chamado *requirements.txt* assim:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. Em seguida, crie um ambiente virtual e instale as bibliotecas:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Para Windows, use os seguintes comandos para criar e ativar seu ambiente virtual:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Adicione o seguinte código em um arquivo chamado *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    
    # import dotenv
    dotenv.load_dotenv()
    
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY']     
    
    # Assign the API version (DALL-E is currently supported for the 2023-06-01-preview API version only)
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    
    
    try:
        # Create an image by using the image generation API
        generation_response = openai.Image.create(
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=2,
            temperature=0,
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')
    
        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)
    
        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')
    
        # Retrieve the generated image
        image_url = generation_response["data"][0]["url"]  # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)
    
        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()
    
    # catch exceptions
    except openai.InvalidRequestError as err:
        print(err)

    ```

Vamos explicar esse código:

- Primeiro, importamos as bibliotecas necessárias, incluindo a biblioteca OpenAI, a biblioteca dotenv, a biblioteca requests e a biblioteca Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    ```

- Em seguida, carregamos as variáveis de ambiente do arquivo *.env*.

    ```python
    # import dotenv
    dotenv.load_dotenv()
    ```

- Depois disso, definimos o endpoint, a chave da API do OpenAI, a versão e o tipo.

    ```python
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY'] 

    # add version and type, Azure specific
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    ```

- Agora, geramos a imagem:

    ```python
    # Create an image by using the image generation API
    generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
    ```

    O código acima retorna um objeto JSON que contém a URL da imagem gerada. Podemos usar essa URL para baixar a imagem e salvá-la em um arquivo.

- Por fim, abrimos a imagem e usamos o visualizador padrão de imagens para exibi-la:

    ```python
    image = Image.open(image_path)
    image.show()
    ```
    
### Mais detalhes sobre a geração da imagem

Vamos analisar o código que gera a imagem com mais detalhes:

```python
generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
```

- **prompt** é o texto usado como comando para gerar a imagem. Neste caso, estamos usando o prompt "Coelho em cima de um cavalo, segurando um pirulito, em um campo com neblina onde crescem narcisos".
- **size** é o tamanho da imagem que será gerada. Neste exemplo, estamos gerando uma imagem de 1024x1024 pixels.
- **n** é o número de imagens que serão geradas. Aqui, estamos gerando duas imagens.
- **temperature** é um parâmetro que controla o grau de aleatoriedade do resultado de um modelo de IA generativa. O valor da temperatura vai de 0 a 1, onde 0 significa que a saída é determinística e 1 significa que a saída é aleatória. O valor padrão é 0.7.

Existem mais coisas que você pode fazer com imagens, que veremos na próxima seção.

## Capacidades adicionais de geração de imagens

Até agora, você viu como conseguimos gerar uma imagem usando poucas linhas em Python. No entanto, há mais possibilidades com imagens.

Você também pode fazer o seguinte:

- **Fazer edições**. Fornecendo uma imagem existente, uma máscara e um prompt, é possível alterar uma imagem. Por exemplo, você pode adicionar algo em uma parte da imagem. Imagine a imagem do coelho: você pode adicionar um chapéu ao coelho. Para isso, basta fornecer a imagem, uma máscara (identificando a área que será alterada) e um prompt de texto dizendo o que deve ser feito.

    ```python
    response = openai.Image.create_edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response['data'][0]['url']
    ```

    A imagem base teria apenas o coelho, mas a imagem final teria o chapéu no coelho.
    
- **Criar variações**. 
    Veja nosso [notebook do OpenAI para mais informações](./oai-assignment.ipynb?WT.mc_id=academic-105485-koreyst).



---

**Aviso Legal**:  
Este documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora busquemos precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte autorizada. Para informações críticas, recomenda-se a tradução profissional humana. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas decorrentes do uso desta tradução.
