# Budowanie aplikacji do generowania obrazów

LLM-y to nie tylko generowanie tekstu. Możliwe jest także tworzenie obrazów na podstawie opisów tekstowych. Obrazy jako dodatkowa modalność mogą być niezwykle przydatne w wielu dziedzinach, takich jak MedTech, architektura, turystyka, tworzenie gier i wiele innych. W tym rozdziale przyjrzymy się dwóm najpopularniejszym modelom generowania obrazów: DALL-E i Midjourney.

## Wprowadzenie

W tej lekcji omówimy:

- Generowanie obrazów i dlaczego jest to przydatne.
- DALL-E i Midjourney – czym są i jak działają.
- Jak zbudować aplikację do generowania obrazów.

## Cele nauki

Po ukończeniu tej lekcji będziesz w stanie:

- Zbudować aplikację do generowania obrazów.
- Określić granice swojej aplikacji za pomocą meta promptów.
- Pracować z DALL-E i Midjourney.

## Dlaczego warto budować aplikację do generowania obrazów?

Aplikacje do generowania obrazów to świetny sposób na poznanie możliwości Sztucznej Inteligencji Generatywnej. Mogą być wykorzystywane na przykład do:

- **Edycji i syntezy obrazów**. Możesz generować obrazy do różnych zastosowań, takich jak edycja czy synteza obrazów.

- **Zastosowania w różnych branżach**. Mogą być używane do generowania obrazów dla wielu branż, takich jak MedTech, turystyka, tworzenie gier i wiele innych.

## Scenariusz: Edu4All

W ramach tej lekcji będziemy kontynuować pracę z naszym startupem Edu4All. Uczniowie będą tworzyć obrazy do swoich prac zaliczeniowych – to, jakie to będą obrazy, zależy od nich. Mogą to być ilustracje do własnej bajki, stworzenie nowej postaci do opowiadania lub pomoc w wizualizacji pomysłów i koncepcji.

Oto przykład, co uczniowie Edu4All mogliby wygenerować podczas lekcji o zabytkach:

![Startup Edu4All, lekcja o zabytkach, Wieża Eiffla](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.pl.png)

używając promptu takiego jak

> "Pies obok Wieży Eiffla w porannym świetle"

## Czym są DALL-E i Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) i [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) to dwa najpopularniejsze modele generowania obrazów, które pozwalają tworzyć obrazy na podstawie promptów.

### DALL-E

Zacznijmy od DALL-E, czyli modelu AI generatywnej, który tworzy obrazy na podstawie opisów tekstowych.

> [DALL-E to połączenie dwóch modeli: CLIP i diffused attention](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** to model, który generuje embeddingi, czyli numeryczne reprezentacje danych, zarówno z obrazów, jak i tekstu.

- **Diffused attention** to model, który generuje obrazy na podstawie embeddingów. DALL-E jest trenowany na zbiorze danych zawierającym obrazy i teksty, dzięki czemu potrafi tworzyć obrazy na podstawie opisów tekstowych. Na przykład, DALL-E może wygenerować obraz kota w kapeluszu lub psa z irokezem.

### Midjourney

Midjourney działa podobnie jak DALL-E – generuje obrazy na podstawie promptów tekstowych. Midjourney również pozwala tworzyć obrazy na podstawie promptów takich jak „kot w kapeluszu” czy „pies z irokezem”.

![Obraz wygenerowany przez Midjourney, mechaniczny gołąb](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Źródło: Wikipedia, obraz wygenerowany przez Midjourney*

## Jak działają DALL-E i Midjourney

Najpierw [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E to model AI generatywnej oparty na architekturze transformera z *autoregresyjnym transformerem*.

*Autoregresyjny transformer* określa, w jaki sposób model generuje obrazy na podstawie opisów tekstowych – generuje jeden piksel na raz, a następnie wykorzystuje już wygenerowane piksele do stworzenia kolejnego. Proces ten przechodzi przez wiele warstw sieci neuronowej, aż obraz zostanie ukończony.

Dzięki temu procesowi DALL-E kontroluje atrybuty, obiekty, cechy i inne elementy obrazu, który generuje. Jednak DALL-E 2 i 3 dają jeszcze większą kontrolę nad tworzonym obrazem,


## Tworzenie swojej pierwszej aplikacji do generowania obrazów

Co jest potrzebne, aby zbudować aplikację do generowania obrazów? Potrzebujesz następujących bibliotek:

- **python-dotenv** – zdecydowanie zalecamy użycie tej biblioteki, aby przechowywać swoje dane poufne w pliku *.env*, z dala od kodu.
- **openai** – ta biblioteka służy do komunikacji z API OpenAI.
- **pillow** – do pracy z obrazami w Pythonie.
- **requests** – ułatwia wykonywanie zapytań HTTP.


1. Utwórz plik *.env* z następującą zawartością:

    ```text
    AZURE_OPENAI_ENDPOINT=<your endpoint>
    AZURE_OPENAI_API_KEY=<your key>
    ```

    Te informacje znajdziesz w Azure Portal dla swojego zasobu w sekcji „Keys and Endpoint”.


1. Zbierz powyższe biblioteki w pliku o nazwie *requirements.txt* w następujący sposób:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```

1. Następnie utwórz środowisko wirtualne i zainstaluj biblioteki:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Dla systemu Windows użyj poniższych poleceń, aby utworzyć i aktywować swoje wirtualne środowisko:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Dodaj poniższy kod do pliku o nazwie *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    
    # import dotenv
    dotenv.load_dotenv()
    
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY']     
    
    # Assign the API version (DALL-E is currently supported for the 2023-06-01-preview API version only)
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    
    
    try:
        # Create an image by using the image generation API
        generation_response = openai.Image.create(
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=2,
            temperature=0,
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')
    
        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)
    
        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')
    
        # Retrieve the generated image
        image_url = generation_response["data"][0]["url"]  # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)
    
        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()
    
    # catch exceptions
    except openai.InvalidRequestError as err:
        print(err)

    ```

Wyjaśnijmy ten kod:

- Najpierw importujemy potrzebne biblioteki, w tym bibliotekę OpenAI, dotenv, requests oraz Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    ```

- Następnie ładujemy zmienne środowiskowe z pliku *.env*.

    ```python
    # import dotenv
    dotenv.load_dotenv()
    ```

- Potem ustawiamy endpoint, klucz do API OpenAI, wersję oraz typ.

    ```python
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY'] 

    # add version and type, Azure specific
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    ```

- Następnie generujemy obraz:

    ```python
    # Create an image by using the image generation API
    generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
    ```

    Powyższy kod zwraca obiekt JSON, który zawiera adres URL wygenerowanego obrazu. Możemy użyć tego adresu, aby pobrać obraz i zapisać go do pliku.

- Na końcu otwieramy obraz i wyświetlamy go w domyślnej przeglądarce obrazów:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### Więcej szczegółów na temat generowania obrazu

Przyjrzyjmy się dokładniej kodowi, który generuje obraz:

```python
generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
```

- **prompt** to tekst, na podstawie którego generowany jest obraz. W tym przypadku używamy promptu "Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils".
- **size** to rozmiar generowanego obrazu. W tym przypadku generujemy obraz o wymiarach 1024x1024 pikseli.
- **n** to liczba generowanych obrazów. W tym przypadku generujemy dwa obrazy.
- **temperature** to parametr, który kontroluje losowość wyników modelu generatywnego AI. Temperatura to wartość od 0 do 1, gdzie 0 oznacza, że wynik jest deterministyczny, a 1 – że jest losowy. Domyślna wartość to 0.7.

Jest jeszcze więcej rzeczy, które możesz zrobić z obrazami – omówimy je w kolejnej sekcji.

## Dodatkowe możliwości generowania obrazów

Do tej pory widziałeś, jak można wygenerować obraz za pomocą kilku linijek kodu w Pythonie. Jednak z obrazami można zrobić znacznie więcej.

Możesz także:

- **Wykonywać edycje**. Podając istniejący obraz, maskę oraz prompt, możesz zmienić obraz. Na przykład możesz dodać coś do wybranego fragmentu obrazu. Wyobraź sobie nasz obrazek z królikiem – możesz dodać królikowi kapelusz. Robisz to, podając obraz, maskę (wskazującą obszar do zmiany) oraz tekstowy prompt opisujący, co ma zostać zrobione.

    ```python
    response = openai.Image.create_edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response['data'][0]['url']
    ```

    Obraz bazowy zawierałby tylko królika, a na końcowym obrazie królik miałby już kapelusz.

- **Tworzyć wariacje**.
    Zajrzyj do naszego [notatnika OpenAI po więcej informacji](./oai-assignment.ipynb?WT.mc_id=academic-105485-koreyst).



---

**Zastrzeżenie**:  
Ten dokument został przetłumaczony przy użyciu usługi tłumaczenia AI [Co-op Translator](https://github.com/Azure/co-op-translator). Chociaż dokładamy wszelkich starań, aby tłumaczenie było poprawne, należy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego rodzimym języku powinien być traktowany jako źródło nadrzędne. W przypadku informacji o kluczowym znaczeniu zalecane jest skorzystanie z profesjonalnych usług tłumacza. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z korzystania z tego tłumaczenia.
