# Construirea unei aplicații de generare de imagini

LLM-urile nu se limitează doar la generarea de text. Este posibil să generezi și imagini pornind de la descrieri textuale. Imaginile ca modalitate pot fi extrem de utile în numeroase domenii, de la MedTech, arhitectură, turism, dezvoltare de jocuri și multe altele. În acest capitol, vom analiza cele mai populare două modele de generare de imagini: DALL-E și Midjourney.

## Introducere

În această lecție vom acoperi:

- Generarea de imagini și de ce este utilă.
- DALL-E și Midjourney, ce sunt și cum funcționează.
- Cum poți construi o aplicație de generare de imagini.

## Obiective de învățare

După ce vei finaliza această lecție, vei putea:

- Să construiești o aplicație de generare de imagini.
- Să definești limite pentru aplicația ta folosind meta prompturi.
- Să lucrezi cu DALL-E și Midjourney.

## De ce să construiești o aplicație de generare de imagini?

Aplicațiile de generare de imagini sunt o modalitate excelentă de a explora capabilitățile AI generative. Ele pot fi folosite, de exemplu, pentru:

- **Editare și sinteză de imagini**. Poți genera imagini pentru o varietate de scenarii, cum ar fi editarea sau sinteza de imagini.

- **Aplicabilitate în diverse industrii**. Pot fi folosite pentru a genera imagini pentru diverse domenii precum MedTech, Turism, Dezvoltare de jocuri și altele.

## Scenariu: Edu4All

Ca parte a acestei lecții, vom continua să lucrăm cu startup-ul nostru, Edu4All. Elevii vor crea imagini pentru evaluările lor, ce imagini aleg să creeze depinde de ei: pot fi ilustrații pentru propria poveste, pot crea un personaj nou pentru povestea lor sau pot folosi imaginile pentru a-și vizualiza ideile și conceptele.

Iată ce ar putea genera elevii Edu4All, de exemplu, dacă lucrează la clasă pe tema monumentelor:

![Startup Edu4All, lecție despre monumente, Turnul Eiffel](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.ro.png)

folosind un prompt precum

> "Câine lângă Turnul Eiffel în lumina dimineții"

## Ce sunt DALL-E și Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) și [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) sunt două dintre cele mai populare modele de generare de imagini, care îți permit să folosești prompturi pentru a genera imagini.

### DALL-E

Să începem cu DALL-E, care este un model AI generativ ce creează imagini pornind de la descrieri textuale.

> [DALL-E este o combinație între două modele, CLIP și atenție difuză](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** este un model care generează embedding-uri, adică reprezentări numerice ale datelor, din imagini și text.

- **Atenția difuză** este un model care generează imagini pornind de la embedding-uri. DALL-E este antrenat pe un set de date cu imagini și text și poate fi folosit pentru a genera imagini din descrieri textuale. De exemplu, DALL-E poate fi folosit pentru a genera imagini cu o pisică cu pălărie sau un câine cu creastă.

### Midjourney

Midjourney funcționează într-un mod similar cu DALL-E, generând imagini din prompturi text. Midjourney poate fi folosit pentru a genera imagini folosind prompturi precum „o pisică cu pălărie” sau „un câine cu creastă”.

![Imagine generată de Midjourney, porumbel mecanic](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Credit imagine Wikipedia, imagine generată de Midjourney*

## Cum funcționează DALL-E și Midjourney

Mai întâi, [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E este un model AI generativ bazat pe arhitectura transformer cu un *transformer autoregresiv*.

Un *transformer autoregresiv* definește modul în care un model generează imagini din descrieri textuale: generează un pixel pe rând, apoi folosește pixelii generați pentru a-l genera pe următorul. Acest proces trece prin mai multe straturi ale unei rețele neuronale, până când imaginea este completă.

Prin acest proces, DALL-E controlează atributele, obiectele, caracteristicile și multe altele din imaginea generată. Totuși, DALL-E 2 și 3 oferă un control și mai mare asupra imaginii generate,


## Construirea primei tale aplicații de generare de imagini

Ce este necesar pentru a construi o aplicație de generare de imagini? Ai nevoie de următoarele biblioteci:

- **python-dotenv**, este recomandat să folosești această bibliotecă pentru a păstra datele sensibile într-un fișier *.env*, separat de cod.
- **openai**, această bibliotecă va fi folosită pentru a interacționa cu API-ul OpenAI.
- **pillow**, pentru a lucra cu imagini în Python.
- **requests**, pentru a te ajuta să faci cereri HTTP.


1. Creează un fișier *.env* cu următorul conținut:

    ```text
    OPENAI_API_KEY='<add your OpenAI key here>'
    ```


1. Adună bibliotecile de mai sus într-un fișier numit *requirements.txt* astfel:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. Apoi, creează un mediu virtual și instalează bibliotecile:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Pentru Windows, folosește următoarele comenzi pentru a crea și activa mediul virtual:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Adaugă următorul cod într-un fișier numit *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv

    # import dotenv
    dotenv.load_dotenv()

    # Create OpenAI object
    client = OpenAI()


    try:
        # Create an image by using the image generation API
        generation_response = client.images.generate(
            model="dall-e-3",
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=1
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')

        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)

        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')

        # Retrieve the generated image
        print(generation_response)

        image_url = generation_response.data[0].url # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)

        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()

    # catch exceptions
    except client.error.InvalidRequestError as err:
        print(err)

    ```

Hai să explicăm acest cod:

- Mai întâi, importăm bibliotecile de care avem nevoie, inclusiv biblioteca OpenAI, biblioteca dotenv, biblioteca requests și biblioteca Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv 
    ```

- După aceea, creăm obiectul care va prelua cheia API din fișierul ``.env``.

    ```python
        # Create OpenAI object
        client = OpenAI()
    ```

- În continuare, generăm imaginea:

    ```python
    # Create an image by using the image generation API
    generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
    ```

    Codul de mai sus răspunde cu un obiect JSON care conține URL-ul imaginii generate. Putem folosi acest URL pentru a descărca imaginea și a o salva într-un fișier.

- La final, deschidem imaginea și folosim vizualizatorul standard de imagini pentru a o afișa:

    ```python
    image = Image.open(image_path)
    image.show()
    ```
    
### Mai multe detalii despre generarea imaginii

Să analizăm mai în detaliu codul care generează imaginea:

```python
generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
```

- **prompt** este textul folosit pentru a genera imaginea. În acest caz, folosim promptul "Iepuraș pe cal, ținând o acadea, pe o pajiște cețoasă unde cresc narcise".
- **size** reprezintă dimensiunea imaginii generate. În acest exemplu, generăm o imagine de 1024x1024 pixeli.
- **n** este numărul de imagini generate. În acest caz, generăm două imagini.

Există și alte lucruri pe care le poți face cu imaginile, pe care le vom acoperi în secțiunea următoare.

## Capabilități suplimentare pentru generarea imaginilor

Până acum ai văzut cum am putut genera o imagine folosind doar câteva linii de cod în Python. Totuși, există și alte lucruri pe care le poți face cu imaginile.

Poți de asemenea să:

- **Faci editări**. Oferind o imagine existentă, o mască și un prompt, poți modifica o imagine. De exemplu, poți adăuga ceva într-o anumită zonă a imaginii. Imaginează-ți imaginea cu iepurașul – poți adăuga o pălărie iepurașului. Pentru asta, trebuie să furnizezi imaginea, o mască (care identifică zona ce va fi modificată) și un prompt text care să descrie ce modificare vrei.

    ```python
    response = openai.images.edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```

    Imaginea de bază ar conține doar iepurașul, dar imaginea finală ar avea și pălăria pe iepuraș.
    
- **Creezi variații**. Ideea este să iei o imagine existentă și să ceri să fie create variații ale acesteia. Pentru a crea o variație, oferi o imagine și un prompt text, iar codul arată astfel:

    ```python
    response = openai.images.create_variation(
      image=open("bunny-lollipop.png", "rb"),
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```



---

**Declinarea responsabilității**:
Acest document a fost tradus folosind serviciul de traducere AI [Co-op Translator](https://github.com/Azure/co-op-translator). Deși depunem eforturi pentru acuratețe, vă rugăm să rețineți că traducerile automate pot conține erori sau inexactități. Documentul original, în limba sa nativă, trebuie considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de oameni. Nu ne asumăm răspunderea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea în urma utilizării acestei traduceri.
