# Creare un'applicazione di generazione immagini

Le LLM non servono solo per generare testo. È anche possibile generare immagini a partire da descrizioni testuali. Avere le immagini come modalità può essere estremamente utile in molti settori, dalla MedTech, all’architettura, al turismo, allo sviluppo di videogiochi e molto altro. In questo capitolo, vedremo i due modelli di generazione immagini più popolari: DALL-E e Midjourney.

## Introduzione

In questa lezione vedremo:

- La generazione di immagini e perché è utile.
- DALL-E e Midjourney: cosa sono e come funzionano.
- Come si può costruire un’app di generazione immagini.

## Obiettivi di apprendimento

Al termine di questa lezione sarai in grado di:

- Creare un’applicazione per la generazione di immagini.
- Definire i limiti della tua applicazione tramite meta prompt.
- Lavorare con DALL-E e Midjourney.

## Perché creare un’applicazione di generazione immagini?

Le applicazioni di generazione immagini sono un ottimo modo per esplorare le potenzialità dell’AI generativa. Possono essere utilizzate, ad esempio, per:

- **Modifica e sintesi di immagini**. Puoi generare immagini per diversi casi d’uso, come l’editing o la sintesi di immagini.

- **Applicazioni in diversi settori**. Possono essere usate per generare immagini in vari ambiti come MedTech, Turismo, Sviluppo di videogiochi e altro ancora.

## Scenario: Edu4All

In questa lezione continueremo a lavorare con la nostra startup, Edu4All. Gli studenti creeranno immagini per le loro valutazioni; quali immagini realizzare dipende da loro, ma potrebbero essere illustrazioni per una loro fiaba, la creazione di un nuovo personaggio per la loro storia, oppure per aiutarli a visualizzare idee e concetti.

Ecco un esempio di cosa potrebbero generare gli studenti di Edu4All se stanno lavorando in classe sui monumenti:

![Startup Edu4All, lezione sui monumenti, Torre Eiffel](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.it.png)

usando un prompt come

> "Cane accanto alla Torre Eiffel nella luce del primo mattino"

## Che cosa sono DALL-E e Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) e [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) sono due dei modelli di generazione immagini più diffusi, che permettono di usare prompt per creare immagini.

### DALL-E

Cominciamo da DALL-E, un modello di AI generativa che crea immagini a partire da descrizioni testuali.

> [DALL-E è una combinazione di due modelli, CLIP e diffused attention](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** è un modello che genera embedding, cioè rappresentazioni numeriche dei dati, sia da immagini che da testo.

- **Diffused attention** è un modello che genera immagini a partire dagli embedding. DALL-E è stato addestrato su un dataset di immagini e testo e può essere usato per generare immagini da descrizioni testuali. Ad esempio, DALL-E può generare immagini di un gatto con un cappello, o di un cane con la cresta.

### Midjourney

Midjourney funziona in modo simile a DALL-E: genera immagini a partire da prompt testuali. Anche con Midjourney si possono creare immagini usando prompt come “un gatto con un cappello” o “un cane con la cresta”.

![Immagine generata da Midjourney, piccione meccanico](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Crediti immagine Wikipedia, immagine generata da Midjourney*

## Come funzionano DALL-E e Midjourney

Partiamo da [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E è un modello di AI generativa basato sull’architettura transformer con un *autoregressive transformer*.

Un *autoregressive transformer* definisce come il modello genera immagini a partire da descrizioni testuali: crea un pixel alla volta, poi usa i pixel già generati per produrre il successivo, passando attraverso diversi strati di una rete neurale fino a completare l’immagine.

Con questo processo, DALL-E controlla attributi, oggetti, caratteristiche e altro ancora nell’immagine generata. Tuttavia, DALL-E 2 e 3 offrono un controllo ancora maggiore sull’immagine prodotta,


## Creare la tua prima applicazione di generazione immagini

Cosa serve per creare un'applicazione di generazione immagini? Hai bisogno delle seguenti librerie:

- **python-dotenv**, è fortemente consigliato usare questa libreria per conservare le tue chiavi segrete in un file *.env* separato dal codice.
- **openai**, questa libreria ti permette di interagire con le API di OpenAI.
- **pillow**, per lavorare con le immagini in Python.
- **requests**, per facilitare le richieste HTTP.


1. Crea un file *.env* con il seguente contenuto:

    ```text
    OPENAI_API_KEY='<add your OpenAI key here>'
    ```


1. Raccogli le librerie sopra elencate in un file chiamato *requirements.txt* in questo modo:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. Successivamente, crea un ambiente virtuale e installa le librerie:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Per Windows, usa i seguenti comandi per creare e attivare il tuo ambiente virtuale:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Aggiungi il seguente codice in un file chiamato *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv

    # import dotenv
    dotenv.load_dotenv()

    # Create OpenAI object
    client = OpenAI()


    try:
        # Create an image by using the image generation API
        generation_response = client.images.generate(
            model="dall-e-3",
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=1
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')

        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)

        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')

        # Retrieve the generated image
        print(generation_response)

        image_url = generation_response.data[0].url # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)

        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()

    # catch exceptions
    except client.error.InvalidRequestError as err:
        print(err)

    ```

Spieghiamo questo codice:

- Per prima cosa importiamo le librerie di cui abbiamo bisogno, tra cui la libreria OpenAI, dotenv, requests e Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv 
    ```

- Successivamente, creiamo l’oggetto che recupererà la chiave API dal tuo file ``.env``.

    ```python
        # Create OpenAI object
        client = OpenAI()
    ```

- Poi, generiamo l’immagine:

    ```python
    # Create an image by using the image generation API
    generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
    ```

    Il codice qui sopra restituisce un oggetto JSON che contiene l’URL dell’immagine generata. Possiamo usare l’URL per scaricare l’immagine e salvarla su un file.

- Infine, apriamo l’immagine e la visualizziamo con il visualizzatore di immagini predefinito:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### Maggiori dettagli sulla generazione dell’immagine

Vediamo più nel dettaglio il codice che genera l’immagine:

```python
generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
```

- **prompt** è il testo che viene usato per generare l’immagine. In questo caso, stiamo usando il prompt "Coniglio a cavallo, con un lecca-lecca, su un prato nebbioso dove crescono narcisi".
- **size** è la dimensione dell’immagine generata. In questo caso, generiamo un’immagine di 1024x1024 pixel.
- **n** è il numero di immagini generate. In questo caso, ne generiamo due.

Ci sono altre cose che puoi fare con le immagini e che vedremo nella prossima sezione.

## Altre funzionalità della generazione di immagini

Finora hai visto come siamo riusciti a generare un’immagine con poche righe di Python. Tuttavia, ci sono altre possibilità con le immagini.

Puoi anche fare quanto segue:

- **Effettuare modifiche**. Fornendo un’immagine esistente, una maschera e un prompt, puoi modificare un’immagine. Ad esempio, puoi aggiungere qualcosa in una parte dell’immagine. Immagina la nostra immagine del coniglio: puoi aggiungere un cappello al coniglio. Per farlo, basta fornire l’immagine, una maschera (che identifica la zona da modificare) e un prompt testuale che descrive cosa deve essere fatto.

    ```python
    response = openai.images.edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```

    L’immagine di partenza conterrà solo il coniglio, ma l’immagine finale avrà il cappello sul coniglio.
    
- **Creare variazioni**. L’idea è prendere un’immagine esistente e chiedere di crearne delle variazioni. Per creare una variazione, fornisci un’immagine, un prompt testuale e un codice come questo:

    ```python
    response = openai.images.create_variation(
      image=open("bunny-lollipop.png", "rb"),
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```



---

**Disclaimer**:  
Questo documento è stato tradotto utilizzando il servizio di traduzione automatica [Co-op Translator](https://github.com/Azure/co-op-translator). Pur impegnandoci per garantire l’accuratezza, si prega di notare che le traduzioni automatiche possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa deve essere considerato la fonte autorevole. Per informazioni di carattere critico, si raccomanda una traduzione professionale umana. Non siamo responsabili per eventuali malintesi o interpretazioni errate derivanti dall’uso di questa traduzione.
