# Membangun Aplikasi Pembuatan Gambar

LLM tidak hanya untuk menghasilkan teks. Kita juga bisa membuat gambar dari deskripsi teks. Memiliki gambar sebagai salah satu bentuk output sangat berguna di berbagai bidang seperti MedTech, arsitektur, pariwisata, pengembangan game, dan lainnya. Di bab ini, kita akan membahas dua model pembuatan gambar yang paling populer, DALL-E dan Midjourney.

## Pendahuluan

Di pelajaran ini, kita akan membahas:

- Pembuatan gambar dan manfaatnya.
- DALL-E dan Midjourney, apa itu dan cara kerjanya.
- Cara membangun aplikasi pembuatan gambar.

## Tujuan Pembelajaran

Setelah menyelesaikan pelajaran ini, kamu akan bisa:

- Membangun aplikasi pembuatan gambar.
- Menentukan batasan aplikasi dengan meta prompt.
- Menggunakan DALL-E dan Midjourney.

## Kenapa membuat aplikasi pembuatan gambar?

Aplikasi pembuatan gambar adalah cara yang bagus untuk mengeksplorasi kemampuan AI Generatif. Contohnya, aplikasi ini bisa digunakan untuk:

- **Edit dan sintesis gambar**. Kamu bisa membuat gambar untuk berbagai kebutuhan, seperti mengedit atau menyintesis gambar.

- **Bisa diterapkan di berbagai industri**. Aplikasi ini juga bisa digunakan untuk membuat gambar di berbagai bidang seperti Medtech, Pariwisata, Pengembangan Game, dan lainnya.

## Skenario: Edu4All

Sebagai bagian dari pelajaran ini, kita akan lanjut bekerja dengan startup kita, Edu4All. Para siswa akan membuat gambar untuk tugas mereka, gambar apa yang dibuat terserah siswa, bisa berupa ilustrasi dongeng mereka sendiri, membuat karakter baru untuk cerita mereka, atau membantu mereka memvisualisasikan ide dan konsep.

Contohnya, jika siswa Edu4All sedang belajar tentang monumen di kelas:

![Startup Edu4All, kelas tentang monumen, Menara Eiffel](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.id.png)

dengan prompt seperti

> "Anjing di samping Menara Eiffel saat matahari pagi"

## Apa itu DALL-E dan Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) dan [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) adalah dua model pembuatan gambar yang paling populer, yang memungkinkan kamu membuat gambar dengan prompt.

### DALL-E

Kita mulai dengan DALL-E, yaitu model AI Generatif yang membuat gambar dari deskripsi teks.

> [DALL-E adalah gabungan dua model, CLIP dan diffused attention](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP** adalah model yang menghasilkan embedding, yaitu representasi numerik dari data, baik dari gambar maupun teks.

- **Diffused attention** adalah model yang membuat gambar dari embedding. DALL-E dilatih dengan dataset gambar dan teks, sehingga bisa digunakan untuk membuat gambar dari deskripsi teks. Misalnya, DALL-E bisa digunakan untuk membuat gambar kucing memakai topi, atau anjing dengan mohawk.

### Midjourney

Midjourney bekerja mirip dengan DALL-E, yaitu membuat gambar dari prompt teks. Midjourney juga bisa digunakan untuk membuat gambar dengan prompt seperti “kucing memakai topi”, atau “anjing dengan mohawk”.

![Gambar yang dibuat oleh Midjourney, burung merpati mekanik](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Kredit gambar Wikipedia, gambar dibuat oleh Midjourney*

## Bagaimana Cara Kerja DALL-E dan Midjourney

Pertama, [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E adalah model AI Generatif yang berbasis arsitektur transformer dengan *autoregressive transformer*.

*Autoregressive transformer* menentukan bagaimana model membuat gambar dari deskripsi teks, yaitu dengan membuat satu piksel setiap kali, lalu menggunakan piksel yang sudah dibuat untuk membuat piksel berikutnya. Proses ini melewati beberapa lapisan dalam neural network, sampai gambar selesai.

Dengan proses ini, DALL-E bisa mengatur atribut, objek, karakteristik, dan lainnya dalam gambar yang dihasilkan. Namun, DALL-E 2 dan 3 punya kontrol yang lebih baik terhadap gambar yang dibuat,


## Membangun aplikasi pembuatan gambar pertamamu

Jadi, apa saja yang dibutuhkan untuk membangun aplikasi pembuatan gambar? Kamu memerlukan beberapa pustaka berikut:

- **python-dotenv**, sangat disarankan menggunakan pustaka ini untuk menyimpan data rahasia di file *.env* agar terpisah dari kode.
- **openai**, pustaka ini yang akan kamu gunakan untuk berinteraksi dengan OpenAI API.
- **pillow**, untuk memproses gambar di Python.
- **requests**, untuk membantu melakukan permintaan HTTP.


1. Buat file *.env* dengan isi sebagai berikut:

    ```text
    AZURE_OPENAI_ENDPOINT=<your endpoint>
    AZURE_OPENAI_API_KEY=<your key>
    ```

    Temukan informasi ini di Azure Portal untuk resource-mu pada bagian "Keys and Endpoint".


1. Kumpulkan semua pustaka di atas dalam sebuah file bernama *requirements.txt* seperti berikut:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. Selanjutnya, buat virtual environment dan instal pustaka-pustaka tersebut:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Untuk Windows, gunakan perintah berikut untuk membuat dan mengaktifkan virtual environment Anda:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Tambahkan kode berikut ke file bernama *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    
    # import dotenv
    dotenv.load_dotenv()
    
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY']     
    
    # Assign the API version (DALL-E is currently supported for the 2023-06-01-preview API version only)
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    
    
    try:
        # Create an image by using the image generation API
        generation_response = openai.Image.create(
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=2,
            temperature=0,
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')
    
        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)
    
        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')
    
        # Retrieve the generated image
        image_url = generation_response["data"][0]["url"]  # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)
    
        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()
    
    # catch exceptions
    except openai.InvalidRequestError as err:
        print(err)

    ```

Mari kita jelaskan kode ini:

- Pertama, kita mengimpor library yang dibutuhkan, termasuk library OpenAI, dotenv, requests, dan Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    ```

- Selanjutnya, kita memuat variabel lingkungan dari file *.env*.

    ```python
    # import dotenv
    dotenv.load_dotenv()
    ```

- Setelah itu, kita mengatur endpoint, kunci untuk OpenAI API, versi, dan tipenya.

    ```python
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY'] 

    # add version and type, Azure specific
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    ```

- Berikutnya, kita menghasilkan gambar:

    ```python
    # Create an image by using the image generation API
    generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
    ```

    Kode di atas akan memberikan respons berupa objek JSON yang berisi URL dari gambar yang dihasilkan. Kita bisa menggunakan URL tersebut untuk mengunduh gambar dan menyimpannya ke file.

- Terakhir, kita membuka gambar dan menggunakan penampil gambar standar untuk menampilkannya:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### Penjelasan lebih lanjut tentang pembuatan gambar

Mari kita lihat kode yang menghasilkan gambar secara lebih detail:

```python
generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
```

- **prompt**, adalah teks perintah yang digunakan untuk menghasilkan gambar. Dalam contoh ini, kita menggunakan prompt "Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils".
- **size**, adalah ukuran gambar yang dihasilkan. Pada contoh ini, kita menghasilkan gambar berukuran 1024x1024 piksel.
- **n**, adalah jumlah gambar yang dihasilkan. Pada contoh ini, kita menghasilkan dua gambar.
- **temperature**, adalah parameter yang mengatur tingkat acak keluaran dari model Generative AI. Nilai temperature berada di antara 0 dan 1, di mana 0 berarti hasilnya deterministik dan 1 berarti hasilnya acak. Nilai default-nya adalah 0.7.

Masih banyak hal lain yang bisa Anda lakukan dengan gambar, yang akan kita bahas di bagian berikutnya.

## Kemampuan tambahan dalam pembuatan gambar

Sejauh ini Anda sudah melihat bagaimana kita bisa menghasilkan gambar hanya dengan beberapa baris kode Python. Namun, masih ada hal lain yang bisa Anda lakukan dengan gambar.

Anda juga bisa melakukan hal-hal berikut:

- **Melakukan pengeditan**. Dengan memberikan gambar yang sudah ada, sebuah mask, dan prompt, Anda bisa mengubah gambar tersebut. Misalnya, Anda bisa menambahkan sesuatu pada bagian tertentu dari gambar. Bayangkan gambar kelinci kita, Anda bisa menambahkan topi pada kelinci tersebut. Cara melakukannya adalah dengan memberikan gambar, mask (untuk menandai bagian yang akan diubah), dan prompt teks untuk menjelaskan apa yang harus dilakukan.

    ```python
    response = openai.Image.create_edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response['data'][0]['url']
    ```

    Gambar dasarnya hanya berisi kelinci, tetapi gambar akhirnya akan menampilkan kelinci dengan topi.
    
- **Membuat variasi**.
    Lihat [notebook OpenAI kami untuk informasi lebih lanjut](./oai-assignment.ipynb?WT.mc_id=academic-105485-koreyst).



---

**Penafian**:  
Dokumen ini telah diterjemahkan menggunakan layanan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Meskipun kami berupaya untuk memberikan terjemahan yang akurat, harap diketahui bahwa terjemahan otomatis dapat mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber yang berwenang. Untuk informasi yang bersifat kritis, disarankan menggunakan jasa penerjemah profesional. Kami tidak bertanggung jawab atas kesalahpahaman atau penafsiran yang timbul akibat penggunaan terjemahan ini.
