# Membina Aplikasi Penjanaan Imej

LLM bukan sekadar untuk penjanaan teks. Ia juga boleh digunakan untuk menjana imej daripada deskripsi teks. Imej sebagai satu mod boleh sangat berguna dalam pelbagai bidang seperti MedTech, seni bina, pelancongan, pembangunan permainan dan banyak lagi. Dalam bab ini, kita akan lihat dua model penjanaan imej yang paling popular, DALL-E dan Midjourney.

## Pengenalan

Dalam pelajaran ini, kita akan pelajari:

- Penjanaan imej dan sebab ia berguna.
- DALL-E dan Midjourney, apa itu dan bagaimana ia berfungsi.
- Cara membina aplikasi penjanaan imej.

## Matlamat Pembelajaran

Selepas melengkapkan pelajaran ini, anda akan dapat:

- Membina aplikasi penjanaan imej.
- Menetapkan sempadan untuk aplikasi anda dengan meta prompt.
- Menggunakan DALL-E dan Midjourney.

## Kenapa bina aplikasi penjanaan imej?

Aplikasi penjanaan imej adalah cara yang bagus untuk meneroka keupayaan AI Generatif. Ia boleh digunakan untuk, contohnya:

- **Penyuntingan dan sintesis imej**. Anda boleh menjana imej untuk pelbagai kegunaan, seperti penyuntingan imej dan sintesis imej.

- **Digunakan dalam pelbagai industri**. Ia juga boleh digunakan untuk menjana imej untuk pelbagai industri seperti Medtech, Pelancongan, Pembangunan permainan dan banyak lagi.

## Senario: Edu4All

Sebagai sebahagian daripada pelajaran ini, kita akan teruskan dengan syarikat permulaan kita, Edu4All. Para pelajar akan mencipta imej untuk tugasan mereka, jenis imej terpulang kepada pelajar, mungkin ilustrasi untuk cerita dongeng mereka sendiri, mencipta watak baru untuk cerita mereka atau membantu mereka menggambarkan idea dan konsep.

Contohnya, pelajar Edu4All boleh menjana imej seperti ini jika mereka sedang belajar tentang monumen:

![Permulaan Edu4All, kelas tentang monumen, Menara Eifel](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.ms.png)

menggunakan prompt seperti

> "Anjing di sebelah Menara Eiffel pada waktu pagi"

## Apa itu DALL-E dan Midjourney?

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) dan [Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) adalah dua model penjanaan imej yang paling popular, membolehkan anda menggunakan prompt untuk menjana imej.

### DALL-E

Mari kita mulakan dengan DALL-E, iaitu model AI Generatif yang menjana imej daripada deskripsi teks.

> [DALL-E adalah gabungan dua model, CLIP dan diffused attention](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP**, ialah model yang menghasilkan embedding, iaitu representasi data secara berangka, daripada imej dan teks.

- **Diffused attention**, ialah model yang menjana imej daripada embedding. DALL-E dilatih menggunakan set data imej dan teks dan boleh digunakan untuk menjana imej daripada deskripsi teks. Contohnya, DALL-E boleh digunakan untuk menjana imej kucing memakai topi, atau anjing dengan gaya rambut mohawk.

### Midjourney

Midjourney berfungsi hampir sama dengan DALL-E, ia menjana imej daripada prompt teks. Midjourney juga boleh digunakan untuk menjana imej menggunakan prompt seperti “kucing memakai topi”, atau “anjing dengan mohawk”.

![Imej dijana oleh Midjourney, burung merpati mekanikal](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*Kredit imej Wikipedia, imej dijana oleh Midjourney*

## Bagaimana DALL-E dan Midjourney Berfungsi

Pertama, [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E ialah model AI Generatif yang berasaskan seni bina transformer dengan *autoregressive transformer*.

*Autoregressive transformer* menentukan bagaimana model menjana imej daripada deskripsi teks, ia menjana satu piksel pada satu masa, kemudian menggunakan piksel yang telah dijana untuk menghasilkan piksel seterusnya. Proses ini melalui beberapa lapisan dalam rangkaian neural, sehingga imej siap sepenuhnya.

Dengan proses ini, DALL-E mengawal atribut, objek, ciri-ciri dan banyak lagi dalam imej yang dijana. Namun, DALL-E 2 dan 3 mempunyai kawalan yang lebih baik terhadap imej yang dihasilkan,


## Membina aplikasi penjanaan imej pertama anda

Jadi, apa yang diperlukan untuk membina aplikasi penjanaan imej? Anda perlukan perpustakaan berikut:

- **python-dotenv**, sangat disarankan untuk menggunakan perpustakaan ini supaya anda boleh menyimpan maklumat rahsia dalam fail *.env* yang terpisah daripada kod.
- **openai**, perpustakaan ini digunakan untuk berinteraksi dengan API OpenAI.
- **pillow**, untuk bekerja dengan imej dalam Python.
- **requests**, untuk membantu anda membuat permintaan HTTP.


1. Cipta fail *.env* dengan kandungan berikut:

    ```text
    OPENAI_API_KEY='<add your OpenAI key here>'
    ```


1. Kumpulkan semua pustaka di atas dalam satu fail yang dipanggil *requirements.txt* seperti berikut:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. Seterusnya, cipta persekitaran maya dan pasang pustaka-pustaka tersebut:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> Untuk Windows, gunakan arahan berikut untuk mencipta dan mengaktifkan persekitaran maya anda:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. Tambahkan kod berikut dalam fail bernama *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv

    # import dotenv
    dotenv.load_dotenv()

    # Create OpenAI object
    client = OpenAI()


    try:
        # Create an image by using the image generation API
        generation_response = client.images.generate(
            model="dall-e-3",
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=1
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')

        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)

        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')

        # Retrieve the generated image
        print(generation_response)

        image_url = generation_response.data[0].url # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)

        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()

    # catch exceptions
    except client.error.InvalidRequestError as err:
        print(err)

    ```

Mari kita terangkan kod ini:

- Mula-mula, kita import pustaka yang diperlukan, termasuk pustaka OpenAI, pustaka dotenv, pustaka requests, dan pustaka Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv 
    ```

- Seterusnya, kita cipta objek yang akan mendapatkan kunci API daripada fail ``.env``.

    ```python
        # Create OpenAI object
        client = OpenAI()
    ```

- Kemudian, kita jana imej:

    ```python
    # Create an image by using the image generation API
    generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
    ```

    Kod di atas akan membalas dengan objek JSON yang mengandungi URL imej yang dijana. Kita boleh gunakan URL tersebut untuk memuat turun imej dan menyimpannya ke dalam fail.

- Akhir sekali, kita buka imej tersebut dan gunakan penonton imej standard untuk memaparkannya:

    ```python
    image = Image.open(image_path)
    image.show()
    ```
    
### Maklumat lanjut tentang penjanaan imej

Mari kita lihat kod yang menjana imej dengan lebih terperinci:

```python
generation_response = client.images.generate(
        model="dall-e-3",
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=1
    )
```

- **prompt**, ialah arahan teks yang digunakan untuk menjana imej. Dalam contoh ini, kita gunakan arahan "Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils".
- **size**, ialah saiz imej yang dijana. Dalam contoh ini, kita jana imej bersaiz 1024x1024 piksel.
- **n**, ialah bilangan imej yang dijana. Dalam contoh ini, kita jana dua imej.

Terdapat lebih banyak perkara yang boleh anda lakukan dengan imej yang akan kita bincangkan dalam bahagian seterusnya.

## Keupayaan tambahan penjanaan imej

Setakat ini anda telah lihat bagaimana kita boleh menjana imej hanya dengan beberapa baris kod Python. Namun, terdapat lebih banyak perkara yang boleh anda lakukan dengan imej.

Anda juga boleh melakukan perkara berikut:

- **Melakukan suntingan**. Dengan memberikan imej sedia ada, topeng, dan arahan, anda boleh mengubah imej tersebut. Contohnya, anda boleh menambah sesuatu pada bahagian tertentu imej. Bayangkan imej arnab kita, anda boleh menambah topi pada arnab tersebut. Cara melakukannya ialah dengan memberikan imej, topeng (untuk mengenal pasti bahagian yang ingin diubah) dan arahan teks untuk menyatakan apa yang perlu dilakukan.

    ```python
    response = openai.images.edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```

    Imej asal hanya mengandungi arnab tetapi imej akhir akan mempunyai topi di atas arnab tersebut.
    
- **Cipta variasi**. Ideanya ialah anda ambil imej sedia ada dan minta supaya variasi dicipta. Untuk mencipta variasi, anda berikan imej dan arahan teks serta kod seperti berikut:

    ```python
    response = openai.images.create_variation(
      image=open("bunny-lollipop.png", "rb"),
      n=1,
      size="1024x1024"
    )
    image_url = response.data[0].url
    ```



---

**Penafian**:  
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Walaupun kami berusaha untuk memastikan ketepatan, sila maklum bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang sah. Untuk maklumat penting, terjemahan manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.
