# بناء تطبيق لتوليد الصور

هناك استخدامات أكثر لنماذج اللغة الكبيرة (LLMs) غير توليد النصوص فقط. من الممكن أيضًا توليد صور من أوصاف نصية. وجود الصور كوسيلة يمكن أن يكون مفيدًا جدًا في العديد من المجالات مثل التكنولوجيا الطبية، والهندسة المعمارية، والسياحة، وتطوير الألعاب وغيرها. في هذا الفصل، سنستعرض أشهر نموذجين لتوليد الصور، وهما DALL-E وMidjourney.

## المقدمة

في هذا الدرس، سنغطي:

- توليد الصور ولماذا هو مفيد.
- DALL-E وMidjourney، ما هما وكيف يعملان.
- كيف يمكنك بناء تطبيق لتوليد الصور.

## أهداف التعلم

بعد الانتهاء من هذا الدرس، ستكون قادرًا على:

- بناء تطبيق لتوليد الصور.
- تحديد حدود لتطبيقك باستخدام مطالبات ميتا (meta prompts).
- العمل مع DALL-E وMidjourney.

## لماذا نبني تطبيق لتوليد الصور؟

تطبيقات توليد الصور طريقة رائعة لاستكشاف قدرات الذكاء الاصطناعي التوليدي. يمكن استخدامها، على سبيل المثال:

- **تحرير الصور وتوليفها**. يمكنك توليد صور لمجموعة متنوعة من الاستخدامات، مثل تحرير الصور أو توليفها.

- **تطبيقها في صناعات متعددة**. يمكن أيضًا استخدامها لتوليد صور لمجالات مثل التكنولوجيا الطبية، والسياحة، وتطوير الألعاب وغيرها.

## سيناريو: Edu4All

كجزء من هذا الدرس، سنواصل العمل مع شركتنا الناشئة Edu4All. سيقوم الطلاب بإنشاء صور لتقييماتهم، ونوع الصور متروك للطلاب، فقد تكون رسومات توضيحية لقصتهم الخيالية أو ابتكار شخصية جديدة لقصتهم أو مساعدتهم في تصور أفكارهم ومفاهيمهم.

مثال على ما يمكن أن يولده طلاب Edu4All إذا كانوا يعملون في الصف على موضوع المعالم:

![شركة Edu4All الناشئة، درس عن المعالم، برج إيفل](../../../../translated_images/startup.94d6b79cc4bb3f5afbf6e2ddfcf309aa5d1e256b5f30cc41d252024eaa9cc5dc.ar.png)

باستخدام مطالبة مثل

> "كلب بجانب برج إيفل في ضوء شمس الصباح الباكر"

## ما هو DALL-E وMidjourney؟

[DALL-E](https://openai.com/dall-e-2?WT.mc_id=academic-105485-koreyst) و[Midjourney](https://www.midjourney.com/?WT.mc_id=academic-105485-koreyst) هما من أشهر نماذج توليد الصور، حيث يسمحان لك باستخدام مطالبات نصية لتوليد الصور.

### DALL-E

لنبدأ مع DALL-E، وهو نموذج ذكاء اصطناعي توليدي يقوم بتوليد الصور من الأوصاف النصية.

> [DALL-E هو مزيج من نموذجين، CLIP والانتباه المنتشر](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?WT.mc_id=academic-105485-koreyst).

- **CLIP**، هو نموذج يقوم بإنشاء تمثيلات رقمية (embeddings) للبيانات من الصور والنصوص.

- **الانتباه المنتشر**، هو نموذج يقوم بتوليد الصور من التمثيلات الرقمية. تم تدريب DALL-E على مجموعة بيانات من الصور والنصوص ويمكن استخدامه لتوليد صور من أوصاف نصية. على سبيل المثال، يمكن استخدام DALL-E لتوليد صورة لقطة ترتدي قبعة، أو كلب بتسريحة موهوك.

### Midjourney

يعمل Midjourney بطريقة مشابهة لـ DALL-E، حيث يولد صورًا من مطالبات نصية. يمكن أيضًا استخدام Midjourney لتوليد صور باستخدام مطالبات مثل "قطة ترتدي قبعة"، أو "كلب بتسريحة موهوك".

![صورة مولدة بواسطة Midjourney، حمامة ميكانيكية](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png/440px-Rupert_Breheny_mechanical_dove_eca144e7-476d-4976-821d-a49c408e4f36.png?WT.mc_id=academic-105485-koreyst)

*مصدر الصورة ويكيبيديا، الصورة مولدة بواسطة Midjourney*

## كيف يعمل DALL-E وMidjourney

أولاً، [DALL-E](https://arxiv.org/pdf/2102.12092.pdf?WT.mc_id=academic-105485-koreyst). DALL-E هو نموذج ذكاء اصطناعي توليدي مبني على بنية المحول (transformer) مع *محول توليدي ذاتي*.

*المحول التوليدي الذاتي* يحدد كيف يقوم النموذج بتوليد الصور من الأوصاف النصية، حيث يولد بكسلًا واحدًا في كل مرة، ثم يستخدم البكسلات المولدة لتوليد البكسل التالي. يمر عبر عدة طبقات في الشبكة العصبية حتى تكتمل الصورة.

من خلال هذه العملية، يتحكم DALL-E في السمات، والأشياء، والخصائص، والمزيد في الصورة التي يولدها. ومع ذلك، لدى DALL-E 2 و3 قدرة أكبر على التحكم في الصورة المولدة،


## بناء أول تطبيق لتوليد الصور

ما الذي تحتاجه لبناء تطبيق لتوليد الصور؟ ستحتاج إلى المكتبات التالية:

- **python-dotenv**، يُنصح بشدة باستخدام هذه المكتبة للاحتفاظ بمعلوماتك السرية في ملف *.env* بعيدًا عن الكود.
- **openai**، هذه هي المكتبة التي ستستخدمها للتفاعل مع واجهة برمجة تطبيقات OpenAI.
- **pillow**، للعمل مع الصور في بايثون.
- **requests**، لمساعدتك في إرسال طلبات HTTP.

1. أنشئ ملفًا باسم *.env* يحتوي على التالي:

    ```text
    AZURE_OPENAI_ENDPOINT=<your endpoint>
    AZURE_OPENAI_API_KEY=<your key>
    ```

    يمكنك العثور على هذه المعلومات في بوابة Azure ضمن قسم "المفاتيح ونقطة النهاية" الخاص بموردك.


1. اجمع المكتبات المذكورة أعلاه في ملف باسم *requirements.txt* كما يلي:

    ```text
    python-dotenv
    openai
    pillow
    requests
    ```


1. بعد ذلك، أنشئ بيئة افتراضية وقم بتثبيت المكتبات:


In [None]:
# create virtual env
! python3 -m venv venv
# activate environment
! source venv/bin/activate
# install libraries
# pip install -r requirements.txt, if using a requirements.txt file 
! pip install python-dotenv openai pillow requests

> [!NOTE]
> بالنسبة لنظام ويندوز، استخدم الأوامر التالية لإنشاء وتفعيل البيئة الافتراضية الخاصة بك:

    ```bash
    python3 -m venv venv
    venv\Scripts\activate.bat
    ```

1. أضف الكود التالي في ملف باسم *app.py*:

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    
    # import dotenv
    dotenv.load_dotenv()
    
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY']     
    
    # Assign the API version (DALL-E is currently supported for the 2023-06-01-preview API version only)
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    
    
    try:
        # Create an image by using the image generation API
        generation_response = openai.Image.create(
            prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
            size='1024x1024',
            n=2,
            temperature=0,
        )
        # Set the directory for the stored image
        image_dir = os.path.join(os.curdir, 'images')
    
        # If the directory doesn't exist, create it
        if not os.path.isdir(image_dir):
            os.mkdir(image_dir)
    
        # Initialize the image path (note the filetype should be png)
        image_path = os.path.join(image_dir, 'generated-image.png')
    
        # Retrieve the generated image
        image_url = generation_response["data"][0]["url"]  # extract image URL from response
        generated_image = requests.get(image_url).content  # download the image
        with open(image_path, "wb") as image_file:
            image_file.write(generated_image)
    
        # Display the image in the default image viewer
        image = Image.open(image_path)
        image.show()
    
    # catch exceptions
    except openai.InvalidRequestError as err:
        print(err)

    ```

لنشرح هذا الكود:

- أولاً، نقوم باستيراد المكتبات التي نحتاجها، بما في ذلك مكتبة OpenAI، ومكتبة dotenv، ومكتبة requests، ومكتبة Pillow.

    ```python
    import openai
    import os
    import requests
    from PIL import Image
    import dotenv
    ```

- بعد ذلك، نقوم بتحميل متغيرات البيئة من ملف *.env*.

    ```python
    # import dotenv
    dotenv.load_dotenv()
    ```

- بعد ذلك، نحدد نقطة النهاية، والمفتاح الخاص بواجهة برمجة تطبيقات OpenAI، بالإضافة إلى الإصدار والنوع.

    ```python
    # Get endpoint and key from environment variables
    openai.api_base = os.environ['AZURE_OPENAI_ENDPOINT']
    openai.api_key = os.environ['AZURE_OPENAI_API_KEY'] 

    # add version and type, Azure specific
    openai.api_version = '2023-06-01-preview'
    openai.api_type = 'azure'
    ```

- بعد ذلك، نقوم بتوليد الصورة:

    ```python
    # Create an image by using the image generation API
    generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
    ```

    الكود أعلاه يعيد كائن JSON يحتوي على رابط الصورة التي تم توليدها. يمكننا استخدام هذا الرابط لتحميل الصورة وحفظها في ملف.

- وأخيراً، نقوم بفتح الصورة واستخدام عارض الصور الافتراضي لعرضها:

    ```python
    image = Image.open(image_path)
    image.show()
    ```

### تفاصيل أكثر حول توليد الصورة

دعونا نلقي نظرة على الكود الذي يولد الصورة بمزيد من التفصيل:

```python
generation_response = openai.Image.create(
        prompt='Bunny on horse, holding a lollipop, on a foggy meadow where it grows daffodils',    # Enter your prompt text here
        size='1024x1024',
        n=2,
        temperature=0,
    )
```

- **prompt**، هو النص الذي يُستخدم لتوليد الصورة. في هذا المثال، نستخدم النص "أرنب على حصان، يحمل مصاصة، في مرج ضبابي تنمو فيه أزهار النرجس".
- **size**، هو حجم الصورة التي سيتم توليدها. في هذا المثال، نقوم بتوليد صورة بحجم 1024x1024 بكسل.
- **n**، هو عدد الصور التي سيتم توليدها. في هذا المثال، نقوم بتوليد صورتين.
- **temperature**، هو معامل يتحكم في عشوائية مخرجات نموذج الذكاء الاصطناعي التوليدي. القيمة تتراوح بين 0 و 1، حيث أن 0 تعني أن المخرجات حتمية و1 تعني أن المخرجات عشوائية. القيمة الافتراضية هي 0.7.

هناك أشياء أخرى يمكنك القيام بها مع الصور وسنغطيها في القسم التالي.

## إمكانيات إضافية لتوليد الصور

لقد رأيت حتى الآن كيف تمكنا من توليد صورة باستخدام بضعة أسطر في بايثون. ومع ذلك، هناك أشياء أخرى يمكنك القيام بها مع الصور.

يمكنك أيضاً القيام بما يلي:

- **إجراء تعديلات**. من خلال تزويد صورة موجودة بقناع ونص توجيهي، يمكنك تعديل الصورة. على سبيل المثال، يمكنك إضافة شيء إلى جزء من الصورة. تخيل صورة الأرنب الخاصة بنا، يمكنك إضافة قبعة للأرنب. الطريقة لفعل ذلك هي بتوفير الصورة، وقناع (لتحديد الجزء الذي سيتم تغييره) ونص يوضح ما يجب فعله.

    ```python
    response = openai.Image.create_edit(
      image=open("base_image.png", "rb"),
      mask=open("mask.png", "rb"),
      prompt="An image of a rabbit with a hat on its head.",
      n=1,
      size="1024x1024"
    )
    image_url = response['data'][0]['url']
    ```

    الصورة الأساسية ستحتوي فقط على الأرنب، لكن الصورة النهائية ستحتوي على الأرنب مع القبعة.

- **إنشاء تنويعات**.
    اطلع على [دفتر OpenAI الخاص بنا لمزيد من المعلومات](./oai-assignment.ipynb?WT.mc_id=academic-105485-koreyst).



---

**إخلاء المسؤولية**:  
تمت ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. يجب اعتبار المستند الأصلي بلغته الأصلية هو المصدر الموثوق. للمعلومات الهامة، يُنصح بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسير خاطئ ينشأ عن استخدام هذه الترجمة.
