In [1]:
import os
import json
import requests
from tqdm.auto import tqdm

In [2]:
import urllib3
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning) # suppress requests warnings of InsecureRequestWarning

# Exploring Allam APIs

In [3]:
ACCESS_TOKEN = 'xdv6hDyIRvQapMeJ8WjKkoYA9787nkqdXq358jkh37iUlVnHhrHeBP10l3Fa7hwA3PJjlaZZeDXNe5W6DCXII0Sgkw78dDq7gzbM6vjuKgFNVNjWAiSPsYaYOMAGAm56'

In [74]:
def get_chat_completion(messages):
    payload = {
        "messages": messages,
        #"temperature": 0.6,
        "temperature": 0.0,
        "stream": False,
        "model": "allam",
        #"top_p": 0.98,
        "n": 1,
        "add_generation_prompt": True,
        "echo": False,
        "stop": " </s>",
    }
    response = requests.post(
        'https://vllm-v19.allam.ai/v1/chat/completions',
        headers={
            "Content-Type": "application/json",
            "Authorization": f"Bearer {ACCESS_TOKEN}"
        },
        data=json.dumps(payload),
        timeout=150,
        verify=False,
    )
    # Check if the request was successful
    if response.status_code == 200:
        # Parse the response JSON
        chat_response_data = response.json()
        # print(chat_response_data)
        # return chat_response_data['choices'][0]['message']['content']
        return chat_response_data
    else:
        print(f"Request failed with status code {response.status_code}")
        print(response.text)
        return response

test the API

In [5]:
print(get_chat_completion([
    {
        'role': 'user',
        'content': 'ما هو لون نجوم السماء؟'
    },
]))

{'id': 'cmpl-07e21236cc2342e5ac695258e9dc6165', 'object': 'chat.completion', 'created': 1730710632, 'model': 'allam', 'choices': [{'index': 0, 'message': {'role': 'assistant', 'content': ' لون النجوم في السماء يعتمد على درجة حرارة سطح النجم. النجوم الأكثر سخونة تظهر باللون الأزرق، بينما النجوم الأقل حرارة تظهر باللون الأحمر. النجوم الصفراء هي الأكثر شيوعاً وتمثل النجوم ذات درجات حرارة سطح متوسطة. إذا نظرت إلى السماء ليلاً، سترى مجموعة متنوعة من الألوان بسبب درجات الحرارة المختلفة للنجوم. '}, 'logprobs': None, 'finish_reason': 'stop', 'stop_reason': None}], 'usage': {'prompt_tokens': 15, 'total_tokens': 78, 'completion_tokens': 63}}


# Generating the dataset

first, we generate articles by polishing them.

In [6]:
def save_generated_abstracts_to_jsonl(abstracts, file_path):  
    # Append new articles
    with open(file_path, 'w', encoding='utf-8') as f:
        for abstract in abstracts:
            json_object = abstract
            f.write(json.dumps(json_object, ensure_ascii=False) + '\n')

def load_generated_abstracts_from_jsonl(file_path):
    abstracts = []
    if os.path.exists(file_path):
        with open(file_path, 'r', encoding='utf-8') as f:
            for line in f:
                abstracts.append(json.loads(line))
    return abstracts

In [7]:
def load_abstracts():
    abstracts = []
    with open('arabic_datasets/arabic_filtered_papers.json', 'r', encoding='utf-8') as f:
        abstracts = json.load(f)
    return abstracts

In [8]:
abstracts = load_abstracts()
len(abstracts)

3000

In [77]:
# Your existing code to generate articles
def generate_abstracts(generation_prompts, generation_type):
    
    # Define file path for saving abstracts
    os.makedirs("generated_arabic_datasets/allam/arabic_abstracts_dataset", exist_ok=True)
    file_path = f"generated_arabic_datasets/allam/arabic_abstracts_dataset/{generation_type}_abstracts_generation.jsonl"
    generated_abstracts = load_generated_abstracts_from_jsonl(file_path)

    for i, prompt in tqdm(
        enumerate(
            generation_prompts[len(generated_abstracts) :],
            start=len(generated_abstracts),
        ),
        total=len(generation_prompts),
        initial=len(generated_abstracts)
    ):
        output_abstract = {}
        generated_chat = get_chat_completion(
            [
                {
                    "role": "user",
                    "content": prompt,
                },
            ]
        )
        if not isinstance(generated_chat, dict): # in this case, the  generated_chat is the request's Response object
            generated_abstract = ''
            # catch the case of errors other than the context length
            if not generated_chat.json()['message'].startswith("This model's maximum context length is 4096 tokens. However, you requested"):
                raise
        else:
            generated_abstract = generated_chat['choices'][0]['message']['content']
        
        # do some preprocessing
        generated_abstract = generated_abstract.strip().strip('<END>').strip().strip('<START>').strip()
        end_token_index = generated_abstract.find('<END>')
        if end_token_index > 0:
            generated_abstract = generated_abstract[:end_token_index]
        generated_abstract = generated_abstract.strip()
        
        output_abstract["original_abstract"] = abstracts[i]['arabic_abstract']
        output_abstract["generated_abstract"] = generated_abstract
        generated_abstracts.append(output_abstract)
        # Save the generated articles
        save_generated_abstracts_to_jsonl(generated_abstracts, file_path)

## Generate from title only

In [13]:
generate_from_title_prompt = """
أنت كاتب أكاديمي خبير متخصص في كتابة الملخصات البحثية. مهمتك الأساسية هي إنشاء ملخص موجز ومعبر من فقرة واحدة للورقة البحثية التي عنوانها سيُعطى لك.

القواعد الأساسية:
1. يجب أن يتراوح الملخص بين 100-150 كلمة بالضبط
2. يجب أن يكون الملخص شاملاً ويغطي: الهدف الرئيسي، المنهجية، والنتائج المتوقعة
3. لا يُسمح بإنشاء ملخص فارغ تحت أي ظرف
4. استخدم أسلوباً علمياً رصيناً يناسب الأوراق البحثية

التنسيق المطلوب:
- ابدأ الملخص مباشرة بعد علامة <START>
- انتهِ بعلامة <END>
- لا تضف أي نص خارج هذه العلامات

العنوان:
{title}

الملخص:
<START>
""".strip()

In [14]:
print(generate_from_title_prompt.format(title=abstracts[0]['title']))

أنت كاتب أكاديمي خبير متخصص في كتابة الملخصات البحثية. مهمتك الأساسية هي إنشاء ملخص موجز ومعبر من فقرة واحدة للورقة البحثية التي عنوانها سيُعطى لك.

القواعد الأساسية:
1. يجب أن يتراوح الملخص بين 100-150 كلمة بالضبط
2. يجب أن يكون الملخص شاملاً ويغطي: الهدف الرئيسي، المنهجية، والنتائج المتوقعة
3. لا يُسمح بإنشاء ملخص فارغ تحت أي ظرف
4. استخدم أسلوباً علمياً رصيناً يناسب الأوراق البحثية

التنسيق المطلوب:
- ابدأ الملخص مباشرة بعد علامة <START>
- انتهِ بعلامة <END>
- لا تضف أي نص خارج هذه العلامات

العنوان:
صور عن نظام التعليم عند المرأة الأندلسية

الملخص:
<START>


In [15]:
generate_from_title_prompts = []
for abstract in abstracts:
    prompt = generate_from_title_prompt.format(title=abstract['title'])
    generate_from_title_prompts.append(prompt)
len(generate_from_title_prompts)

3000

In [16]:
generate_from_title_prompts[:3]

['أنت كاتب أكاديمي خبير متخصص في كتابة الملخصات البحثية. مهمتك الأساسية هي إنشاء ملخص موجز ومعبر من فقرة واحدة للورقة البحثية التي عنوانها سيُعطى لك.\n\nالقواعد الأساسية:\n1. يجب أن يتراوح الملخص بين 100-150 كلمة بالضبط\n2. يجب أن يكون الملخص شاملاً ويغطي: الهدف الرئيسي، المنهجية، والنتائج المتوقعة\n3. لا يُسمح بإنشاء ملخص فارغ تحت أي ظرف\n4. استخدم أسلوباً علمياً رصيناً يناسب الأوراق البحثية\n\nالتنسيق المطلوب:\n- ابدأ الملخص مباشرة بعد علامة <START>\n- انتهِ بعلامة <END>\n- لا تضف أي نص خارج هذه العلامات\n\nالعنوان:\nصور عن نظام التعليم عند المرأة الأندلسية\n\nالملخص:\n<START>',
 'أنت كاتب أكاديمي خبير متخصص في كتابة الملخصات البحثية. مهمتك الأساسية هي إنشاء ملخص موجز ومعبر من فقرة واحدة للورقة البحثية التي عنوانها سيُعطى لك.\n\nالقواعد الأساسية:\n1. يجب أن يتراوح الملخص بين 100-150 كلمة بالضبط\n2. يجب أن يكون الملخص شاملاً ويغطي: الهدف الرئيسي، المنهجية، والنتائج المتوقعة\n3. لا يُسمح بإنشاء ملخص فارغ تحت أي ظرف\n4. استخدم أسلوباً علمياً رصيناً يناسب الأوراق البحثية\n\nالتنسيق المطل

In [19]:
generate_abstracts(generation_prompts=generate_from_title_prompts, generation_type='from_title')

 99%|#########9| 2972/3000 [00:00<?, ?it/s]

## Generate from title and content

In [60]:
max_paper_content_length = 400

In [61]:
generate_from_title_and_content_prompt = """
أنت مساعد أكاديمي خبير متخصص في تحليل وإعادة صياغة النصوص العربية. مهمتك هي تحليل العنوان والمحتوى المقدم لك (بحد أقصى {max_paper_content_length} كلمة) وإنشاء ملخص موجز وفعال من 100-150 كلمة.

مهمتك الأساسية هي إنشاء ملخص أكاديمي (100-150 كلمة) في جميع الحالات، حتى لو كان النص المقدم غير مفهوم تماماً.

القاعدة الذهبية: يجب عليك دائماً إنشاء ملخص أكاديمي محترف، حتى لو كان عليك الاعتماد على العنوان فقط.

ملاحظات مهمة:
المحتوى المقدم مستخرج من ملف PDF وقد يحتوي على أخطاء كثيرة في التحويل
قد تجد بعض المشاكل الشائعة مثل:
- تداخل الحروف العربية بشكل كبير
- تكرار بعض الحروف بشكل غير منطقي (مثل: السسسلام)
- تشويه كبير في بعض الكلمات لدرجة قد تجعلها غير مفهومة
- فصل غير صحيح للكلمات
- أخطاء في علامات التشكيل
- تحويل خاطئ لبعض الحروف المتشابهة مثل (ا/أ/إ) و (ه/ة)
- اختفاء بعض الحروف أو استبدالها برموز غير مفهومة

إرشادات مهمة:
- تجاهل تماماً أي ملخص أو مستخلص موجود في المحتوى المقدم (عادةً ما يكون في بداية البحث). لم نقم بحذفه لأنه من الصعب حذف الملخص الموجود مسبقاً من النص المدخل، إلا أن مهمتك هي تجاهله بشكل كامل وإنشاء ملخص جديد مستقل بناءً على محتوى البحث نفسه. لا تتأثر بالملخص الموجود ولا تعتمد عليه في صياغة الملخص الجديد.
- استخدام سياق النص لفهم المعنى المقصود وتصحيح الأخطاء ذهنياً.
- التركيز على الأفكار الواضحة والمفهومة في النص.
- في حال وجود أجزاء غير مفهومة بسبب التشويه، يمكنك الاعتماد على الأجزاء المفهومة.
- في حال كان النص غير مفهوم بشكل كبير، قم بإنشاء ملخص من عنوان البحث فقط، مع التركيز على الموضوع الرئيسي والمجال العلمي والأهداف المتوقعة.

المطلوب:
- قراءة العنوان والمحتوى بعناية.
- فهم الأفكار الرئيسية رغم أخطاء التحويل الكثيرة.
- إنشاء ملخص واضح ومتماسك يعكس جوهر البحث.
- الالتزام بالأسلوب الأكاديمي الرصين.

تنبيهات هامة للملخص:
- يجب أن يكون الملخص نصاً متصلاً بدون أسطر فارغة أو فواصل سطرية.
- لا تترك الملخص فارغاً تحت أي ظرف.
- يجب أن يكون الملخص أكاديمياً بحتاً، يصف محتوى البحث أو موضوعه وأهدافه.
- ممنوع منعاً باتاً كتابة عبارات مثل "النص غير واضح" أو "يصعب تقديم ملخص" أو "للأسف، النص المقدم غير واضح" أو أي تعليقات حول جودة النص، قم مباشرة بإنشاء ملخص أكاديمي من العنوان دون الإشارة إلى مشاكل النص.
- في حال عدم وضوح النص، قم مباشرة بإنشاء ملخص أكاديمي من العنوان دون الإشارة إلى مشاكل النص.
- لا تضف مسافات أو أسطر فارغة في بداية أو نهاية الملخص.
- اكتب الملخص مباشرة بعد علامة <START> بدون أي مسافات إضافية.

تذكر: مهمتك الأساسية هي إنتاج ملخص أكاديمي محترف في جميع الحالات. عدم فهم النص ليس عذراً لعدم إنتاج ملخص - في هذه الحالة، استخدم العنوان لإنشاء ملخص يتناول الموضوع من منظور أكاديمي عام.

يرجى البدء مباشرة بعد علامة <START> والانتهاء عند علامة <END>. لا تضف أي نص خارج هذه العلامات.

المحتوى:
{content}

العنوان:
{title}

الملخص:
<START>
""".strip()

In [62]:
print(generate_from_title_and_content_prompt.format(title=abstracts[0]['title'],content=' '.join(abstracts[0]['paper_extracted_content'].split(' ')[:max_paper_content_length]),max_paper_content_length=max_paper_content_length))

أنت مساعد أكاديمي خبير متخصص في تحليل وإعادة صياغة النصوص العربية. مهمتك هي تحليل العنوان والمحتوى المقدم لك (بحد أقصى 400 كلمة) وإنشاء ملخص موجز وفعال من 100-150 كلمة.

مهمتك الأساسية هي إنشاء ملخص أكاديمي (100-150 كلمة) في جميع الحالات، حتى لو كان النص المقدم غير مفهوم تماماً.

القاعدة الذهبية: يجب عليك دائماً إنشاء ملخص أكاديمي محترف، حتى لو كان عليك الاعتماد على العنوان فقط.

ملاحظات مهمة:
المحتوى المقدم مستخرج من ملف PDF وقد يحتوي على أخطاء كثيرة في التحويل
قد تجد بعض المشاكل الشائعة مثل:
- تداخل الحروف العربية بشكل كبير
- تكرار بعض الحروف بشكل غير منطقي (مثل: السسسلام)
- تشويه كبير في بعض الكلمات لدرجة قد تجعلها غير مفهومة
- فصل غير صحيح للكلمات
- أخطاء في علامات التشكيل
- تحويل خاطئ لبعض الحروف المتشابهة مثل (ا/أ/إ) و (ه/ة)
- اختفاء بعض الحروف أو استبدالها برموز غير مفهومة

إرشادات مهمة:
- تجاهل تماماً أي ملخص أو مستخلص موجود في المحتوى المقدم (عادةً ما يكون في بداية البحث). لم نقم بحذفه لأنه من الصعب حذف الملخص الموجود مسبقاً من النص المدخل، إلا أن مهمتك هي تجاهله بشكل كامل وإن

In [79]:
generate_from_title_and_content_prompts = []
for i,abstract in enumerate(abstracts):
    paper_content = ' '.join(abstract['paper_extracted_content'].split(' ')[:max_paper_content_length])
    prompt = generate_from_title_and_content_prompt.format(title=abstract['title'], content=paper_content, max_paper_content_length=max_paper_content_length)
    generate_from_title_and_content_prompts.append(prompt)

In [80]:
generate_from_title_and_content_prompts[:3]

['أنت مساعد أكاديمي خبير متخصص في تحليل وإعادة صياغة النصوص العربية. مهمتك هي تحليل العنوان والمحتوى المقدم لك (بحد أقصى 400 كلمة) وإنشاء ملخص موجز وفعال من 100-150 كلمة.\n\nمهمتك الأساسية هي إنشاء ملخص أكاديمي (100-150 كلمة) في جميع الحالات، حتى لو كان النص المقدم غير مفهوم تماماً.\n\nالقاعدة الذهبية: يجب عليك دائماً إنشاء ملخص أكاديمي محترف، حتى لو كان عليك الاعتماد على العنوان فقط.\n\nملاحظات مهمة:\nالمحتوى المقدم مستخرج من ملف PDF وقد يحتوي على أخطاء كثيرة في التحويل\nقد تجد بعض المشاكل الشائعة مثل:\n- تداخل الحروف العربية بشكل كبير\n- تكرار بعض الحروف بشكل غير منطقي (مثل: السسسلام)\n- تشويه كبير في بعض الكلمات لدرجة قد تجعلها غير مفهومة\n- فصل غير صحيح للكلمات\n- أخطاء في علامات التشكيل\n- تحويل خاطئ لبعض الحروف المتشابهة مثل (ا/أ/إ) و (ه/ة)\n- اختفاء بعض الحروف أو استبدالها برموز غير مفهومة\n\nإرشادات مهمة:\n- تجاهل تماماً أي ملخص أو مستخلص موجود في المحتوى المقدم (عادةً ما يكون في بداية البحث). لم نقم بحذفه لأنه من الصعب حذف الملخص الموجود مسبقاً من النص المدخل، إلا أن مهمتك هي 

In [81]:
giving_up_counter = 0
max_to_give_up = 5
while True:
    try:
            current_generated_abstracts = !wc -l < generated_arabic_datasets/allam/arabic_abstracts_dataset/from_title_and_content_abstracts_generation.jsonl
            current_generated_abstracts = int(current_generated_abstracts[0].strip())
            if current_generated_abstracts >= 3000:
                break
            generate_abstracts(generation_prompts=generate_from_title_and_content_prompts, generation_type='from_title_and_content')
            giving_up_counter = 0
    except Exception as e:
        giving_up_counter += 1
        print(e)
        if giving_up_counter >= max_to_give_up:
            break

 12%|#2        | 361/3000 [00:00<?, ?it/s]

Request failed with status code 400
{"object":"error","message":"This model's maximum context length is 4096 tokens. However, you requested 5314 tokens in the messages, Please reduce the length of the messages.","type":"BadRequestError","param":null,"code":400}
Request failed with status code 400
{"object":"error","message":"This model's maximum context length is 4096 tokens. However, you requested 7753 tokens in the messages, Please reduce the length of the messages.","type":"BadRequestError","param":null,"code":400}
Request failed with status code 400
{"object":"error","message":"This model's maximum context length is 4096 tokens. However, you requested 6091 tokens in the messages, Please reduce the length of the messages.","type":"BadRequestError","param":null,"code":400}
Request failed with status code 400
{"object":"error","message":"This model's maximum context length is 4096 tokens. However, you requested 5454 tokens in the messages, Please reduce the length of the messages.","t

 68%|######8   | 2052/3000 [00:00<?, ?it/s]

Request failed with status code 400
{"object":"error","message":"This model's maximum context length is 4096 tokens. However, you requested 5656 tokens in the messages, Please reduce the length of the messages.","type":"BadRequestError","param":null,"code":400}
Request failed with status code 400
{"object":"error","message":"This model's maximum context length is 4096 tokens. However, you requested 8956 tokens in the messages, Please reduce the length of the messages.","type":"BadRequestError","param":null,"code":400}


## Generate by polishing abstracts

In [84]:
generate_by_polishing_abstract_prompt = """
أنت كاتب أكاديمي خبير. مهمتك هي تحسين وصقل الملخص المقدم مع مراعاة عنوان البحث.

المطلوب إنشاء ملخص موجز وفعال من فقرة واحدة متماسكة، دون فواصل سطرية أو حروف غير ضرورية. يجب أن يتراوح الملخص بين 200-250 كلمة وأن يتناسق بشكل جيد مع العنوان.

مهم: قم بإنشاء الملخص المحسّن فقط. ابدأ مباشرة بعد علامة <START> وانتهِ بعلامة <END>. لا تضِف أي كلمات قبل <START> أو بعد <END>. لا تضِف أي عبارات تمهيدية أو جمل ختامية أو أي نص ليس جزءاً من محتوى الملخص الأساسي.

إرشادات التحسين:

- تحسين الصياغة اللغوية والأسلوب الأكاديمي
- التأكد من التسلسل المنطقي للأفكار
- تعزيز الترابط بين العنوان والملخص
- الحفاظ على المعلومات الأساسية مع تحسين طريقة عرضها
- استخدام المصطلحات الأكاديمية المناسبة

العنوان:
{title}

الملخص الأصلي:
{abstract}

الملخص المحسّن:
<START>
""".strip()

In [85]:
print(generate_by_polishing_abstract_prompt.format(title=abstracts[0]['title'],abstract=abstracts[0]['arabic_abstract']))

أنت كاتب أكاديمي خبير. مهمتك هي تحسين وصقل الملخص المقدم مع مراعاة عنوان البحث.

المطلوب إنشاء ملخص موجز وفعال من فقرة واحدة متماسكة، دون فواصل سطرية أو حروف غير ضرورية. يجب أن يتراوح الملخص بين 200-250 كلمة وأن يتناسق بشكل جيد مع العنوان.

مهم: قم بإنشاء الملخص المحسّن فقط. ابدأ مباشرة بعد علامة <START> وانتهِ بعلامة <END>. لا تضِف أي كلمات قبل <START> أو بعد <END>. لا تضِف أي عبارات تمهيدية أو جمل ختامية أو أي نص ليس جزءاً من محتوى الملخص الأساسي.

إرشادات التحسين:

- تحسين الصياغة اللغوية والأسلوب الأكاديمي
- التأكد من التسلسل المنطقي للأفكار
- تعزيز الترابط بين العنوان والملخص
- الحفاظ على المعلومات الأساسية مع تحسين طريقة عرضها
- استخدام المصطلحات الأكاديمية المناسبة

العنوان:
صور عن نظام التعليم عند المرأة الأندلسية

الملخص الأصلي:
كثيرا ما ارتبطت المصادر التاريخية في الأندلس خاصة منها كتب التراجم والفهرسات والبرامج وغيرها بدراسة حياة العلماء والرواة والقضاة والساسة ؛ وقد تطورت هذه المادة حتى ترك لنا المؤلفون الأندلسيون سلسلة متواصلة الحلقات من كتب التـراجم كالصلة لابن بشكوال ، و

In [86]:
generate_by_polishing_abstract_prompts = []
for abstract in abstracts:
    prompt = generate_by_polishing_abstract_prompt.format(title=abstract['title'], abstract=abstract['arabic_abstract'])
    generate_by_polishing_abstract_prompts.append(prompt)

In [87]:
generate_by_polishing_abstract_prompts[:3]

['أنت كاتب أكاديمي خبير. مهمتك هي تحسين وصقل الملخص المقدم مع مراعاة عنوان البحث.\n\nالمطلوب إنشاء ملخص موجز وفعال من فقرة واحدة متماسكة، دون فواصل سطرية أو حروف غير ضرورية. يجب أن يتراوح الملخص بين 200-250 كلمة وأن يتناسق بشكل جيد مع العنوان.\n\nمهم: قم بإنشاء الملخص المحسّن فقط. ابدأ مباشرة بعد علامة <START> وانتهِ بعلامة <END>. لا تضِف أي كلمات قبل <START> أو بعد <END>. لا تضِف أي عبارات تمهيدية أو جمل ختامية أو أي نص ليس جزءاً من محتوى الملخص الأساسي.\n\nإرشادات التحسين:\n\n- تحسين الصياغة اللغوية والأسلوب الأكاديمي\n- التأكد من التسلسل المنطقي للأفكار\n- تعزيز الترابط بين العنوان والملخص\n- الحفاظ على المعلومات الأساسية مع تحسين طريقة عرضها\n- استخدام المصطلحات الأكاديمية المناسبة\n\nالعنوان:\nصور عن نظام التعليم عند المرأة الأندلسية\n\nالملخص الأصلي:\nكثيرا ما ارتبطت المصادر التاريخية في الأندلس خاصة منها كتب التراجم والفهرسات والبرامج وغيرها بدراسة حياة العلماء والرواة والقضاة والساسة ؛ وقد تطورت هذه المادة حتى ترك لنا المؤلفون الأندلسيون سلسلة متواصلة الحلقات من كتب التـراجم كا

In [90]:
generate_abstracts(generation_prompts=generate_by_polishing_abstract_prompts, generation_type='by_polishing_abstracts')

 50%|#####     | 1506/3000 [00:00<?, ?it/s]