In [1]:
from langchain_core.prompts import PromptTemplate  
from langchain_ibm import WatsonxLLM 
from langchain_google_genai import ChatGoogleGenerativeAI 
from langchain_core.output_parsers import JsonOutputParser, StrOutputParser 
import os  
import json  

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# Save keys in environment variables
os.environ["WATSONX_APIKEY"] = "I23GGOrvbVPdcG-MzPGPmxv8Cv7LezjfmmDQT2APmmet"
os.environ["GOOGLE_API_KEY"] = "AIzaSyD84pB4jxC32uYD3_nmx2nTJ2u7F5WD8jI"
os.environ["PROJECT_ID"] = "40481c96-7240-4b7d-8d44-08a21aea2013"
os.environ["MODEL_ID"] = "sdaia/allam-1-13b-instruct"
os.environ["CLOUD_URL"] = "https://eu-de.ml.cloud.ibm.com"

In [3]:
# Model Parameters
model_params = {
    "max_new_tokens": 1536,
    "min_new_tokens": 0,
    "temperature": 0.1,
}


In [4]:

allam_model = WatsonxLLM(
    project_id=os.getenv("PROJECT_ID"),
    model_id=os.getenv("MODEL_ID"),
    url=os.getenv("CLOUD_URL"),
    params=model_params,
)


In [5]:
gemini_model = ChatGoogleGenerativeAI(
    model="gemini-1.5-pro",
    max_output_tokens= None,
    temperature=0.1,
)

In [6]:
long_sentence = "إنَّ العلمَ نورٌ يهتدي به الإنسانُ في ظلماتِ الجهلِ، ولن ينالَ المجدَ من لم يسع إليه بجدٍّ وإصرارٍ"

In [7]:
# I am building an LLM that can perform arabic Grammar parsing (إعراب).
# I want the accuracy of the I3rab to be 99% or more.
# I will try prompt engineering and Agentic Adaptive RAG to achieve this.

# Import prompt template
from langchain_core.prompts import PromptTemplate


# Build custom prompt
irab_prompt = PromptTemplate(
    template="""<s> [INST] أنت خبير في قواعد اللغة العربية وإعرابها. مهمتك هي تقديم تحليل نحوي مفصّل للجملة المقدمة. اتبع الخطوات التالية:

1. قم بتحديد نوع الجملة (اسمية أو فعلية).

2. حلل كل كلمة في الجملة بالترتيب، مع توضيح ما يلي لكل كلمة:

أ. الوظيفة النحوية (فاعل، مفعول به، مبتدأ، خبر، إلخ)
ب. الإعراب الكامل (مرفوع، منصوب، مجرور، مجزوم) مع ذكر علامة الإعراب
ج. أي معلومات صرفية إضافية (مثل الجذر، الوزن، التصريف)

3. وضّح العلاقات النحوية بين الكلمات (مثل المطابقة، الإضافة، النعت)

4. اشرح أي قواعد نحوية خاصة أو استثناءات تنطبق على الجملة

5. إذا احتوت الجملة على **تعابير اصطلاحية** أو **تراكيب معقدة**، قم بما يلي:
- وضّح كيف يؤثر ذلك على التحليل النحوي التقليدي.
- حدد ما إذا كانت الكلمة أو العبارة تخرج عن القاعدة أو تخضع لتراكيب خاصة.
- إذا كان هناك **إضمار** أو **مجاز**، وضّح كيفية الإعراب المناسب.

6. قدّم تحليلاً موجزاً للمعنى العام للجملة وكيف يرتبط بتركيبها النحوي.

مثال:

الجملة: "الطالبُ لم يسعَ إلى النجاحِ بنفسه سريعًا."

1. نوع الجملة: اسمية.

2. تحليل الكلمات:


- الطالبُ:
أ. الوظيفة النحوية: مبتدأ.
ب. الإعراب الكامل: مبتدأ مرفوع وعلامة رفعه الضمة الظاهرة.
ج. معلومات إضافية: - الجذر: ط-ل-ب - الوزن: "فاعل"، صيغة اسم الفاعل من الفعل "طلب".

- لم:
أ. الوظيفة النحوية: حرف نفي وجزم.

- يسعَ:
أ. الوظيفة النحوية: فعل مضارع.
ب. الإعراب الكامل: فعل مضارع مجزوم بحذف حرف العلة.
ج. معلومات إضافية: - الجذر: س-ع-ي - الوزن: "يفعل"، وهو فعل معتل الآخر (الياء).

- إلى:
أ. الوظيفة النحوية: حرف جر.

- النجاحِ:
أ. الوظيفة النحوية: اسم مجرور متعلق بالفعل "يسعَ".
ب. الإعراب الكامل: اسم مجرور وعلامة جره الكسرة الظاهرة.

- بنفسه:
أ. الوظيفة النحوية: جار ومجرور متعلق بالفعل "يسعَ".
ب. الإعراب الكامل: الباء حرف جر ونفسه اسم مجرور وعلامة جره الكسرة الظاهرة.

- سريعًا:
أ. الوظيفة النحوية: حال يوضح كيفية السعي.
ب. الإعراب الكامل: حال منصوب، وعلامة نصبه الفتحة الظاهرة.

3. العلاقات النحوية: 
- العلاقة بين "الطالب" و"لم يسع": علاقة إسناد، حيث إن "لم يسع" هو الخبر الذي يسند إلى المبتدأ "الطالب".
- العلاقة بين "إلى النجاح": علاقة جر ومجرور.

4. قواعد خاصة: 
- "يسع" فعل مضارع معتل الآخر مجزوم بحذف حرف العلة (الياء) بعد دخول "لم".
- الجملة الفعلية "لم يسعَ إلى النجاح بنفسه سريعًا" في محل رفع خبر للمبتدأ "الطالب".

5. الجملة الفعلية "لم يسعَ إلى النجاح بنفسه سريعًا": 
- "يسع" فعل مضارع مجزوم بحذف حرف العلة.
- الجملة الفعلية في محل رفع خبر للمبتدأ "الطالب".

6. التحليل العام للمعنى:
الجملة تشير إلى أن "الطالب" لم يسعَ بجدية إلى النجاح بسرعة. التركيب النحوي يدعم هذا المعنى حيث يتم تقديم المبتدأ "الطالب"، ثم يأتي النفي والفعل المجزوم "لم يسع"، ويكمل المعنى الحال "سريعًا" ليظهر كيف كان هذا السعي.


الجملة المراد إعرابها هي:
{sentence}

قم بتقديم إجابتك بتنسيق منظم وواضح، مع استخدام النقاط والأرقام لتسهيل القراءة.
[/INST]""",
    input_variables=["sentence"],
)


split_prompt = PromptTemplate(
    template="""You are an expert in Arabic syntax and grammar (إعراب). Your task is to break down a long Arabic sentence into shorter sentences without changing the meaning or the grammatical structure (إعراب). Follow these steps:

- If the sentence is too long, divide it into shorter, grammatically correct sentences while keeping the meaning and إعراب intact.
- If there a relationship between the sentences, don't split. 
- If the length of the sentence is not an issue, don't split.
example on this point: if there is جملة فعلية فى محل رفع خبر للمبتدأ, don't split.

Sentence: {sentence}

Provide your output in a clear list format, with each sentence on a new line.
Using this structure:
Sentence: "The Original Sentence here"

Output:
- "The first split sentence here"
- "The second split sentence here" (optional) as the original sentence might not require splitting.
- "The third split sentence here" (optional) and so on.

""",
    input_variables=["sentence"],
)

json_parse_prompt = PromptTemplate(
    template="""
    أنت خبير في قواعد اللغة العربية (إعراب). سأقدم لك جملة عربية أصلية وقائمة بنتائج الإعراب المفصلة لكل كلمة في الجملة. مهمتك هي:

    1. دمج نتائج الإعراب في فقرة متناسقة وفقًا لترتيب الكلمات الأصلي في الجملة.
    2. تقديم النتائج في صيغة JSON بالتنسيق التالي:
    
    **الجملة الأصلية**: {sentence}

    **النتيجة قبل JSON**:
    {irab_results}

    **النتيجة النهائية**:
    ```json
    {{
        "original_sentence": "{sentence}",
        "irab_results": [
            {{"word": "{{word1}}", "irab": "{{irab1}}"}},
            {{"word": "{{word1}}", "irab": "{{irab1}}"}},
            ...
        ],
        "special_sentences":[
            {{"sentence": "{{sentence1}}", "special_irab": "{{special_irab1}}"}},
            {{"sentence": "{{sentence2}}", "special_irab": "{{special_irab2}}"}},
            ...
        ],
    }}
    ```

    **مثال**:
    
    الجملة الأصلية: "الطالبُ لم يسعَ إلى النجاحِ سريعًا."

    **النتيجة قبل JSON**:
    1. نوع الجملة: اسمية.

    2. تحليل الكلمات:


    - الطالبُ:
    أ. الوظيفة النحوية: مبتدأ.
    ب. الإعراب الكامل: مبتدأ مرفوع وعلامة رفعه الضمة الظاهرة.
    ج. معلومات إضافية: - الجذر: ط-ل-ب - الوزن: "فاعل"، صيغة اسم الفاعل من الفعل "طلب".

    - لم:
    أ. الوظيفة النحوية: حرف نفي وجزم.

    - يسعَ:
    أ. الوظيفة النحوية: فعل مضارع.
    ب. الإعراب الكامل: فعل مضارع مجزوم بحذف حرف العلة.
    ج. معلومات إضافية: - الجذر: س-ع-ي - الوزن: "يفعل"، وهو فعل معتل الآخر (الياء).

    - إلى:
    أ. الوظيفة النحوية: حرف جر.

    - النجاحِ:
    أ. الوظيفة النحوية: اسم مجرور متعلق بالفعل "يسعَ".
    ب. الإعراب الكامل: اسم مجرور وعلامة جره الكسرة الظاهرة.

    - بنفسه:
    أ. الوظيفة النحوية: جار ومجرور متعلق بالفعل "يسعَ".
    ب. الإعراب الكامل: الباء حرف جر ونفسه اسم مجرور وعلامة جره الكسرة الظاهرة.

    - سريعًا:
    أ. الوظيفة النحوية: حال يوضح كيفية السعي.
    ب. الإعراب الكامل: حال منصوب، وعلامة نصبه الفتحة الظاهرة.

    3. العلاقات النحوية: 
    - العلاقة بين "الطالب" و"لم يسع": علاقة إسناد، حيث إن "لم يسع" هو الخبر الذي يسند إلى المبتدأ "الطالب".
    - العلاقة بين "إلى النجاح": علاقة جر ومجرور.

    4. قواعد خاصة: 
    - "يسع" فعل مضارع معتل الآخر مجزوم بحذف حرف العلة (الياء) بعد دخول "لم".
    - الجملة الفعلية "لم يسعَ إلى النجاح بنفسه سريعًا" في محل رفع خبر للمبتدأ "الطالب".

    5. الجملة الفعلية "لم يسعَ إلى النجاح بنفسه سريعًا": 
    - "يسع" فعل مضارع مجزوم بحذف حرف العلة.
    - الجملة الفعلية في محل رفع خبر للمبتدأ "الطالب".

    6. التحليل العام للمعنى:
    الجملة تشير إلى أن "الطالب" لم يسعَ بجدية إلى النجاح بسرعة. التركيب النحوي يدعم هذا المعنى حيث يتم تقديم المبتدأ "الطالب"، ثم يأتي النفي والفعل المجزوم "لم يسع"، ويكمل المعنى الحال "سريعًا" ليظهر كيف كان هذا السعي.

    
    **النتيجة النهائية**:
    ```json
    {{
        "original_sentence": "الطالبُ لم يسعَ إلى النجاحِ سريعًا.",
        "irab_results": [
            {{
                "word": "الطالبُ",
                "irab": "مبتدأ مرفوع وعلامة رفعه الضمة الظاهرة"
            }},
            {{
                "word": "لم",
                "irab": "حرف نفي وجزم"
            }},
            {{
                "word": "يسعَ",
                "irab": "فعل مضارع مجزوم وعلامة جزمه حذف حرف العلة"
            }},
            {{
                "word": "إلى",
                "irab": "حرف جر"
            }},
            {{
                "word": "النجاحِ",
                "irab": "اسم مجرور وعلامة جره الكسرة الظاهرة"
            }},
            {{
                "word": "سريعًا",
                "irab": "حال منصوب وعلامة نصبه الفتحة الظاهرة"
            }}
        ],
        "special_sentences":[
            {{
                "sentence": "لم يسعَ إلى النجاحِ سريعًا",
                "special_irab": `الجملة الفعلية في محل رفع خبر للمبتدأ "الطالب"`
            }}
        ]
    }}
    ```

    - احرص على أن تكون الجملة الأصلية متناسقة مع نتائج الإعراب.

    الجملة الأصلية: {sentence}
    نتائج الإعراب:
    {irab_results}
    """,
    input_variables=["sentence", "irab_results"],
)


In [8]:
# function to contain the code of splitting
def split_sentence(sentence):
    split_chain = split_prompt | allam_model | StrOutputParser()
    split_results = split_chain.invoke({"sentence": sentence})
    sentences = split_results.replace("-", "").split("\n")
    # get all sentences after "output:"
    sentences = list(
        set(
            [
                sentence.strip()
                for sentence in sentences[sentences.index("Output:") + 1 :]
            ]
        )
    )
    return sentences


sentences = split_sentence(long_sentence)
print(sentences)

['في ظلماتِ الجهلِ، ولن ينالَ المجدَ', 'إنَّ العلمَ نورٌ يهتدي به الإنسانُ', 'من لم يسع إليه بجدٍّ وإصرارٍ']


In [9]:
i_rab_chain = irab_prompt | allam_model | StrOutputParser()
json_parse_chain = json_parse_prompt | gemini_model | JsonOutputParser()

In [10]:
def run_all_sentences(sentences):
    results = []
    for sentence in sentences:
        result = i_rab_chain.invoke({"sentence": sentence})
        results.append(result)
    return results


results = run_all_sentences(sentences)

print(results[0])

 1. نوع الجملة: اسمية.

2. تحليل الكلمات:

- في:
أ. الوظيفة النحوية: حرف جر.

- ظلماتِ:
أ. الوظيفة النحوية: اسم مجرور متعلق بالفعل المحذوف (مثل "يوجد" أو "يسلك").
ب. الإعراب الكامل: مضاف إليه مجرور وعلامة جره الكسرة الظاهرة.
ج. معلومات إضافية: - الجذر: ظ-ل-م - الوزن: "فِعالات"، وهو جمع مؤنث سالم.

- الجهلِ:
أ. الوظيفة النحوية: مضاف إليه مجرور وعلامة جره الكسرة الظاهرة.
ب. معلومات إضافية: - الجذر: ج-ه-ل - الوزن: "فِعْل".

- ولن:
أ. الوظيفة النحوية: حرف نفي واستقبال.

- ينالَ:
أ. الوظيفة النحوية: فعل مضارع.
ب. الإعراب الكامل: فعل مضارع مرفوع وعلامة رفعه الضمة الظاهرة.
ج. معلومات إضافية: - الجذر: ن-و-ل - الوزن: "يفعل".

- المجدَ:
أ. الوظيفة النحوية: مفعول به للفعل "ينال".
ب. الإعراب الكامل: مفعول به منصوب وعلامة نصبه الفتحة الظاهرة.

3. العلاقات النحوية:
- العلاقة بين "في ظلماتِ الجهلِ": علاقة جر ومجرور.
- العلاقة بين "لن ينالَ المجدَ": علاقة نفي واستقبال بين "لن" والفعل "ينال".

4. قواعد خاصة:
- "ينال" فعل مضارع مرفوع وعلامة رفعه الضمة الظاهرة.
- "لن" حرف نفي واستقبال يفيد المستقبل.

5. 

In [11]:
gemini_result = json_parse_chain.invoke(
    {"sentence": long_sentence, "irab_results": results}
)


In [12]:
print(json.dumps(gemini_result, indent=4, ensure_ascii=False))

{
    "original_sentence": "إنَّ العلمَ نورٌ يهتدي به الإنسانُ في ظلماتِ الجهلِ، ولن ينالَ المجدَ من لم يسع إليه بجدٍّ وإصرارٍ",
    "irab_results": [
        {
            "word": "إنَّ",
            "irab": "حرف ناسخ مبني على الفتح لا محل له من الإعراب"
        },
        {
            "word": "العلمَ",
            "irab": "اسم إن منصوب وعلامة نصبه الفتحة الظاهرة"
        },
        {
            "word": "نورٌ",
            "irab": "خبر إن مرفوع وعلامة رفعه الضمة الظاهرة"
        },
        {
            "word": "يهتدي",
            "irab": "فعل مضارع مرفوع وعلامة رفعه الضمة المقدرة للتعذر"
        },
        {
            "word": "به",
            "irab": "حرف جر"
        },
        {
            "word": "الإنسانُ",
            "irab": "اسم مجرور متعلق بالفعل \"يهتدي\" وعلامة جره الكسرة الظاهرة"
        },
        {
            "word": "في",
            "irab": "حرف جر"
        },
        {
            "word": "ظلماتِ",
            "irab": "اسم مجرور متعلق بالفعل المحذوف (مثل \"يوجد