# Linguistic Analysis of Arabic Text Using Stanza


In this project, I applied the Stanza library to analyze the following Arabic sentence:

بدأت أولى فعاليات الأولمبياد الدولي للذكاء الصطناعي،أمس، الذي تنظمه المملكة، ممثلة في الهيئة السعودية للبيانات والذكاء الاصطناعي «سدايا» لأول مرة في العالم بالتعاون مع المركز الدولي لأبحاث وأخلاقيات الذكاء الاصطناعي ، ومركز الأبحاث الدولي للذكاء الاصطناعي بسلوفينيا، برعاية منظمة الأمم المتحدة للتربية والعلم والثقافة (اليونيسكو) وذلك بمشاركة أكثر من 25 دولة.


Using Stanza, I demonstrated the following NLP tasks on this sentence:

- Part-of-Speech (POS) tagging: Each word was assigned its grammatical category.
- Dependency parsing: The syntactic relationships and dependencies between the words were identified.
- Named Entity Recognition (NER): Named entities such as organizations, events, and countries were detected.
- Lemmatization: Words were reduced to their base forms for more accurate linguistic analysis.
- Morphological analysis: The sentence was analyzed for grammatical features like tense, gender, and number.



By focusing on this single sentence, the project highlights how Stanza can be used for detailed linguistic processing of Arabic text, showcasing its utility for text analysis, information extraction, and syntactic analysis.

In [1]:
!pip install stanza



In [2]:
import stanza

هنا قمنا بتحميل مكتبة Stanza ،

وهي مكتبة لمعالجة اللغة الطبيعية تم تطويرها بواسطة فريق أبحاث الذكاء الاصطناعي في جامعة ستانفورد.
 توفر مجموعة من الأدوات لمهام معالجة اللغة الطبيعية مثل التحليل النحوي،  التصنيف، واستخراج الكيانات.

In [3]:
# Download and initialize the Arabic model
stanza.download('ar')
nlp = stanza.Pipeline('ar')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.8.0.json:   0%|   …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Downloading default packages for language: ar (Arabic) ...
INFO:stanza:File exists: /root/stanza_resources/ar/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources
INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.8.0.json:   0%|   …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: ar (Arabic):
| Processor | Package       |
-----------------------------
| tokenize  | padt          |
| mwt       | padt          |
| pos       | padt_charlm   |
| lemma     | padt_nocharlm |
| depparse  | padt_charlm   |
| ner       | aqmar_charlm  |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: mwt
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: pos
  checkpoint = torch.load(filename, lambda storage, loc: storage)
  data = torch.load(self.filename, lambda storage, loc: storage)
  state = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: lemma
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: depparse
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:st

In [4]:
# Example Arabic text
text = "دأت أولى فعاليات الأولمبياد الدولي للذكاء الاصطناعي (IAIO)، أمس، الذي تنظمه المملكة، ممثلة في الهيئة السعودية للبيانات والذكاء الاصطناعي «سدايا» لأول مرة في العالم بالتعاون مع المركز الدولي لأبحاث وأخلاقيات الذكاء الاصطناعي (ICAIRE)، ومركز الأبحاث الدولي للذكاء الاصطناعي بسلوفينيا، برعاية منظمة الأمم المتحدة للتربية والعلم والثقافة (اليونيسكو) وذلك بمشاركة أكثر من 25 دولة."
# Process the text
doc = nlp(text)


**هنا تم تصنيف كل كلمة في الجملة إلى نوعها النحوي بناءً على وظيفتها في الجملة.** فيما يلي تفسير كل عنصر:

* VERB: الفعل (مثل "بدأت" و"تنظم")، وهو الكلمة التي تدل على حدث أو فعل.

* ADJ: الصفة (مثل "أولى" و"الدولي")، وهي الكلمة التي تصف اسمًا وتحدد خصائصه.
* NOUN: الاسم (مثل "فعاليات" و"الأولمبياد")، وهو الكلمة التي تدل على شيء أو مفهوم.
* ADP: حرف الجر (مثل "ل" و"في")، وهي الكلمات التي تربط بين الاسم والفعل أو الصفات.
* ADV: الظرف (مثل "أمس")، وهو الكلمة التي تحدد زمان أو مكان الحدث.
* DET: أداة التعريف أو النفي (مثل "الذي" و"ذٰلك")، وهي الكلمات التي تُستخدم لتحديد الاسم.
* PRON: الضمير (مثل "ه")، وهي الكلمات التي تحل محل الاسم.
* CCONJ: أداة الربط العطفية (مثل "و")، التي تربط بين العناصر في الجملة.
* PUNCT: علامات الترقيم (مثل "( )" و"،" و"."), التي تحدد بناء الجملة أو توقف الكلام.
* X: كلمات غير معرفة في التصنيف النحوي مثل "IAIO"، "سدايا"، "ICAIRE"، و"اليونيسكو"، وهي أسماء قد تكون مصطلحات خاصة أو أسماء كيان غير مصنفة في القاموس العام.

In [5]:
# Print POS tags for each token
for sent in doc.sentences:
    for word in sent.words:
        print(word.text, " --- ", word.upos)

دأت  ---  VERB
أولى  ---  ADJ
فعاليات  ---  NOUN
الأولمبياد  ---  NOUN
الدولي  ---  ADJ
ل  ---  ADP
الذكاء  ---  NOUN
الاصطناعي  ---  ADJ
(  ---  PUNCT
IAIO  ---  X
)  ---  PUNCT
،  ---  PUNCT
أمس  ---  ADV
،  ---  PUNCT
الذي  ---  DET
تنظم  ---  VERB
ه  ---  PRON
المملكة  ---  NOUN
،  ---  PUNCT
ممثلة  ---  ADJ
في  ---  ADP
الهيئة  ---  NOUN
السعودية  ---  ADJ
ل  ---  ADP
البيانات  ---  NOUN
و  ---  CCONJ
الذكاء  ---  NOUN
الاصطناعي  ---  ADJ
«  ---  PUNCT
سدايا  ---  X
»  ---  PUNCT
ل  ---  ADP
أول  ---  ADJ
مرة  ---  NOUN
في  ---  ADP
العالم  ---  NOUN
ب  ---  ADP
التعاون  ---  NOUN
مع  ---  ADP
المركز  ---  NOUN
الدولي  ---  ADJ
ل  ---  ADP
أبحاث  ---  NOUN
و  ---  CCONJ
أخلاقيات  ---  NOUN
الذكاء  ---  NOUN
الاصطناعي  ---  ADJ
(  ---  PUNCT
ICAIRE  ---  X
)  ---  PUNCT
،  ---  PUNCT
و  ---  CCONJ
مركز  ---  NOUN
الأبحاث  ---  NOUN
الدولي  ---  ADJ
ل  ---  ADP
الذكاء  ---  NOUN
الاصطناعي  ---  ADJ
ب  ---  ADP
سلوفينيا  ---  X
،  ---  PUNCT
ب  ---  ADP
رعاية  ---  NOUN
منظمة  ---  N

**هنا نستطيع ان نرى العلاقات بين الكلمات في الجملة بناءً على وظائفها التركيبية.**

تفسير بعض العناصر:

* root: الفعل "بدأت" هو الجذر الأساسي للجملة (Root)، وهو الذي تعتمد عليه بقية الكلمات.
* nsubj (الفعل+الفاعل): "أولى" و"فعاليات" و"الأولمبياد" هي الفاعل (النعت الاسمي) للفعل "بدأت"، مما يعني أنها العناصر التي تحدد الفاعل المرتبط بالفعل.
* nmod (الإضافة): تشير إلى الإضافات، مثل "فعاليات الأولمبياد" و"الذكاء الاصطناعي"، حيث تكون الكلمات مضافة لبعضها البعض.
* amod (الصفة): تشير إلى الصفات المرتبطة بالأسماء، مثل "الدولي" الذي يصف "الأولمبياد"، و"الاصطناعي" الذي يصف "الذكاء".
* acl
(الجملة الوصفية التابعة): يشير إلى العلاقة التي تربط الجملة التابعة "الذي تنظم" مع "الأولمبياد"، حيث يُستخدم "الذي" كأداة للربط بين الجملتين.
* appos (الإضافة البيانية): "IAIO" و"ICAIRE" هما إضافات تفسيرية، حيث يتم استخدام المصطلحات الإنجليزية لتوضيح أسماء الكيانات.
* advmod (ظرف): "أمس" يُستخدم كظرف يدل على الزمن الذي بدأ فيه الحدث.
* obj (المفعول به): الضمير "ه" هو المفعول به للفعل "تنظم"، ويعود على "الأولمبياد".
* obl (الجار والمجرور): تعبر عن الجمل التي تحتوي على الجار والمجرور، مثل "بالتعاون مع المركز الدولي"، حيث تكون "المركز الدولي" مرتبطة بحرف الجر "بـ".
التحليل يُظهر كيفية بناء الجملة وربط الكلمات مع بعضها البعض بناءً على وظائفها، مما يساعد في فهم البنية التركيبية للنص وتحليل العلاقات بين مكونات الجملة بشكل دقيق.

In [6]:
# Print dependency relations for each token
for sent in doc.sentences:
    for word in sent.words:
        print(word.text, " --- ", word.deprel, " --- ", word.head)

دأت  ---  root  ---  0
أولى  ---  nsubj  ---  1
فعاليات  ---  nmod  ---  2
الأولمبياد  ---  nmod  ---  3
الدولي  ---  amod  ---  4
ل  ---  case  ---  7
الذكاء  ---  nmod  ---  4
الاصطناعي  ---  amod  ---  7
(  ---  punct  ---  10
IAIO  ---  appos  ---  4
)  ---  punct  ---  10
،  ---  punct  ---  13
أمس  ---  advmod  ---  1
،  ---  punct  ---  13
الذي  ---  nsubj  ---  16
تنظم  ---  acl:relcl  ---  4
ه  ---  obj  ---  16
المملكة  ---  nsubj  ---  16
،  ---  punct  ---  18
ممثلة  ---  amod  ---  18
في  ---  case  ---  22
الهيئة  ---  obl  ---  20
السعودية  ---  amod  ---  22
ل  ---  case  ---  25
البيانات  ---  nmod  ---  22
و  ---  cc  ---  27
الذكاء  ---  conj  ---  25
الاصطناعي  ---  amod  ---  27
«  ---  punct  ---  33
سدايا  ---  obj  ---  20
»  ---  punct  ---  33
ل  ---  case  ---  33
أول  ---  obl  ---  20
مرة  ---  nmod  ---  33
في  ---  case  ---  36
العالم  ---  nmod  ---  33
ب  ---  case  ---  38
التعاون  ---  obl  ---  1
مع  ---  case  ---  40
المركز  ---  nmod  ---  38
الد

**هنا تم تصنيف الكيانات الواردة في الجملة إلى أنواع معينة مثل المنظمات، المواقع، أو الكيانات الأخرى (MISC).**




In [7]:
# Print named entities
for sent in doc.sentences:
    for ent in sent.ents:
        print(ent.text, " --- ", ent.type)


الأولمبياد الدولي للذكاء الاصطناعي  ---  ORG
IAIO  ---  MISC
الهيئة السعودية  ---  ORG
المركز الدولي لأبحاث  ---  ORG
ICAIRE  ---  MISC
الأبحاث الدولي للذكاء الاصطناعي  ---  ORG
بسلوفينيا  ---  LOC
منظمة الأمم المتحدة للتربية  ---  ORG


**هنا تم توضيح السمات النحوية لكل كلمة في الجملة**

In [8]:
# Accessing lemmas
for sent in doc.sentences:
    for word in sent.words:
        print(word.text, " --- ", word.lemma)

دأت  ---  دَأَى
أولى  ---  أَوَّل
فعاليات  ---  فَعَّالِيّ
الأولمبياد  ---  أُولِمبِيَاد
الدولي  ---  دُوَلِيّ
ل  ---  لِ
الذكاء  ---  ذَكَاء
الاصطناعي  ---  اِصطِنَاعِيّ
(  ---  (
IAIO  ---  IAIO
)  ---  )
،  ---  ،
أمس  ---  أَمسِ
،  ---  ،
الذي  ---  اَلَّذِي
تنظم  ---  نَظَّم
ه  ---  هُوَ
المملكة  ---  مَملَكَة
،  ---  ،
ممثلة  ---  مُمَثَّل
في  ---  فِي
الهيئة  ---  هَيئَة
السعودية  ---  سَعُودِيّ
ل  ---  لِ
البيانات  ---  بَيَان
و  ---  وَ
الذكاء  ---  ذَكَاء
الاصطناعي  ---  اِصطِنَاعِيّ
«  ---  «
سدايا  ---  سدايا
»  ---  »
ل  ---  لِ
أول  ---  أَوَّل
مرة  ---  مَرَّة
في  ---  فِي
العالم  ---  عَالَم
ب  ---  بِ
التعاون  ---  تَعَاوُن
مع  ---  مَعَ
المركز  ---  مَركَز
الدولي  ---  دُوَلِيّ
ل  ---  لِ
أبحاث  ---  بَحث
و  ---  وَ
أخلاقيات  ---  إِخلَاقِيَّة
الذكاء  ---  ذَكَاء
الاصطناعي  ---  اِصطِنَاعِيّ
(  ---  (
ICAIRE  ---  ICAIRE
)  ---  )
،  ---  ،
و  ---  وَ
مركز  ---  مَركَز
الأبحاث  ---  بَحث
الدولي  ---  دُوَلِيّ
ل  ---  لِ
الذكاء  ---  ذَكَاء
الاصطناعي  ---  اِصطِنَاعِيّ

**هنا تم توضيح كيفية تصنيف كل كلمة وفقًا لمميزاتها النحوية والصرفية**

In [9]:
# Accessing morphological features
for sent in doc.sentences:
    for word in sent.words:
        print(word.text, " --- ", word.feats)

دأت  ---  Aspect=Perf|Gender=Fem|Number=Sing|Person=3|Voice=Act
أولى  ---  Case=Nom|Definite=Cons|Gender=Fem|Number=Sing
فعاليات  ---  Case=Gen|Definite=Cons|Number=Plur
الأولمبياد  ---  Case=Gen|Definite=Def|Number=Sing
الدولي  ---  Case=Gen|Definite=Def|Gender=Masc|Number=Sing
ل  ---  AdpType=Prep
الذكاء  ---  Case=Gen|Definite=Def|Number=Sing
الاصطناعي  ---  Case=Gen|Definite=Def|Gender=Masc|Number=Sing
(  ---  None
IAIO  ---  None
)  ---  None
،  ---  None
أمس  ---  None
،  ---  None
الذي  ---  Case=Gen|Gender=Masc|Number=Sing|PronType=Rel
تنظم  ---  Aspect=Imp|Gender=Fem|Mood=Ind|Number=Sing|Person=3|VerbForm=Fin|Voice=Act
ه  ---  Case=Acc|Gender=Masc|Number=Sing|Person=3|PronType=Prs
المملكة  ---  Case=Nom|Definite=Def|Number=Sing
،  ---  None
ممثلة  ---  Case=Nom|Definite=Ind|Gender=Fem|Number=Sing
في  ---  AdpType=Prep
الهيئة  ---  Case=Gen|Definite=Def|Number=Sing
السعودية  ---  Case=Gen|Definite=Def|Gender=Fem|Number=Sing
ل  ---  AdpType=Prep
البيانات  ---  Case=Gen|Definite=