### **Tokenization**

#### **1. ما هو Tokenization؟**
---
**Tokenization** هو الخطوة الأولى والأكثر أساسية في معالجة النصوص في مجال **معالجة اللغة الطبيعية (NLP)**. يهدف هذا المفهوم إلى تقسيم النصوص إلى أجزاء صغيرة تُعرف بـ "tokens" (الرموز) التي قد تكون كلمات، عبارات، أو حتى أحرف فردية، اعتمادًا على طريقة التقطيع.

#### **2. لماذا نحتاج إلى Tokenization؟**
---
عند التعامل مع النصوص، يكون من الصعب على الخوارزميات فهم النص الكامل بدون تقسيمه إلى أجزاء صغيرة أو رموز يمكن معالجتها. يساعد Tokenization في تحويل النصوص إلى شكل يمكن فهمه بسهولة بواسطة الآلات لتحليلها أو استخدامها في نماذج التعلم الآلي.

#### **3. أنواع Tokenization:**
---
هناك عدة طرق لتقطيع النص بناءً على حاجتنا:

1. **Word Tokenization**: تقسيم النص إلى كلمات.
2. **Character Tokenization**: تقسيم النص إلى أحرف فردية.
3. **Subword Tokenization**: تقطيع النص إلى أجزاء صغيرة من الكلمات، وهو شائع في التعامل مع اللغات المعقدة أو النصوص التي تحتوي على كلمات غير مألوفة.




In [17]:
import nltk
from transformers import AutoTokenizer

nltk.download('punkt')

# جملة مثال
sentence = "I love natural language processing!"

# تقطيع إلى كلمات
tokens = nltk.word_tokenize(sentence)

# عرض الرموز الناتجة
print(f"keyword: {tokens}")

# تقطيع إلى أحرف
char_tokens = list(sentence)

# عرض الرموز الناتجة
print(f"character: {char_tokens}")

# Subword Tokenization (تقطيع النص إلى أجزاء من الكلمات)
# استخدام tokenizer من BERT أو أي نموذج آخر
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

# تقطيع النص إلى أجزاء صغيرة
subword_tokens = tokenizer.tokenize(sentence)

# عرض الرموز الناتجة
print(f"Subword: {subword_tokens}")




[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ziad.h.abaza\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


keyword: ['I', 'love', 'natural', 'language', 'processing', '!']
character: ['I', ' ', 'l', 'o', 'v', 'e', ' ', 'n', 'a', 't', 'u', 'r', 'a', 'l', ' ', 'l', 'a', 'n', 'g', 'u', 'a', 'g', 'e', ' ', 'p', 'r', 'o', 'c', 'e', 's', 's', 'i', 'n', 'g', '!']
Subword: ['i', 'love', 'natural', 'language', 'processing', '!']


### **Lemmatisation**

#### **1. ما هو Lemmatisation؟**
---
**Lemmatisation** هو عملية تحويل الكلمة إلى **شكلها الأساسي** أو ما يُعرف بـ "lemma"، وهي الشكل الأساسي للكلمة كما تظهر في القاموس. يختلف Lemmatisation عن **Stemming** (الاختزال) في أنه يحافظ على المعنى الدقيق للكلمة ويعيدها إلى شكلها الأساسي بناءً على القواعد النحوية للغة.

#### **2. لماذا نحتاج إلى Lemmatisation؟**
---
الكلمات يمكن أن تتخذ أشكالًا متعددة (مثل الزمن الماضي، الجمع، صيغة الفاعل)، لذلك تهدف عملية **Lemmatisation** إلى تحويل هذه الأشكال المتعددة إلى الجذر أو الشكل الأساسي للكلمة، مما يساعد في تبسيط معالجة النصوص وتحليلها بشكل أدق. على سبيل المثال:

- الكلمات: `running`, `ran`, `runs` تتحول إلى **lemma**: `run`.
- الكلمات: `better`, `best` تتحول إلى **lemma**: `good`.

#### **3. الفرق بين Lemmatisation و Stemming:**
---
- **Lemmatisation**: تعتمد على **القواعد النحوية** واللغة لإعادة الكلمة إلى أصلها، مما ينتج عنه كلمات مفهومة لغويًا.
- **Stemming**: تعتمد على قواعد بسيطة لتقليص الكلمة إلى جذورها، وقد لا تكون النتيجة كلمة صحيحة (مثل: `running` قد تتحول إلى `run` أو `runn`).

#### **4. كيف يتم استخدام Lemmatisation في NLP؟**
---
Lemmatisation تُستخدم بشكل واسع في تطبيقات معالجة اللغات الطبيعية مثل:
- **تحليل النصوص**: تحويل الكلمات إلى جذورها لتحليل الكلمات المشتركة.
- **البحث**: تحسين استعلامات البحث عن طريق مطابقة الكلمات المتنوعة مع أصلها.
- **نماذج التعلم الآلي**: تقليل تعقيد البيانات وتحسين الدقة بتوحيد الكلمات المختلفة التي تعني الشيء نفسه.



In [18]:
import nltk
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')
nltk.download('omw-1.4')

# تهيئة Lemmatizer
lemmatizer = WordNetLemmatizer()

# أمثلة على الكلمات
words = ["running", "better", "studies", "geese", "foxes", "dogs"]

# تطبيق Lemmatisation
lemmatized_words = []
for word in words:
    lemmatized_words.append(lemmatizer.lemmatize(word))

# عرض النتائج
print(lemmatized_words)


['running', 'better', 'study', 'goose', 'fox', 'dog']


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\ziad.h.abaza\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\ziad.h.abaza\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


### **Stop Words**

#### **1. ما هي Stop Words؟**
---
**Stop Words** هي الكلمات الشائعة التي تظهر بشكل متكرر في النصوص لكنها غالبًا لا تحمل قيمة أو أهمية كبيرة في التحليل النصي. تشمل هذه الكلمات حروف الجر، العطف، والضمائر مثل:  
- **في اللغة العربية**: "و"، "في"، "على"، "من".
- **في اللغة الإنجليزية**: "and", "the", "is", "in".

نظرًا لأن هذه الكلمات تظهر كثيرًا في النصوص، غالبًا ما يتم إزالتها أثناء التحليل لأن وجودها لا يضيف قيمة تحليلية أو معلوماتية للنص.

#### **2. لماذا يتم إزالة Stop Words؟**
---
إزالة **Stop Words** مهمة لتحسين كفاءة التحليل وتقليل الضوضاء (Noise) في البيانات النصية. هذه الكلمات عادةً لا تساهم بشكل كبير في تحديد محتوى النص أو معناه، وإزالتها يساعد في:
1. **تقليل حجم البيانات**: من خلال إزالة الكلمات غير الضرورية، يتم تقليل كمية البيانات التي يتم معالجتها.
2. **تحسين أداء الخوارزميات**: يؤدي إلى تحليل أكثر دقة للنصوص المهمة مثل الكلمات الرئيسية أو العبارات المهمة.

#### **3. أمثلة على Stop Words:**

##### **3.1 في اللغة الإنجليزية:**
- "the", "is", "in", "at", "which", "on", "for".

##### **3.2 في اللغة العربية:**
- "الـ"، "من"، "على"، "إلى"، "في"، "و"، "أن"، "ما".

#### **كيف يتم استخدام Stop Words في NLP؟**
---
عادةً ما يتم إزالة **Stop Words** كخطوة مبكرة في معالجة النصوص قبل التحليل أو إنشاء نماذج التعلم الآلي. إليك كيفية تنفيذ ذلك باستخدام Python:

#### **إزالة Stop Words في اللغة العربية:**
---
إزالة الكلمات الشائعة في اللغة العربية تحتاج إلى استخدام قائمة محددة لـ **Stop Words** باللغة العربية. يمكن استخدام مكتبات مثل `arabicstopwords` أو إنشاء قائمة مخصصة بالكلمات المراد إزالتها.



#### **أهمية إزالة Stop Words في NLP:**
---
1. **زيادة الكفاءة**: تساعد إزالة Stop Words في تقليل حجم النصوص، مما يجعل معالجة البيانات أسرع وأكثر فعالية.
2. **تحسين الدقة**: تركيز الخوارزميات على الكلمات ذات الأهمية يعزز من دقة التحليل والتنبؤ.
3. **تقليل الضوضاء**: إزالة الكلمات غير المهمة يقلل من تشتت النماذج ويجعلها تركز على المحتوى الأساسي.



In [19]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')

# قائمة الكلمات الشائعة في اللغة العربية
arabic_stop_words = ["و", "في", "على", "من", "إلى"]

# جملة مثال
sentence = "This is an example sentence to demonstrate stop words removal."
arabic_sentence = "الطلاب في المدرسة يحبون اللعب في الساحة."

# قائمة stop words باللغة الإنجليزية
EN_words = set(stopwords.words('english'))
# AR_words = set(stopwords.words('arabic'))

# تقسيم الجملة إلى كلمات
En_words = nltk.word_tokenize(sentence)
AR_words = arabic_sentence.split()

# إزالة stop words من الجملة الإنجليزية
EN_filtered_sentence = []
for word in En_words:
    if word.lower() not in EN_words:
        EN_filtered_sentence.append(word)

# إزالة stop words من الجملة العربية
AR_filtered_sentence = []
for word in AR_words:
    if word not in arabic_stop_words:
        AR_filtered_sentence.append(word)

# عرض الجملة بعد إزالة stop words
print(f"English: {EN_filtered_sentence}")
print(f"Arabic: {AR_filtered_sentence}")

# عرض الجمله مجمعة
full_EN_filtered_sentence = ' '.join(EN_filtered_sentence)
print(f"full EN: {full_EN_filtered_sentence}")

full_AR_filtered_sentence =  ' '.join(AR_filtered_sentence)
print(f"full AR: {full_AR_filtered_sentence}")



[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ziad.h.abaza\AppData\Roaming\nltk_data...

English: ['example', 'sentence', 'demonstrate', 'stop', 'words', 'removal', '.']
Arabic: ['الطلاب', 'المدرسة', 'يحبون', 'اللعب', 'الساحة.']
full EN: example sentence demonstrate stop words removal .
full AR: الطلاب المدرسة يحبون اللعب الساحة.



[nltk_data]   Package stopwords is already up-to-date!


### **Bag of Words**

#### **1. ما هو Bag of Words؟**
---
**Bag of Words (BoW)** هو نموذج بسيط وشائع يُستخدم لتمثيل النصوص في معالجة اللغات الطبيعية (NLP). يعتمد هذا النموذج على تحويل النصوص إلى **مجموعة من الكلمات** (أو الرموز)، مع تجاهل الترتيب النحوي للكلمات أو أي بنية لغوية أخرى. التركيز في هذا النموذج يكون فقط على **عدد تكرار الكلمات** في النص.

#### **2. لماذا نستخدم Bag of Words؟**
---
نستخدم **Bag of Words** لتمثيل النصوص بطريقة تجعلها سهلة للمعالجة بواسطة الخوارزميات. بما أن النماذج الرياضية لا تستطيع فهم النصوص مباشرة، فإن BoW يقوم بتحويل النصوص إلى شكل عددي عن طريق:
1. **تحليل التردد**: عدد المرات التي تظهر فيها كل كلمة في النص.
2. **توحيد الهيكل**: تحويل النصوص إلى تمثيل يمكن معالجته عن طريق نماذج التعلم الآلي.

#### **3. كيف يعمل Bag of Words؟**
---
**Bag of Words** يقوم بالخطوات التالية:
1. **إنشاء قاموس من الكلمات**: يتم استخراج جميع الكلمات الفريدة (الرموز) التي تظهر في مجموعة النصوص.
2. **عد التكرار**: لكل نص، يتم حساب عدد المرات التي تظهر فيها كل كلمة من القاموس.

#### **مثال توضيحي:**

لنفترض أن لدينا الجملتين التاليتين:
- **الجملة 1**: "أنا أحب البرمجة".
- **الجملة 2**: "البرمجة ممتعة جدًا".

### **4. خطوات بناء Bag of Words:**

#### **4.1. إنشاء قاموس الكلمات (Vocabulary):**
نقوم بإنشاء قائمة تحتوي على جميع الكلمات الفريدة التي تظهر في كلا الجملتين:
- القاموس: `["أنا", "أحب", "البرمجة", "ممتعة", "جدا"]`

#### **4.2. حساب التكرار (Frequency):**
الآن نحسب عدد مرات ظهور كل كلمة في كل جملة:
- **الجملة 1**: `"أنا أحب البرمجة"`
  - أنا: 1
  - أحب: 1
  - البرمجة: 1
  - ممتعة: 0
  - جدا: 0

- **الجملة 2**: `"البرمجة ممتعة جدًا"`
  - أنا: 0
  - أحب: 0
  - البرمجة: 1
  - ممتعة: 1
  - جدا: 1

نستطيع تمثيل هذه البيانات في شكل مصفوفة:

|        | أنا | أحب | البرمجة | ممتعة | جدا |
|--------|-----|-----|----------|--------|------|
| جملة 1 |  1  |  1  |    1     |   0    |  0   |
| جملة 2 |  0  |  0  |    1     |   1    |  1   |

#### **كيفية تطبيق Bag of Words باستخدام Python:**

نستخدم مكتبة `CountVectorizer` من `sklearn` لتنفيذ BoW على مجموعة نصوص.


### **مميزات وعيوب Bag of Words:**

#### **مميزات:**
1. **بسيط وسهل الاستخدام**: BoW سهل التنفيذ والفهم.
2. **غير معتمد على السياق**: لا يحتاج إلى أي معرفة حول ترتيب الكلمات.
3. **فعال مع البيانات الصغيرة**: يعمل جيدًا مع مجموعات البيانات الصغيرة أو المتوسطة.

#### **عيوب:**
1. **تجاهل ترتيب الكلمات**: لا يحتفظ بمعلومات حول سياق الجملة أو ترتيب الكلمات.
2. **ارتفاع أبعاد البيانات**: إذا كان القاموس يحتوي على الكثير من الكلمات، فإن مصفوفة BoW تصبح كبيرة جدًا.
3. **عدم التعامل مع الكلمات المتكررة قليلًا**: BoW يتعامل مع كل الكلمات على قدم المساواة، حتى تلك التي قد لا تكون مهمة.

#### **تحسينات على نموذج Bag of Words:**
---
لتجاوز بعض العيوب، يمكن استخدام نماذج محسنة مثل:
1. **TF-IDF (Term Frequency - Inverse Document Frequency)**: يعطي وزنًا أكبر للكلمات المهمة التي تظهر كثيرًا في نص معين وأقل للكلمات الشائعة عبر كل النصوص.
2. **Word Embeddings**: مثل **Word2Vec** أو **GloVe** التي تحافظ على السياق والمعاني المتضمنة في النص.



In [31]:
from sklearn.feature_extraction.text import CountVectorizer

# النصوص
sentences = ["أنا أحب البرمجة", "البرمجة ممتعة جدا"]

# إنشاء نموذج Bag of Words
vectorizer = CountVectorizer()

# تطبيق النموذج على النصوص
X = vectorizer.fit_transform(sentences)

# عرض القاموس
print("Vocabulary:", vectorizer.get_feature_names_out())

# عرض مصفوفة BoW
print("Bag of Words Matrix:\n", X.toarray())


Vocabulary: ['أحب' 'أنا' 'البرمجة' 'جدا' 'ممتعة']
Bag of Words Matrix:
 [[1 1 1 0 0]
 [0 0 1 1 1]]


### **TF-IDF**

#### **1. ما هو TF-IDF؟**
---
**TF-IDF** هو اختصار لـ **Term Frequency - Inverse Document Frequency**، وهو تقنية تُستخدم في **تحليل النصوص** لتحويل النصوص إلى **تمثيلات عددية** تعتمد على **تكرار الكلمات** وأهميتها. يتم استخدامه لتحديد مدى أهمية كلمة معينة في **مستند نصي** معين مقارنة بمجموعة من المستندات (Corpus).

يختلف عن نموذج **Bag of Words** لأنه لا يعتمد فقط على عدد تكرار الكلمة في النص، بل يأخذ في الحسبان مدى **ندرة أو شيوع** هذه الكلمة في مجموعة من النصوص الأخرى، مما يمنح تمثيلًا أدق للكلمات المهمة.

#### **2. مكونات TF-IDF:**
---
يتكون **TF-IDF** من جزئين:
1. **TF (Term Frequency)**: تكرار الكلمة في النص. يتم حسابه باستخدام المعادلة:
   \[
   TF(t, d) = \frac{\text{عدد مرات تكرار الكلمة } t \text{ في المستند } d}{\text{إجمالي عدد الكلمات في المستند } d}
   \]
   أي أنه يعبر عن نسبة تكرار الكلمة بالنسبة لباقي الكلمات في المستند.

2. **IDF (Inverse Document Frequency)**: عكس تردد الكلمة في مجموعة المستندات. يتم حسابه باستخدام المعادلة:
   \[
   IDF(t, D) = \log\left(\frac{\text{إجمالي عدد المستندات}}{\text{عدد المستندات التي تحتوي على الكلمة } t}\right)
   \]
   وهذا يعني أن الكلمات الشائعة جدًا في مجموعة النصوص ستحصل على قيمة IDF منخفضة، بينما الكلمات النادرة تحصل على قيمة أعلى.

#### **3. معادلة TF-IDF:**
---
لحساب **TF-IDF** لكلمة معينة، يتم ضرب القيمتين **TF** و **IDF** معًا:
\[
TF\text{-}IDF(t, d, D) = TF(t, d) \times IDF(t, D)
\]

#### **4. لماذا نستخدم TF-IDF؟**
---
1. **تحسين دقة التحليل**: يُستخدم TF-IDF لتمييز الكلمات المهمة في المستندات وتقليل تأثير الكلمات الشائعة جدًا (مثل Stop Words).
2. **إعطاء وزن للكلمات**: TF-IDF يعطي وزنًا أعلى للكلمات التي تظهر بشكل متكرر في مستند معين ولكنها نادرة في المستندات الأخرى، مما يساعد على فهم محتوى المستند بشكل أدق.
3. **تحسين نماذج تعلم الآلة**: يمكن استخدام تمثيل النصوص باستخدام TF-IDF كمدخلات لنماذج تعلم الآلة لتحليل النصوص وتصنيفها.

#### **مثال على استخدام TF-IDF:**

لنفترض أن لدينا الجملتين التاليتين:
- الجملة 1: `"I love natural language processing."`
- الجملة 2: `"Language processing is fascinating."`

### **حساب TF و IDF لكل كلمة**
- **TF** لكل كلمة يعبر عن نسبة تكرار الكلمة بالنسبة لباقي الكلمات في الجملة.
- **IDF** يعتمد على مدى ندرة الكلمة في مجموعة المستندات.

### **تطبيق TF-IDF باستخدام Python:**

يمكننا استخدام مكتبة **scikit-learn** لحساب قيم TF-IDF بسهولة.


#### **مميزات TF-IDF:**
---
1. **تمييز الكلمات الهامة**: يعطي قيمة أعلى للكلمات التي تكون فريدة أو نادرة في مجموعة النصوص، مما يساعد في فهم المحتوى الأساسي للنص.
2. **تقليل تأثير الكلمات الشائعة**: يقلل من تأثير الكلمات الشائعة التي لا تضيف معلومات مفيدة مثل "is" و "the".
3. **تمثيل نصوص فعال**: يوفر تمثيلًا عدديًا يمكن استخدامه كمدخلات لنماذج تعلم الآلة لتحليل النصوص.

#### **سلبيات TF-IDF:**
---
1. **إهمال ترتيب الكلمات**: مثل نموذج **Bag of Words**، لا يأخذ **TF-IDF** ترتيب الكلمات في الحسبان، مما يعني أنه لا يعالج المعلومات السياقية.
2. **غير فعال مع النصوص الطويلة**: قد يصبح حساب **TF-IDF** معقدًا أو غير عملي عند التعامل مع نصوص طويلة جدًا.
3. **عدم القدرة على التعامل مع المعاني المتعددة للكلمة**: لا يمكن لـ **TF-IDF** تمييز معاني الكلمات المختلفة إذا كانت نفس الكلمة تُستخدم بمعاني مختلفة في سياقات متعددة.

#### **تطبيقات TF-IDF:**
---
- **تحليل النصوص**: يُستخدم لتحليل النصوص الكبيرة أو المقالات الطويلة لتحديد الكلمات المفتاحية.
- **محركات البحث**: تحسين نتائج البحث من خلال تحديد مدى ارتباط كلمة معينة بصفحة معينة.
- **تحليل المشاعر**: يمكن استخدامه لتحديد الكلمات الأكثر أهمية والتي تعبر عن مشاعر إيجابية أو سلبية.
- **تصنيف النصوص**: في نماذج تعلم الآلة مثل تصنيف البريد الإلكتروني أو تصنيف المقالات.


In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer

# الجملتين
sentences = ["Lorem ipsum dolor sit amet, consectetur adipisicing elit. Dolor, quo. Soluta culpa eos porro quaerat, dolorum enim cupiditate dolorem! Voluptatibus fuga recusandae aspernatur aliquam nihil, vero animi repellendus molestias voluptates, asperiores sequi, porro nostrum ad cumque cum. Eligendi facere unde nobis eaque magnam enim sed dicta, ullam ex nam molestias cumque harum natus quis, non eum excepturi amet. Eaque dignissimos nam, tempora corporis iusto atque magni reprehenderit at sequi minus porro perferendis fugiat nesciunt. Amet dolor similique cumque alias aut natus veritatis aspernatur inventore tenetur ullam fuga enim optio asperiores pariatur molestias eius, sequi, dolores corrupti modi odit. Officiis consequatur quidem voluptates dolore excepturi ratione quisquam, unde perspiciatis molestias, atque mollitia minus quo voluptatum deleniti doloribus odit doloremque, omnis laboriosam asperiores incidunt nisi. Ipsam, praesentium! Est eius asperiores, voluptatum quibusdam dolorem ullam voluptatem repellat sit nobis error porro sint cum atque, quidem omnis et! Fuga, veritatis excepturi, beatae facere quis aliquam dolorem delectus eveniet eius aut consequuntur vel quas cum tempora sint necessitatibus debitis velit consectetur ipsum totam molestias, natus accusantium. Quaerat, facilis! Excepturi veniam, placeat cupiditate deserunt sapiente, facere reiciendis consequuntur, perspiciatis quis sequi ab temporibus similique autem omnis impedit molestias? Consequuntur, totam deserunt delectus voluptatum modi beatae deleniti necessitatibus saepe magni corrupti ducimus. Itaque dolores, tenetur, sed at ad reiciendis facilis aliquam vitae iure praesentium officiis eaque! Aspernatur, autem pariatur. Quam amet consectetur laudantium cumque quod doloremque doloribus quasi voluptatibus reiciendis? Animi, placeat ab harum deserunt eveniet consequuntur, dicta itaque molestias minus libero hic amet provident quasi explicabo?"]

# تحويل الجمل إلى أحرف صغيرة
sentences = [sentence.lower() for sentence in sentences]

# تهيئة TfidfVectorizer
vectorizer = TfidfVectorizer()

# تحويل الجمل إلى قيم TF-IDF
X = vectorizer.fit_transform(sentences)

# عرض المفردات
print("Vocabulary:", vectorizer.vocabulary_)

# عرض مصفوفة TF-IDF
print("TF-IDF Matrix:\n", X.toarray())


Vocabulary: {'lorem': 69, 'ipsum': 62, 'dolor': 30, 'sit': 118, 'amet': 6, 'consectetur': 15, 'adipisicing': 3, 'elit': 41, 'quo': 104, 'soluta': 119, 'culpa': 20, 'eos': 43, 'porro': 93, 'quaerat': 96, 'dolorum': 36, 'enim': 42, 'cupiditate': 23, 'dolorem': 32, 'voluptatibus': 134, 'fuga': 54, 'recusandae': 107, 'aspernatur': 9, 'aliquam': 5, 'nihil': 80, 'vero': 130, 'animi': 7, 'repellendus': 110, 'molestias': 74, 'voluptates': 133, 'asperiores': 8, 'sequi': 115, 'nostrum': 84, 'ad': 2, 'cumque': 22, 'cum': 21, 'eligendi': 40, 'facere': 52, 'unde': 125, 'nobis': 82, 'eaque': 38, 'magnam': 70, 'sed': 114, 'dicta': 28, 'ullam': 124, 'ex': 49, 'nam': 76, 'harum': 56, 'natus': 77, 'quis': 102, 'non': 83, 'eum': 47, 'excepturi': 50, 'dignissimos': 29, 'tempora': 120, 'corporis': 18, 'iusto': 65, 'atque': 11, 'magni': 71, 'reprehenderit': 111, 'at': 10, 'minus': 72, 'perferendis': 90, 'fugiat': 55, 'nesciunt': 79, 'similique': 116, 'alias': 4, 'aut': 12, 'veritatis': 129, 'inventore': 60,

### **Unigram**

#### **1. ما هو Unigram؟**
---
**Unigram** هو أبسط شكل من أشكال **n-grams** في معالجة اللغات الطبيعية. في هذا النموذج، يتم تقسيم النص إلى وحدات صغيرة تتكون من **كلمة واحدة فقط**. يتم النظر إلى كل كلمة في النص على أنها وحدة مستقلة عن الكلمات الأخرى، ولا يتم الاهتمام بسياق الكلمة أو الكلمات المجاورة لها.

#### **2. لماذا نستخدم Unigram؟**
---
نستخدم **Unigram** كنموذج أساسي لتحليل النصوص في التطبيقات مثل تصنيف النصوص، حيث:
- **يبسط** عملية معالجة النصوص عن طريق التركيز على الكلمات الفردية فقط.
- **يساعد في فهم تكرار الكلمات** الأساسية في النص دون الاهتمام بترتيبها أو الروابط بينها.

#### **3. كيف يعمل Unigram؟**
---
في نموذج **Unigram**، نقوم بتقسيم النص إلى كلمات فردية. إذا كان لدينا نص يحتوي على جملة، فإن كل كلمة في الجملة تعتبر Unigram.

#### **مثال على Unigram:**

لنفترض أن لدينا الجملة التالية:
- **"أنا أحب البرمجة"**

نقوم بتقسيم الجملة إلى Unigrams:
- **أنا**
- **أحب**
- **البرمجة**

في هذا النموذج، كل كلمة تعتبر وحدة مستقلة.

#### **كيفية استخدام Unigram باستخدام Python:**

يمكننا استخدام مكتبة `CountVectorizer` في `sklearn` لتطبيق Unigram، حيث أنها تقوم افتراضيًا بإنشاء Unigrams عند تحويل النصوص إلى بيانات عددية.


### **مميزات وعيوب Unigram:**

#### **مميزات:**
- **البساطة**: سهل التنفيذ والفهم.
- **الكفاءة**: مناسب للنصوص الصغيرة والمتوسطة، حيث أن التعامل مع الكلمات الفردية يُبسط الحسابات.

#### **عيوب:**
- **عدم الأخذ في الاعتبار السياق**: لا يحتفظ Unigram بأي معلومات حول سياق الكلمات أو ترتيبها في الجملة.
- **فقدان المعاني المركبة**: في بعض الأحيان، قد تحتوي الجمل على تعابير مكونة من أكثر من كلمة (مثل الأفعال المركبة أو التعابير الاصطلاحية) التي لا يمكن لنموذج Unigram التعرف عليها.

### **استخدامات Unigram في معالجة اللغات الطبيعية (NLP)**

### **تصنيف النصوص (Text Classification)**
- في تصنيف النصوص، يتم تحويل النصوص إلى تمثيلات عددية باستخدام Unigram لتحديد الكلمات الأكثر شيوعًا في النصوص المختلفة. يتم تدريب النماذج على هذه الكلمات لتحديد الفئات أو التصنيفات المناسبة.
- **مثال**: تصنيف الرسائل الإلكترونية إلى رسائل مهمة أو غير مهمة (Spam/Not Spam).

### **استخراج الكلمات المفتاحية (Keyword Extraction)**
- يستخدم Unigram لاستخراج الكلمات الأكثر تكرارًا في النصوص والتي غالبًا ما تكون الكلمات المفتاحية التي تلخص محتوى النص.
- **مثال**: في المقالات أو الأخبار، يمكن استخراج الكلمات الأساسية لتلخيص المحتوى أو إنشاء الكلمات الدلالية (tags).

### **إنشاء حقائب الكلمات (Bag of Words)**
- Unigram هو الخطوة الأولى في إنشاء نموذج **Bag of Words**، حيث يتم تقسيم النصوص إلى كلمات منفردة ثم يتم تحويلها إلى مصفوفة تمثل تكرار كل كلمة في النص.
- **مثال**: عند التعامل مع وثائق متعددة، يتم إنشاء تمثيل عددي لكل وثيقة بناءً على الكلمات الفردية الموجودة فيها باستخدام Unigram.

### **تصحيح الأخطاء الإملائية (Spell Correction)**
- يمكن استخدام Unigram لتحديد الكلمات الشائعة والأقل شيوعًا في مجموعة كبيرة من النصوص. الكلمات غير الشائعة يمكن أن تشير إلى أخطاء إملائية يتم تصحيحها بناءً على الكلمات الأكثر شيوعًا.
- **مثال**: أنظمة التصحيح التلقائي تعتمد على Unigram لاكتشاف الكلمات غير الصحيحة وتصحيحها.

### **إنشاء نماذج لغوية (Language Models)**
- يستخدم Unigram لبناء نماذج لغوية بسيطة تعتمد على تحليل الكلمات الفردية وتكرارها. يتم استخدام هذه النماذج لتوقع الكلمات التالية في النص بناءً على تكرار الكلمات في البيانات التدريبية.
- **مثال**: في تطبيقات الكتابة التنبؤية (Predictive Text)، يتم استخدام Unigram لتوقع الكلمات الأكثر احتمالاً استنادًا إلى الكلمات السابقة.



In [4]:
from sklearn.feature_extraction.text import CountVectorizer

# النصوص
sentences = ["أنا أحب البرمجة", "البرمجة ممتعة"]

# إنشاء نموذج Unigram باستخدام CountVectorizer
vectorizer = CountVectorizer(ngram_range=(1, 1))  # Ngram (1, 1) تعني Unigram

# تطبيق النموذج على النصوص
X = vectorizer.fit_transform(sentences)

# عرض القاموس (المفردات)
print("Vocabulary:", vectorizer.get_feature_names_out())

# عرض مصفوفة Unigram
print("Unigram Matrix:\n", X.toarray())

# ngram_range هو معلمة تستخدم في مكتبة scikit-learn،
# وتحديدًا في CountVectorizer و TfidfVectorizer، لتحديد نطاق الـ n-grams الذي تريد تضمينه عند تحويل النصوص إلى تمثيل عددي.

# n-grams هي تسلسلات مكونة من n كلمات متتابعة في النص. على سبيل المثال:

# Unigram (1-gram): "أنا أحب البرمجة" -> ["أنا", "أحب", "البرمجة"]
# Bigram (2-gram): "أنا أحب البرمجة" -> ["أنا أحب", "أحب البرمجة"]
# Trigram (3-gram): "أنا أحب البرمجة" -> ["أنا أحب البرمجة"]



Vocabulary: ['أحب' 'أنا' 'البرمجة' 'ممتعة']
Unigram Matrix:
 [[1 1 1 0]
 [0 0 1 1]]


### **Bigram**

#### **1. ما هو Bigram؟**
---
**Bigram** هو نموذج من نماذج **n-grams** في معالجة اللغات الطبيعية (NLP) حيث يتم تحليل النص إلى **سلاسل مكونة من كلمتين** متتاليتين. بمعنى آخر، يتم تقسيم النص إلى أزواج متتابعة من الكلمات. 

في نموذج Bigram، يُؤخذ في الاعتبار ترتيب الكلمات والعلاقة بين كل زوج من الكلمات في النص. هذا يعكس المعلومات السياقية التي قد تكون غائبة في نموذج Unigram الذي يعامل الكلمات بشكل مستقل.

#### **2. لماذا نستخدم Bigram؟**
---
نستخدم **Bigram** لتوفير مزيد من المعلومات حول سياق الكلمات والعلاقات بينها، مما يساعد في تحسين فهم النصوص وتطبيقات مثل:
- **تحليل النصوص**: لفهم كيفية ظهور الكلمات معًا.
- **التنبؤ بالكلمات**: لتحسين النماذج مثل التنبؤ بالكلمات في لوحات المفاتيح.
- **نموذج اللغة**: لتحسين الترجمة الآلية وتوليد النصوص.

#### **3. مثال على Bigram:**
---
لنفترض أن لدينا الجملة التالية:

- **"أنا أحب البرمجة"**

إذا قمنا بتطبيق Bigram عليها، سنحصل على الأزواج التالية:

- ["أنا أحب", "أحب البرمجة"]

كل زوج من الكلمات يعبر عن العلاقة بين الكلمات المتجاورة في النص.

#### **4. تطبيق Bigram باستخدام Python:**

يمكننا استخدام مكتبة `CountVectorizer` من `sklearn` مع تحديد `ngram_range` لتطبيق Bigram.


In [5]:
from sklearn.feature_extraction.text import CountVectorizer

# النصوص
sentences = ["أنا أحب البرمجة", "البرمجة ممتعة جدا"]

# تهيئة CountVectorizer مع ngram_range=(2, 2) لتطبيق Bigram
vectorizer = CountVectorizer(ngram_range=(2, 2))

# تحويل الجمل إلى تمثيل Bigram
X = vectorizer.fit_transform(sentences)

# عرض المفردات (الـ Bigrams)
print("Bigrams Vocabulary:", vectorizer.get_feature_names_out())

# عرض مصفوفة Bigram
print("Bigram Matrix:\n", X.toarray())


Bigrams Vocabulary: ['أحب البرمجة' 'أنا أحب' 'البرمجة ممتعة' 'ممتعة جدا']
Bigram Matrix:
 [[1 1 0 0]
 [0 0 1 1]]


### **Regular Expressions**

#### **1. ما هي Regular Expressions؟**
---
**التعبيرات النمطية** أو **Regular Expressions (Regex)** هي نمط أو صيغة محددة تُستخدم للبحث، المطابقة، أو التحقق من النصوص. تمكنك من العمل مع النصوص بطريقة ديناميكية ومرنة عبر تحديد أنماط معقدة للعثور على أو تعديل أجزاء من النص. تُستخدم Regular Expressions بشكل شائع في معالجة النصوص، البرمجة، وتنقية البيانات.

#### **2. لماذا نستخدم Regular Expressions؟**
---
- **البحث عن نص معين**: مثل العثور على أرقام هواتف أو عناوين بريد إلكتروني داخل مستند نصي.
- **التحقق من مدخلات المستخدم**: مثل التأكد من أن عنوان البريد الإلكتروني مكتوب بشكل صحيح أو التحقق من كلمة المرور.
- **تعديل النصوص**: مثل استبدال كلمات أو عبارات معينة بنص آخر.

#### **3. بناء Regular Expressions:**
---
التعبيرات النمطية تتكون من **رموز خاصة** و**أحرف** تُستخدم لتحديد الأنماط. بعض الرموز الخاصة الأكثر استخدامًا تشمل:

- `.`: يطابق أي حرف مفرد (باستثناء الأسطر الجديدة).
- `^`: يطابق بداية السطر.
- `$`: يطابق نهاية السطر.
- `*`: يطابق الحرف أو النمط السابق 0 أو أكثر من المرات.
- `+`: يطابق الحرف أو النمط السابق 1 أو أكثر من المرات.
- `?`: يجعل النمط السابق اختياريًا (يطابق مرة واحدة أو لا يطابق).
- `{n}`: يطابق النمط السابق تمامًا **n** من المرات.
- `[abc]`: يطابق أي حرف من الأحرف داخل الأقواس.
- `|`: يعمل كـ OR بين الأنماط.

#### **4. أمثلة على Regular Expressions:**
---
**مثال 1: البحث عن أرقام الهواتف**

- تعبير نمطي للعثور على رقم هاتف في صيغة: `123-456-7890`

```regex
\d{3}-\d{3}-\d{4}
```
- **شرح**:
  - `\d`: يطابق أي رقم.
  - `{3}`: يطابق 3 أرقام متتالية.
  - `-`: يطابق علامة `-`.

**مثال 2: التحقق من عنوان بريد إلكتروني**

- تعبير نمطي للتحقق من صحة عنوان بريد إلكتروني:

```regex
[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}
```

- **شرح**:
  - `[a-zA-Z0-9._%+-]+`: يطابق الأحرف أو الأرقام أو الرموز المسموح بها في عنوان البريد الإلكتروني.
  - `@`: يطابق رمز الـ "@".
  - `[a-zA-Z0-9.-]+`: يطابق اسم النطاق.
  - `\.`: يطابق النقطة.
  - `[a-zA-Z]{2,}`: يطابق نطاق مثل ".com" أو ".net" يتكون من حرفين أو أكثر.

#### **5. تطبيق Regular Expressions باستخدام Python:**

في Python، يمكننا استخدام مكتبة `re` للتعامل مع التعبيرات النمطية.


In [36]:
import re

text = "my email is: example@mail.com and my phone is: 123-456-7890"


# البحث عن البريد الإلكتروني
email_pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
email = re.findall(email_pattern, text)

# البحث عن رقم الهاتف
phone_pattern = r'\d{3}-\d{3}-\d{4}'
phone = re.findall(phone_pattern, text)

print("email: ", email)
print("phone: ", phone)


email:  ['example@mail.com']
phone:  ['123-456-7890']


### **Part-of-Speech (POS) Tagging using SpaCy**

#### **1. ما هو Part-of-Speech (POS) Tagging؟**
---
**POS Tagging** أو **توسيم أجزاء الكلام** هو عملية تصنيف كل كلمة في النص بناءً على دورها النحوي، مثل الفعل، الاسم، الصفة، وغيرها. هذا يساعد في فهم بنية الجملة وتحليل النصوص بشكل أعمق.

#### **2. لماذا نستخدم POS Tagging؟**
---
- **تحليل النصوص**: يساعد في تحليل كيفية تفاعل الكلمات مع بعضها في الجملة.
- **فهم السياق**: يساعد في تحديد معاني الكلمات بناءً على السياق.
- **تحسين التطبيقات اللغوية**: مثل الترجمة الآلية وتحليل المشاعر.

#### **3. كيفية استخدام SpaCy لتصنيف أجزاء الكلام:**
---
**SpaCy** هو مكتبة قوية في Python لمعالجة اللغة الطبيعية والتي توفر أدوات متقدمة لـ POS Tagging.

#### **الخطوة 1: تثبيت SpaCy وتنزيل نموذج لغوي**

```bash
pip install spacy
python -m spacy download en_core_web_sm
# or
python -m spacy download en_core_web_md
# or
python -m spacy download en_core_web_lg
```


#### **4. مميزات وعيوب POS Tagging باستخدام SpaCy:**

##### **مميزات:**
1. **دقة عالية**: يقدم SpaCy نتائج دقيقة وقابلة للتطبيق على نصوص متنوعة.
2. **سهل الاستخدام**: واجهة المستخدم بسيطة وسهلة الفهم.
3. **تحليل سريع**: يدعم التحليل السريع للنصوص الكبيرة.

##### **عيوب:**
1. **تطلب موارد**: يمكن أن يكون التحليل كثيفًا من حيث الموارد، خاصة مع النصوص الكبيرة.
2. **نموذج واحد**: النماذج اللغوية قد لا تكون دقيقة في جميع الحالات، خاصة للغات غير الإنجليزية.

### **خلاصة:**
---
**POS Tagging** باستخدام SpaCy هو أداة قوية لتصنيف أجزاء الكلام في النصوص. تساعد هذه الأداة في تحليل بنية الجمل وفهم دور الكلمات في السياق. SpaCy يقدم واجهة سهلة الاستخدام ونتائج دقيقة، مما يجعله خيارًا ممتازًا في معالجة اللغة الطبيعية.

In [6]:
import spacy

# تحميل النموذج اللغوي
nlp = spacy.load("en_core_web_sm")

# النص
text = "SpaCy is an open-source library for advanced NLP in Python."

# تطبيق تحليل النصوص
doc = nlp(text)

# عرض أجزاء الكلام
for token in doc:
    print(f"Word: {token.text}, POS: {token.pos_}, Tag: {token.tag_}, Lemma: {token.lemma_}")


Word: SpaCy, POS: PROPN, Tag: NNP, Lemma: SpaCy
Word: is, POS: AUX, Tag: VBZ, Lemma: be
Word: an, POS: DET, Tag: DT, Lemma: an
Word: open, POS: ADJ, Tag: JJ, Lemma: open
Word: -, POS: PUNCT, Tag: HYPH, Lemma: -
Word: source, POS: NOUN, Tag: NN, Lemma: source
Word: library, POS: NOUN, Tag: NN, Lemma: library
Word: for, POS: ADP, Tag: IN, Lemma: for
Word: advanced, POS: ADJ, Tag: JJ, Lemma: advanced
Word: NLP, POS: PROPN, Tag: NNP, Lemma: NLP
Word: in, POS: ADP, Tag: IN, Lemma: in
Word: Python, POS: PROPN, Tag: NNP, Lemma: Python
Word: ., POS: PUNCT, Tag: ., Lemma: .


### **Named Entity Recognition (NER)**

#### **1. ما هو Named Entity Recognition (NER)؟**
---
**NER** أو **التعرف على الكيانات المسماة** هو عملية تحديد واستخراج الكيانات ذات الأهمية الخاصة من النص، مثل الأسماء (أشخاص، شركات، بلدان)، المواقع الجغرافية، التواريخ، الأرقام، وغيرها من الكيانات المعروفة. يتيح هذا النوع من التحليل فهم النصوص بشكل أعمق من خلال التركيز على العناصر الأساسية الموجودة في الجملة.

#### **2. لماذا نستخدم NER؟**
---
- **تحليل النصوص بشكل أكثر دقة**: يساعد في تحديد المعلومات الهامة مثل الأشخاص، الأماكن، والتواريخ.
- **تحليل المعلومات الآلية**: يفيد في التطبيقات مثل محركات البحث، أنظمة الترجمة الآلية، وتحليل الأخبار.
- **تنظيم البيانات**: يساعد في تصنيف وتنظيم المعلومات غير المنظمة من النصوص الكبيرة.

#### **NER using SpaCy:**
---
**SpaCy** يقدم أداة قوية وسهلة الاستخدام للتعرف على الكيانات المسماة من النصوص.

#### **4. التصنيفات الأساسية في NER:**
---
- **PERSON**: أشخاص (أسماء أفراد)
- **ORG**: منظمات (شركات، جمعيات)
- **GPE**: الأماكن (بلدان، مدن)
- **DATE**: تواريخ
- **MONEY**: مبالغ مالية
- **LOC**: مواقع جغرافية


### **خلاصة:**
---
**NER** هو أداة قوية لاستخراج المعلومات الأساسية من النصوص. **SpaCy** يعتبر الخيار الأمثل للمستخدمين الذين يبحثون عن أداة سريعة وسهلة الاستخدام، بينما يمكن أن تكون **NLTK** خيارًا جيدًا للبحث الأكاديمي والتخصيص.

In [None]:
import spacy

# تحميل النموذج اللغوي قم بتحميله بواسطة terminal اولا
# nlp = spacy.load("en_core_web_sm")
nlp = spacy.load("en_core_web_md")
# nlp = spacy.load("en_core_web_lg")

# النص
text = "Apple is looking at buying U.K. startup for $1 billion on June 3rd, 2023. joan me i'm ziad hassan, "

# تحليل النصوص
doc = nlp(text)

# استخراج الكيانات المسماة
for ent in doc.ents:
    print(f"Entity: {ent.text}, Label: {ent.label_}")


### **spell correction with textblob and spwllchecker**

### **خلاصة:**
---
تصحيح الأخطاء الإملائية هو جزء مهم من معالجة النصوص، ويمكن تحقيقه باستخدام أدوات مثل **TextBlob** و**SpellChecker**. TextBlob يقدم واجهة سهلة مع مجموعة من الأدوات الإضافية، بينما SpellChecker يوفر دقة عالية في تصحيح الأخطاء. اختيار الأداة المناسبة يعتمد على متطلبات المشروع والتفضيلات الشخصية.

#### **TextBlob**

**TextBlob** هي مكتبة Python لمعالجة اللغة الطبيعية توفر أدوات سهلة الاستخدام لتصحيح الأخطاء الإملائية.

##### **تثبيت TextBlob**
```bash
pip install textblob
```

#### **SpellChecker **

**SpellChecker** هي مكتبة Python توفر أدوات لتصحيح الأخطاء الإملائية واكتشاف الكلمات غير الصحيحة.

##### **تثبيت SpellChecker**
```bash
pip install pyspellchecker
```

#### **4. مميزات وعيوب TextBlob وSpellChecker:**

##### **مميزات TextBlob:**
1. **سهل الاستخدام**: واجهة بسيطة وسهلة الاستخدام.
2. **وظائف متعددة**: يوفر أدوات أخرى مثل التحليل العاطفي والتصحيح النحوي.

##### **عيوب TextBlob:**
1. **دقة محدودة**: قد تكون الدقة أقل مقارنة بالأدوات الأخرى في بعض الحالات.

##### **مميزات SpellChecker:**
1. **دقة عالية**: يقدم دقة عالية في تصحيح الأخطاء الإملائية.
2. **قابلية التخصيص**: يمكن تخصيص القاموس بناءً على احتياجات المستخدم.

##### **عيوب SpellChecker:**
1. **واجهات أقل**: يركز فقط على تصحيح الأخطاء الإملائية ولا يتضمن أدوات إضافية.



In [42]:
from textblob import TextBlob

# النص مع الأخطاء الإملائية
text = "I have a speling error in this sentense."

# إنشاء كائن TextBlob
blob = TextBlob(text)

# تصحيح الأخطاء الإملائية
corrected_text = blob.correct()

print("Original Text:", text)
print("Corrected Text:", corrected_text)


Original Text: I have a speling error in this sentense.
Corrected Text: I have a spelling error in this sentence.


In [44]:
from spellchecker import SpellChecker

# النص مع الأخطاء الإملائية
text = "I havve a speling error in this sentense."

# إنشاء كائن SpellChecker
spell = SpellChecker()

# تقسيم النص إلى كلمات
words = text.split()

# تصحيح الأخطاء الإملائية لكل كلمة
corrected_words = [spell.candidates(word).pop() if spell.candidates(word) else word for word in words]
corrected_text = ' '.join(corrected_words)

print("Original Text:", text)
print("Corrected Text:", corrected_text)


Original Text: I havve a speling error in this sentense.
Corrected Text: I have a spieling error in this sentenced


### **Word Embedding**

#### **1. ما هو Word Embedding؟**
---
**Word Embedding** هو تمثيل الكلمات بشكل عددي في فضاء متعدد الأبعاد (vectors) بحيث تكون الكلمات ذات المعاني المتشابهة قريبة من بعضها في هذا الفضاء. الهدف من هذه العملية هو تمثيل الكلمات بطريقة تسهل على الحاسوب فهم العلاقات المعنوية بينها.

#### **2. لماذا نستخدم Word Embedding؟**
---
- **التمثيل العددي**: يتيح لنا تمثيل الكلمات كـ vectors مما يجعل التعامل معها في الشبكات العصبية وغيرها من خوارزميات التعلم الآلي ممكناً.
- **فهم المعاني**: يساعد على فهم العلاقات المعنوية بين الكلمات؛ مثلاً، كلمات مثل "king" و"queen" تكون قريبة في الفضاء لأنها ذات معنى متشابه.
- **التعلم العميق**: Word Embeddings تستخدم كمدخلات في الشبكات العصبية لتطبيقات مثل معالجة اللغة الطبيعية (NLP).

#### **كيفية استخدام طبقة Embedding في Keras لإنشاء Word Embeddings**

**Keras** هو إطار عمل قوي لتطوير الشبكات العصبية، ويوفر طبقة خاصة لإنشاء Word Embeddings.


#####  **شرح Embedding Layer في Keras**
---
**Embedding Layer** في Keras هي الطبقة التي تحول الكلمات إلى تمثيل عددّي (vectors). هذه الطبقة تأخذ الكلمات وتحولها إلى vectors بأبعاد معينة.

##### **أهم معايير Embedding Layer:**
- **input_dim**: حجم المفردات (عدد الكلمات الفريدة).
- **output_dim**: الأبعاد التي سيتم تمثيل كل كلمة بها.
- **input_length**: طول التسلسل (عدد الكلمات في الجملة).

### معاملات `Embedding` الأساسية:
1. **`vocab_size`**: عدد الكلمات الفريدة (المفردات) في مجموعة البيانات. يمثل هذا المعامل حجم المفردات التي نريد تمثيلها باستخدام الـ embeddings.
   
   - على أي أساس نحدد القيمة؟
     - هذه القيمة تعتمد على حجم البيانات النصية وعدد الكلمات الفريدة التي يتم استخدامها. غالباً، نحدد هذه القيمة بناءً على عدد الكلمات الأكثر شيوعًا في مجموعة البيانات (أي بعد إزالة الكلمات النادرة جدًا).
     - يتم اختيارها بعد معالجة البيانات واستخراج المفردات الفريدة.

2. **`embedding_dim`**: هو عدد الأبعاد في المتجه الذي يمثل كل كلمة. هذا المتغير يحدد حجم المتجه الذي نريد أن يمثّل كل كلمة.
   
   - على أي أساس نحدد القيمة؟
     - القيم الشائعة: يمكن أن تكون 50، 100، 200 أو 300. كلما زاد العدد، زاد تمثيل الكلمات بدقة أكبر ولكن زادت أيضًا المتطلبات الحسابية.
     - إذا كانت البيانات معقدة وتحتوي على العديد من العلاقات المختلفة بين الكلمات، من الأفضل استخدام قيمة أكبر لـ `embedding_dim`.

3. **`input_length`**: طول تسلسل الكلمات (أي عدد الكلمات في الجملة أو النص).
   
   - على أي أساس نحدد القيمة؟
     - يتم تحديده بناءً على الحد الأقصى لطول النصوص في مجموعة البيانات. على سبيل المثال، إذا كانت أطول جملة في مجموعة البيانات تحتوي على 100 كلمة، فإن `input_length` يمكن أن تكون 100.
     - إذا كانت النصوص تختلف بشكل كبير في الطول، يمكن تحديد طول ثابت وتطبيق padding لإضافة أو إزالة كلمات لضمان أن جميع الجمل تحتوي على نفس العدد من الكلمات.





In [None]:
from keras.models import Sequential
from keras.layers import Embedding, Flatten, Dense
import numpy as np

# تعريف قيم المثال
vocab_size = 20  # عدد الكلمات الفريدة + 1
embedding_dim = 8  # عدد الأبعاد
input_length = 5  # طول الجملة

# بناء النموذج باستخدام Sequential
model = Sequential()

# إضافة Embedding Layer
model.add(Embedding(input_dim=vocab_size, output_dim=embedding_dim, input_length=input_length))

# تحويل المصفوفة الناتجة إلى شكل واحد
model.add(Flatten())

# إضافة طبقة Dense لتصنيف النصوص (كمثال بسيط)
model.add(Dense(1, activation='sigmoid'))

# ملخص النموذج
model.summary()

# بيانات تجريبية (جمل مشفرة بالأرقام)
input_data = np.array([[1, 2, 3, 0, 0], # "I love AI"
                       [3, 4, 5, 0, 0], #AI is amazing"
                       [6, 2, 7, 0, 0], # "its love me"
                       [1, 8, 9, 0, 0], #i like pizza"
                       [10, 11, 12, 13, 0],]) # my name is ali  
                       

# التنبؤ باستخدام النموذج
output = model.predict(input_data)
print("Output:\n", output)


### **Word2Vec - GloVe**

#### **1. ما هو Word2Vec؟**
---
**Word2Vec** هو نموذج تم تطويره بواسطة Google يُستخدم لتحويل الكلمات إلى متجهات عددية (vectors) بحيث يتم تمثيل كل كلمة كمتجه ذو أبعاد ثابتة. هذه المتجهات تحافظ على المعلومات الدلالية والعلاقات بين الكلمات.

##### **كيف يعمل Word2Vec؟**
- **النموذجين الرئيسيين:** 
  - **Continuous Bag of Words (CBOW):** يتنبأ بالكلمة المستهدفة من سياقها (الكلمات المحيطة بها).
  - **Skip-gram:** يتنبأ بالكلمات المحيطة بكلمة مستهدفة.
  

#### **2. ما هو GloVe؟**
---
**GloVe (Global Vectors for Word Representation)** هو نموذج تم تطويره بواسطة جامعة ستانفورد لتحويل الكلمات إلى متجهات عددية. يركز على استغلال الإحصاءات العالمية للكلمات من خلال بناء مصفوفة تكرار الكلمات.

##### **كيف يعمل GloVe؟**
- **استغلال إحصاءات التكرار:** يعتمد على تحليل الإحصاءات العالمية لتكرار الكلمات والبيانات التكرارية بين الكلمات.
- **التمثيل المترابط:** يحاول تقليل الفجوة بين التمثيلات المستخرجة من التكرار الفعلي للكلمات والتكرار المتوقع بين الكلمات.

#### **مميزات وعيوب:**

##### **مميزات Word2Vec:**
1. **دقة عالية:** يقدم تمثيلات دقيقة للعلاقات بين الكلمات.
2. **تدريب سريع:** يعمل بشكل جيد مع البيانات الكبيرة.

##### **عيوب Word2Vec:**
1. **تحتاج إلى بيانات كبيرة:** للحصول على نتائج جيدة، يتطلب نموذج Word2Vec نصوص ضخمة.
2. **يعمل فقط مع سياق الكلمات:** التركيز الأساسي هو سياق الكلمات المباشر.

##### **مميزات GloVe:**
1. **الاستفادة من الإحصاءات العالمية:** يوفر تمثيلات دقيقة بناءً على الإحصاءات العامة.
2. **فهم دلالي أعمق:** يستفيد من البيانات الإحصائية العالمية للحصول على دلالات أعمق.

##### **عيوب GloVe:**
1. **تدريب طويل:** قد يكون أبطأ في التدريب مقارنة بـ Word2Vec.
2. **تطلب معالجة معقدة:** يحتاج إلى بناء مصفوفة التكرار وحسابات إحصائية معقدة.


In [None]:
from gensim.models import Word2Vec

# مجموعة بيانات تجريبية
sentences = [
    ['the', 'cat', 'sat', 'on', 'the', 'mat'],
    ['the', 'dog', 'barked'],
    ['the', 'cat', 'and', 'the', 'dog', 'played']
]

# تدريب نموذج Word2Vec
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, sg=0)

# الحصول على تمثيل الكلمة
vector = model.wv['cat']
print(vector)


In [None]:
# تحميل نموذج GloVe مُدرّب مسبقًا
from gensim.models import KeyedVectors

# تحميل المتجهات من ملف
glove_vectors = KeyedVectors.load_word2vec_format('glove.6B.100d.txt', binary=False)
# download from https://nlp.stanford.edu/projects/glove/

# الحصول على تمثيل الكلمة
vector = glove_vectors['cat']
print(vector)


### **RNN => NLP**

#### **لماذا نستخدم RNN في معالجة اللغة الطبيعية؟**
---
اللغة تعتمد على السياق؛ أي أن معنى الكلمة أو الجملة يعتمد على الكلمات والجمل السابقة. **RNN** تسمح للنماذج بفهم السياق عن طريق تذكر المعلومات السابقة، مما يجعلها مثالية للتعامل مع النصوص واللغات الطبيعية.

##### **تطبيقات RNN في NLP:**
- **تحليل المشاعر:** فهم ما إذا كان النص يعبر عن مشاعر إيجابية أو سلبية بناءً على الكلمات السابقة.
- **ترجمة الآلية:** استخدام RNN لترجمة النصوص من لغة إلى أخرى.
- **التلخيص النصي:** تلخيص النصوص الطويلة مع الاحتفاظ بالمعلومات الهامة.
- **التعرف على الكلام:** تحويل الكلام المنطوق إلى نص.

#### **3. كيف تعمل RNN؟**
---
**RNN** تعتمد على فكرة التكرار. عندما تمرر البيانات عبر RNN، تأخذ الوحدة العصبية المدخل الحالي (input) بالإضافة إلى حالتها السابقة (previous hidden state) لإنتاج الإخراج الحالي (output) والحالة الحالية (current hidden state). وهكذا تستمر السلسلة مع كل مدخل جديد.

##### **مكونات RNN الأساسية:**
- **المدخلات (Input):** تمثل البيانات النصية أو التسلسل الزمني.
- **الحالة المخفية (Hidden State):** تمثل المعلومات المخزنة من المدخلات السابقة.
- **الإخراج (Output):** يتم إنتاجه بناءً على المدخل الحالي والحالة المخفية.

##### **التكرار عبر الزمن:**
في كل خطوة زمنية (time step):
- يأخذ النموذج المدخل الحالي.
- يجمعه مع الحالة المخفية السابقة.
- ينتج حالة مخفية جديدة وإخراج جديد.

#### **4. مشكلات RNN التقليدية:**
---
رغم قوة RNN، فإنها تواجه مشكلات عند التعامل مع البيانات المتسلسلة الطويلة، مثل:
- **اختفاء التدرج (Vanishing Gradient Problem):** يحدث عندما تصبح التدرجات صغيرة جدًا خلال عملية التدريب باستخدام الـ backpropagation، مما يجعل الشبكة غير قادرة على تعلم العلاقات الطويلة الأمد.
- **التذكر قصير الأمد:** RNN التقليدية تجد صعوبة في تذكر المعلومات على مدى طويل في السلسلة.

#### **5. حلول مشكلات RNN:**
---
لتفادي هذه المشكلات، تم تطوير نماذج محسّنة مثل:

##### **1. Long Short-Term Memory (LSTM):**
- **LSTM** هو نوع من RNN يحتوي على وحدات ذاكرة يمكنها تذكر المعلومات لفترات زمنية طويلة. يتكون LSTM من بوابات للتحكم في تدفق المعلومات:
  - **بوابة الإدخال (Input Gate):** تقرر ما هي المعلومات الجديدة التي سيتم تخزينها.
  - **بوابة النسيان (Forget Gate):** تقرر ما هي المعلومات القديمة التي سيتم نسيانها.
  - **بوابة الإخراج (Output Gate):** تتحكم في ما سيتم إخراجه بناءً على الحالة المخفية.

##### **2. Gated Recurrent Unit (GRU):**
- **GRU** هو نسخة مبسطة من LSTM، حيث يحتوي على بوابتين فقط:
  - **بوابة التحديث (Update Gate):** تتحكم في كمية المعلومات التي سيتم تحديثها.
  - **بوابة النسيان (Reset Gate):** تتحكم في كمية المعلومات التي سيتم نسيانها.

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN, Dense, Embedding
import numpy as np

# الجملة التي سنعمل عليها
sentence = "أنا أحب تعلم البرمجة باستخدام بايثون"

# تحويل الجملة إلى قائمة كلمات منفصلة
words = sentence.split()

###############################################################
# نقوم بإنشاء تسلسلات من الكلمات بحيث نبدأ بالكلمة الأولى
# ثم نضيف الكلمة التالية لتكوين سلسلة أطول حتى نهاية الجملة.
# كل تسلسل يحتوي على الكلمات السابقة والكلمة الحالية.
###############################################################
sequences = []
for i in range(1, len(words)):
    sequence = words[:i+1]
    sequences.append(sequence)

# عرض التسلسلات الناتجة
for seq in sequences:
    print(seq)

# تهيئة المحول (Tokenizer) لتقوم بترميز الكلمات إلى أرقام
tokenizer = Tokenizer()

# تدريب المحول على الكلمات في الجملة
tokenizer.fit_on_texts([sentence])

# تحويل التسلسلات النصية إلى تسلسلات من الأرقام
encoded_sequences = tokenizer.texts_to_sequences(sequences)

###############################################################
# نقوم بتحديد الطول الأقصى للتسلسلات لضمان أن جميعها متساوية الطول.
# ثم نستخدم وظيفة pad_sequences لتوسيط التسلسلات الأقصر عن طريق
# إضافة أصفار في البداية لضمان أن جميع التسلسلات بنفس الطول.
###############################################################
max_len = max(len(seq) for seq in encoded_sequences)
padded_sequences = pad_sequences(encoded_sequences, maxlen=max_len, padding='pre')

# تحويل التسلسلات إلى مدخلات (X) ومخرجات (y).
# X هي الكلمات السابقة، و y هي الكلمة التي يجب التنبؤ بها.
X, y = padded_sequences[:, :-1], padded_sequences[:, -1]

# عرض البيانات المدخلة (X) والمخرجات (y)
print("المدخلات:\n", X)
print("المخرجات:\n", y)

###############################################################
# نقوم بحساب حجم المفردات (عدد الكلمات الفريدة) عن طريق 
# عدد الكلمات التي تم تدريب المحول عليها.
###############################################################
vocab_size = len(tokenizer.word_index) + 1

###############################################################
# بناء النموذج العصبي
# الطبقة الأولى: Embedding لتحويل الأرقام إلى تمثيلات شعاعية (vectors)
# الطبقة الثانية: SimpleRNN لمعالجة التتابعات
# الطبقة الثالثة: Dense للخروج والتنبؤ بالكلمة التالية.
###############################################################
model = Sequential()
model.add(Embedding(vocab_size, 10, input_length=max_len-1))  # طبقة الترميز
model.add(SimpleRNN(50))  # طبقة RNN لمعالجة التسلسل
model.add(Dense(vocab_size, activation='softmax'))  # طبقة إخراج للتنبؤ بالكلمة

###############################################################
# نقوم بتجميع النموذج باستخدام optimizer (adam) 
# وخسارة من نوع sparse_categorical_crossentropy لبيانات التصنيف.
###############################################################
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')

###############################################################
# تدريب النموذج على البيانات (X, y) لعدد معين من الدورات (epochs)
# هنا نستخدم 500 دورة تدريبية لتحسين النموذج.
###############################################################
model.fit(X, y, epochs=500, verbose=2)

###############################################################
# دالة للتنبؤ بالكلمة التالية
# تقوم هذه الدالة بأخذ النص وتحويله إلى تسلسل من الأرقام،
# ثم تقوم بتوسيط التسلسل لتتناسب مع الطول المطلوب.
# يتم التنبؤ بالكلمة التالية باستخدام النموذج المدرب.
###############################################################
def predict_next_word(model, tokenizer, text, max_len):
    sequence = tokenizer.texts_to_sequences([text.split()])
    padded_sequence = pad_sequences(sequence, maxlen=max_len-1, padding='pre')
    predicted = model.predict(padded_sequence, verbose=0)
    predicted_word = tokenizer.index_word[np.argmax(predicted)]
    return predicted_word

###############################################################
# نستخدم الدالة للتنبؤ بالكلمة التالية بعد "أنا أحب"
###############################################################
print(predict_next_word(model, tokenizer, "تعلم", max_len))


### **LSTM => NLP**

####  **المشكلة مع الشبكات العصبية المتكررة التقليدية (RNNs)**
الشبكات العصبية المتكررة التقليدية تعاني من مشكلة **الانفجار والانفجار المفرط** في التدرجات أثناء التدريب، مما يجعل من الصعب عليها تعلم الأنماط على المدى الطويل. هذه المشكلة تعود إلى كيفية تمرير المعلومات من خطوة زمنية إلى أخرى.

#### **حل LSTM لمشاكل RNN التقليدية**
تحتوي وحدة LSTM على **وحدات ذاكرة** يمكنها الاحتفاظ بالمعلومات على المدى الطويل. ولتحقيق ذلك، تستخدم LSTM ما يسمى بـ **بوابات** (Gates) التي تتحكم في تدفق المعلومات عبر الشبكة. هذه البوابات تشمل:

- **بوابة الإدخال (Input Gate)**: تتحكم في مقدار المعلومات الجديدة التي يجب إدخالها إلى الذاكرة.
- **بوابة النسيان (Forget Gate)**: تحدد مقدار المعلومات التي يجب نسيانها من الذاكرة.
- **بوابة الإخراج (Output Gate)**: تتحكم في مقدار المعلومات المخزنة في الذاكرة التي يجب استخدامها في الحسابات التالية.

#### **آلية عمل LSTM**
- **الإدخال**: البيانات النصية يتم تحويلها إلى تمثيلات عددية (مثل الكلمات المضمنة) وتغذيتها في LSTM.
- **الذاكرة**: LSTM تستخدم الذاكرة للحفاظ على المعلومات عبر خطوات زمنية متعددة، مما يساعد في فهم السياق الطويل.
- **التنبؤ**: بعد معالجة التسلسل من خلال عدة خطوات، يمكن لنموذج LSTM تقديم تنبؤات بناءً على المعلومات المخزنة في الذاكرة.

### تطبيقات LSTM في NLP

1. **ترجمة الآلة**: استخدام LSTM لترجمة النصوص من لغة إلى أخرى عبر فهم تسلسل الكلمات وسياقها.
2. **تحليل المشاعر**: تصنيف النصوص بناءً على مشاعرها (إيجابي، سلبي، محايد).
3. **توليد النصوص**: إنشاء نصوص جديدة بناءً على سياق النصوص المدخلة.
4. **التعرف على الكلام**: تحويل الصوت إلى نصوص من خلال فهم تسلسل الأصوات.



In [None]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Embedding

# جمل تجريبية
sentences = [
    'I love machine learning',
    'I love deep learning',
    'I enjoy coding in Python',
    'Machine learning is fun',
    'Deep learning is powerful'
]

# إعداد Tokenizer لتحويل الكلمات إلى أرقام
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)
total_words = len(tokenizer.word_index) + 1

# تحويل الجمل إلى تسلسلات عددية
sequences = tokenizer.texts_to_sequences(sentences)

# إعداد البيانات للتدريب
input_sequences = []
next_words = []
for seq in sequences:
    for i in range(1, len(seq)):
        input_sequences.append(seq[:i])
        next_words.append(seq[i])

# ملء المصفوفات لتصبح بنفس الطول
max_sequence_length = max(len(seq) for seq in input_sequences)
input_sequences = [seq + [0] * (max_sequence_length - len(seq)) for seq in input_sequences]

X = np.array(input_sequences)
y = to_categorical(next_words, num_classes=total_words)

###############################################################
# بناء نموذج LSTM
###############################################################
model = Sequential()
model.add(Embedding(total_words, 10, input_length=max_sequence_length))  # طبقة Embedding لتحويل الكلمات إلى تمثيلات عددية
model.add(LSTM(50))  # 50 وحدة LSTM
model.add(Dense(total_words, activation='softmax'))  # طبقة Dense للتنبؤ بالكلمات

# تجميع النموذج
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

###############################################################
# تدريب النموذج
###############################################################
model.fit(X, y, epochs=50, verbose=1)

###############################################################
# توقع الكلمة التالية
###############################################################
def predict_next_word(model, tokenizer, text, max_sequence_length):
    # تحويل النص إلى تسلسل عددية
    sequence = tokenizer.texts_to_sequences([text])[0]
    sequence = sequence[-max_sequence_length:]  # أخذ آخر خطوات زمنية فقط
    sequence = np.array(sequence).reshape(1, -1)
    
    # التنبؤ بالكلمة التالية
    predicted_probs = model.predict(sequence, verbose=0)[0]
    predicted_word_index = np.argmax(predicted_probs)
    
    # تحويل التوقع إلى كلمة
    word_index = tokenizer.word_index
    index_word = {index: word for word, index in word_index.items()}
    
    return index_word.get(predicted_word_index, 'Unknown')

# اختبار التنبؤ
input_text = 'I love'
predicted_word = predict_next_word(model, tokenizer, input_text, max_sequence_length)
print(f'Predicted next word: {predicted_word}')


الـ **GRU** (Gated Recurrent Unit) هو نوع من الشبكات العصبية المتكررة (RNNs) ويعتبر بديلاً لـ LSTM (Long Short-Term Memory) في معالجة اللغة الطبيعية (NLP). تم تقديم GRU كتحسين للـ RNNs التقليدية بهدف التغلب على مشاكل الـ RNNs مثل الصعوبات في تعلم الأنماط على المدى الطويل.

### كيف تعمل GRU في NLP؟

#### 1. **المشكلة مع الشبكات العصبية المتكررة التقليدية (RNNs)**
الشبكات العصبية المتكررة التقليدية تواجه صعوبة في الحفاظ على المعلومات على مدى فترات زمنية طويلة. وهذا يسبب مشاكل في التعلم عندما تحتاج الشبكة إلى الاحتفاظ بالمعلومات لفترات طويلة لتوقع الأنماط.

#### **حل GRU لمشاكل RNN التقليدية**
تستخدم GRU ما يسمى بـ **البوابات** (Gates) للتحكم في تدفق المعلومات، ولكنها تستخدم عددًا أقل من البوابات مقارنةً بـ LSTM، مما يجعلها أبسط وأسرع في التدريب. البوابات الرئيسية في GRU هي:

- **بوابة التحديث (Update Gate)**: تحدد مقدار المعلومات القديمة التي يجب الاحتفاظ بها ومقدار المعلومات الجديدة التي يجب إضافتها.
- **بوابة إعادة التعيين (Reset Gate)**: تتحكم في مقدار المعلومات القديمة التي يجب نسيانها عند حساب الحالة الجديدة.

#### **آلية عمل GRU**
- **الإدخال**: يتم تحويل البيانات النصية إلى تمثيلات عددية (مثل الكلمات المضمنة).
- **الذاكرة**: يتم استخدام البوابات للتحكم في تدفق المعلومات وحفظ السياق الطويل.
- **التنبؤ**: بعد معالجة التسلسل من خلال عدة خطوات، يمكن لنموذج GRU تقديم التنبؤات بناءً على المعلومات المخزنة.



In [None]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import GRU, Dense, Embedding

# جمل تجريبية
sentences = [
    'I love machine learning',
    'I love deep learning',
    'I enjoy coding in Python',
    'Machine learning is fun',
    'Deep learning is powerful'
]

# إعداد Tokenizer لتحويل الكلمات إلى أرقام
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)
total_words = len(tokenizer.word_index) + 1

# تحويل الجمل إلى تسلسلات عددية
sequences = tokenizer.texts_to_sequences(sentences)

# إعداد البيانات للتدريب
input_sequences = []
next_words = []
for seq in sequences:
    for i in range(1, len(seq)):
        input_sequences.append(seq[:i])
        next_words.append(seq[i])

# ملء المصفوفات لتصبح بنفس الطول
max_sequence_length = max(len(seq) for seq in input_sequences)
input_sequences = [seq + [0] * (max_sequence_length - len(seq)) for seq in input_sequences]

X = np.array(input_sequences)
y = to_categorical(next_words, num_classes=total_words)

###############################################################
# بناء نموذج GRU
###############################################################
model = Sequential()
model.add(Embedding(total_words, 10, input_length=max_sequence_length))  # طبقة Embedding لتحويل الكلمات إلى تمثيلات عددية
model.add(GRU(50))  # 50 وحدة GRU
model.add(Dense(total_words, activation='softmax'))  # طبقة Dense للتنبؤ بالكلمات

# تجميع النموذج
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

###############################################################
# تدريب النموذج
###############################################################
model.fit(X, y, epochs=50, verbose=1)

###############################################################
# توقع الكلمة التالية
###############################################################
def predict_next_word(model, tokenizer, text, max_sequence_length):
    # تحويل النص إلى تسلسل عددية
    sequence = tokenizer.texts_to_sequences([text])[0]
    sequence = sequence[-max_sequence_length:]  # أخذ آخر خطوات زمنية فقط
    sequence = np.array(sequence).reshape(1, -1)
    
    # التنبؤ بالكلمة التالية
    predicted_probs = model.predict(sequence, verbose=0)[0]
    predicted_word_index = np.argmax(predicted_probs)
    
    # تحويل التوقع إلى كلمة
    word_index = tokenizer.word_index
    index_word = {index: word for word, index in word_index.items()}
    
    return index_word.get(predicted_word_index, 'Unknown')

# اختبار التنبؤ
input_text = 'I love'
predicted_word = predict_next_word(model, tokenizer, input_text, max_sequence_length)
print(f'Predicted next word: {predicted_word}')

## **Transformers With NLP**

### ما هي المحولات (Transformers)؟

المحولات هي بنية معمارية تعتمد بشكل أساسي على آلية الانتباه الذاتي (Self-Attention)، وهي تعمل على معالجة البيانات بشكل متوازي بدلًا من الاعتماد على التسلسل كما في الشبكات التكرارية. يتم ذلك من خلال تقسيم البيانات إلى وحدات صغيرة (تسمى **tokens**) ومعالجة كل وحدة على حدة مع الاحتفاظ بالعلاقات بين تلك الوحدات عبر الانتباه الذاتي.

### المكونات الرئيسية للمحولات:

1. **آلية الانتباه الذاتي (Self-Attention Mechanism)**:

2. **التشفير (Encoder) وفك التشفير (Decoder)**:
   - يتألف نموذج المحولات الأساسي من جزأين رئيسيين: **المشفر (Encoder)** و **فك التشفير (Decoder)**.
     - **المشفر (Encoder)**: يتكون من عدة طبقات مسؤولة عن قراءة المدخلات وتحويلها إلى تمثيلات داخلية غنية بالمعلومات.
     - **فك التشفير (Decoder)**: مسؤول عن توليد المخرجات، سواء كان ذلك نصًا مترجمًا أو إجابة على سؤال معين. يستخدم معلومات السياق التي تم معالجتها في المشفر.
   
3. **الطبقات متعددة الرؤوس للانتباه (Multi-Head Attention)**:
   
4. **التغذية الأمامية (Feed-Forward Layers)**:

5. **التطبيع (Normalization) والاسقاط (Dropout)**:

### آلية عمل المحولات:

لشرح الآلية بتفصيل، دعنا نأخذ مثالًا بسيطًا لترجمة جملة من الإنجليزية إلى الفرنسية:

1. **المدخلات**: يتم تقسيم الجملة المدخلة إلى وحدات صغيرة (tokens)، حيث كل كلمة أو جزء من الكلمة يتم تمثيله كـ "token".
   
2. **المشفر (Encoder)**: يقوم المشفر بمعالجة هذه الوحدات باستخدام آلية الانتباه الذاتي. هذا يسمح للنموذج بفهم العلاقات بين الكلمات داخل الجملة الإنجليزية.

3. **التضمين (Embedding)**: كل كلمة يتم تحويلها إلى تمثيل رقمي عن طريق عملية التضمين (embedding).

4. **الانتباه الذاتي**: كل وحدة من الجملة المدخلة تقيم علاقتها بباقي الوحدات الأخرى باستخدام آلية الانتباه الذاتي.

5. **فك التشفير (Decoder)**: يعتمد فك التشفير على المعلومات التي تم توليدها من المشفر ليقوم بتوليد الترجمة بالفرنسية كلمةً كلمة.

6. **النتيجة**: بعد المرور عبر عدة طبقات من الانتباه والتغذية الأمامية، ينتج النموذج الجملة المترجمة.

### تطبيقات (Transformers) => (NLP):

1. **الترجمة الآلية**:   
2. **توليد النصوص (Text Generation)**:
3. **الإجابة على الأسئلة (Question Answering)**:
4. **تحليل المشاعر (Sentiment Analysis)**:

### 1. **Self-Attention Mechanism (آلية الانتباه الذاتي)**

آلية الانتباه الذاتي تمكن النموذج من تقييم العلاقات بين كل كلمة في الجملة والكلمات الأخرى. على سبيل المثال، في جملة مثل "The cat sat on the mat"، الانتباه الذاتي يسمح للنموذج بفهم العلاقة بين "cat" و "mat" لأنهما يشتركان في سياق الجملة.

#### كيف تعمل؟

1. لكل كلمة، يتم إنشاء تمثيل ثلاثي:
   - **Query**: السؤال أو الاستفسار عن العلاقات.
   - **Key**: ما إذا كانت هذه الكلمة مهمة لكلمات أخرى.
   - **Value**: المعلومات المرتبطة بالكلمة.

2. يتم حساب درجة الانتباه لكل كلمة من خلال مقارنة الـ Query مع باقي الـ Keys. 

3. يتم ضرب كل قيمة Value في الأهمية المستنتجة من خطوة الانتباه.

#### معادلة الانتباه الذاتي:
#### dimension = 512 <!-- عدد الابعاد--> 
#### sequence_num = 4  <!-- عدد العناصر--> 
#### Q= 4*512
#### K^T= 512*4 
#### attention_weights = softmax(query * k^T / sqrt(dimension))

### 2. **التشفير (Encoder) وفك التشفير (Decoder)**

#### المشفر (Encoder):
المشفر يتكون من عدة طبقات من الانتباه الذاتي والتغذية الأمامية. يقوم المشفر بتحليل وفهم النص المدخل (مثل الجملة) عبر مراحل متعددة.

#### فك التشفير (Decoder):
فك التشفير يستخدم تمثيلات النص التي تم توليدها من المشفر، ويعتمد على هذه التمثيلات لتوليد المخرجات، مثل ترجمة الجملة إلى لغة أخرى أو توليد نص جديد.

### 3. **Multi-Head Attention (الانتباه متعدد الرؤوس)**

الانتباه متعدد الرؤوس هو نسخة محسنة من الانتباه الذاتي، حيث يتم تقسيم التمثيلات إلى "رؤوس" متعددة. كل "رأس" يقوم بحساب الانتباه بشكل مختلف، مما يسمح للنموذج بالنظر إلى جوانب متعددة من العلاقات بين الكلمات في نفس الوقت.

#### مثال:
- يمكن لرأس واحد أن يركز على العلاقة بين الفاعل والفعل، بينما رأس آخر يركز على العلاقة بين الفعل والمفعول.

### 4. **Feed-Forward Layers (طبقات التغذية الأمامية)**

بعد حساب الانتباه، يتم تمرير النتائج عبر شبكة عصبية مكونة من عدة طبقات تغذية أمامية. هذه الطبقات تكون مسؤولة عن تحسين التمثيلات بعد حساب الانتباه.

### 5. **Normalization (التطبيع) و Dropout (الاسقاط)**

- **التطبيع (Layer Normalization)**: يساعد في تسريع عملية التدريب عبر ضمان استقرار التدفقات الداخلية للمعلومات.
- **الإسقاط (Dropout)**: تقنية لتجنب الإفراط في التعلم عبر إسقاط بعض الوحدات العشوائية من الشبكة العصبية أثناء التدريب.

In [2]:
import numpy as np
import tensorflow as tf
from tensorflow.keras import layers, Model

# طول التسلسل و حجم التمثيل
sequence_length = 5  # عدد الكلمات في الجملة
embedding_dim = 8    # حجم التمثيل لكل كلمة
num_heads = 2        # عدد الرؤوس في Multi-Head Attention

# مثال بسيط على المدخلات (تمثيلات عشوائية لكل كلمة)
# نفترض أن لدينا 5 كلمات وكل كلمة ممثلة بتمثيل حجمه 8
dummy_input = np.random.rand(1, sequence_length, embedding_dim)

# 1. تعريف طبقة Multi-Head Attention من Keras
multi_head_attention = layers.MultiHeadAttention(num_heads=num_heads, key_dim=embedding_dim)

# 2. تطبيق Multi-Head Attention على المدخلات
# في آلية Attention، Q = K = V عندما نتعامل مع Self-Attention
attention_output = multi_head_attention(query=dummy_input, value=dummy_input, key=dummy_input)

# 3. بناء نموذج Keras بسيط لعرض النتائج
input_layer = layers.Input(shape=(sequence_length, embedding_dim))
attention_layer = layers.MultiHeadAttention(num_heads=num_heads, key_dim=embedding_dim)(input_layer, input_layer)
model = Model(inputs=input_layer, outputs=attention_layer)

# 4. طباعة النتائج
print("input:\n", dummy_input)
print("\n Multi-Head Attention:\n", attention_output)


input:
 [[[0.37360093 0.17979056 0.03352834 0.86513391 0.37873786 0.64912537
   0.99745314 0.37249064]
  [0.04876278 0.69262128 0.06985811 0.02680683 0.17189162 0.65845445
   0.65553791 0.4316282 ]
  [0.31856327 0.27139831 0.72847708 0.27890023 0.88647585 0.04556948
   0.71748802 0.46323336]
  [0.70252251 0.83871822 0.35630011 0.17419226 0.681343   0.28245652
   0.13958494 0.23563952]
  [0.69079128 0.23013696 0.65516551 0.16379091 0.51421659 0.01989726
   0.71982381 0.31255854]]]

 Multi-Head Attention:
 tf.Tensor(
[[[ 0.3694607  -0.11383264  0.07093222  0.07887593  0.08018263
   -0.07615816 -0.22729266  0.01020066]
  [ 0.37022325 -0.11489406  0.07142335  0.07987761  0.07943211
   -0.07571764 -0.2280041   0.01010716]
  [ 0.36997628 -0.11530428  0.07105333  0.08184449  0.07616985
   -0.07275891 -0.23105794  0.01009158]
  [ 0.36925873 -0.11561364  0.07059392  0.08129579  0.07673295
   -0.07296948 -0.23033693  0.01080636]
  [ 0.36844093 -0.1141924   0.0702979   0.08042189  0.07750918
   -