# Arabic Text Preprocessing Explained (مصري)

الكود ده مكتوب بلغة بايثون وواضح إنه معمول علشان يعالج النصوص العربية قبل ما يستخدمها في تطبيقات زي تحليل النصوص أو المعالجة الطبيعية للغة. تعال نشرحه خطوة بخطوة باللهجة المصرية:

### **1. إزالة التشكيل من النص:**
```python
text = re.sub(r'[\u064B-\u065F]', '', text)
```
الجملة دي بتشيل التشكيل زي (الفتحة، الضمة، الكسرة، السكون، الشدة... إلخ) من النص العربي. الحروف دي موجودة في الـ Unicode بين القيمتين `\u064B` و `\u065F`.

### **2. توحيد الحروف:**
دي خطوات لتوحيد بعض الحروف اللي ليها أكتر من شكل في اللغة العربية:

- **الهمزات المختلفة:**
  ```python
  text = re.sub(r'[إأآا]', 'ا', text)
  ```
  الجملة دي بتبدل كل أشكال الألف (إ، أ، آ) وتحولهم لـ "ا".

- **الهاء والتاء المربوطة:**
  ```python
  text = re.sub(r'ة', 'ه', text)
  ```
  التاء المربوطة "ة" بتتحول لهاء "ه".

- **الألف المقصورة والياء:**
  ```python
  text = re.sub(r'ى', 'ي', text)
  ```
  الألف المقصورة "ى" بتتحول لياء "ي".

- **الهمزة على الواو:**
  ```python
  text = re.sub(r'ؤ', 'و', text)
  ```
  الهمزة على الواو "ؤ" بتتحول لـ "و".

- **إزالة همزة الوصل والقطع:**
  ```python
  text = re.sub(r'[ء]', '', text)
  ```
  همزة الوصل أو القطع (ء) بتتشال خالص.

### **3. تحويل النص لـ Lowercase:**
```python
text = text.lower()
```
الخطوة دي بتحول كل الحروف الصغيرة لو موجودة، بس في اللغة العربية مفيش فرق بين الحروف الكبيرة والصغيرة زي الإنجليزي.

### **4. إزالة الرموز والأرقام:**
- **إزالة العلامات والرموز:**
  ```python
  text = re.sub(r'[^\w\s]', '', text)
  ```
  أي حاجة مش حروف أو مسافات (زي علامات الترقيم) بتتشال.

- **إزالة الأرقام:**
  ```python
  text = re.sub(r'\d+', '', text)
  ```
  أي أرقام موجودة في النص (زي 1234) بتتشال.

### **5. تقسيم النص لكلمات:**
```python
words = text.split()
```
النص بيتقسم لقائمة (list) من الكلمات باستخدام المسافات.

### **ليه كل ده؟**
الخطوات دي كلها علشان تنظف النص العربي وتخليه في صورة موحدة ومفهومة للبرامج، زي لما تيجي تستخدمه في تدريب موديلات التعلم الآلي أو أي تحليل لغوي. يعني الكود بيحاول يتخلص من كل الحاجات اللي مش أساسية وموحدة الحروف علشان يقلل التعقيد.

In [1]:
import re
from nltk.corpus import stopwords
from nltk.stem.isri import ISRIStemmer

def preprocess_text_ar(text):
    text = re.sub(r'[\u064B-\u065F]', '', text)  # إزالة التشكيل
    text = re.sub(r'[إأآا]', 'ا', text)  # توحيد الألف
    text = re.sub(r'ة', 'ه', text)  # تحويل التاء المربوطة لهاء
    text = re.sub(r'ى', 'ي', text)  # تحويل الألف المقصورة لياء
    text = re.sub(r'ؤ', 'و', text)  # تحويل الهمزة على الواو إلى واو
    text = re.sub(r'[ء]', '', text)  # إزالة همزة القطع

    text = text.lower()  # تحويل النص لحروف صغيرة

    text = re.sub(r'[^\w\s]', '', text)  # إزالة الرموز
    text = re.sub(r'\d+', '', text)  # إزالة الأرقام

    words = text.split()  # تقسيم النص لكلمات

    return words