In [1]:
# ====================================
# الدرس 02 – Bag of Words و الميزات اليدوية
# ====================================

import pandas as pd
import re
from collections import Counter
import matplotlib.pyplot as plt

# ------------------------------
# 1️⃣ تحضير البيانات (باللغة العربية)
# ------------------------------
data = {
    "نص": [
        "أنا أحب تعلم معالجة اللغات الطبيعية",
        "بايثون تسهل التعامل مع النصوص",
        "تحليل النصوص مهم جدًا في الذكاء الاصطناعي"
    ]
}

df = pd.DataFrame(data)
print("النصوص الأصلية:")
print(df)
print("\n")

# ------------------------------
# 2️⃣ تنظيف النصوص
# ------------------------------
def clean_text(text):
    text = text.lower()  # تحويل كل الحروف إلى صغيرة
    text = re.sub(r'[^أ-ي\s]', '', text)  # إزالة الرموز والأرقام
    return text

df['نص_منظف'] = df['نص'].apply(clean_text)
print("بعد التنظيف:")
print(df)
print("\n")

# ------------------------------
# 3️⃣ استخراج الميزات اليدوية
# ------------------------------
def manual_features(text):
    tokens = text.split()  # تقسيم الكلمات
    sentences = text.split('،')  # تقريب عدد الجمل باستخدام الفاصلة
    return pd.Series({
        "عدد_الكلمات": len(tokens),
        "عدد_الجمل": len(sentences),
        "عدد_الحروف": len(text),
        "عدد_الحروف_الكبيرة": sum(1 for c in text if c.isupper())
    })

df = pd.concat([df, df['نص'].apply(manual_features)], axis=1)
print("بعد استخراج الميزات اليدوية:")
print(df)
print("\n")

# ------------------------------
# 4️⃣ إنشاء Bag of Words
# ------------------------------
# إذا كان sklearn موجود يمكنك استخدامه
try:
    from sklearn.feature_extraction.text import CountVectorizer
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(df['نص_منظف'])
    df_bow = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())
    df_final = pd.concat([df, df_bow], axis=1)
    print("تم إنشاء Bag of Words ودمجها مع الميزات اليدوية:")
    print(df_final)
except ImportError:
    print("scikit-learn غير مثبت، سيتم استخدام الميزات اليدوية فقط.")
    df_final = df

# ------------------------------
# 5️⃣ حفظ النتائج (اختياري)
# ------------------------------
df_final.to_csv("درس02_Bag_of_Words_Manual_عربي.csv", index=False)
print("تم حفظ الملف CSV بنجاح.")

النصوص الأصلية:
                                          نص
0        أنا أحب تعلم معالجة اللغات الطبيعية
1              بايثون تسهل التعامل مع النصوص
2  تحليل النصوص مهم جدًا في الذكاء الاصطناعي


بعد التنظيف:
                                          نص  \
0        أنا أحب تعلم معالجة اللغات الطبيعية   
1              بايثون تسهل التعامل مع النصوص   
2  تحليل النصوص مهم جدًا في الذكاء الاصطناعي   

                                   نص_منظف  
0      أنا أحب تعلم معالجة اللغات الطبيعية  
1            بايثون تسهل التعامل مع النصوص  
2  تحليل النصوص مهم جدا في الذكا الاصطناعي  


بعد استخراج الميزات اليدوية:
                                          نص  \
0        أنا أحب تعلم معالجة اللغات الطبيعية   
1              بايثون تسهل التعامل مع النصوص   
2  تحليل النصوص مهم جدًا في الذكاء الاصطناعي   

                                   نص_منظف  عدد_الكلمات  عدد_الجمل  \
0      أنا أحب تعلم معالجة اللغات الطبيعية            6          1   
1            بايثون تسهل التعامل مع النصوص          