In [13]:
# المرحلة الأولى: جمع البيانات (Data Acquisition)

# استيراد المكتبات
from datasets import load_dataset
import pandas as pd

#  تحميل مجموعة البيانات من Hugging Face
dataset = load_dataset("KFUPM-JRCAI/arabic-generated-abstracts")

#  عرض أسماء المجموعات الموجودة داخل البيانات
print("المجموعات الفرعية:")
print(dataset.keys())


المجموعات الفرعية:
dict_keys(['by_polishing', 'from_title', 'from_title_and_content'])


In [10]:
# استعراض معلومات عامة عن كل مجموعة (subset)
for name, subset in dataset.items():
    print("\n==============================")
    print(f" مجموعة البيانات: {name}")
    print("عدد الصفوف:", subset.num_rows)
    print("الأعمدة:", subset.column_names)

    # عرض أول صف كمثال
    print("\n مثال من البيانات:")
    print(subset[0])



 مجموعة البيانات: by_polishing
عدد الصفوف: 2851
الأعمدة: ['original_abstract', 'allam_generated_abstract', 'jais_generated_abstract', 'llama_generated_abstract', 'openai_generated_abstract']

 مثال من البيانات:
{'original_abstract': 'كثيرا ما ارتبطت المصادر التاريخية في الأندلس خاصة منها كتب التراجم والفهرسات والبرامج وغيرها بدراسة حياة العلماء والرواة والقضاة والساسة ؛ وقد تطورت هذه المادة حتى ترك لنا المؤلفون الأندلسيون سلسلة متواصلة الحلقات من كتب التـراجم كالصلة لابن بشكوال ، وصلة الصلة لابن الزبير، والتكملة لكتاب الصلة لابن الآبار، والذيل والتكملة لكتابي الموصول والصلة لابن عبد الملك المراكشي إضافة إلى الإحاطة في أخبار غرناطة لابن الخطيب ، إلا أنها لم تنس أن تشير في ثنايا أو بالأحرى في خواتم هذه المؤلفات إلى فئة المرأة العالمة التي ساهمت في الإنتاج الفكري والحضاري الأندلسي. ومن خلالها سنسعى إلى الوقوف على حالة التعليم عند المرأة الأندلسية ، وكيف كانت تأخذ فنون العلم. وما مدى إسهامها في الفكر التربوي والإنتاج الفكري الأندلسيين ؟.', 'allam_generated_abstract': 'يتناول هذا البحث موض

In [7]:
# تحويل كل مجموعة إلى DataFrame والتحقق من الجودة
for name, subset in dataset.items():
    print("\n==============================")
    print(f" مجموعة البيانات: {name}")
    
    # تحويل إلى pandas DataFrame
    df = subset.to_pandas()

    # ▪️ عرض أول 5 صفوف
    print("\n أول 5 صفوف:")
    print(df.head())

    # ▪️ عرض أنواع البيانات لكل عمود
    print("\n أنواع البيانات:")
    print(df.dtypes)

    # ▪️ التحقق من القيم المفقودة
    print("\n القيم المفقودة:")
    print(df.isnull().sum())

    # ▪️ التحقق من الصفوف المكررة
    print("\n عدد الصفوف المكررة:")
    print(df.duplicated().sum())



 مجموعة البيانات: by_polishing

 أول 5 صفوف:
                                   original_abstract  \
0  كثيرا ما ارتبطت المصادر التاريخية في الأندلس خ...   
1  يعد العامل الثقافي احد ابرز الاسباب التي يعزى ...   
2  شكلت تلك الجهود والمساعي الرائدة التي قام بها ...   
3  يقوم المقال على اشكالية الضرائب الغير شرعية في...   
4  تتفق المصادر التاريخية المتوفرة حول موضوع تطور...   

                            allam_generated_abstract  \
0  يتناول هذا البحث موضوع التعليم بين النساء الأن...   
1  يتناول هذا البحث دراسة انهيار دولة الموحدين من...   
2  هدفت هذه الدراسة إلى تسليط الضوء على جهود قادة...   
3  يتناول هذا البحث إشكالية الضرائب غير الشرعية ف...   
4  تتناول هذه الدراسة حركة الانتصار للحريات الديم...   

                             jais_generated_abstract  \
0  تدرس هذه الدراسة دور المرأة في التعليم في الأن...   
1  كان العامل الثقافي من بين الأسباب الرئيسية الت...   
2  تدرس هذه الدراسة جهود قادة الثورة الجزائرية خل...   
3  تدرس المقالة مشكلة الضرائب غير الشرعية في مراح...   


In [6]:
# حساب توزيع المتغير الهدف (Human vs AI)

ai_cols = ["allam_generated_abstract", "jais_generated_abstract",
           "llama_generated_abstract", "openai_generated_abstract"]

total_human = 0
total_ai = 0

for name, subset in dataset.items():
    df = subset.to_pandas()

    # عدد النصوص البشرية
    human_count = df["original_abstract"].notna().sum()

    # عدد النصوص المولدة = مجموع الأعمدة الأربعة
    ai_count = sum(df[c].notna().sum() for c in ai_cols)

    total_human += human_count
    total_ai += ai_count

    print(f"\n {name}")
    print("Human:", human_count)
    print("AI:", ai_count)

print("\n======= الإجمالي عبر كل المجموعات =======")
print("Total Human:", total_human)
print("Total AI:", total_ai)



 by_polishing
Human: 2851
AI: 11404

 from_title
Human: 2963
AI: 11852

 from_title_and_content
Human: 2574
AI: 10296

Total Human: 8388
Total AI: 33552


# Phase 1: Project Setup & Data Acquisition

## 1.1 Project Repository
تم إنشاء مستودع المشروع على GitHub باسم:
**arabic-generated-abstracts-detection**

هيكل المجلدات:
- `notebooks/` : يحتوي ملفات Jupyter للتجارب والتحليل.
- `data/` : مخصص للبيانات الخام أو المعالجة.
- `reports/` : للتقارير والنتائج.
- `src/` : للأكواد المنظمة (preprocessing, modeling, visualization).

---

## 1.2 Data Acquisition
تم تحميل البيانات باستخدام مكتبة **datasets** من Hugging Face:
`KFUPM-JRCAI/arabic-generated-abstracts`

المجموعات الفرعية:
- **by_polishing** → 2851 صف
- **from_title** → 2963 صف
- **from_title_and_content** → 2574 صف

الأعمدة المتوفرة في جميع المجموعات:
- `original_abstract` : النصوص البشرية (Human)
- `allam_generated_abstract` : النصوص المولدة بواسطة Allam
- `jais_generated_abstract` : النصوص المولدة بواسطة Jais
- `llama_generated_abstract` : النصوص المولدة بواسطة LLaMA
- `openai_generated_abstract` : النصوص المولدة بواسطة OpenAI

---

## 1.3 Initial Data Exploration

### Structure
- جميع المجموعات تحتوي على نفس الأعمدة المذكورة أعلاه.
- البيانات منظمة بصيغة نصوص (pandas dtype = object).
- تمت معاينة العينات (first 5 rows) للتأكد من سلامة البنية.

### Target Distribution (Human vs AI)
- إجمالي النصوص البشرية (Original): **8,388**
- إجمالي النصوص المولدة (AI, across 4 models): **33,552**
- يتضح أن كل نص بشري يقابله 4 نصوص مولدة تقريبًا.

### Data Quality
- **Missing values:** جميع الأعمدة = 0 (لا توجد قيم ناقصة).
- **Duplicates:** عدد الصفوف المكررة = 0 (لا توجد تكرارات).

---

## ✅ Summary
- البيانات تم تحميلها بنجاح من المصدر.
- البنية واضحة ومتناسقة.
- البيانات خالية من القيم المفقودة والمكررة.
- التوزيع يظهر وفرة في العينات المولدة مقارنة بالبشرية.
- يمكن الانتقال إلى **Phase 2: Data Preprocessing** لمعالجة النصوص العربية (Normalization, Diacritics removal, Stemming).
