In [27]:
# Phase 1: Project Setup & Data Acquisition

# استيراد المكتبات
from datasets import load_dataset
import pandas as pd

#  تحميل البيانات من Hugging Face
dataset = load_dataset("KFUPM-JRCAI/arabic-generated-abstracts")

In [29]:
# استعراض المجموعات الفرعية وأسمائها
print("المجموعات الفرعية:")
print(dataset.keys())

# المرور على كل مجموعة
for name, subset in dataset.items():
    df = subset.to_pandas()   # تحويل إلى pandas DataFrame
    
    print("\n ")
    print(f"Subset: {name}")
    
    # عرض أسماء الأعمدة
    print("Columns:", df.columns.tolist())
    
    # عرض أنواع البيانات لكل عمود
    print("\nData types:")
    print(df.dtypes)
    
    # عرض أول 5 صفوف كمثال
    print("\nSample rows:")
    print(df.head())


المجموعات الفرعية:
dict_keys(['by_polishing', 'from_title', 'from_title_and_content'])

 
Subset: by_polishing
Columns: ['original_abstract', 'allam_generated_abstract', 'jais_generated_abstract', 'llama_generated_abstract', 'openai_generated_abstract']

Data types:
original_abstract            object
allam_generated_abstract     object
jais_generated_abstract      object
llama_generated_abstract     object
openai_generated_abstract    object
dtype: object

Sample rows:
                                   original_abstract  \
0  كثيرا ما ارتبطت المصادر التاريخية في الأندلس خ...   
1  يعد العامل الثقافي احد ابرز الاسباب التي يعزى ...   
2  شكلت تلك الجهود والمساعي الرائدة التي قام بها ...   
3  يقوم المقال على اشكالية الضرائب الغير شرعية في...   
4  تتفق المصادر التاريخية المتوفرة حول موضوع تطور...   

                            allam_generated_abstract  \
0  يتناول هذا البحث موضوع التعليم بين النساء الأن...   
1  يتناول هذا البحث دراسة انهيار دولة الموحدين من...   
2  هدفت هذه الدراسة 

In [30]:
# مقارنة عدد النصوص (Human vs AI)

# الأعمدة الخاصة بالنصوص AI
ai_cols = ["allam_generated_abstract", "jais_generated_abstract",
           "llama_generated_abstract", "openai_generated_abstract"]

total_human = 0
total_ai = 0

for name, subset in dataset.items():
    df = subset.to_pandas()

    # عدد النصوص البشرية
    human_count = df["original_abstract"].notna().sum()

    # عدد النصوص AI
    ai_count = df[ai_cols].count().sum()

    total_human += human_count
    total_ai += ai_count

    print("\n")
    print(f"{name}")
    print("Human:", human_count)
    print("AI:", ai_count)

print("\n الإجمالي لكل المجموعات")
print("Total Human:", total_human)
print("Total AI:", total_ai)




by_polishing
Human: 2851
AI: 11404


from_title
Human: 2963
AI: 11852


from_title_and_content
Human: 2574
AI: 10296

 الإجمالي لكل المجموعات
Total Human: 8388
Total AI: 33552


In [31]:
import re

for name, subset in dataset.items():
    df = subset.to_pandas()
    print("\n==============================")
    print(f"Subset: {name}")
    
    # 1. Missing values
    print("\nMissing values per column:")
    print(df.isnull().sum())

    # 2. Duplicates
    print("\nDuplicated rows:", df.duplicated().sum())

    # 3. Inconsistencies
    short_texts = df["original_abstract"].apply(lambda x: len(str(x).strip()) < 10).sum()
    non_arabic = df["original_abstract"].apply(lambda x: bool(re.search(r'[A-Za-z0-9]', str(x)))).sum()
    print("Short texts (<10 chars):", short_texts)
    print("Texts with non-Arabic chars:", non_arabic)




Subset: by_polishing

Missing values per column:
original_abstract            0
allam_generated_abstract     0
jais_generated_abstract      0
llama_generated_abstract     0
openai_generated_abstract    0
dtype: int64

Duplicated rows: 0
Short texts (<10 chars): 0
Texts with non-Arabic chars: 918

Subset: from_title

Missing values per column:
original_abstract            0
allam_generated_abstract     0
jais_generated_abstract      0
llama_generated_abstract     0
openai_generated_abstract    0
dtype: int64

Duplicated rows: 0
Short texts (<10 chars): 0
Texts with non-Arabic chars: 948

Subset: from_title_and_content

Missing values per column:
original_abstract            0
allam_generated_abstract     0
jais_generated_abstract      0
llama_generated_abstract     0
openai_generated_abstract    0
dtype: int64

Duplicated rows: 0
Short texts (<10 chars): 0
Texts with non-Arabic chars: 824


In [34]:
import re

for name, subset in dataset.items():
    print("\n==============================")
    print(f"مجموعة البيانات: {name}")

    df = subset.to_pandas()

    # 1. التحقق من القيم المفقودة
    print("\nالقيم المفقودة في كل عمود:")
    print(df.isnull().sum())

    # 2. التحقق من الصفوف المكررة
    print("\nعدد الصفوف المكررة:")
    print(df.duplicated().sum())

    # 3. التحقق من التناقضات (بدون apply)
    for col in df.columns:
        short_count = 0
        non_arabic_count = 0

        # المرور على كل النصوص في العمود
        for text in df[col]:
            text = str(text).strip()  # تأكدنا إنه نص
            if len(text) < 10:
                short_count += 1
            if re.search(r'[A-Za-z0-9]', text):
                non_arabic_count += 1

        print(f"\nالعمود: {col}")
        print("عدد النصوص القصيرة جدًا (<10):", short_count)
        print("عدد النصوص التي تحتوي على رموز غير عربية:", non_arabic_count)




مجموعة البيانات: by_polishing

القيم المفقودة في كل عمود:
original_abstract            0
allam_generated_abstract     0
jais_generated_abstract      0
llama_generated_abstract     0
openai_generated_abstract    0
dtype: int64

عدد الصفوف المكررة:
0

العمود: original_abstract
عدد النصوص القصيرة جدًا (<10): 0
عدد النصوص التي تحتوي على رموز غير عربية: 918

العمود: allam_generated_abstract
عدد النصوص القصيرة جدًا (<10): 0
عدد النصوص التي تحتوي على رموز غير عربية: 877

العمود: jais_generated_abstract
عدد النصوص القصيرة جدًا (<10): 0
عدد النصوص التي تحتوي على رموز غير عربية: 821

العمود: llama_generated_abstract
عدد النصوص القصيرة جدًا (<10): 0
عدد النصوص التي تحتوي على رموز غير عربية: 906

العمود: openai_generated_abstract
عدد النصوص القصيرة جدًا (<10): 0
عدد النصوص التي تحتوي على رموز غير عربية: 860

مجموعة البيانات: from_title

القيم المفقودة في كل عمود:
original_abstract            0
allam_generated_abstract     0
jais_generated_abstract      0
llama_generated_abstract     0
openai_gene