In [13]:
# المرحلة الأولى: جمع البيانات (Data Acquisition)

# 1️⃣ استيراد مكتبة datasets
from datasets import load_dataset

# 2️⃣ تحميل مجموعة البيانات
dataset = load_dataset("KFUPM-JRCAI/arabic-generated-abstracts")

# 3️⃣ عرض أسماء المجموعات الموجودة داخل البيانات
print("Available subsets (keys):")
print(dataset.keys())

# 4️⃣ استعراض معلومات كل مجموعة وعدد الصفوف فيها
for name, subset in dataset.items():
    print(f"\n📂 Subset: {name}")
    print("عدد الصفوف:", subset.num_rows)
    print("الأعمدة الموجودة:", subset.column_names)

# 5️⃣ عرض أول صف من كل مجموعة كمثال
for name, subset in dataset.items():
    print(f"\n🔹 أول صف من مجموعة: {name}")
    print(subset[0])

# عرض هيكل البيانات (الأعمدة وأنواع البيانات)
for name, subset in dataset.items():
    print(f"\n📂 Subset: {name}")
    # عرض الأعمدة وأنواع البيانات
    print(subset.features)




Available subsets (keys):
dict_keys(['by_polishing', 'from_title', 'from_title_and_content'])

📂 Subset: by_polishing
عدد الصفوف: 2851
الأعمدة الموجودة: ['original_abstract', 'allam_generated_abstract', 'jais_generated_abstract', 'llama_generated_abstract', 'openai_generated_abstract']

📂 Subset: from_title
عدد الصفوف: 2963
الأعمدة الموجودة: ['original_abstract', 'allam_generated_abstract', 'jais_generated_abstract', 'llama_generated_abstract', 'openai_generated_abstract']

📂 Subset: from_title_and_content
عدد الصفوف: 2574
الأعمدة الموجودة: ['original_abstract', 'allam_generated_abstract', 'jais_generated_abstract', 'llama_generated_abstract', 'openai_generated_abstract']

🔹 أول صف من مجموعة: by_polishing
{'original_abstract': 'كثيرا ما ارتبطت المصادر التاريخية في الأندلس خاصة منها كتب التراجم والفهرسات والبرامج وغيرها بدراسة حياة العلماء والرواة والقضاة والساسة ؛ وقد تطورت هذه المادة حتى ترك لنا المؤلفون الأندلسيون سلسلة متواصلة الحلقات من كتب التـراجم كالصلة لابن بشكوال ، وصلة الصلة 

In [14]:
# استعراض بنية البيانات
for name, subset in dataset.items():
    # تحويل البيانات إلى pandas DataFrame
    df = subset.to_pandas()

    print(f"\n📂 Subset: {name}")
    
    # عرض الأعمدة وأنواع البيانات
    print("\nالأعمدة وأنواع البيانات:")
    print(df.dtypes)

    # عرض بعض السطور من البيانات
    print("\nأول 5 صفوف من البيانات:")
    print(df.head())



📂 Subset: by_polishing

الأعمدة وأنواع البيانات:
original_abstract            object
allam_generated_abstract     object
jais_generated_abstract      object
llama_generated_abstract     object
openai_generated_abstract    object
dtype: object

أول 5 صفوف من البيانات:
                                   original_abstract  \
0  كثيرا ما ارتبطت المصادر التاريخية في الأندلس خ...   
1  يعد العامل الثقافي احد ابرز الاسباب التي يعزى ...   
2  شكلت تلك الجهود والمساعي الرائدة التي قام بها ...   
3  يقوم المقال على اشكالية الضرائب الغير شرعية في...   
4  تتفق المصادر التاريخية المتوفرة حول موضوع تطور...   

                            allam_generated_abstract  \
0  يتناول هذا البحث موضوع التعليم بين النساء الأن...   
1  يتناول هذا البحث دراسة انهيار دولة الموحدين من...   
2  هدفت هذه الدراسة إلى تسليط الضوء على جهود قادة...   
3  يتناول هذا البحث إشكالية الضرائب غير الشرعية ف...   
4  تتناول هذه الدراسة حركة الانتصار للحريات الديم...   

                             jais_generated_abstract  \
0

In [15]:
# التوزيع على الأعمدة المولدة
for name, subset in dataset.items():
    # تحويل البيانات إلى pandas DataFrame
    df = subset.to_pandas()

    # إذا كان لدينا تصنيف صريح بين النصوص المولدة والبشرية
    # سنحسب توزيع النصوص في كل عمود مولّد (على سبيل المثال: allam_generated_abstract)
    for column in ['allam_generated_abstract', 'jais_generated_abstract', 'llama_generated_abstract', 'openai_generated_abstract']:
        print(f"\n📂 Subset: {name} - Distribution of {column}:")
        # هنا، سنحتاج إلى افتراض أن النصوص تحتوي على تصنيف واضح بين مولّد بالذكاء الاصطناعي مقابل بشري.
        # على سبيل المثال، إذا كان هناك تصنيف لـ "AI" و "human" في عمود مثل "openai_generated_abstract"
        print(df[column].value_counts())



📂 Subset: by_polishing - Distribution of allam_generated_abstract:
allam_generated_abstract
يهدف هذا البحث إلى دراسة القيم الصوتية المميزة للنص الشعري عن النص النثري، مع التركيز على كيفية تحول اللغة من الكفاية اللغوية إلى الأداء الكلامي. يتمحور النقاش حول مفهوم الإيقاع وتطوره من الوحدات الصوتية والتفعيلات الشعرية إلى مظاهر صوتية متعلقة بالحروف وطبيعتها وعلاقتها بالغرض أو المناسبة. من خلال هذه الدراسة، يتم دمج مجموعة من العلوم اللغوية لتحليل النصوص الشعرية بشكل فعال. يقدم هذا البحث تجربة متواضعة للباحثين والمهتمين في مجال الأدب واللغة.                                                                                                                                                                                                                                                                                                                                                                                                                                                                           

In [16]:
# التحقق من القيم المفقودة، التكرارات، وعدم الاتساق في كل مجموعة
for name, subset in dataset.items():
    # تحويل البيانات إلى pandas DataFrame
    df = subset.to_pandas()

    print(f"\n📂 Subset: {name}")
    
    # 1️⃣ التحقق من القيم المفقودة
    print("\nMissing Values:")
    print(df.isnull().sum())

    # 2️⃣ التحقق من التكرارات
    print("\nDuplicates:")
    print(df.duplicated().sum())

    # 3️⃣ التحقق من الاتساق
    # هذا يعتمد على البيانات الخاصة بك، ولكن بشكل عام يمكننا التحقق من أي تناقضات في الأعمدة النصية.
    # سننظر في التكرار غير المتوقع للنصوص، على سبيل المثال، إذا كانت هناك فئات غير منطقية أو قيم غير صحيحة.
    
    # على سبيل المثال، إذا كانت الأعمدة تحتوي على نصوص مولدة من الذكاء الاصطناعي، يمكننا التأكد من عدم وجود نسخ غير ضرورية.
    print("\nInconsistencies Check:")
    for column in ['allam_generated_abstract', 'jais_generated_abstract', 'llama_generated_abstract', 'openai_generated_abstract']:
        # إذا كانت النصوص في الأعمدة مولدة بواسطة الذكاء الاصطناعي، يمكننا التحقق من تكرار النصوص بشكل غير منطقي.
        print(f"Checking for duplicates in {column}:")
        print(df[column].duplicated().sum())



📂 Subset: by_polishing

Missing Values:
original_abstract            0
allam_generated_abstract     0
jais_generated_abstract      0
llama_generated_abstract     0
openai_generated_abstract    0
dtype: int64

Duplicates:
0

Inconsistencies Check:
Checking for duplicates in allam_generated_abstract:
0
Checking for duplicates in jais_generated_abstract:
0
Checking for duplicates in llama_generated_abstract:
0
Checking for duplicates in openai_generated_abstract:
0

📂 Subset: from_title

Missing Values:
original_abstract            0
allam_generated_abstract     0
jais_generated_abstract      0
llama_generated_abstract     0
openai_generated_abstract    0
dtype: int64

Duplicates:
0

Inconsistencies Check:
Checking for duplicates in allam_generated_abstract:
0
Checking for duplicates in jais_generated_abstract:
0
Checking for duplicates in llama_generated_abstract:
0
Checking for duplicates in openai_generated_abstract:
0

📂 Subset: from_title_and_content

Missing Values:
original_abstra