In [4]:
# 1. استيراد المكتبات
from datasets import load_dataset
import pandas as pd

# 2. تحميل البيانات من Hugging Face
dataset = load_dataset("KFUPM-JRCAI/arabic-generated-abstracts")

# 3. استعراض التقسيمات (splits)
print("Available splits:", dataset.keys())


# 4. نحول القسم by_polishing إلى DataFrame
df = pd.DataFrame(dataset['by_polishing'])

# 5. عرض أول 5 أسطر للتأكد
print(df.head())

Available splits: dict_keys(['by_polishing', 'from_title', 'from_title_and_content'])
                                   original_abstract  \
0  كثيرا ما ارتبطت المصادر التاريخية في الأندلس خ...   
1  يعد العامل الثقافي احد ابرز الاسباب التي يعزى ...   
2  شكلت تلك الجهود والمساعي الرائدة التي قام بها ...   
3  يقوم المقال على اشكالية الضرائب الغير شرعية في...   
4  تتفق المصادر التاريخية المتوفرة حول موضوع تطور...   

                            allam_generated_abstract  \
0  يتناول هذا البحث موضوع التعليم بين النساء الأن...   
1  يتناول هذا البحث دراسة انهيار دولة الموحدين من...   
2  هدفت هذه الدراسة إلى تسليط الضوء على جهود قادة...   
3  يتناول هذا البحث إشكالية الضرائب غير الشرعية ف...   
4  تتناول هذه الدراسة حركة الانتصار للحريات الديم...   

                             jais_generated_abstract  \
0  تدرس هذه الدراسة دور المرأة في التعليم في الأن...   
1  كان العامل الثقافي من بين الأسباب الرئيسية الت...   
2  تدرس هذه الدراسة جهود قادة الثورة الجزائرية خل...   
3  تدرس المقالة 

In [5]:
# 1. عدد الصفوف والأعمدة
print("عدد الصفوف والأعمدة:", df.shape)

# 2. أسماء الأعمدة
print("\nأسماء الأعمدة:", df.columns.tolist())

# 3. عدد القيم المفقودة في كل عمود
print("\nعدد القيم المفقودة:")
print(df.isnull().sum())

# 4. عدد الصفوف المكررة
print("\nعدد الصفوف المكررة:", df.duplicated().sum())


عدد الصفوف والأعمدة: (2851, 5)

أسماء الأعمدة: ['original_abstract', 'allam_generated_abstract', 'jais_generated_abstract', 'llama_generated_abstract', 'openai_generated_abstract']

عدد القيم المفقودة:
original_abstract            0
allam_generated_abstract     0
jais_generated_abstract      0
llama_generated_abstract     0
openai_generated_abstract    0
dtype: int64

عدد الصفوف المكررة: 0


In [16]:

import pandas as pd
from datasets import load_dataset

# تحميل البيانات من HuggingFace
dataset = load_dataset("KFUPM-JRCAI/arabic-generated-abstracts")

# ناخذ subset by_polishing كمثال
df = pd.DataFrame(dataset['by_polishing'])

# نصوص بشرية
df_human = pd.DataFrame({
    'text': df['original_abstract'],
    'label': 'human'
})

# نصوص ذكاء (من نموذج JAIS كمثال)
df_ai = pd.DataFrame({
    'text': df['jais_generated_abstract'],
    'label': 'ai'
})

# عرض أول 10 صفوف بشرية
print(" Human examples:")
print(df_human.head(10), "\n")

# عرض أول 10 صفوف ذكاء
print(" AI examples:")
print(df_ai.head(10))


 Human examples:
                                                text  label
0  كثيرا ما ارتبطت المصادر التاريخية في الأندلس خ...  human
1  يعد العامل الثقافي احد ابرز الاسباب التي يعزى ...  human
2  شكلت تلك الجهود والمساعي الرائدة التي قام بها ...  human
3  يقوم المقال على اشكالية الضرائب الغير شرعية في...  human
4  تتفق المصادر التاريخية المتوفرة حول موضوع تطور...  human
5  تعددت صور الحياة الثقافية و الفكرية و الأدبية ...  human
6  تروم هذه المحاولة العلمية المتواضعة رصد ملامح ...  human
7  يعالج هذا المقال الإطار التنسيقي بين المنظمات ...  human
8  يتناول هذا المقال بالدرس، اقتصاد الأندلس المبن...  human
9  نعالج في هذا الموضوع المعنون ب«الثورة التحريري...  human 

 AI examples:
                                                text label
0  تدرس هذه الدراسة دور المرأة في التعليم في الأن...    ai
1  كان العامل الثقافي من بين الأسباب الرئيسية الت...    ai
2  تدرس هذه الدراسة جهود قادة الثورة الجزائرية خل...    ai
3  تدرس المقالة مشكلة الضرائب غير الشرعية في مراح...    ai
4  حركة انتص

In [12]:
# دمج البشري + الذكاء
df_combined = pd.concat([df_human, df_ai], ignore_index=True)

# توزيع البيانات
print("🔹 Distribution:")
print(df_combined['label'].value_counts())

🔹 Distribution:
label
human    2851
ai       2851
Name: count, dtype: int64
