In [12]:
from datasets import load_dataset

# Load the complete dataset
dataset = load_dataset("KFUPM-JRCAI/arabic-generated-abstracts")

# Access different generation methods
by_polishing = dataset["by_polishing"]
from_title = dataset["from_title"] 
from_title_and_content = dataset["from_title_and_content"]

# Example: Get a sample
sample = dataset["by_polishing"][0]
print("Original:", sample["original_abstract"])
print("ALLaM:", sample["allam_generated_abstract"])


Original: كثيرا ما ارتبطت المصادر التاريخية في الأندلس خاصة منها كتب التراجم والفهرسات والبرامج وغيرها بدراسة حياة العلماء والرواة والقضاة والساسة ؛ وقد تطورت هذه المادة حتى ترك لنا المؤلفون الأندلسيون سلسلة متواصلة الحلقات من كتب التـراجم كالصلة لابن بشكوال ، وصلة الصلة لابن الزبير، والتكملة لكتاب الصلة لابن الآبار، والذيل والتكملة لكتابي الموصول والصلة لابن عبد الملك المراكشي إضافة إلى الإحاطة في أخبار غرناطة لابن الخطيب ، إلا أنها لم تنس أن تشير في ثنايا أو بالأحرى في خواتم هذه المؤلفات إلى فئة المرأة العالمة التي ساهمت في الإنتاج الفكري والحضاري الأندلسي. ومن خلالها سنسعى إلى الوقوف على حالة التعليم عند المرأة الأندلسية ، وكيف كانت تأخذ فنون العلم. وما مدى إسهامها في الفكر التربوي والإنتاج الفكري الأندلسيين ؟.
ALLaM: يتناول هذا البحث موضوع التعليم بين النساء الأندلسيات من خلال دراسة المصادر التاريخية المتعلقة بتراجم العلماء والرواة والقضاة والساسة. يركز البحث على إبراز دور المرأة العالمة ومساهمتها في الإنتاج الفكري والحضاري الأندلسي. من خلال تحليل كتب التراجم مثل الصلة لابن بشكوال 

In [13]:
# نعرض الأعمدة الموجودة (features)
print("الأعمدة في by_polishing:")
print(by_polishing.features)

print("\nالأعمدة في from_title:")
print(from_title.features)

print("\nالأعمدة في from_title_and_content:")
print(from_title_and_content.features)


الأعمدة في by_polishing:
{'original_abstract': Value('string'), 'allam_generated_abstract': Value('string'), 'jais_generated_abstract': Value('string'), 'llama_generated_abstract': Value('string'), 'openai_generated_abstract': Value('string')}

الأعمدة في from_title:
{'original_abstract': Value('string'), 'allam_generated_abstract': Value('string'), 'jais_generated_abstract': Value('string'), 'llama_generated_abstract': Value('string'), 'openai_generated_abstract': Value('string')}

الأعمدة في from_title_and_content:
{'original_abstract': Value('string'), 'allam_generated_abstract': Value('string'), 'jais_generated_abstract': Value('string'), 'llama_generated_abstract': Value('string'), 'openai_generated_abstract': Value('string')}


In [14]:
# عدد السجلات في كل مجموعة
print("عدد السجلات في by_polishing:", len(by_polishing))
print("عدد السجلات في from_title:", len(from_title))
print("عدد السجلات في from_title_and_content:", len(from_title_and_content))


عدد السجلات في by_polishing: 2851
عدد السجلات في from_title: 2963
عدد السجلات في from_title_and_content: 2574


In [15]:
import pandas as pd

# نحول كل مجموعة DataFrame عشان نفحصها بسهولة
df_polishing = pd.DataFrame(by_polishing)
df_title = pd.DataFrame(from_title)
df_title_content = pd.DataFrame(from_title_and_content)

# ---- فحص القيم الناقصة ----
print("🟢 القيم الناقصة في by_polishing:")
print(df_polishing.isnull().sum())

print("\n🟢 القيم الناقصة في from_title:")
print(df_title.isnull().sum())

print("\n🟢 القيم الناقصة في from_title_and_content:")
print(df_title_content.isnull().sum())

# ---- فحص التكرارات ----
print("\n🟢 عدد السجلات المكررة في by_polishing:", df_polishing.duplicated().sum())
print("🟢 عدد السجلات المكررة في from_title:", df_title.duplicated().sum())
print("🟢 عدد السجلات المكررة في from_title_and_content:", df_title_content.duplicated().sum())


🟢 القيم الناقصة في by_polishing:
original_abstract            0
allam_generated_abstract     0
jais_generated_abstract      0
llama_generated_abstract     0
openai_generated_abstract    0
dtype: int64

🟢 القيم الناقصة في from_title:
original_abstract            0
allam_generated_abstract     0
jais_generated_abstract      0
llama_generated_abstract     0
openai_generated_abstract    0
dtype: int64

🟢 القيم الناقصة في from_title_and_content:
original_abstract            0
allam_generated_abstract     0
jais_generated_abstract      0
llama_generated_abstract     0
openai_generated_abstract    0
dtype: int64

🟢 عدد السجلات المكررة في by_polishing: 0
🟢 عدد السجلات المكررة في from_title: 0
🟢 عدد السجلات المكررة في from_title_and_content: 0


In [17]:
from datasets import load_dataset

# تحميل الداتاست
ds = load_dataset("KFUPM-JRCAI/arabic-generated-abstracts")

# تحويل أحد الـ splits إلى DataFrame
df = ds['by_polishing'].to_pandas()

# عرض أسماء الأعمدة
print("Columns:")
print(df.columns.tolist())

# عرض أنواع البيانات
print("\nData types:")
print(df.dtypes)


Columns:
['original_abstract', 'allam_generated_abstract', 'jais_generated_abstract', 'llama_generated_abstract', 'openai_generated_abstract']

Data types:
original_abstract            object
allam_generated_abstract     object
jais_generated_abstract      object
llama_generated_abstract     object
openai_generated_abstract    object
dtype: object


In [18]:
import pandas as pd
from datasets import load_dataset

# 1. Load the dataset
dataset = load_dataset("KFUPM-JRCAI/arabic-generated-abstracts")

# 2. Convert and inspect the "by_polishing" part
by_polishing_df = pd.DataFrame(dataset["by_polishing"])

# Print the columns and their data types
print("Columns and data types for 'by_polishing' data:")
print(by_polishing_df.info())

# 3. Print the first 5 rows to see the data content
print("\nFirst 5 rows of 'by_polishing' data:")
print(by_polishing_df.head())

Columns and data types for 'by_polishing' data:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2851 entries, 0 to 2850
Data columns (total 5 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   original_abstract          2851 non-null   object
 1   allam_generated_abstract   2851 non-null   object
 2   jais_generated_abstract    2851 non-null   object
 3   llama_generated_abstract   2851 non-null   object
 4   openai_generated_abstract  2851 non-null   object
dtypes: object(5)
memory usage: 111.5+ KB
None

First 5 rows of 'by_polishing' data:
                                   original_abstract  \
0  كثيرا ما ارتبطت المصادر التاريخية في الأندلس خ...   
1  يعد العامل الثقافي احد ابرز الاسباب التي يعزى ...   
2  شكلت تلك الجهود والمساعي الرائدة التي قام بها ...   
3  يقوم المقال على اشكالية الضرائب الغير شرعية في...   
4  تتفق المصادر التاريخية المتوفرة حول موضوع تطور...   

                            allam_gener

In [21]:
from datasets import load_dataset

# حمّل الداتاست
ds = load_dataset("KFUPM-JRCAI/arabic-generated-abstracts")

# اختر split وحوله DataFrame
df = ds['by_polishing'].to_pandas()

# عدد القيم الناقصة في كل عمود
print("Missing values per column:")
print(df.isna().sum())


Missing values per column:
original_abstract            0
allam_generated_abstract     0
jais_generated_abstract      0
llama_generated_abstract     0
openai_generated_abstract    0
dtype: int64
