In [1]:
from datasets import load_dataset
import pandas as pd
from pprint import pprint
from tqdm import tqdm

In [2]:
# load the ARCD dataset from HF
ds = load_dataset("hsseinmz/arcd")
print(ds)

Generating train split:   0%|          | 0/693 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/702 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 693
    })
    validation: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 702
    })
})


In [3]:
print(ds['train'][0])
print("\nNumber of training examples:", len(ds['train']))

{'id': '969331847966', 'title': 'جمال خاشقجي', 'context': 'جمال أحمد حمزة خاشقجي (13 أكتوبر 1958، المدينة المنورة - 2 أكتوبر 2018)، صحفي وإعلامي سعودي، رأس عدّة مناصب لعدد من الصحف في السعودية، وتقلّد منصب مستشار، كما أنّه مدير عام قناة العرب الإخبارية سابقًا.', 'question': '- من هو جمال أحمد حمزة خاشقجي؟', 'answers': {'text': ['صحفي وإعلامي'], 'answer_start': [73]}}

Number of training examples: 693


In [4]:
# Convert to pandas DataFrame for easy inspection and then save to data/arcd.jsonl
df = pd.DataFrame(ds['train'])
print(df.columns)
display(df.head())

df.to_json("../data/arcd.jsonl", orient="records", lines=True, force_ascii=False) # force_ascii=False used to preserve Arabic characters

print("Saved to data/arcd.jsonl")

Index(['id', 'title', 'context', 'question', 'answers'], dtype='object')


Unnamed: 0,id,title,context,question,answers
0,969331847966,جمال خاشقجي,جمال أحمد حمزة خاشقجي (13 أكتوبر 1958، المدينة...,- من هو جمال أحمد حمزة خاشقجي؟,"{'text': ['صحفي وإعلامي'], 'answer_start': [73]}"
1,115150665555,جمال خاشقجي,جمال أحمد حمزة خاشقجي (13 أكتوبر 1958، المدينة...,- متى ولد جمال أحمد حمزة خاشقجي وتوفي؟ ال,{'text': ['حمزة خاشقجي (13 أكتوبر 1958، المدين...
2,74212080718,جمال خاشقجي,جمال أحمد حمزة خاشقجي (13 أكتوبر 1958، المدينة...,- في أي مدينة ولد جمال أحمد حمزة خاشقجي؟ ال,"{'text': ['المدينة المنورة'], 'answer_start': ..."
3,465699296586,جمال خاشقجي,جمال أحمد حمزة خاشقجي (13 أكتوبر 1958، المدينة...,- في أي صحيفة قام بكتابة عمود منذ عام 2017؟ ال,"{'text': ['واشنطن بوست'], 'answer_start': [224]}"
4,564177542570,جمال خاشقجي,جمال أحمد حمزة خاشقجي (13 أكتوبر 1958، المدينة...,- كيف وصفها في الصحف ووسائل الإعلام الدولية؟ ال,{'text': ['وُصف في الصحف وأجهزة الاعلام العالم...


Saved to data/arcd.jsonl


In [5]:
import re
import unicodedata

def normalize_arabic(text):
    # basic normalization: remove tashkeel (diacritics), normalize alef variants, remove tatweel
    text = text.strip()
    # remove diacritics
    text = re.sub(r'[\u0617-\u061A\u064B-\u0652]', '', text)
    # normalize alef forms
    text = re.sub('[إأآا]', 'ا', text)
    text = re.sub('ى', 'ي', text)
    text = text.replace('ـ', '')  # tatweel
    # optional: normalize hamza forms
    text = re.sub('[ؤئء]', 'ء', text)
    # collapse whitespace
    text = ' '.join(text.split())
    return text

In [6]:
sample_df = df.sample(50, random_state=42)
sample_df.to_json("../data/arcd_sample50.jsonl", orient="records", lines=True, force_ascii=False)
print("Saved 50-sample to data/arcd_sample50.jsonl")

Saved 50-sample to data/arcd_sample50.jsonl


In [None]:
from datasets import load_dataset
from transformers import AutoTokenizer

dataset = load_dataset("json", data_files="../data/arcd_sample50.jsonl")["train"]

tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-base-arabic")

def preprocess(example):
    return tokenizer(
        example["question"],
        example["context"],
        padding="max_length",
        truncation=True,
        max_length=256,
        return_tensors="pt"
    )

tokenized = dataset.map(preprocess, batched=True)

print(tokenized[0].keys())
print(tokenized[0]["input_ids"][:30])