In [1]:
import glob
import random
import pandas as pd

In [14]:
DS = 'Alarabiya.net News Articles'
NUM_EXAMPLES = 7000

In [15]:
def prepare_articles_paths(ds_folder_path, num_examples):
    topics = glob.glob(ds_folder_path + '/*')
    num_topics = len(topics)
    articles_per_topic = round(num_examples / num_topics)
    dataset = []
    for topic in topics:
        articles = glob.glob(topic + '/*.txt')
        sample = random.sample(articles, articles_per_topic)
        dataset.extend(sample)

    return dataset[:num_examples]

articles_paths = prepare_articles_paths(DS, NUM_EXAMPLES)

In [7]:
print(len(articles_paths))
random.sample(articles_paths, 10)

7000


['Alarabiya.net News Articles\\Art\\Art1251.txt',
 'Alarabiya.net News Articles\\Politics\\Politics10024.txt',
 'Alarabiya.net News Articles\\Politics\\Politics10288.txt',
 'Alarabiya.net News Articles\\Art\\Art1576.txt',
 'Alarabiya.net News Articles\\Tourism\\Tourism1268.txt',
 'Alarabiya.net News Articles\\Art\\Art1797.txt',
 'Alarabiya.net News Articles\\Technology\\Technology1660.txt',
 'Alarabiya.net News Articles\\Sport\\Sport1321.txt',
 'Alarabiya.net News Articles\\Technology\\Technology1256.txt',
 'Alarabiya.net News Articles\\Technology\\Technology1195.txt']

In [16]:
def prepare_articles(articles_paths):
    articles = []
    for article_path in articles_paths:
        with open(article_path, 'r', encoding='utf-8') as file:
            article = file.read()
            articles.append(article)

    return articles

articles = prepare_articles(articles_paths)

In [17]:
def split_articles_into_title_content_pairs(articles):
    titles = []
    contents = []
    for article in articles:
        title, content = article.split('\n', 1)  # split by the first found instance of '\n'
        titles.append(title)
        contents.append(content)

    return titles, contents

titles, contents = split_articles_into_title_content_pairs(articles)

In [20]:
print(len(articles), '\n')
sample = random.sample(list(zip(titles, contents)), 2)
for title, content in sample:
    print(f'title:\n{title}')
    print(f'Content:\n{content}', '\n\n')

7000 

title:
الصندوق الصناعي للعربية: جدولة قروض بـ4 مليارات ريال 
Content:

الرئيس التنفيذي لصندوق التنمية الصناعية السعودي إبراهيم المعجل، في مقابلة مع العربية"، أنه يتوقع أن تتم إعادة جدولة قروض بـ4 مليارات ريال بـ2020، بسبب أزمة كورونا., وأوضح المعجل أنه تم إعادة هيكلة سداد أقساط القروض لأكثر من 350 شركة صغيرة وطبية بمبالغ تتجاوز النصف مليار ريال، بدون طلب منها., في وقت تتم دراسة التأثيرات على 240 شركة متوسطة، من جراء الإجراءات الاحترازية., وتتسارع وتيرة المبادرات الحكومية في السعودية، لمواجهة تداعيات كورونا., وتهدف المبادرات الحكومية لمساعدة الشركات الصناعية في إدارة التدفقات النقدية، من خلال إعادة جدولة أو هيكلة القروض.. ومعالجة تكدّس المخزون بسبب ضعف الطلب., حيث أعلن صندوق التنمية الصناعية السعودي عن تأجيل وإعادة هيكلة سداد أقساط القروض للمشاريع الصغيرة والمشاريع الطبية التي تحل أقساطها خلال العام الحالي., وكذلك تأجيل أو إعادة جدولة أقساط القروض للمصانع المتوسطة والكبيرة، التي تأثرت بالإجراءات الاحترازية للحد من انتشار فيروس كورونا., كما يعمل الصندوق على استحداث برنامج خاص لتمو

In [21]:
data = {
    'url': 'UNK',
    'title': titles,
    'text': contents,
    'origin': 'ANAD'
}
my_dataset = pd.DataFrame(data)
my_dataset

Unnamed: 0,url,title,text,origin
0,UNK,بالصور.. فنانو #لبنان و#سوريا يغنون كلنا للوطن,\nعدد من الفنانين من لبنان وسوريا في المهرجان ...,ANAD
1,UNK,"""إحياء لروح الموصل"".. اليونسكو تعيد بناء جامع ...",\nمنظمة الأمم المتحدة للتربية والعلم والثقافة ...,ANAD
2,UNK,تعافي نجم بوليوود أميتاب باتشان من كورونا,\nالممثل الهندي أبهيشيك باتشان، ابن الممثل الش...,ANAD
3,UNK,ما سبب رفض هؤلاء النجوم عمل أبنائهم بالتمثيل؟,\nعن فرصة من أجل إثبات الذات يبدو هي المرحلة ا...,ANAD
4,UNK,"""أيام الشارقة"" تكرم سعاد عبدالله وإسماعيل عبدا...",\nاللجنة المنظمة لأيام الشارقة المسرحية التي س...,ANAD
...,...,...,...,...
6995,UNK,الطيران العماني يعتزم زيادة طائراته عريضة البدن,\nبول جريجورويتش، الرئيس التنفيذي لشركة الطيرا...,ANAD
6996,UNK,الخطوط السعودية تنقل أكثر من 25 مليون راكب بـ2...,\nالخطوط الجوية العربية السعودية خلال 2013 أكث...,ANAD
6997,UNK,"كلارك: ""إيرباص"" تتخبط بتطوير أكبر طائراتها",\nبلومبيرغ عن تيم كلارك، رئيس طيران الإمارات، ...,ANAD
6998,UNK,الاتحاد للطيران تنافس بقوة على خط ابوظبي - فرا...,\nشركة إير برلين إن السلطات الألمانية علقت قرا...,ANAD


In [22]:
my_dataset.to_csv('human-written-text-dataset.csv', index_label='index')