In [29]:
import glob
import random
import pandas as pd

In [15]:
DS = 'Alarabiya.net News Articles'
NUM_EXAMPLES = 1000

In [16]:
def prepare_articles_paths(ds_folder_path, num_examples):
    topics = glob.glob(ds_folder_path + '/*')
    num_topics = len(topics)
    articles_per_topic = round(num_examples / num_topics)
    dataset = []
    for topic in topics:
        articles = glob.glob(topic + '/*.txt')
        sample = random.sample(articles, articles_per_topic)
        dataset.extend(sample)

    return dataset[:1000]

articles_paths = prepare_articles_paths(DS, NUM_EXAMPLES)

In [22]:
print(len(articles_paths))
random.sample(articles_paths, 10)

1000


['Alarabiya.net News Articles\\Politics\\Politics10790.txt',
 'Alarabiya.net News Articles\\Economy\\Economy10237.txt',
 'Alarabiya.net News Articles\\Tourism\\Tourism15.txt',
 'Alarabiya.net News Articles\\Art\\Art1742.txt',
 'Alarabiya.net News Articles\\Economy\\Economy10302.txt',
 'Alarabiya.net News Articles\\Economy\\Economy10480.txt',
 'Alarabiya.net News Articles\\Art\\Art1679.txt',
 'Alarabiya.net News Articles\\Technology\\Technology165.txt',
 'Alarabiya.net News Articles\\Technology\\Technology1546.txt',
 'Alarabiya.net News Articles\\Tourism\\Tourism1125.txt']

In [17]:
def prepare_articles(articles_paths):
    articles = []
    for article_path in articles_paths:
        with open(article_path, 'r', encoding='utf-8') as file:
            article = file.read()
            articles.append(article)

    return articles

articles = prepare_articles(articles_paths)

In [36]:
def split_articles_into_title_content_pairs(articles):
    titles = []
    contents = []
    for article in articles:
        title, content = article.split('\n', 1)  # split by the first found instance of '\n'
        titles.append(title)
        contents.append(content)

    return titles, contents

titles, contents = split_articles_into_title_content_pairs(articles)

In [39]:
print(len(articles), '\n')
sample = random.sample(list(zip(titles, contents)), 5) 
for title, content in sample:
    print(f'title:\n{title}')
    print(f'Content:\n{content}', '\n\n')

1000 

title:
لصحة أفضل.. ملصقات تحذيرية تحارب السمنة 
Content:

المعروف أن السمنة أو الزيادة المفرطة للوزن تتسبب بأمراض قد تكون خطرة ومزمنة، منها أمراض القلب والنوع الثاني من السكري، وغيرها، كما تؤثر سلباً على نفسية الأشخاص., ونصح باحثون بريطانيون بضرورة وضع ملصقات على عبوات الأطعمة تشير إلى الأنشطة الرياضية المطلوبة لحرق السعرات الحرارية التي يحصل عليها الشخص من تناول هذه الأطعمة، وبالتالي تقل مخاطر السمنة., وقالوا إن تقديم نصائح للمستهلك بضرورة المشي لمدة أربع ساعات لحرق السعرات الحرارية الناتجة عن تناول البيتزا، أو المشي 22 دقيقة للتخلص من سعرات قطعة شوكولاتة، سيخلق وعياً بالتكلفة المطلوبة للحصول على الطاقة من الطعام., كما أشارت الدراسة الاستكشافية إلى أن وجود هذه الملصقات التحذيرية بحجم المجهود اللازم للاستفادة من الأطعمة سيساعد في الحد من الشراهة في تناول الأطعمة والاعتدال في التعامل مع الغذاء., والهدف الرئيسي من هذا الاقتراح هو التشجيع على عادات الأكل الصحية لمحاربة السمنة وزيادة الوزن., إلى ذلك أكد الباحثون في جامعة لوبورو البريطانية، الذين راجعوا 14 دراسة، على أن هذا النوع من 

In [50]:
data = {
    'url': '',
    'title': titles,
    'text': contents,
    'origin': 'ANAD'
}
my_dataset = pd.DataFrame(data)
my_dataset

Unnamed: 0,url,title,text,origin
0,,تفاصيل آخر اللحظات بحياة ماجدة.. وسبب تأجيل إع...,\nالفنانة المصرية، ماجدة الصباحي، عن عالمنا قب...,ANAD
1,,قصة مرض أجبر محمود ياسين على الاعتزال والبقاء ...,\nجديدة من أوراق الفن العربي سقطت، برحيل الفنا...,ANAD
2,,لماذا تآمرت وفاء عامر على شقيقتها آيتن في الفن؟,\nقوية تجمع الفنانة #وفاء_عامر بشقيقتها الصغرى...,ANAD
3,,#مرايا.. على العقيق اجتمعنا,"\nنرى صورة ماضينا؟, سؤال يترتب على جوابه نزاع ...",ANAD
4,,هذا ما قاله محمد رمضان عن حلا شيحة,\nأخرى تجددت الأقاويل التي تتناول علاقة الفنان...,ANAD
...,...,...,...,...
995,,العال الإسرائيلية تشغل 14 رحلة أسبوعين بين تل ...,\nمطارات دبي اليوم الرحلة الافتتاحية لخطوط الع...,ANAD
996,,الصين تعلق رحلات الأفراد إلى تايوان,\nالصين، اليوم الأربعاء، أنها ستعلق اعتبارا من...,ANAD
997,,"""السياحة المستدامة"" على رأس أولويات الفندقة با...",\nعلى البيئة والاستمتاع بخيراتها، لا يتعارض مع...,ANAD
998,,بدون جواز سفر أو حجر.. تذاكر طيران نفدت في 10 ...,\nشركة كانتاس للطيران الأسترالية، اليوم الجمعة...,ANAD


In [51]:
my_dataset.to_csv('human-written-text-dataset.csv', index_label='index')