In [24]:
import glob
import os
import pandas as pd
from pathlib import Path
import re

In [25]:
AI_FOLDER = "ai"
HUMAN_DATASET = 'human-written-text-dataset.csv'

In [26]:
def get_models_folders(ai_folder, exclude: set=None):
    pattern = os.path.join(ai_folder, '*')
    models = glob.glob(pattern)
    to_remove = set()
    for model in models:
        if model in exclude:
            to_remove.add(model)
    for tr in to_remove:
        models.remove(tr)
    return models

models_to_exclude = ['GEMINI']
exclude = {os.path.join(AI_FOLDER, p) for p in models_to_exclude}

models_folders = get_models_folders(AI_FOLDER, exclude=exclude)
models_folders

['ai\\COGITO', 'ai\\GPT']

In [27]:
def get_ai_articles(model_folder):
    folder = Path(model_folder)
    def num_key(p: Path):
        n = re.search(r"(\d+)", p.stem)
        return int(n.group(1))
    articles_files = sorted(folder.glob("*.txt"), key=num_key)
    # print(articles_files[-10:])
    # return
    articles = []
    for art_file in articles_files:
        with open(art_file, 'r', encoding='utf8') as file:
            articles.append(file.read())
    return articles

cogito_articles = get_ai_articles(models_folders[0])
gpt_articles = get_ai_articles(models_folders[1])

In [28]:
gpt_labels = ['GPT-oss' for _ in range(len(gpt_articles))]
cogito_labels = ['Cogito-v2.1' for _ in range(len(cogito_articles))]

In [29]:
articles = []
articles.extend(gpt_articles)
articles.extend(cogito_articles)

labels = []
labels.extend(gpt_labels)
labels.extend(cogito_labels)
print(articles[0])
print(articles[1])
print(articles[2])
print(labels[:3])
print(articles[3500])
print(articles[3501])
print(articles[3502])
print(labels[3500:3503])

ai_articles = pd.Series(articles, name='ai')
labels = pd.Series(labels, name='generated by')


العالم يحتفي بالفنون المغربية في دولة الإمارات  
[تُعَدّ الفنون المغربية مرآةً حيةً للتاريخ العريق الذي يجمع بين الأنماط الأمازيغية والعربية والإسلامية، وتُظهر القدرة على تجسيد التعددية الثقافية في إبداعاتٍ مبهرةٍ على الساحة الدولية.]  

الدورة الأولى من مهرجان "أصداء" العالمي لموسيقى وثقافات العالم في 25 نوفمبر وتستمر حتى الأول من ديسمبر القادم بفندق الميدان بدبي، بم مشاركة موسيقيين وباحثين يمثلون عدة دول ومجالات فلسفية وثقافية، وذلك برعاية من العاهل المغربي محمد السادس., وقالت ميثاء الفلاسي، رئيسة المهرجان إن المملكة المغربية شريك استراتيجي لهذا الحدث الهام في كل دوراته وضيف شرف في دورته الأولى., وتوجهت ميثاء بالشكر للعاهل المغربي خلال المؤتمر الصحافي الذي أقيم مؤخراً في المكتبة الوطنية للمملكة المغربية في الرباط، بحضور العديد من الشخصيات البارزة في شتى المجالات، مشيرة إلى حرصه على نقل تجربة المملكة المغربية في التعايش الديني والعرقي المتنوع الذي تشهده إلى كل العالم من خلال الفن الذي كان ولا يزال أحد أجمل الجسور الإنسانية بين البشر., ونوهت رئيسة المهرجان بالدور الكبير الذي تلعبه دولة

In [30]:
df = pd.read_csv(HUMAN_DATASET)
df

Unnamed: 0,index,url,text,origin
0,0,UNK,العالم يحتفي بالفنون المغربية في دولة الإمارات...,ANAD
1,1,UNK,ميلانو.. أوبرا تسلط الضوء على قضية التغيير الم...,ANAD
2,2,UNK,"الليلة.. تعود مؤامرات ""الحرملك"" في #سرايا عابد...",ANAD
3,3,UNK,منى واصف: أفضل الأدوار التي أصفع فيها زملائي \...,ANAD
4,4,UNK,هكذا ظهر عمرو دياب بحفل اليونان.. ودينا الشربي...,ANAD
...,...,...,...,...
6995,6995,UNK,"البراكين تخيف السياح من السفر لـ""بالي"" \n\nمس...",ANAD
6996,6996,UNK,حجز 90% من رحلات روسيا الجوية للقاهرة \n\nعضو ...,ANAD
6997,6997,UNK,الخطوط السعودية تبيع تذاكر إلكترونية بـ2.7 ملي...,ANAD
6998,6998,UNK,إياتا: الطلب العالمي على النقل الجوي يرتفع 3.4...,ANAD


In [31]:
df = df.assign(ai=ai_articles)
df

Unnamed: 0,index,url,text,origin,ai
0,0,UNK,العالم يحتفي بالفنون المغربية في دولة الإمارات...,ANAD,العالم يحتفي بالفنون المغربية في دولة الإمارات...
1,1,UNK,ميلانو.. أوبرا تسلط الضوء على قضية التغيير الم...,ANAD,ميلانو.. أوبرا تسلط الضوء على قضية التغيير الم...
2,2,UNK,"الليلة.. تعود مؤامرات ""الحرملك"" في #سرايا عابد...",ANAD,"الليلة.. تعود مؤامرات ""الحرملك"" في #سرايا عابد..."
3,3,UNK,منى واصف: أفضل الأدوار التي أصفع فيها زملائي \...,ANAD,منى واصف: أفضل الأدوار التي أصفع فيها زملائي \...
4,4,UNK,هكذا ظهر عمرو دياب بحفل اليونان.. ودينا الشربي...,ANAD,هكذا ظهر عمرو دياب بحفل اليونان.. ودينا الشربي...
...,...,...,...,...,...
6995,6995,UNK,"البراكين تخيف السياح من السفر لـ""بالي"" \n\nمس...",ANAD,"البراكين تخيف السياح من السفر لـ""بالي"" \n\nمس..."
6996,6996,UNK,حجز 90% من رحلات روسيا الجوية للقاهرة \n\nعضو ...,ANAD,حجز 90% من رحلات روسيا الجوية للقاهرة \n\nعضو ...
6997,6997,UNK,الخطوط السعودية تبيع تذاكر إلكترونية بـ2.7 ملي...,ANAD,الخطوط السعودية تبيع تذاكر إلكترونية بـ2.7 ملي...
6998,6998,UNK,إياتا: الطلب العالمي على النقل الجوي يرتفع 3.4...,ANAD,إياتا: الطلب العالمي على النقل الجوي يرتفع 3.4...


In [32]:
df = df.assign(generated_by=labels)
df

Unnamed: 0,index,url,text,origin,ai,generated_by
0,0,UNK,العالم يحتفي بالفنون المغربية في دولة الإمارات...,ANAD,العالم يحتفي بالفنون المغربية في دولة الإمارات...,GPT-oss
1,1,UNK,ميلانو.. أوبرا تسلط الضوء على قضية التغيير الم...,ANAD,ميلانو.. أوبرا تسلط الضوء على قضية التغيير الم...,GPT-oss
2,2,UNK,"الليلة.. تعود مؤامرات ""الحرملك"" في #سرايا عابد...",ANAD,"الليلة.. تعود مؤامرات ""الحرملك"" في #سرايا عابد...",GPT-oss
3,3,UNK,منى واصف: أفضل الأدوار التي أصفع فيها زملائي \...,ANAD,منى واصف: أفضل الأدوار التي أصفع فيها زملائي \...,GPT-oss
4,4,UNK,هكذا ظهر عمرو دياب بحفل اليونان.. ودينا الشربي...,ANAD,هكذا ظهر عمرو دياب بحفل اليونان.. ودينا الشربي...,GPT-oss
...,...,...,...,...,...,...
6995,6995,UNK,"البراكين تخيف السياح من السفر لـ""بالي"" \n\nمس...",ANAD,"البراكين تخيف السياح من السفر لـ""بالي"" \n\nمس...",Cogito-v2.1
6996,6996,UNK,حجز 90% من رحلات روسيا الجوية للقاهرة \n\nعضو ...,ANAD,حجز 90% من رحلات روسيا الجوية للقاهرة \n\nعضو ...,Cogito-v2.1
6997,6997,UNK,الخطوط السعودية تبيع تذاكر إلكترونية بـ2.7 ملي...,ANAD,الخطوط السعودية تبيع تذاكر إلكترونية بـ2.7 ملي...,Cogito-v2.1
6998,6998,UNK,إياتا: الطلب العالمي على النقل الجوي يرتفع 3.4...,ANAD,إياتا: الطلب العالمي على النقل الجوي يرتفع 3.4...,Cogito-v2.1


In [33]:
df.to_csv("dataset.csv", index=False)