In [14]:
!pip install openai
!pip install python-dotenv



In [34]:
from openai import OpenAI
import os
import csv
from dotenv import load_dotenv

load_dotenv() 

OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

client = OpenAI(api_key=OPENAI_API_KEY)

In [321]:
# adj = "Egyptian"
# country = "Egypt"

# adj = "Moroccan"
# country = "Morocco"

# adj = "Levantine"
# country = "Jordan, Palestine, Lebanon, or Syria"

# adj = "Gulf"
# country = "Saudi Arabia, Qatar, the UAE, or Oman"

adj = "Iraqi"
country = "Iraq"

topics = [
    "personal updates, including health and wellbeing, family and friends",
    "relationships and social life, including marriage, friendship, social issues",
    "social and world events, including news and current events, weather, trends and social media",
    "technology, including new tech, apps, online trends",
    "money and finance, including personal finances, shopping and deals, economic updates",
    "entertainment and pop culture, including TV shows and movies, music, sports", 
    "daily activities, including plans for the day, food and cooking, hobbies and leisure",
    "travel and experiences, including local experiences and activities, cultural topics",
    "education and learning, including school, college, and studies",
    "work and career, including jobs and the workplace"
]

prompt = "Generate 200 unique sentences in the " + adj + " Arabic dialect, each capturing different everyday expressions, phrases, or dialogues used in " + country + " related to " + topics[5] + ". Use only the " + adj + " dialect, and do not use Modern Standard Arabic. Only output the data and output every sentence on a line without numbering the lines. Avoid redundancy."



# Parameters
model = "gpt-4o-mini"
max_tokens = 10000
temperature = 1

# Generate sentences
response = client.chat.completions.create(
    model=model,
    messages=[{"role": "user", "content": prompt}],
    max_tokens=max_tokens,
    temperature=temperature
)

In [322]:
response_message = response.choices[0].message.content

In [323]:
sentences = response_message.split("\n")
print(sentences)

['شلونك يا خويه، شفت الحلقة الجديدة من مسلسل "الأسود الأبيض"؟  ', 'موسيقى "ماجد المهندس" دايمًا تطربني، وش رأيك؟  ', 'الله يا زين المجاملات بين المتسابقين في "ذا فويس"!  ', 'اليوم رايحين نشوف فيلم "الفلوس" بالجعبة!  ', 'خلصت الموسم الأول من "صراع العروش"، شنو رأيك بالنهاية؟  ', 'سمعت أغنية جديدة لبدر الشعلان، صراحة حلوة كلها إحساس.  ', 'تدرين يمه، شنو رأيك ببطولة الكأس، العراق جاب العيد!  ', 'اليوم في عرض لأفلام الرعب في السينما، حاضرين؟  ', 'آخ منك يا ابن الناس، هالبرنامج مضحك لحد الضحك.  ', 'شايف "وظيفة شاقة"؟ مرّحب بك يا أبو الهرجة.  ', 'ياخي، صارلي أسبوعين ما شفت "الراقصة والطبال"!  ', 'اللعبة "فورتنايت" صارت تجيبها الشريحة الكبيرة!  ', 'هل متحمس لمباراة الزوراء والجوية؟ العود بيعلم!  ', 'مسلسل "أهل الهوى" صار حديث المدينة!  ', 'أحب أغاني "بسمة" لأن تجي بوقت الضيق.  ', 'برنمج "الموسم" دايمًا يجذبني بأفكاره الجديدة.  ', 'اليوم عندنا موال، ومتحمس للحضور.  ', 'لاتنسى انك تجيب معاك شغلات للسهرة!  ', 'وين شفت هالكنز يا عم؟ أكيد من صالح الجبوري.  ', 'منو من الشباب صار يشجع مانشستر يونايت

The cell below writes the output of the request to a csv file.

In [324]:

# Define the CSV file name
csv_filename = "iraqi_by_topic/iraqi_arabic5.csv"

# Open the CSV file in write mode
with open(csv_filename, mode="w", newline='', encoding='utf-8') as file:
    writer = csv.writer(file)

    # Write header
    writer.writerow(['ID', 'Text'])

    # Write each row from the response data
    for idx, sentence in enumerate(sentences):
        writer.writerow([idx + 1, sentence]) 

Run the cell below to concatenate the seperate csv files that were generated by topic.
The below cell combines all the csv files in the folder `iraqi_by_topic` and writes the output to a file called `iraqi.csv`. Switch out these folder and file names accordingly.

In [326]:
import pandas as pd
import glob

# List of all CSV files
csv_files = glob.glob("iraqi_by_topic/*.csv")

# Read and concatenate all CSVs
df = pd.concat([pd.read_csv(file) for file in csv_files], ignore_index=True)
df = df["Text"]

# Save the combined data to a new CSV
df.to_csv("iraqi.csv", index=False)

In [336]:
df_egp = pd.read_csv('generated_data/egyptian.csv')
df_egp['label'] = 'Egyptian'
df_egp = df_egp.sample(n=1300)

df_lev = pd.read_csv('generated_data/levantine.csv')
df_lev['label'] = 'Levantine'
df_lev = df_lev.sample(n=1300)

df_mor = pd.read_csv('generated_data/moroccan.csv')
df_mor['label'] = 'Maghrebi'
df_mor = df_mor.sample(n=1300)

df_gulf = pd.read_csv('generated_data/gulf.csv')
df_gulf['label'] = 'Gulf'
df_gulf =df_gulf.sample(n=1300)

df_iraq = pd.read_csv('generated_data/iraqi.csv')
df_iraq['label'] = 'Iraqi'
df_iraq = df_iraq.sample(n=1300)

In [337]:
df = pd.concat([df_egp, df_gulf, df_lev, df_mor, df_iraq], ignore_index=True)

df_shuffled = df.sample(frac=1 , random_state=42).reset_index(drop=True)

df_shuffled

Unnamed: 0,Text,label
0,شرب الشاي مع النعناع، في وقت الاسترخاء.,Levantine
1,أمك شلونها، تحسنت صحتها بعد العملية؟,Iraqi
2,ذهبت لزيارة الأخت، وأحببت الجلسة معها.,Gulf
3,سمعت إنه فيه فرقة جديدة عم تتكون، بدها جماهير ...,Levantine
4,خطر لي، هل فعلا نقدر نحب جميعًا؟,Iraqi
...,...,...
6495,أسأل عن الطقس، تقدر تتوقع لي الرحلة لأحسن الأس...,Levantine
6496,مازال كنسمع مبشور عن الفنون المختلطة!,Maghrebi
6497,جدي كان عنده عيد ميلاده الأسبوع الماضي، كتير ف...,Iraqi
6498,ابن خالي يشتغل بالتجارة، وهو كاسب زين.,Iraqi


In [339]:
df_shuffled.to_csv("generated_data.csv", index=True)