In [14]:
!pip install openai
!pip install python-dotenv



In [34]:
from openai import OpenAI
import os
import csv
from dotenv import load_dotenv

load_dotenv() 

OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

client = OpenAI(api_key=OPENAI_API_KEY)

In [275]:
# adj = "Egyptian"
# country = "Egypt"

# adj = "Moroccan"
# country = "Morocco"

# adj = "Levantine"
# country = "Jordan, Palestine, Lebanon, or Syria"

adj = "Gulf"
country = "Saudi Arabia, Qatar, the UAE, or Oman"

topics = [
    "personal updates, including health and wellbeing, family and friends",
    "relationships and social life, including marriage, friendship, social issues",
    "social and world events, including news and current events, weather, trends and social media",
    "technology, including new tech, apps, online trends",
    "money and finance, including personal finances, shopping and deals, economic updates",
    "entertainment and pop culture, including TV shows and movies, music, sports", 
    "daily activities, including plans for the day, food and cooking, hobbies and leisure",
    "travel and experiences, including local experiences and activities, cultural topics",
    "education and learning, including school, college, and studies",
    "work and career, including jobs and the workplace"
]

prompt = "Generate 200 unique sentences in the " + adj + " Arabic dialect, each capturing different everyday expressions, phrases, or dialogues used in " + country + " related to " + topics[9] + ". Use only the " + adj + " dialect, and do not use Modern Standard Arabic. Only output the data and output every sentence on a line without numbering the lines. Avoid redundancy."



# Parameters
model = "gpt-4o-mini"
max_tokens = 10000
temperature = 1

# Generate sentences
response = client.chat.completions.create(
    model=model,
    messages=[{"role": "user", "content": prompt}],
    max_tokens=max_tokens,
    temperature=temperature
)

In [276]:
response_message = response.choices[0].message.content

In [277]:
sentences = response_message.split("\n")
print(sentences)

['اليوم عندي اجتماع مع مدير المشاريع.', 'وين قاعد تشتغل الحين؟', 'عندنا ضغط كبير في الشغل اليوم.', 'أحتاج أخلص هالمشروع قبل نهاية الأسبوع.', 'المكتب صار ضيق مع كثرة الزملاء.', 'ترى في فرصة عمل جديدة بالمعرض.', 'يوم الأحد راح نبدأ دورة تدريبية جديدة.', 'وين الرفاق؟ خايفين نخلص من الشغل.', 'تحتاج مساعدة في التقرير؟ أنا حاضر.', 'عملي يحتاج تفكير إبداعي على طول.', 'المدير يحب إذا الأمور منظمة ومرتبة.', 'عندنا مناقشة عن تطوير الفريق الأسبوع الجاي.', 'سألت عن الترقية، وما قالي شي.', 'أحب شغلي لأني أتعلم أشياء جديدة كل يوم.', 'خلصت شغلي قبل الوقت المحدد.', 'الأسبوع الماضي رحنا رحلة عمل لمعرض كبير.', 'لازم أضغط على نفسي وأتعلم مستجدات السوق.', 'السكرتير يمشي الأمور بشكل ممتاز في المكتب.', 'أكثر شي يعجبني في شغلي هو التعاون مع الزملاء.', 'كلنا نحتاج نشارك الأفكار لتحسين الأداء.', 'أحب الشغل اللي يتطلب مني التفكير والتحليل.', 'صحيح إننا نشتغل ضغط، لكن النتيجة تكون حلوة.', 'لازم أسوي جدول أعمال لترتيب المهام.', 'إذا تحب تسأل عن تفاصيل الوظيفة، أنا هنا.', 'وزملائي دائمًا يساعدوني في المشاريع الكبي

In [278]:

# Define the CSV file name
csv_filename = "gulf_by_topic/gulf_arabic9.csv"

# Open the CSV file in write mode
with open(csv_filename, mode="w", newline='', encoding='utf-8') as file:
    writer = csv.writer(file)

    # Write header
    writer.writerow(['ID', 'Text'])

    # Write each row from the response data
    for idx, sentence in enumerate(sentences):
        writer.writerow([idx + 1, sentence]) 

In [279]:
import pandas as pd
import glob

# List of all CSV files
csv_files = glob.glob("gulf_by_topic/*.csv")

# Read and concatenate all CSVs
df = pd.concat([pd.read_csv(file) for file in csv_files], ignore_index=True)
df = df["Text"]

# Save the combined data to a new CSV
df.to_csv("gulf.csv", index=False)