In [14]:
!pip install openai
!pip install python-dotenv



In [34]:
from openai import OpenAI
import os
import csv
from dotenv import load_dotenv

load_dotenv() 

OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

client = OpenAI(api_key=OPENAI_API_KEY)

In [229]:
adj = "Levantine"
country = "Jordan, Palestine, Lebanon, or Syria"

topics = [
    "personal updates, including health and wellbeing, family and friends",
    "relationships and social life, including marriage, friendship, social issues",
    "social and world events, including news and current events, weather, trends and social media",
    "technology, including new tech, apps, online trends",
    "money and finance, including personal finances, shopping and deals, economic updates",
    "entertainment and pop culture, including TV shows and movies, music, sports", 
    "daily activities, including plans for the day, food and cooking, hobbies and leisure",
    "travel and experiences, including local experiences and activities, cultural topics",
    "education and learning, including school, college, and studies",
    "work and career, including jobs and the workplace"
]

prompt = "Generate 200 unique sentences in the " + adj + " Arabic dialect, each capturing different everyday expressions, phrases, or dialogues used in " + country + " related to " + topics[9] + ". Use only the " + adj + " dialect, and do not use Modern Standard Arabic. Only output the data and output every sentence on a line without numbering the lines. Avoid redundancy."



# Parameters
model = "gpt-4o-mini"
max_tokens = 10000
temperature = 1

# Generate sentences
response = client.chat.completions.create(
    model=model,
    messages=[{"role": "user", "content": prompt}],
    max_tokens=max_tokens,
    temperature=temperature
)

In [230]:
response_message = response.choices[0].message.content

In [231]:
sentences = response_message.split("\n")
print(sentences)

['أنا بشتغل مكتب، وعندي دوام من الصبح للمغرب.  ', 'كيف بتحبي تشتغلي، عن بعد ولا بالمكتب؟  ', 'المدير طلب مني أعمل تقرير عن المشروع.  ', 'لازم أخلص الشغل قبل نهاية الأسبوع.  ', 'هالاجتماع مهم، ما لازم نفوّته.  ', 'يا ريتني كنت محامي لحتى أقدر أساعد الناس.  ', 'الشغل اليوم كان كتير متعب، حاسس حالي مرهق.  ', 'في فرصة عمل جديدة بمدينتنا، سمعت حدا عم يحكي عنها.  ', 'الموظفين عندنا فريق شغل متماسك.  ', 'مرة كنت أشتغل ع مشروع مع فريق من الخارج.  ', 'لو كنت مكانك، بشتغل بشركة أكبر.  ', 'الكادر عندنا كتير مبدع، وبساعدوا بعض.  ', 'في زميل عندي بالقسم يفهم بالتسويق كتير.  ', 'امتيازات العمل عندهم ممتازة.  ', 'أسبوع الجاي عندي مقابلة عمل، شو بتنصحيني؟  ', 'لما تكوني مع زملاءك بالعمل، بتحسي الحماس.  ', 'الأجواء بالمكتب دايمًا بتكون لطيفة.  ', 'الحمد لله على الوظيفة الجديدة يلي حصلت عليها.  ', 'دايمًا عم أتعلم أشياء جديدة بالشغل.  ', 'ممكن أخصص ساعة من وقتي لأسئلة المتدربين.  ', 'المدير عنده وجهة نظر مختلفة، لازم نسمعه.  ', 'العمل الجماعي بيخلي التقدم أسرع.  ', 'شو في مواعيد للدورات التدريبية هالفتر

In [232]:

# Define the CSV file name
csv_filename = "levantine_arabic9.csv"

# Open the CSV file in write mode
with open(csv_filename, mode="w", newline='', encoding='utf-8') as file:
    writer = csv.writer(file)

    # Write header
    writer.writerow(['ID', 'Text'])

    # Write each row from the response data
    for idx, sentence in enumerate(sentences):
        writer.writerow([idx + 1, sentence]) 

In [233]:
import pandas as pd
import glob

# List of all CSV files
csv_files = glob.glob("levantine_by_topic/*.csv")

# Read and concatenate all CSVs
df = pd.concat([pd.read_csv(file) for file in csv_files], ignore_index=True)
df = df["Text"]

# Save the combined data to a new CSV
df.to_csv("levantine.csv", index=False)