In [14]:
!pip install openai
!pip install python-dotenv



In [34]:
from openai import OpenAI
import os
import csv
from dotenv import load_dotenv

load_dotenv() 

OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

client = OpenAI(api_key=OPENAI_API_KEY)

In [176]:
adj = "Moroccan"
country = "Morocco"

topics = [
    "personal updates, including health and wellbeing, family and friends",
    "relationships and social life, including marriage, friendship, social issues",
    "social and world events, including news and current events, weather, trends and social media",
    "technology, including new tech, apps, online trends",
    "money and finance, including personal finances, shopping and deals, economic updates",
    "entertainment and pop culture, including TV shows and movies, music, sports", 
    "daily activities, including plans for the day, food and cooking, hobbies and leisure",
    "travel and experiences, including local experiences and activities, cultural topics",
    "education and learning, including school, college, and studies",
    "work and career, including jobs and the workplace"
]

prompt = "Generate 200 unique sentences in the " + adj + " Arabic dialect, each capturing different everyday expressions, phrases, or dialogues used in " + country + " related to " + topics[9] + ". Use only the " + adj + " dialect, and do not use Modern Standard Arabic. Only output the data and output every sentence on a line without numbering the lines. Avoid redundancy."



# Parameters
model = "gpt-4o-mini"
max_tokens = 10000
temperature = 1

# Generate sentences
response = client.chat.completions.create(
    model=model,
    messages=[{"role": "user", "content": prompt}],
    max_tokens=max_tokens,
    temperature=temperature
)

In [177]:
response_message = response.choices[0].message.content

In [178]:
sentences = response_message.split("\n")
print(sentences)

['خسني نلقا واحد الخدمة اللي تناسبني.  ', 'عندك شي تجربة فهاد الميدان؟  ', 'صافي، غادي نبدى من الغد.  ', 'ما كاين حتى مشكل، أنا مستعد نخدم بجد.  ', 'واش كتعرف شي واحد فالشركة ديالكم؟  ', 'بالصحة، تقضي نهار طويل فالشغل.  ', 'كيضرني راسي من كثرة الخدمة.  ', 'عندي موعد مع المديرة اليوم.  ', 'خاصني نجيب معايا السيرة الذاتية.  ', 'دابا خاصني نكون حاضر فالمكتب بكري.  ', 'حظ سعيد فالمقابلة ديالك.  ', 'الناس هنا قاسين، خدمتي ولا غتكون صعيبة.  ', 'عندنا عطل كل يوم جمعة، عارف؟  ', 'وش كاين مشروع جديد غادي نبداو فيه؟  ', 'فرحانة حيث لقيت خدمة مزيانة.  ', 'خدمتي كتخليني نكتشف ناس جدد.  ', 'بالصحة، كل واحد والوظيفة ديالو.  ', 'دابا خاصني نركز على الهدف ديالي.  ', 'كتعرف شي تقني فالإصلاحات؟  ', 'كيفاش دوزتي النهار فالشغل اليوم؟  ', 'خسني أتعلم تقنيات جديدة.  ', 'أنا ما زلت فبداية الطريق هنا.  ', 'مازال خاصني تطور فالمهنة ديالي.  ', 'كيفاش أنا نكون جزء من هاد الفريق؟  ', 'غادي نتنظر النتائج ديالك.  ', 'صعيب نلقى التوازن بين الخدمة والحياة.  ', 'فين كاين الجلسة العامة؟  ', 'بغيت نسولك على فرص الترقية.

In [179]:

# Define the CSV file name
csv_filename = "moroccan_arabic9.csv"

# Open the CSV file in write mode
with open(csv_filename, mode="w", newline='', encoding='utf-8') as file:
    writer = csv.writer(file)

    # Write header
    writer.writerow(['ID', 'Text'])

    # Write each row from the response data
    for idx, sentence in enumerate(sentences):
        writer.writerow([idx + 1, sentence]) 

In [180]:
import pandas as pd
import glob

# List of all CSV files
csv_files = glob.glob("moroccan_by_topic/*.csv")

# Read and concatenate all CSVs
df = pd.concat([pd.read_csv(file) for file in csv_files], ignore_index=True)
df = df["Text"]

# Save the combined data to a new CSV
df.to_csv("moroccan.csv", index=False)