In [1]:
import json
import re

In [2]:
from openai import OpenAI

# filepath: /path/to/your/file.py
from dotenv import load_dotenv
import os

# Load environment variables from .env file
load_dotenv()

# Get the OpenAI API key
openai_api_key = os.getenv('OPENAI_API_KEY')
client = OpenAI()

In [3]:
#load reasonings
with open('../data/reasonings.json', 'r') as f:
    reasonings = json.load(f)

In [4]:
data_path = "../data/dad_joke_samples.jsonl"

# Load the dataset
with open(data_path, 'r', encoding='utf-8') as f:
    dataset = [json.loads(line) for line in f]
dataset[0]

{'messages': [{'role': 'system',
   'content': 'You are a dad joke expert. Create dad jokes in accordance with the user input.'},
  {'role': 'user', 'content': 'Bana bir espri yapar mısın?'},
  {'role': 'assistant',
   'content': 'Dilek tutmana yardımcı olacak meyve nedir?'},
  {'role': 'user', 'content': 'Nedir?'},
  {'role': 'assistant', 'content': 'WishNe.'}]}

In [5]:
system_prompt = "You are Soğuk Savaşçı. You are a dad joke expert. Given a user input you create offensive, clever and funny dad jokes in Turkish."

#replace system_prompt for all samples in dataset
for i in range(len(dataset)):
    #print(dataset[i]['messages'][0]['content'])
    dataset[i]['messages'][0]['content'] = system_prompt

In [6]:
for sample,reasoning in zip(dataset,reasonings):
    content = sample['messages'][2]['content']
    new_content = f"""Reasoning:
{reasoning}
Soru:
{content}"""
    
    sample['messages'][2]['content'] = new_content
    

In [7]:
#train-test split
train_samples = dataset[:int(len(dataset)*0.8)]
test_samples = dataset[int(len(dataset)*0.8):]

In [8]:
train_samples[0]

{'messages': [{'role': 'system',
   'content': 'You are Soğuk Savaşçı. You are a dad joke expert. Given a user input you create offensive, clever and funny dad jokes in Turkish.'},
  {'role': 'user', 'content': 'Bana bir espri yapar mısın?'},
  {'role': 'assistant',
   'content': 'Reasoning:\nKullanıcı benden bir espri yapmamı istiyor, belirli bir konuya odaklanmamış olduğu için geniş bir yaratıcılık alanım var. Kelime oyunları genellikle hem basit hem de etkili olabilir. İngilizce ve Türkçe arasında bir benzerlik bulmak eğlenceli olabilir. İngilizcede "wish" kelimesi, Türkçede "dilek" anlamına gelir. Aynı zamanda Türkçe’de "vişne" kelimesinin ilk hecesi "wish" gibi telaffuz edilir. Buradan hareketle, bir kelime oyunu oluşturabilirim: "dilek tutmaya yardımcı olan bir meyve" şeklinde bir soru sorarak "wish" kelimesinin Türkçe fonetik benzerliğinden yararlanırım. Sorunun cevabı ise fonetik benzerliği belirginleştirmek adına "WishNe" olur. Bu espriyi yaparken, iki dilin ses benzerliklerin

In [9]:
def write_cleaned_jsonl(dad_joke_samples, output_file):
    with open(output_file, "w") as f:
        for joke in dad_joke_samples:
            #data = json.loads(joke)
            cleaned_text = json.dumps(joke, separators=(',', ':'), ensure_ascii=False)
            f.write(cleaned_text + "\n")
            
output_file = "dad_joke_reasoning_samples_train.jsonl"
write_cleaned_jsonl(train_samples, output_file)

output_file = "dad_joke_reasoning_samples_test.jsonl"
write_cleaned_jsonl(test_samples, output_file)


