In [None]:
import json
import openai
import time
from typing import List, Dict, Any
import asyncio
import aiohttp

# OpenAI API 설정
openai.api_key = "your-api-key-here"  # 여기에 실제 API 키를 입력하세요

class CompletionReplacer:
    def __init__(self, api_key: str, model: str = "gpt-4o"):
        self.api_key = api_key
        self.model = model
        self.client = openai.OpenAI(api_key=api_key)
    
    def load_jsonl_data(self, file_path: str) -> List[Dict[str, Any]]:
        """JSONL 파일을 읽어서 데이터를 로드합니다."""
        with open(file_path, 'r', encoding='utf-8') as f:
            content = f.read().strip()
            # JSON 배열 형태인 경우
            if content.startswith('[') and content.endswith(']'):
                return json.loads(content)
            # JSONL 형태인 경우
            else:
                data = []
                for line in content.split('\n'):
                    if line.strip():
                        data.append(json.loads(line))
                return data
    
    def generate_completion(self, prompt: str, system_prompt: str = None) -> str:
        """단일 프롬프트에 대해 OpenAI API를 사용해 응답을 생성합니다."""
        try:
            messages = []
            if system_prompt:
                messages.append({"role": "system", "content": system_prompt})
            messages.append({"role": "user", "content": prompt})
            
            response = self.client.chat.completions.create(
                model=self.model,
                messages=messages,
                max_tokens=500,
                temperature=0.7
            )
            
            return response.choices[0].message.content.strip()
        
        except Exception as e:
            print(f"API 호출 중 오류 발생: {e}")
            return f"오류: {str(e)}"
    
    def count_tokens_approximate(self, text: str) -> int:
        """토큰 수를 대략적으로 계산합니다."""
        # 한국어의 경우 대략 1.5-2자당 1토큰으로 추정
        return len(text) // 1.5
    
    def process_data(self, data: List[Dict[str, Any]], system_prompt: str = None, delay: float = 1.0) -> List[Dict[str, Any]]:
        """전체 데이터를 처리해서 새로운 completion을 생성합니다."""
        processed_data = []
        
        for i, item in enumerate(data):
            print(f"처리 중... {i+1}/{len(data)}: {item['prompt'][:30]}...")
            
            # 새로운 completion 생성
            new_completion = self.generate_completion(item['prompt'], system_prompt)
            
            # 새로운 토큰 수 계산
            new_tokens = int(self.count_tokens_approximate(new_completion))
            
            # 새로운 데이터 생성
            new_item = {
                "prompt": item['prompt'],
                "completion": new_completion,
                "tokens": new_tokens
            }
            
            processed_data.append(new_item)
            
            # API rate limit 방지를 위한 딜레이
            time.sleep(delay)
        
        return processed_data
    
    def save_results(self, data: List[Dict[str, Any]], output_path: str, format_type: str = "json"):
        """결과를 파일로 저장합니다."""
        if format_type == "jsonl":
            with open(output_path, 'w', encoding='utf-8') as f:
                for item in data:
                    f.write(json.dumps(item, ensure_ascii=False) + '\n')
        else:  # JSON 배열 형태
            with open(output_path, 'w', encoding='utf-8') as f:
                json.dump(data, f, ensure_ascii=False, indent=2)
        
        print(f"결과가 {output_path}에 저장되었습니다.")

# 사용 예시 - 다양한 최신 모델 옵션
def main():
    API_KEY = "your-openai-api-key-here"  # 실제 API 키로 변경
    INPUT_FILE = "kochatgpt_1_SFT.jsonl"
    OUTPUT_FILE = "kochatgpt_1_SFT_updated.json"
    
    # 최신 모델 선택 옵션들:
    # "gpt-4o" - 최신 GPT-4 Omni (추천)
    # "gpt-4-turbo" - GPT-4 Turbo 
    # "gpt-4o-mini" - 더 빠르고 저렴한 버전
    # "o1-preview" - OpenAI o1 모델 (추론 특화)
    # "o1-mini" - o1의 더 빠른 버전
    
    SELECTED_MODEL = "gpt-4o"  # 원하는 모델로 변경하세요
    
    # 시스템 프롬프트 (선택사항)
    SYSTEM_PROMPT = """당신은 도움이 되고 친근한 한국어 AI 어시스턴트입니다. 
사용자의 질문에 정확하고 유용한 답변을 제공해주세요. 
답변은 자연스럽고 이해하기 쉽게 작성해주세요."""
    
    # CompletionReplacer 인스턴스 생성 (선택한 모델 사용)
    replacer = CompletionReplacer(API_KEY, model=SELECTED_MODEL)
    
    try:
        # 1. 기존 데이터 로드
        print("기존 데이터를 로드하는 중...")
        original_data = replacer.load_jsonl_data(INPUT_FILE)
        print(f"총 {len(original_data)}개의 항목을 발견했습니다.")
        
        # 2. 새로운 completion 생성
        print("OpenAI API를 사용해 새로운 응답을 생성하는 중...")
        updated_data = replacer.process_data(
            original_data, 
            system_prompt=SYSTEM_PROMPT,
            delay=1.0  # 1초 딜레이
        )
        
        # 3. 결과 저장
        replacer.save_results(updated_data, OUTPUT_FILE)
        
        # 4. 간단한 결과 출력
        print("\n=== 처리 완료 ===")
        print(f"총 {len(updated_data)}개 항목이 처리되었습니다.")
        print(f"평균 토큰 수: {sum(item['tokens'] for item in updated_data) / len(updated_data):.1f}")
        
        # 첫 번째 예시 출력
        if updated_data:
            print(f"\n=== 첫 번째 항목 예시 ===")
            print(f"프롬프트: {updated_data[0]['prompt']}")
            print(f"새로운 응답: {updated_data[0]['completion'][:100]}...")
            print(f"토큰 수: {updated_data[0]['tokens']}")
    
    except Exception as e:
        print(f"처리 중 오류 발생: {e}")

if __name__ == "__main__":
    main()

# 비동기 버전 (더 빠른 처리를 원하는 경우)
class AsyncCompletionReplacer:
    def __init__(self, api_key: str, model: str = "gpt-4o", max_concurrent: int = 5):
        self.api_key = api_key
        self.model = model
        self.max_concurrent = max_concurrent
        self.semaphore = asyncio.Semaphore(max_concurrent)
    
    async def generate_completion_async(self, session: aiohttp.ClientSession, prompt: str, system_prompt: str = None) -> str:
        """비동기로 completion을 생성합니다."""
        async with self.semaphore:
            headers = {
                "Authorization": f"Bearer {self.api_key}",
                "Content-Type": "application/json"
            }
            
            messages = []
            if system_prompt:
                messages.append({"role": "system", "content": system_prompt})
            messages.append({"role": "user", "content": prompt})
            
            payload = {
                "model": self.model,
                "messages": messages,
                "max_tokens": 500,
                "temperature": 0.7
            }
            
            try:
                async with session.post(
                    "https://api.openai.com/v1/chat/completions",
                    headers=headers,
                    json=payload
                ) as response:
                    result = await response.json()
                    return result["choices"][0]["message"]["content"].strip()
            except Exception as e:
                return f"오류: {str(e)}"
    
    async def process_data_async(self, data: List[Dict[str, Any]], system_prompt: str = None) -> List[Dict[str, Any]]:
        """비동기로 전체 데이터를 처리합니다."""
        async with aiohttp.ClientSession() as session:
            tasks = []
            for item in data:
                task = self.generate_completion_async(session, item['prompt'], system_prompt)
                tasks.append(task)
            
            print("모든 API 호출을 시작합니다...")
            new_completions = await asyncio.gather(*tasks)
            
            processed_data = []
            for i, (item, new_completion) in enumerate(zip(data, new_completions)):
                new_tokens = int(len(new_completion) // 1.5)
                
                new_item = {
                    "prompt": item['prompt'],
                    "completion": new_completion,
                    "tokens": new_tokens
                }
                processed_data.append(new_item)
            
            return processed_data

# 비동기 버전 사용 예시 (최신 모델)
async def main_async():
    API_KEY = "your-openai-api-key-here"
    INPUT_FILE = "kochatgpt_1_SFT.jsonl"
    OUTPUT_FILE = "kochatgpt_1_SFT_updated_async.json"
    
    # 최신 모델 선택 - 비동기 처리에는 더 빠른 모델 추천
    SELECTED_MODEL = "gpt-4o-mini"  # 빠르고 효율적
    
    replacer = AsyncCompletionReplacer(API_KEY, model=SELECTED_MODEL, max_concurrent=3)
    
    # 동기 버전의 replacer로 데이터 로드
    sync_replacer = CompletionReplacer(API_KEY)
    original_data = sync_replacer.load_jsonl_data(INPUT_FILE)
    
    # 비동기 처리
    updated_data = await replacer.process_data_async(original_data)
    
    # 저장
    sync_replacer.save_results(updated_data, OUTPUT_FILE)

# 비동기 실행하려면:
# asyncio.run(main_async())