In [1]:
GPT_BASE_MODEL = "chatgpt-4o-latest"

SYSTEM_REVIEW_PROMPT = {
            "role": "system",
            "content": [
                {
                    "type": "text",
                    "text": "너는 1차 번역된 웹툰 대화를 검토하고 이를 수정하거나 아예 재생성하는 태스크를 수행할 거야. \
                    먼저 맥락을 이해하기 위해 한 회차의 모든 한국어 대화문이 주어지고, \
                    그 중에서 맨 마지막 두 줄에 [한글 대화]와 이 대화에 대응되는 [1차 영어 번역문]이 주어질 거야. \
                    먼저 [1차 영어 번역문]을 한글로 번역해서 [1차 한글 번역문]을 생성하고, [한글 대화]의 의미가 일치하는지 비교해.\n\
                    만약 의미가 일치한다면 \
                    [한글 대화]에서 glossary에서 존재하는 표현은 없는지 검토하고, 만약 있다면 이를 반영해서 \
                    더 나은 [검토한 영어 번역문]을 생성해줘. 물론 [한글 대화]에 glossary에 존재하는 표현도 없고 기존 영어 번역문이 완벽하다면 그대로 생성해도 돼. \
                    하지만 만약 [1차 한글 번역문]과 [한글 대화]의 의미가 일치하지 않거나 정보의 양이 다르다면 \
                    [1차 영어 번역문]과 [1차 한글 번역문]은 무시하고 [한글 대화]에 대응하는 영어 번역문을 생성해.\
                    예를 들어 [한글 대화]가 '사과'인데 [1차 한글 번역문]이 '붉은 사과'라면 \
                    이는 [한글 대화]에 [1차 한글 번역문]의 일부만 제공된 상태이기 때문에 정보의 양이 다른 것으로 판단해. \
                    그렇기 때문에 [1차 한글 번역문]과 [1차 영어 번역문]은 무시하고 [한글 대화]만을 가지고 다시 번역하면 돼.\n \
                    그리고 새롭게 생성한 영어 번역문은 <translate>로 시작하고 </translate>로 끝내, \
                    만약 추론이 필요하다면 <reasoning>으로 시작해서 추론 내용을 입력하고 </reasoning>으로 마무리해. \
                    추론할 때는 이 대사의 주어가 무엇인지도 생각해. 필요없으면 주어가 없어도 돼.\
                    ***important*** 그리고 출력에 다음 대사나 이전 대사의 내용을 추가하지말고, 주어진 [한글 대화]의 내용만으로 번역문을 구성해. \
                    쉽게 생각하면 너가 생성한 영어 번역문을 한글로 번역했을 때 주어진 [한글 대화]와 의미가 일치해야해\n \
                    즉 정리하자면 출력 형태는 '<reasoning> ...추론 내용... </reasoning> <translate> 검토한 영어 번역문 </translate>' \
                    혹은 '<translate> 검토한 영어 번역문 </translate>' 가 될 거야"
                }
            ],
}


In [3]:
from google.cloud import bigquery
import re

def instruct_structure(prompt):
    input_text, output_text = prompt.split('### target')
    input_text = input_text.replace('### glossaries', '### glossary').replace('\n* ', '\n• ')
    input_text = re.sub(r"\[[^\]]+\] ", "[UNK] ", input_text)
    return input_text

project_id = "prod-ai-project"
client = bigquery.Client(project=project_id)
sql = """select series_id, episode_id, org_input_text, org_output_text, prompt 
        from webtoon_translation.structured_240820_ep_line
        where data_split = 'romance_valid'"""
df = client.query(sql).result().to_dataframe()
from tqdm import tqdm
tqdm.pandas()
df['prompt'] = df['prompt'].progress_apply(lambda x: instruct_structure(x))

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 18343.88it/s]


In [4]:
print(df['prompt'][0])

### glossary
• 아벨 헤일론 (M): abel heylon
• 아벨 (M): abel
• 피오나 (F): fiona
• 마법: magic / spell

### source
000	[UNK] 북부 최전방 헤일론
001	[UNK] 여기가 헤일론 공작 성….
002	[UNK] 엄청난 위압감이야…
003	[UNK] 나는 결국 가족에게 떠밀려 무자비한 공작이 다스린다는 북부 최전방에 왔다.
004	[UNK] 딱 봐도 마왕성 같은 게 사람 엄청 굴릴 것 같다.
005	[UNK] 내 무덤을 내가 팠지...
006	[UNK] 이쪽으로.
007	[UNK] 문을 열어라.
008	[UNK] 문이, 엄청 커…!!
009	[UNK] 북부의 공작, 아벨 헤일론
010	[UNK] 너 나름대로는 각오했겠지. 하지만…
011	[UNK] 너 같은 어린애는 여기에 필요 없다.
012	[UNK] 집으로 돌아가도록.
013	[UNK] 쓸모없는 자에게 투자할 시간은 없다 이건가.
014	[UNK] 아벨은 모르겠지만, 지금의 나는 마땅히 돌아갈 곳도 없어.
015	[UNK] 원작 속의, 자신의 마법적 재능을 모르던 피오나는-
016	[UNK] 이렇게 그린 가문에서도 헤일론에서도 쫓겨난다.
017	[UNK] 그리고 이때 세상에 버림받은 상처가
018	[UNK] 후에 피오나가 악역이 되는 결정적인 계기가 된다.
019	[UNK] 하지만 지금의 나는 알고 있어.




In [23]:
#1차 초벌 번역된 결과물이 번역전 원본의 문장 개수와 같은지 체크
#같지 않다면 
import pandas as pd
for data_idx in range(74):
    llama_df = pd.read_csv(f"data/llama_result/llama_vllm_{data_idx}.csv")
    data = df['prompt'][data_idx].split('### source')[1].strip()
    section = [clean_text(d) for d in data.split('\n')]
    if len(llama_df) < len(section):
        # print(data_idx, len(llama_df), len(section))
        # print(section)
        add_num = len(section) - len(llama_df)
        for i in range(len(llama_df), len(llama_df)+add_num):
            llama_df.loc[i] = [section[i], '']
        print(llama_df)
    elif len(llama_df) > len(section): # 만약 원데이터보다 더 많은 번역을 했을 경우
        print('error occur')
            

                   hangle                          first_translate
0            …너에게 미움받는 게,                         I’m terrified...
1                 너무 무서워.                     ...of you hating me.
2                    시그렌.                                 siegren.
3              잠깐 옆으로 갈게.       let’s go over there for  a second.
4                     저기,  can you lean forward just a little bit?
..                    ...                                      ...
92                     왜?                                     why?
93             어머, 모르셨어요?             oh dear, you hadn’t noticed?
94  아가씨 목에 벌레 물린 자국이 있어요.    there’s a bug bite mark on your neck.
95                     시,                            s-siegren...!
96                  시그레엔!                                         

[97 rows x 2 columns]


In [24]:
from openai import OpenAI
openai_client = OpenAI(
    api_key='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')

def extract_translation(text):
    match = re.search(r'<translate>(.*?)</translate>', text, re.DOTALL)
    return match.group(1).strip() if match else None

def clean_text(text):
    return re.sub(r'^\d+\s+\[UNK\]\s+', '', text)


for data_idx in range(74):
    llama_df = pd.read_csv(f"data/llama_result/llama_vllm_{data_idx}.csv")
    data = df['prompt'][data_idx].split('### source')[1].strip()
    section = [clean_text(d) for d in data.split('\n')]
    
    if len(llama_df) < len(section):
        # print(data_idx, len(llama_df), len(section))
        # print(section)
        add_num = len(section) - len(llama_df)
        for i in range(len(llama_df), len(llama_df)+add_num):
            llama_df.loc[i] = [section[i], '']
        print(llama_df)
    elif len(llama_df) > len(section): # 만약 원데이터보다 더 많은 번역을 했을 경우
        print('error occur')

    section = '\n'.join(section)
    #한 회차에 대한 모든 초벌 번역에 대해서 검수
    review_li = []
    for i in range(len(llama_df)):
        hangle = llama_df['hangle'][i]
        first_translate = llama_df['first_translate'][i]
        review_text = f"{section}\n\n### review\n[한글 대화] {hangle}\n[1차 영어 번역문] {first_translate}\n\n"
        review_completion = openai_client.beta.chat.completions.parse(
            model= GPT_BASE_MODEL,
            messages = [
                SYSTEM_REVIEW_PROMPT,
                {
                    "role":"user",
                    "content" : [{"type" : "text",
                                  "text" : review_text}],
                }
            ],
            temperature=0.2,
            top_p=0.8
        )
        review = review_completion.choices[0].message.content
        print(review)
        review_li.append(extract_translation(review))
    hangles = llama_df['hangle'].tolist()
    first_translates = llama_df['first_translate'].tolist()
    final_df = pd.DataFrame({'hangle':hangles, 'first_translate':first_translates, 'review':review_li})
    final_df.to_csv(f'data/llama_result/llama_result_review_{data_idx}.csv', index=False)
    break

[1차 한글 번역문] 북쪽 최전방 헤일론 영토  

<reasoning>  
'북부 최전방 헤일론'은 특정 지역명을 가리키는 표현이다. 'the northernmost region'은 '가장 북쪽 지역'이라는 의미로 해석될 수 있지만, '최전방'이라는 뉘앙스를 충분히 전달하지 못한다. '헤일론'은 고유명사이므로 'Haelion'으로 유지해야 하며, '최전방'을 강조하기 위해 'frontline'이라는 단어를 사용하는 것이 적절하다.  
</reasoning>  

<translate>  
Haelion, the northern frontline  
</translate>  
[1차 한글 번역문] 여기는 하우스 헤일리온의 성...!  
[한글 대화] 여기가 헤일론 공작 성….  

<reasoning>  
"House Haelion"이라는 표현은 "헤일론 공작 성"을 번역한 것으로 보이지만, "공작 성"은 "Duke's castle"로 번역하는 것이 더 자연스럽다. 또한, "여기가"는 "This is"보다는 "So this is"가 더 적절할 수 있다.  
</reasoning>  

<translate>  
So this is Duke Haelion's castle...  
</translate>  
[1차 한글 번역문] 너무 위압적이야...  
[한글 대화]와 [1차 한글 번역문]의 의미가 유사하므로, 기존 번역을 유지할 수 있음.  

<translate>It's so overwhelming...</translate>
[1차 한글 번역문] 나는 가족에게 떠밀려 이 먼 북쪽까지 왔다. 무자비하기로 유명한 헤일론 공작의 통치 아래 살아야 한다.  

[비교]  
- [1차 한글 번역문]은 원문의 의미를 대체로 반영하고 있지만, "북부 최전방"이라는 표현이 "이 먼 북쪽"으로 번역되면서 원문의 뉘앙스가 약간 달라졌다.  
- "무자비한 공작이 다스린다는" 부분이 "무자비하기로 유명한 헤일론 공작의 통치 아래 살아야 한다"로 번역되었는데, 원문의 "다스린다는"은 