In [2]:
import re
from langchain_community.vectorstores import FAISS
from langchain.docstore.document import Document
import bs4
import ssl
import urllib3
import pandas as pd
import faiss
import os
from langchain.embeddings import HuggingFaceEmbeddings
import torch
import gc
from tqdm import tqdm
from openai import OpenAI

def instruct_structure(prompt):
    input_text, output_text = prompt.split('### target')
    input_text = input_text.replace('### glossaries', '### glossary').replace('\n* ', '\n• ')
    input_text = re.sub(r"\[[^\]]+\] ", "[UNK] ", input_text)
    return input_text

project_id = "prod-ai-project"

from google.cloud import bigquery
client = bigquery.Client(project=project_id)
sql = """select series_id, episode_id, org_input_text, org_output_text, prompt 
        from webtoon_translation.structured_240820_ep_line
        where data_split = 'romance_valid'"""
df = client.query(sql).result().to_dataframe()
tqdm.pandas()
df['prompt'] = df['prompt'].progress_apply(lambda x: instruct_structure(x))


GPT_FINE_TUNING_MODEL="ft:gpt-4o-2024-08-06:kakaoent:webtoon-sft-250225:B4j839q0"
openai_client = OpenAI(
    api_key='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')

GPT_BASE_MODEL = "chatgpt-4o-latest"
SYSTEM_PROMPT = {
            "role": "system",
            "content": [
                {
                    "type": "text",
                    "text": """You're an expert translator who translates Korean webtoon in English. Make sure the number of target sentences matches the number of source sentences. The result should be TSV formatted. 
            • Find a balance between staying true to the Korean meaning and keeping a natural flow. Don't be afraid to add to the text. Embellish it. 
            • Avoid translating word-for-word. Keep the general feeling and translate the text accordingly. 
            • Translate with an American audience in mind. This means easy-to-read, conversational English.""",
                }
            ],
        }

SYSTEM_REVIEW_PROMPT = {
            "role": "system",
            "content": [
                {
                    "type": "text",
                    "text": "너는 [한국어 대화문] 내의 연결된 대사들을 분석하고 이를 [대사 문단]으로 정의한 뒤, [1차 번역문] 상에서 잘 번역되어 있는지 확인하는 태스크를 수행할거야. \
                    그리고 만약 [1차 번역문]이 잘못된 경우, 이를 수정해서 재생성하는 태스크를 수행할 거야. \
                    먼저 맥락을 이해하기 위해 한 회차의 모든 [한국어 대화문]이 주어지고, \
                    이를 1차 번역한 [1차 번역문]이 주어질거야. \
                    각 대사에는 번호가 붙어 있을 것이고, 같은 번호는 같은 문장을 지칭해. 즉 [한국어 대화문]의 005번 대사를 번역한 것은 [1차 번역문]의 005번 대사라고 생각하면 돼.\
                    지금부터 너는 [한국어 대화문]에서 이어진 대사를 구별해내고, 이어진 대사들이 [1차 번역문] 상에서 올바르게 번역되어 있는지 검수한 후, \
                    올바르게 번역되지 않았다면 [단어집]을 참고해서 수정하고, \
                    올바르게 번역 되어있다면 그대로 생성할거야.\n\
                    먼저 배경지식을 알려주자면 웹툰에서 '...'은 이전 대사나 이후 대사와의 연결성을 의미할 가능성이 커. 100%는 아니야. \
                    다시 말해서 '...'으로 시작하면 이전 대사와 현재 대사가 연결되어 있을 가능성이 크고, \
                    '...'으로 끝나면 다음 대사와 현재 대사가 연결되어 있을 가능성이 커.\n\
                    태스크를 올바르게 수행하기 위해서 너는 첫 번째로 [대사 문단]을 찾아야해. \
                    [대사 문단]이란 [한국어 대화문] 내에서 화자가 동일한 연속되는 대사가 '모두' 불완전하고, 이전 혹은 다음 대사와 연결했을 때 더 자연스러운 대사들을 결합한 것을 의미해. \
                    예를 들어 6개의 대사로 구성된 [한국어 대화문]과 [1차 번역문]이 있다고 가정해볼게. \n\
                    '[한국어 대화문]\n000\t어제,\n001\t나는 푸른...\n002\t하늘을 보았다.\n003\t어땠어?\n004\t정말,\n005...아름다웠어.\n' \
                    라는 [한국어 대화문]이 있다면 [대사 문단]은 [(000,001,002),(004,005)]로 구성될 수 있어.\
                    왜냐하면 000, 001, 002 대사는 웹툰 내에서 동일한 한 명의 등장인물이 연속적으로 발화한 것으로 보이며, 각 대사가 '모두' 불완전하고 세 개의 대사를 결합했을 때 딱 한 문장으로 결합돼.\
                    ***important*** 여기서 개념을 하나 설명할게. 너가 수행하는 태스크에서 '불완전한 대사'를 명확히 설명해줄게. \
                    '(1)000\t당신!\n001\t밥\n002\t먹었어?\n','(2)000\t너,\n001\t밥 먹었어?\n002\t난 이제 먹어야하는데.\n003\t뭐 먹었어?\n' 와 같은 예시가 주어졌다고 가정해보자.\
                    두 가지 예시 모두 '(1)당신 밥 먹었어?','(2)너 밥 먹었어? 난 이제 먹어야하는데. 뭐 먹었어?' 와 같이 결합했을 때 \
                    (1)과 (2)모두 동일한 화자가 연속적으로 발화하는 대사들이지만 (2)의 '난 이제 먹어야하는데.', '뭐 먹었어?' 같은 대사는 하나의 독립적인 완전한 대사로써, \
                    (2) 전체를 결합하면 3문장의 대사가 나와. 이건 완전한 대사 3개가 결합되어 있다는 뜻이야. [대사 문단]에 넣기 위해서는 불안전한 대사를 모두 결합했을 때 딱 한 문장의 대사가 나와야해.\n\
                    반면 (1)의 '당신!','밥','먹었어?'와 (2)의 '너,','밥 먹었어?'는 각각 하나의 독립적인 대사로 활용했을 때 불완전한 대사로 보기 때문에 이전 혹은 이후 대사와 결합해야해.\
                    좀 더 구체적으로 설명하자면 (1)의 '당신!'은 독립적으로 사용가능한 완전한 대사로 볼 수 있지만, 뒤에 있는 대사 '밥'이 불완전한 대사이고, '당신! 밥 먹었어?' 라고 연결했을 때 한 문장으로 볼 수 있으므로, \
                    완전한 대사인 '당신!'과 불완전한 대사인 '밥'과 '먹었어?'를 결합하여 [대사 문단]의 한 원소로 넣는거야.\
                    그리고 (2)의 001 번 째 대사인 '밥 먹었어?'같은 경우는 독립적으로 사용가능한 완전한 대사로 볼 수 있지만, 앞 대사가 '너,'라는 뒤에 있는 대사를 필요로 하는 불완전한 대사이고, \
                    '너, 밥 먹었어?'라고 연결했을 때 한 문장으로 볼 수 있으므로, 불완전한 대사인 '너,'와 완전한 대사인 '밥 먹었어?'를 결합하여 [대사 문단]의 한 원소로 넣는거야.\
                    그리고 불완전한 대사라는 걸 증명할 수 있는 근거가 불완전한 대사들을 결합하면 한 문장의 대사가 나오게 돼. \
                    즉 웹툰의 대사를 생각했을 떄 (1)의 모든 대사와 (2)의 일부 대사처럼 한 문장의 대사가 불완전하게 여러 대사로 나뉜 경우만 [대사 문단]의 한 원소가 될 수 있고,\
                    (2)의 '난 이제 먹어야하는데.', '뭐 먹었어?'처럼 현재 대사가 완전한 문장인데, 앞 뒤 대사에 불완전한 문장이 없고, 각 대사가 한 문장인 경우는 [대사 문단]의 한 원소가 될 수 없다는 뜻이야.\n\
                    다시 돌아가서, [대사 문단]을 찾을 때는 동일한 화자가 연속적으로 발화한 대사인지를 엄격하게 검수한 후에, \
                    각 대사를 결합했을 때 한 문장이 된다면 해당 대사들을 묶어서 [대사 문단]의 한 원소로 정의하면 돼. \
                    그리고 003은 앞과 뒤 화자와는 다른 화자임이 분명하기 때문에 [대사 문단]의 한 원소로 포함될 수 없어. \
                    좀 더 다른 예를 들어 설명하자면 '(3)100\t너 말이야\n101\t뭐가?\n102\t좀 이상한 거 같애\n'라는 대사가 주어졌을 때 \
                    100 번 째 대화와 102 번 째 대화의 화자는 같은 것으로 판단되지만 중간에 101 번 째 대화는 다른 화자인 것으로 판단되기 때문에 3가지의 대사는 결합돼서는 안 돼. 즉 [대사 문단]의 한 원소로 포함될 수 없어.\n\
                    그리고 004,005 또한 동일한 화자가 발화하고 있는 것으로 판단되고, 각 대사가 독립적으로 사용하기엔 불완전하고, 각 대사를 결합하면 딱 한 문장이 되기 때문에, \
                    결합하여 [대사 문단]의 한 원소로 포함시켜. \n\
                    그 다음에 [한국어 대화문]에 속한 모든 대사에 대해서 [대사 문단]을 찾고 실제 하나의 대사 문단으로 결합해. \
                    위 예시대로라면 [(000,001,002,'어제 나는 푸른 하늘을 보았다.'),(004,005,'정말 아름다웠어.')]라는 결과가 나올거야. \
                    [대사 문단]의 한 원소에 대한 각 대사들을 하나의 문단으로 결합할 때는 '...', ','와 같은 연결을 위한 특수 문자는 제거해.\n\
                    그리고 이제 함께 주어진 [1차 번역문]이 다음과 같다고 해볼게.\n\
                    '[1차 번역문]\n000\tyesterday,\n001\tI...\n002\tsaw the blue sky.\n003\thow was it?\n004\tit was\n005really dark.\n'\
                    그랬을 때 [대사 문단]에 쓰여진 것과 동일하게 결합해. 위 예에서는 [한국어 대화문] 상에서 (000,001,002), 그리고 (004,005)가 각각 결합되었기 때문에 \
                    동일하게 [1차 번역문] 상에서도 (000,001,002)와 (004,005)를 결합하고 (연결을 위한 특수 문자는 제거) 이전 결과물에 붙여. \
                    그렇게 하면, 다음과 같은 결과물을 얻을 수 있어.\n \
                    [((000,001,002),'어제 나는 푸른 하늘을 보았다.','yesterday I saw the blue sky.'),\
                    ((004,005),'정말 아름다웠어.','it was really dark.')]\n \
                    그 다음 리스트 내 각 원소의 한글 문장과 영어 문장의 의미를 비교해.\
                    만약 '어제 나는 푸른 하늘을 보았다.'와 'yesterday I saw the blue sky.'처럼 두 문장의 의미가 동일하다면 \
                    영어 문장을 해당 문장을 구성한 대사의 개수 n개(해당 예에서는 000,001,002:3개)로 나누고, 나뉘는 부분 양 쪽에 '...'를 삽입해. \n\
                    ***important*** 단, 나눌 때 해당 문장을 구성하는 대사 개수 n개로만 나눠야 하며, 나누는 개수를 유지하면서 최대한 웹툰 독자가 읽기에 편하도록 나누고, 나눈 이후의 각 요소는 적어도 하나의 단어를 포함하고 있어야 해.\n\
                    예를 들어 'yesterday', 'I saw', 'the blue sky.'로 나누는게 웹툰 대사상 적합하다고 생각한다면, \n\
                    '000\tyesterday...\n001\t...I saw...\n002\t...the blue sky.\n' 를 생성하는거야. \n\
                    그리고 이어서 003은 [대사 문단]에 속하지 않기 때문에 [1차 번역문]의 003번을 똑같이 생성해. 그러면 다음과 같이 될거야.\n \
                    '003\thow was it?\n'\n\
                    그 다음 004번과 005번이 [대사 문단]의 한 원소이기 때문에 '정말 아름다웠어.'와 'it was really dark.'의 의미를 비교하고, \
                    둘의 의미가 다른 경우에는 영어 문장을 무시하고, 한글 문장을 번역해. \
                    여기서는 'it was really dark.'를 무시하고, '정말 아름다웠어.'를 번역하면 돼. 대신 재번역할 때 참고해야할 고유명사가 있을 수도 있으니 [단어집]을 참고해서 번역해. \
                    그럼 'it was really beautiful.'을 얻을 수 있고, 이를 똑같이 [대사 문단]을 구성하는 대사 개수인 n개(해당 예에서는 004,005:2개)로 나누고, 나뉘는 부분 양 쪽에 '...'를 삽입해. \n\
                    ***important*** 단, 나눌 때 해당 문장을 구성하는 대사 개수 n개로만 나눠야 하며, 나누는 개수를 유지하면서 최대한 웹툰 독자가 읽기 편하도록 나누고, 나눈 이후의 각 요소는 적어도 하나의 단어를 포함하고 있어야 해.\n\
                    예를 들어 'it was', 'really beautiful'로 나누는게 웹툰 대사상 적합하다고 생각한다면, \
                    '004\tit was...\n005\t...really beautiful.\n'를 생성하는거야. \
                    위 예의 최종적인 출력형태는 다음과 같아. \n\
                    <translate>\n000\tyesterday...\n001\t...I saw...\n002\t...the blue sky.\n003\thow was it?\n004\tit was...\n005\t...really beautiful.\n</translate>\
                    그리고 만약 추론이 필요하다면 <reasoning>으로 시작해서 추론 내용을 입력하고 </reasoning>으로 마무리해. \
                    즉 정리하자면 출력 형태는 '<reasoning> ...추론 내용... </reasoning> <translate> 검토한 영어 번역문 </translate>' \
                    혹은 '<translate> 검토한 영어 번역문 </translate>' 가 될 거야.\n \
                    그리고 [검토한 영어 번역문]에는 [한국어 대화문]에 속한 모든 대사 개수만큼이 포함되어야 하는 것을 잊지마."
                }
            ],
}

SYSTEM_REVIEW_PROMPT2 = {
            "role": "system",
            "content": [
                {
                    "type": "text",
                    "text": "너는 1차 번역된 웹툰 대화를 검토하고 이를 수정하거나 아예 재생성하는 태스크를 수행할 거야. \
                    먼저 맥락을 이해하기 위해 한 회차의 모든 한국어 대화문이 주어지고, \
                    그 중에서 맨 마지막 두 줄에 [한글 대화]와 이 대화에 대응되는 [1차 영어 번역문]이 주어질 거야. \
                    먼저 [1차 영어 번역문]을 한글로 번역해서 [1차 한글 번역문]을 생성하고, [한글 대화]의 의미가 일치하는지 비교해.\n\
                    만약 의미가 일치한다면 \
                    [한글 대화]에서 glossary에서 존재하는 표현은 없는지 검토하고, 만약 있다면 이를 반영해서 \
                    더 나은 [검토한 영어 번역문]을 생성해줘. 물론 [한글 대화]에 glossary에 존재하는 표현도 없고 기존 영어 번역문이 완벽하다면 그대로 생성해도 돼. \
                    하지만 만약 [1차 한글 번역문]과 [한글 대화]의 의미가 일치하지 않거나 정보의 양이 다르다면 \
                    [1차 영어 번역문]과 [1차 한글 번역문]은 무시하고 [한글 대화]에 대응하는 영어 번역문을 생성해.\
                    예를 들어 [한글 대화]가 '사과'인데 [1차 한글 번역문]이 '붉은 사과'라면 \
                    이는 [한글 대화]에 [1차 한글 번역문]의 일부만 제공된 상태이기 때문에 정보의 양이 다른 것으로 판단해. \
                    그렇기 때문에 [1차 한글 번역문]과 [1차 영어 번역문]은 무시하고 [한글 대화]만을 가지고 다시 번역하면 돼.\n \
                    그리고 새롭게 생성한 영어 번역문은 <translate>로 시작하고 </translate>로 끝내, \
                    만약 추론이 필요하다면 <reasoning>으로 시작해서 추론 내용을 입력하고 </reasoning>으로 마무리해. \
                    추론할 때는 이 대사의 주어가 무엇인지도 생각해. 필요없으면 주어가 없어도 돼.\
                    ***important*** 그리고 출력에 다음 대사나 이전 대사의 내용을 추가하지말고, 주어진 [한글 대화]의 내용만으로 번역문을 구성해. \
                    쉽게 생각하면 너가 생성한 영어 번역문을 한글로 번역했을 때 주어진 [한글 대화]와 의미가 일치해야해\n \
                    즉 정리하자면 출력 형태는 '<reasoning> ...추론 내용... </reasoning> <translate> 검토한 영어 번역문 </translate>' \
                    혹은 '<translate> 검토한 영어 번역문 </translate>' 가 될 거야"
                }
            ],
}


100%|███████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 18861.11it/s]


In [8]:
def clean_text(text):
    return text.replace("[UNK] ","")

def extract_translation(text):
    match = re.search(r'<translate>(.*?)</translate>', text, re.DOTALL)
    return match.group(1).strip() if match else None

for data_idx in range(58, 58+1):
    data = df['prompt'][data_idx]
    example = data.split("### source")[1].strip()
    chat_completion = openai_client.beta.chat.completions.parse(
        model= GPT_FINE_TUNING_MODEL,
        messages = [
            SYSTEM_PROMPT,
            {
                "role":"user",
                "content" : [{"type" : "text",
                              "text" : data
                            }],
            }
        ],
        temperature= 0.2,
        top_p = 0.8
    )
    response = chat_completion.choices[0].message.content
    response_split = response.split('\n')
    source = data.split("### source")[1].strip()
    glossary = data.split("### source")[0].strip()
    
    kor = clean_text(source)
    kor_li = kor.split('\n')
    en = response
    input_text = f"[한국어 대화문]\n{kor}\n\n[1차 번역문]\n{en}\n\n[단어집]\n{glossary}"

    review_text = f"{input_text}\n\n### review\n\n" 
    kor_li = kor.split('\n')
    en_li = en.split('\n')
    #print(kor_li)
    review_li = []
    while True:
        if len(review_li) == len(kor_li):
            break
        # else:
        #     print(len(review_li),len(kor_li))
        review_completion = openai_client.beta.chat.completions.parse(
            model= GPT_BASE_MODEL,
            messages = [
                SYSTEM_REVIEW_PROMPT,
                {
                    "role":"user",
                    "content" : [{"type" : "text",
                                  "text" : input_text
                                }],
                }
            ],
            temperature= 0.2,
            top_p = 0.8
        )
        review = review_completion.choices[0].message.content
        print(review)
        review_li = extract_translation(review).split('\n')
        print(len(review_li),len(kor_li))

    #review_li : 1차 번역문에서 이어진 문장 처리한 2차 번역문
    #kor : 한글 대화문
    #glossary : 용어집
    print("="*20)
    input_text = f"{glossary}\n\n{kor}"
    review_li2 = []
    for i, r in enumerate(review_li):
        if '...' in review_li[i]:
            review_li2.append(review_li[i])
        elif '...' not in review_li[i]:
            review_text2 = f"{input_text}\n\n## review\n[한글 대화] {kor_li[i]}\n[1차 영어 번역문] {review_li[i]}\n\n"
            review_completion2 = openai_client.beta.chat.completions.parse(
                model= GPT_BASE_MODEL,
                messages = [
                    SYSTEM_REVIEW_PROMPT2,
                    {
                        "role":"user",
                        "content" : [{"type" : "text",
                                      "text" : review_text2
                                    }],
                    }
                ],
                temperature= 0.2,
                top_p = 0.8
            )
            review2 = review_completion2.choices[0].message.content
            print(review2)
            review_li2.append(extract_translation(review2))
    assert len(review_li2) == len(review_li)
        

<reasoning>
[대사 문단]을 먼저 추출하자.

(000,001,002,003): 동일 화자가 연속적으로 발화한 것으로 보이며, 각 대사가 불완전하고 결합하면 “『금일 오후, 온실에서 있을 티 파티에 영애를 초대하고 싶습니다.』 『시간이 나신다면 꼭 참석해 주세요, 헤더 아덴 자작 영애.』”라는 하나의 문장이 된다.

(004,005): 동일 화자이며, “이 사람, 어제 시그렌이랑 일이 있었던 그 영애 아냐?”로 결합 가능.

(067,068): “해서, 영애도……”로 결합 가능. 불완전한 문장이며 동일 화자.

(073,074,075): “영애, 남의 저택에서 신세를 지고 있는 와중에 전하께 꼬리를 치셨죠? 제 하녀가 말해주었단 말이에요. 어젯밤에-”로 결합 가능. 동일 화자이며, 075는 문장이 끊기지 않고 이어짐.

(085,086): “저는 그 덕분에 권력과 힘, 두 개 다 가지고 있답니다.”로 결합 가능.

(091,092,093): “그리고, 화, 황자 전하….”로 결합 가능.

따라서 [대사 문단]은 다음과 같다:
[(000,001,002,003), (004,005), (067,068), (073,074,075), (085,086), (091,092,093)]

이제 각 대사 문단에 대해 [1차 번역문]이 올바르게 번역되었는지 확인한다.

(000,001,002,003): “『금일 오후, 온실에서 있을 티 파티에 영애를 초대하고 싶습니다.』 『시간이 나신다면 꼭 참석해 주세요, 헤더 아덴 자작 영애.』” → “I would like to invite you to a tea party in the greenhouse this afternoon. Please come if you have time, Lady Heather.” 의미 동일. 다만 000과 001이 동일 문장으로 번역되어 중복되었으므로, 하나만 사용하고 나머지는 분할.

(004,005): “이 사람, 어제 시그렌이랑 일이 있었던 그 영애 아냐?” → “isn’t this... th

KeyboardInterrupt: 