In [1]:
import re
from langchain_community.vectorstores import FAISS
from langchain.docstore.document import Document
import bs4
import ssl
import urllib3
import pandas as pd
import faiss
import os
from langchain.embeddings import HuggingFaceEmbeddings
import torch
import gc

def instruct_structure(prompt):
    input_text, output_text = prompt.split('### target')
    input_text = input_text.replace('### glossaries', '### glossary').replace('\n* ', '\n• ')
    input_text = re.sub(r"\[[^\]]+\] ", "[UNK] ", input_text)
    return input_text


project_id = "prod-ai-project"

from google.cloud import bigquery
client = bigquery.Client(project=project_id)
sql = """select series_id, episode_id, org_input_text, org_output_text, prompt 
        from webtoon_translation.structured_240820_ep_line
        where data_split = 'romance_valid'"""
df = client.query(sql).result().to_dataframe()
from tqdm import tqdm
tqdm.pandas()
df['prompt'] = df['prompt'].progress_apply(lambda x: instruct_structure(x))

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 19497.36it/s]


In [2]:
data_idx = 58
data = df['prompt'][data_idx]
example = data.split("### source")[1].strip()
#glossary + source data
print(data)

### glossary
• 시그렌 (M): siegren
• 유니스 (F): eunice
• 피오나 (F): fiona
• 마법사: mage / sorcerer
• 하녀: maid

### source
000	[UNK] 『금일 오후,
001	[UNK] 온실에서 있을 티 파티에 영애를 초대하고 싶습니다.』
002	[UNK] 『시간이 나신다면 꼭 참석해 주세요,
003	[UNK] 헤더 아덴 자작 영애.』
004	[UNK] 이 사람,
005	[UNK] 어제 시그렌이랑 일이 있었던 그 영애 아냐?
006	[UNK] 그런 사람이 여는 티파티에 내가 가도 되는 건가?
007	[UNK] 내가 괜히 신경 쓸 만한 이유는 없지.
008	[UNK] 잘못한 건 그쪽이고.
009	[UNK] 어쩌면 티파티에서 유니스를 만날 수 있을지도 모르니까.
010	[UNK] 기쁜 마음으로 응하겠다고 전해줘.
011	[UNK] 유니스 영애.
012	[UNK] 피오나 영애…!
013	[UNK] 유니스 영애도 초대받은 건가요?
014	[UNK] 네.
015	[UNK] 피오나 영애와는 같은 일행임에도 계속 얼굴을 볼 수가 없었네요.
016	[UNK] 전 말을 타고 있었거든요.
017	[UNK] …그래도 마차에도 와 주세요.
018	[UNK] 혼자서는 심심해서….
019	[UNK] 주변에 온통 기사랑 병사라서 쓸쓸했나 봐.
020	[UNK] 어서 오십시오.
021	[UNK] 이쪽이 온실입니다.
022	[UNK] 아가씨께서는 안쪽에서 기다리고 계십니다.
023	[UNK] 어머나,
024	[UNK] 피오나 영애,
025	[UNK] 유니스 영애…
026	[UNK] 초대에 응해주셔서 감사해요.
027	[UNK] 기다리고 있었답니다.
028	[UNK] 와, 역시 화려한 미인이야.
029	[UNK] 이런 사람이 시그렌에게 달려들었단 말이지.
030	[UNK] 자, 어서 앉으세요.
031	[UNK] 네, 고마워요.
032	[UNK] 이쪽은 근처 영지의 영애들이에요.
033	[UNK] 명성이 자자한 두 분을 만나서 

In [3]:
from openai import OpenAI
GPT_FINE_TUNING_MODEL="ft:gpt-4o-2024-08-06:kakaoent:webtoon-sft-250225:B4j839q0"
openai_client = OpenAI(
    api_key='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')

SYSTEM_PROMPT = {
            "role": "system",
            "content": [
                {
                    "type": "text",
                    "text": """You're an expert translator who translates Korean webtoon in English. Make sure the number of target sentences matches the number of source sentences. The result should be TSV formatted. 
            • Find a balance between staying true to the Korean meaning and keeping a natural flow. Don't be afraid to add to the text. Embellish it. 
            • Avoid translating word-for-word. Keep the general feeling and translate the text accordingly. 
            • Translate with an American audience in mind. This means easy-to-read, conversational English.""",
                }
            ],
        }

chat_completion = openai_client.beta.chat.completions.parse(
    model= GPT_FINE_TUNING_MODEL,
    messages = [
        SYSTEM_PROMPT,
        {
            "role":"user",
            "content" : [{"type" : "text",
                          "text" : data
                        }],
        }
    ],
    temperature= 0.2,
    top_p = 0.8
)
response = chat_completion.choices[0].message.content

In [4]:
#초벌 번역
#print(response)

In [5]:
response_split = response.split('\n')
source = data.split("### source")[1].strip().split('\n')

In [6]:
print(response_split[0])

000	“my lady, I would like to invite you...


In [7]:
GPT_BASE_MODEL = "chatgpt-4o-latest"

SYSTEM_REVIEW_PROMPT = {
            "role": "system",
            "content": [
                {
                    "type": "text",
                    "text": "너는 1차 번역된 웹툰 대화를 검토하고 이를 수정하거나 아예 재생성하는 태스크를 수행할 거야. \
                    먼저 맥락을 이해하기 위해 한 회차의 모든 [한국어 대화문]이 주어지고, \
                    그 중에서 맨 마지막 두 줄에 [한글 대화]와 이 대화에 대응되는 [1차 영어 번역문]이 주어질 거야. \
                    먼저 [1차 영어 번역문]을 한글로 번역해서 [1차 한글 번역문]을 생성하고, [한글 대화]의 의미가 일치하는지 비교해.\n\
                    만약 의미가 일치한다면 그대로 생성해도 돼. \
                    하지만 만약 [1차 한글 번역문]과 [한글 대화]의 1)의미가 일치하지 않거나 2)정보의 양이 다르거나 \
                    3)[1차 한글 번역문]과 [한글 대화] 모두 수동태(피동태)라면,\
                    [1차 영어 번역문]과 [1차 한글 번역문]은 무시하고 [한글 대화]에 대응하는 영어 번역문을 능동태로 생성해.\
                    ***important*** 정보의 양에 대해서 설명할게. \
                    예를 들어 [한글 대화]가 '사과'인데 [1차 한글 번역문]이 '붉은 사과'라면 \
                    이는 [한글 대화]에 [1차 한글 번역문]의 일부만 제공된 상태이기 때문에 정보의 양이 다른 것으로 판단해. \
                    하지만 예외적으로 [한글 대화]가 '달렸다'인데 [1차 한글 번역문]이 '주어가 달렸다'라면 \
                    이는 정보의 양이 같은 것으로 판단해. \
                    왜냐하면 웹툰은 평서문이나 의문문의 대사의 경우, 영어로 번역할 때 생략된 주어도 넣어줘야하기 때문에 주어의 추가는 정보의 양이 다른 걸로 판단하지 않아.\
                    하지만 반대로 [한글 대화]가 '주어가 달렸다'인데 [1차 한글 번역문]이 '달렸다'라면 이건 정보의 누락이 발생한 것으로 보고 정보의 양이 다르다고 판단해.\n\
                    그리고 주어가 다른 거 같지만 정보의 양이 같은 경우를 알려줄게.\
                    예를 들어, [한글 대화]가 '그녀는 잠을 잔다'인데 [1차 한글 번역문]이 '그것은 잠을 잔다'라면 [한국어 대화문]의 문맥에서 그것(that)이 그녀(she)와 일치하는지를 판단해.\
                    만약 문맥상 가리키는 대상이 일치한다면 이는 정보의 양이 같은 거야. \
                    다시 말해서 텍스트 상에 표시된 글자가 다를지라도, 해당 텍스트가 문맥상 가리키는 대상이 동일하다면 정보의 양이 다른 게 아니라 같다고 판단해야해. \
                    참고로 웹툰은 사람도 '이것(this)', '저것(that)'이라고 표현할 수 있어.\
                    그리고 다른 예로 [한글 대화]가 '그는 나를 때렸다'와 같이 능동태인데 [1차 한글 번역문]이 '나는 그에게 맞았다'와 같이 수동태(피동태)라면 \
                    이는 동일한 상황이지만, 정보의 양이 다른 것으로 판단해. \
                    [1차 한글 번역문]이 능동태이고 [한글 대화]가 수동태(피동태)인 경우도 마찬가지로 정보의 양이 다른 것으로 판단해. \n\
                    \
                    따라서 [1차 한글 번역문]과 [한글 대화]의 의미가 일치하지 않거나 정보의 양이 다르거나 둘 다 수동태(피동태)이면,\
                    [1차 한글 번역문]과 [1차 영어 번역문]은 무시하고 [한글 대화]만을 가지고 다시 번역하면 돼.\n\
                    ***important*** 단 다시 번역할 때 [한글 대화]가 수동태(피동태)라면, 이를 능동태로 변경한 뒤 번역하면 돼.\
                    그리고 새롭게 생성한 영어 번역문은 <translate>로 시작하고 </translate>로 끝내, \
                    만약 추론이 필요하다면 <reasoning>으로 시작해서 추론 내용을 입력하고 </reasoning>으로 마무리해. \
                    추론할 때는 이 대사의 주어가 무엇인지도 생각해. 평서문이나 의문문에서 주어는 무조건 [검토한 영어 번역문]에 있어야 해.\
                    ***important*** 그리고 출력에 다음 대사나 이전 대사의 내용을 추가하지말고, 주어진 [한글 대화]의 내용만으로 번역문을 구성해. \
                    대신 [한글 대화]가 의문문이나 평서문인데 주어가 없는 경우 알맞은 주어를 추가해서 번역해야해. \
                    대신 의문문이나 평서문이 아닌 다른 종류의 문장인 경우, 주어를 생략해도 괜찮아. \
                    즉 정리하자면 출력 형태는 '<reasoning> ...추론 내용... </reasoning>\n<translate> 검토한 영어 번역문 </translate>' \
                    혹은 '<translate> 검토한 영어 번역문 </translate>' 가 될 거야"
                }
            ],
}
#[한글 대화]의 내용만으로 번역문을 구성하라고 한 이유는 이어진 문장을 먼저 처리하고 남은 문장을 처리하는 것이기 때문에임 (즉 이어진 문장이 없다고 가정)


In [8]:
import re

def clean_text(text):
    return re.sub(r'^\d+\s+\[UNK\]\s+', '', text)
def clean_text2(text):
    return re.sub(r'^\d+\s+','', text)

def extract_translation(text):
    match = re.search(r'<translate>(.*?)</translate>', text, re.DOTALL)
    return match.group(1).strip() if match else None

review_li = []
for i, r in enumerate(response_split):
    # if i == 10:#10줄만 스캔
    #     break
    review_text = f"{source}\n\n### review\n[한글 대화] {source[i]}\n[1차 영어 번역문] {clean_text2(r)}\n\n" 
    # if i == 0:
    #     print(review_text)
    review_completion = openai_client.beta.chat.completions.parse(
        model= GPT_BASE_MODEL,
        messages = [
            SYSTEM_REVIEW_PROMPT,
            {
                "role":"user",
                "content" : [{"type" : "text",
                              "text" : review_text
                            }],
            }
        ],
        temperature= 0.2,
        top_p = 0.7
    )
    review = review_completion.choices[0].message.content
    print(review)
    review_li.append(extract_translation(review))

<reasoning> [한글 대화]는 "『금일 오후,"로, 이는 "This afternoon," 또는 "Today afternoon," 정도로 번역될 수 있는 문장이다. 반면 [1차 영어 번역문]은 “my lady, I would like to invite you...”로, 이는 "아가씨, 당신을 초대하고 싶습니다..."라는 의미이다. 즉, [1차 영어 번역문]은 [한글 대화]보다 훨씬 더 많은 정보를 담고 있으며, 이는 정보의 양이 다른 경우에 해당한다. 따라서 [1차 영어 번역문]은 무시하고, [한글 대화]만을 기반으로 다시 번역해야 한다. [한글 대화]는 인용문 형태이며, 문장의 일부로 보인다. 주어는 생략되어 있지만, 문맥상 편지를 쓰는 사람이 말하는 것으로 보이므로 "I"를 주어로 설정할 수 있다. </reasoning>
<translate>"This afternoon,"</translate>
<reasoning> [한글 대화]는 "온실에서 있을 티 파티에 영애를 초대하고 싶습니다."로, 이는 "I would like to invite you to a tea party in the greenhouse." 정도로 번역될 수 있다. 그런데 [1차 영어 번역문]은 "...to a tea party in the greenhouse this afternoon.”으로, 주어와 동사가 생략되어 있고, 시간 정보 "this afternoon"이 추가되어 있다. 원문에는 "금일 오후"라는 시간 정보가 앞 문장(000번)에 있으므로, 이 문장 자체에는 시간 정보가 없다. 따라서 [1차 영어 번역문]은 정보의 양이 더 많고, 문장의 구조도 불완전하다. 또한 주어와 동사가 빠져 있어 문법적으로도 완전하지 않다. 따라서 [1차 영어 번역문]을 무시하고 [한글 대화]를 능동태로 다시 번역해야 한다. 주어는 편지를 쓴 사람으로 추정되며, 일반적으로 "I"로 번역한다. </reasoning>
<translate>I would like to invite you to a tea pa

KeyboardInterrupt: 

In [92]:
#assert len(response_split) == len(review_li) == len(source)
def clean_text(text):
    return re.sub(r'^\d+\s+\[UNK\]\s+', '', text)
def clean_text2(text):
    return re.sub(r'^\d+\s+','', text)
for i in range(10):#len(response_split)):
    hangle = clean_text(source[i])
    print(f'[한글]{hangle}')
    first_translate = clean_text2(response_split[i])
    print(f'[기존]{first_translate}')
    second_translate = review_li[i]
    print(f'[리뷰]{second_translate}')
    print()

[한글]『금일 오후,
[기존]“my lady, I would like to invite you to a tea party in the greenhouse this afternoon.”
[리뷰]"This afternoon,"

[한글]온실에서 있을 티 파티에 영애를 초대하고 싶습니다.』
[기존]“my lady, I would like to invite you to a tea party in the greenhouse this afternoon.”
[리뷰]“My lady, I would like to invite you to the tea party that will be held in the greenhouse.”

[한글]『시간이 나신다면 꼭 참석해 주세요,
[기존]“please attend if you have time,
[리뷰]Please make sure to attend if you have time.

[한글]헤더 아덴 자작 영애.』
[기존]lady heather adens.”
[리뷰]Lady Heather Aden.

[한글]이 사람,
[기존]isn’t she...
[리뷰]That person,

[한글]어제 시그렌이랑 일이 있었던 그 영애 아냐?
[기존]...the lady who was with siegren yesterday?
[리뷰]Isn't she the lady who had an incident with Siegren yesterday?

[한글]그런 사람이 여는 티파티에 내가 가도 되는 건가?
[기존]should I really go to a tea party hosted by someone like that?
[리뷰]Am I even allowed to attend a tea party hosted by someone like that?

[한글]내가 괜히 신경 쓸 만한 이유는 없지.
[기존]well, I guess there’s no reason for me to be worried.
[리뷰]There’s no reason for 