In [2]:
import re
from langchain_community.vectorstores import FAISS
from langchain.docstore.document import Document
import bs4
import ssl
import urllib3
import pandas as pd
import faiss
import os
from langchain.embeddings import HuggingFaceEmbeddings
import torch
import gc

def instruct_structure(prompt):
    input_text, output_text = prompt.split('### target')
    input_text = input_text.replace('### glossaries', '### glossary').replace('\n* ', '\n• ')
    input_text = re.sub(r"\[[^\]]+\] ", "[UNK] ", input_text)
    return input_text


project_id = "prod-ai-project"

from google.cloud import bigquery
client = bigquery.Client(project=project_id)
sql = """select series_id, episode_id, org_input_text, org_output_text, prompt 
        from webtoon_translation.structured_240820_ep_line
        where data_split = 'romance_valid'"""
df = client.query(sql).result().to_dataframe()
from tqdm import tqdm
tqdm.pandas()
df['prompt'] = df['prompt'].progress_apply(lambda x: instruct_structure(x))

100%|████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 18878.32it/s]


In [3]:
def substring_containment(s1, s2, penta_weight = 5, quad_weight=4, tri_weight=3, bi_weight=2, char_weight=1):
    def get_ngrams(s, n):
        s = ''.join(s.split()) #space 제거  
        return {s[i:i+n] for i in range(len(s) - (n-1))}

    s1_char = get_ngrams(s1, 1)
    s2_char = get_ngrams(s2, 1)
    
    s1_bigrams = get_ngrams(s1, 2)
    s2_bigrams = get_ngrams(s2, 2)
    
    s1_trigrams = get_ngrams(s1, 3)
    s2_trigrams = get_ngrams(s2, 3)

    s1_quadgrams = get_ngrams(s1, 4)
    s2_quadgrams = get_ngrams(s2, 4)

    s1_pentagrams = get_ngrams(s1, 5)
    s2_pentagrams = get_ngrams(s2, 5)

    #char 계산
    common_char = s1_char & s2_char
    char_score = len(common_char)
    
    # bi-gram 포함도 계산
    common_bigrams = s1_bigrams & s2_bigrams
    bigram_score = len(common_bigrams)

    # tri-gram 포함도 계산
    common_trigrams = s1_trigrams & s2_trigrams
    trigram_score = len(common_trigrams)

    # quad-gram 포함도 계산
    common_quadgrams = s1_quadgrams & s2_quadgrams
    quadgram_score = len(common_quadgrams)

    # penta-gram 포함도 계산
    common_pentagrams = s1_pentagrams & s2_pentagrams
    pentagram_score = len(common_pentagrams)

    # 최종 점수 계산 
    # 공통 부분이 많을수록 점수가 커지고, 적을수록 점수가 작아지는 구조
    # 공통 부분이 많을수록 n-gram의 교집합 크기가 커지고, 가중치가 반영되면서 점수가 높아짐.
    # 공통 부분이 적으면 교집합 크기가 작아지고, 동일한 분모(가중치 합)로 나누니까 값이 작아짐.
    denominator = char_weight + bi_weight + tri_weight + quad_weight + penta_weight
    numerator = char_weight * char_score + \
                 bi_weight * bigram_score + \
                 tri_weight * trigram_score + \
                 quad_weight * quadgram_score + \
                 penta_weight * pentagram_score
    final_score = numerator / denominator
    
    return final_score

def adjusted_edit_distance(s1, s2):
    """Levenshtein 거리 기반 + 공통 단어 + 포함도 반영"""
    containment_ratio = substring_containment(s1, s2)

    # 겹치는 문자가 없으면 후보 제외
    if containment_ratio == 0:
        return -float('inf')
        
    adjusted_distance = containment_ratio

    return adjusted_distance

def find_most_similar_sentence(target, sentences):
    """주어진 문장 목록에서 target 문장과 가장 유사한 문장을 찾음"""
    similarities = []
    for sentence in sentences:
        #길이 3이내로 차이나는 것만 담기
        if len(target) >= len(sentence) + 3:
            #print(len(sentence), len(target))
            similarities.append((sentence, adjusted_edit_distance(target, sentence)))
    similarities.sort(key=lambda x: x[1],reverse=True)  # 거리 기준 정렬 (높을수록 유사)
    return similarities[:3]

In [4]:
file_path = "./data/idiom_dict.txt"
with open(file_path, 'r', encoding='utf-8') as file:
    lines = file.readlines()
origin_lines = [line.split('>')[0].strip() for line in lines]
question = '내 무덤을 내가 팠지...'
result = find_most_similar_sentence(question, origin_lines)
print(result)

[('가까운 무덤을 보다', 0.7333333333333333), ('무덤을 파다', 0.6666666666666666), ('자기 무덤을 파다', 0.6666666666666666)]


In [5]:
def extract_top(question):
    file_path = "./data/idiom_dict.txt"
    with open(file_path, 'r', encoding='utf-8') as file:
        lines = file.readlines()
    origin_lines = [line.split('>')[0].strip() for line in lines]

    result = find_most_similar_sentence(question, origin_lines)
    #문법적 유사성 판단 결과 
    #1점 이하는 문법적 유사성이 낮다고 판단
    SYNTATIC_THRESHOLD = 1.0

    cal_dict = {}
    mid_result = []

    mid_result = [(r[0], r[1]) for r in result if r[1] > SYNTATIC_THRESHOLD]
    for r in mid_result:
        sen = r[0]
        score = r[1]
        cal_dict[sen] = score
    
    final_result = [sen for sen, score in mid_result]
    
    #문법적 유사성으로 1차 필터링
    print('문장 : ',question)
    print('문법적으로 유사한 후보군들 : ',final_result)
    if len(final_result) == 0:
        return None

    #의미적 유사성 비교
    docs = [Document(page_content=f"{line}") for line in final_result]
    embeddings = HuggingFaceEmbeddings(model_name="nlpai-lab/KURE-v1")
    #embeddings = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large")

    vectorstore = FAISS.from_documents(documents=docs, embedding=embeddings)
    retriever = vectorstore.as_retriever(search_type='similarity', search_kwargs={'k': 3})
    docs_with_scores = retriever.vectorstore.similarity_search_with_score(question, k=3)
    print(docs_with_scores)

    
    for d in docs_with_scores:
        doc = d[0].page_content
        score = d[1]

        #2차 필터링
        SEMANTIC_THRESHOLD = 1.1 #의미적으로 유사하면 값 누적
        if score < SEMANTIC_THRESHOLD:
            cal_dict[doc] += 1/score

    cal_result = []
    for doc, score in cal_dict.items():
        cal_result.append((doc, score))

    cal_result = sorted(cal_result, key=lambda x:x[1], reverse=True)
    
    if hasattr(vectorstore, "index") and isinstance(vectorstore.index, faiss.Index):
        # FAISS 인덱스를 CPU로 변환 (GPU 해제)
        vectorstore.index = faiss.index_gpu_to_cpu(vectorstore.index)
    
    # FAISS 객체 삭제
    del vectorstore
    # Python 가비지 컬렉션 실행
    gc.collect()
    # PyTorch GPU 캐시 정리
    torch.cuda.empty_cache()
    
    #3차 필터링, 형태적+의미적으로 가장 유사한 대상 필터링 (L2 distance는 작을 수록 유사라서 분모로)
    SEMANTIC_THRESHOLD = 1.1
    cal_result_doc = cal_result[0][0]
    cal_result_score = cal_result[0][1]

    if cal_result_score >= SEMANTIC_THRESHOLD+(1/SEMANTIC_THRESHOLD):
        return (cal_result_doc, cal_result_score)
    else:
        return None

In [6]:
data_idx = 4
data = df['prompt'][data_idx]
example = data.split("### source")[1].strip()
#print(example)

In [7]:
sens = example.split('\n')
hints = []
for sen in sens:
    q = sen.split('[UNK]')[1].strip()
    result = extract_top(q)
    if result:
        idiom = result[0]
        print(idiom, result[1])
        print()
        hints.append(idiom)
    else:
        print()

문장 :  외로웠다.
문법적으로 유사한 후보군들 :  []

문장 :  누군가 날 필요로 해주면 좋겠다고 생각했다.
문법적으로 유사한 후보군들 :  ['늦었다고 생각할 때가 가장 빠르다', '늦었다고 생각할 때가 가장 빠를 때다', '늦었다고 생각할 때가 가장 빠른 때다']


  embeddings = HuggingFaceEmbeddings(model_name="nlpai-lab/KURE-v1")
  from .autonotebook import tqdm as notebook_tqdm


[(Document(id='4ace0a9f-d399-4e9e-8b97-91dfdb880940', metadata={}, page_content='늦었다고 생각할 때가 가장 빠르다'), 1.015663), (Document(id='d7a8019b-9cc7-43aa-a0fb-ae0718e7b1df', metadata={}, page_content='늦었다고 생각할 때가 가장 빠른 때다'), 1.0195477), (Document(id='c84ab35f-d4eb-4b91-bbc9-f763442f9490', metadata={}, page_content='늦었다고 생각할 때가 가장 빠를 때다'), 1.0240672)]
늦었다고 생각할 때가 가장 빠르다 2.3845785193167277

문장 :  이 벌레만도 못한 목숨이라도 의미가 있을까?
문법적으로 유사한 후보군들 :  []

문장 :  시간이 지나고, 용병단은 헤일론 영지의 방어를 맡게 되었다.
문법적으로 유사한 후보군들 :  ['시간이 살같이 지나가다', '시간이 쏜살같이 지나가다']
[(Document(id='116b1a08-3b92-4b61-bc9e-db4ff6835e0b', metadata={}, page_content='시간이 쏜살같이 지나가다'), 1.0867926), (Document(id='51489014-973c-4c04-9335-0957d77b4787', metadata={}, page_content='시간이 살같이 지나가다'), 1.1527063)]
시간이 쏜살같이 지나가다 2.253472107581889

문장 :  마물과의 싸움은 위험했지만, 돈이 됐다.
문법적으로 유사한 후보군들 :  []

문장 :  나는 제대로 된 무기도 받지 못하고,
문법적으로 유사한 후보군들 :  ['숲을 보지 못하고 나무만 본다', '제대로 된 밥벌이를 하다']
[(Document(id='c9c5e952-856c-481d-a1e0-9fa585a05643', metadata={}, page_content='숲을 보

In [8]:
print(hints)

['늦었다고 생각할 때가 가장 빠르다', '시간이 쏜살같이 지나가다', '숲을 보지 못하고 나무만 본다', '길거리에서 주운 사람 아니다', '생사를 넘나들다', '쓰레기 같은 말을 하다', '비슷한 처지', '도움의 손길을 내밀다', '도움을 주고도 욕먹는다', '도움을 주고도 욕먹는다', '톡톡히 본전 생각이 나다', '이런 게 아니라 저런 것도 있다', '머리를 쓰다듬다', '금방이라도 눈물이 나올 것 같다', '지긋지긋하다']


In [9]:
file_path = "./data/idiom_dict.txt"
with open(file_path, 'r', encoding='utf-8') as file:
    lines = file.readlines()
origin_lines = [line.split('>')[0].strip() for line in lines]

In [10]:
hints_origin = []
for h in hints:
    for line in lines:
        if h in line:
            hints_origin.append(line.strip())
            break

In [11]:
print(hints_origin)

['늦었다고 생각할 때가 가장 빠르다 > Never too late', '시간이 쏜살같이 지나가다 > Time flies fast', '숲을 보지 못하고 나무만 본다 > Miss the big picture', '길거리에서 주운 사람 아니다 > Not just anyone', '생사를 넘나들다 > Be in a dangerous situation', '쓰레기 같은 말을 하다 > Speak nonsense', '비슷한 처지다 > Be in the same boat', '도움의 손길을 내밀다 > Offer a helping hand', '도움을 주고도 욕먹는다 > No good deed goes unpunished', '도움을 주고도 욕먹는다 > No good deed goes unpunished', '톡톡히 본전 생각이 나다 > To regret a bad purchase', "이런 게 아니라 저런 것도 있다 > There's another way too", '머리를 쓰다듬다 > Comfort someone', '금방이라도 눈물이 나올 것 같다 > On the verge of tears', '지긋지긋하다 > Be sick and tired of']


In [12]:
prompt = data.split("### source")[0].strip()+'\n'
for i in range(len(hints_origin)):
    prompt += '• '+hints_origin[i]+'\n'
input_text = prompt + '\n\n###source\n' + example



In [13]:
print(input_text)

### glossary
• 용병: mercenaries
• 시그렌 (M): siegren
• 늦었다고 생각할 때가 가장 빠르다 > Never too late
• 시간이 쏜살같이 지나가다 > Time flies fast
• 숲을 보지 못하고 나무만 본다 > Miss the big picture
• 길거리에서 주운 사람 아니다 > Not just anyone
• 생사를 넘나들다 > Be in a dangerous situation
• 쓰레기 같은 말을 하다 > Speak nonsense
• 비슷한 처지다 > Be in the same boat
• 도움의 손길을 내밀다 > Offer a helping hand
• 도움을 주고도 욕먹는다 > No good deed goes unpunished
• 도움을 주고도 욕먹는다 > No good deed goes unpunished
• 톡톡히 본전 생각이 나다 > To regret a bad purchase
• 이런 게 아니라 저런 것도 있다 > There's another way too
• 머리를 쓰다듬다 > Comfort someone
• 금방이라도 눈물이 나올 것 같다 > On the verge of tears
• 지긋지긋하다 > Be sick and tired of


###source
000	[UNK] 외로웠다.
001	[UNK] 누군가 날 필요로 해주면 좋겠다고 생각했다.
002	[UNK] 이 벌레만도 못한 목숨이라도 의미가 있을까?
003	[UNK] 시간이 지나고, 용병단은 헤일론 영지의 방어를 맡게 되었다.
004	[UNK] 마물과의 싸움은 위험했지만, 돈이 됐다.
005	[UNK] 나는 제대로 된 무기도 받지 못하고,
006	[UNK] 전장에서 주운 누군가의 검으로 버텼다.
007	[UNK] 끝도 없는 고단한 싸움의 좋은 점이 있다면
008	[UNK] 생사를 넘는 전투로 강해졌다는 것일까.
009	[UNK] 살아남았다.
010	[UNK] 하지만, 기어코 일은 터졌다.
011	[UNK] 밀리고 있어.
012	[U

In [14]:
from openai import OpenAI
GPT_FINE_TUNING_MODEL="ft:gpt-4o-2024-08-06:kakaoent:webtoon-sft-250225:B4j839q0"
openai_client = OpenAI(
    api_key='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')

In [15]:
SYSTEM_PROMPT = {
            "role": "system",
            "content": [
                {
                    "type": "text",
                    "text": """You're an expert translator who translates Korean webtoon in English. Make sure the number of target sentences matches the number of source sentences. The result should be TSV formatted. 
            • Find a balance between staying true to the Korean meaning and keeping a natural flow. Don't be afraid to add to the text. Embellish it. 
            • Avoid translating word-for-word. Keep the general feeling and translate the text accordingly. 
            • Translate with an American audience in mind. This means easy-to-read, conversational English.
            • Please translate using ### glossary.""",
                }
            ],
        }

chat_completion = openai_client.beta.chat.completions.parse(
    model= GPT_FINE_TUNING_MODEL,
    messages = [
        SYSTEM_PROMPT,
        {
            "role":"user",
            "content" : [{"type" : "text",
                          "text" : input_text
                        }],
        }
    ],
    temperature= 0.2,
    top_p = 0.8
)
response = chat_completion.choices[0].message.content

In [16]:
print(response)

000	I was lonely.
001	I wished someone would need me.
002	would this life, which is worth less than a bug, ever have any meaning?
003	as time passed, the mercenary troop was assigned to defend the barony of haillon.
004	fighting demons was dangerous, but it paid well.
005	I didn’t even have a proper weapon,
006	so I had to make do with a sword I picked up on the battlefield.
007	if there was one good thing about the endless, grueling battles,
008	it was that I became stronger by fighting for my life.
009	I survived.
010	but eventually, the worst happened.
011	we’re being pushed back.
012	retreat immediately!
013	retreat! retreat!
014	what are you doing?! move it!
015	haa... if you’re useless,
016	you might as well be a human shield!
017	you must survive,
018	siegren.
019	you must live...
020	I endured to stay alive.
021	but no matter how much my skills improved,
022	it wasn’t enough.
023	am I finally going to die?
024	somehow, I feel relieved.
025	if there’s one thing I regret,
026	it’

In [24]:
response_split = response.split('\n')

In [50]:
GPT_BASE_MODEL = "chatgpt-4o-latest"

SYSTEM_REVIEW_PROMPT = {
            "role": "system",
            "content": [
                {
                    "type": "text",
                    "text": "너는 1차 번역된 웹툰 대화를 검토하는 태스크를 수행할 거야. 먼저 맥락을 이해하기 위해 한 회차의 모든 한국어 대화문이 주어지고, \
                    그 중에서 한 줄의 영어 번역문이 주어질 거야. \
                    주어진 하나의 영어 번역문을 기존의 한글 대화와 비교해서 누락된 부분은 없는지 너무 직역된 부분은 없는지 glossary에서 참조할 만한 건 없는지 검토하고, \
                    더 나은 하나의 영어 번역문을 생성해줘. 물론 기존 영어 번역문이 완벽하다면 그대로 생성해도 돼. \
                    새롭게 생성한 영어 번역문은 <translate>로 시작하고 </translate>로 끝내, \
                    만약 추론이 필요하다면 <reasoning>으로 시작해서 추론 내용을 입력하고 </reasoning>으로 마무리해. 추론할 때는 이 대사의 주어가 무엇인지도 생각해. 필요없으면 주어가 없어도 돼.\
                    즉 정리하자면 출력 형태는 '<reasoning> ...추론 내용... </reasoning> <translate> 검토한 영어 번역문 </translate>' \
                    혹은 '<translate> 검토한 영어 번역문 </translate>' 가 될 거야"
                }
            ],
        }



In [51]:
import re

def extract_translation(text):
    match = re.search(r'<translate>(.*?)</translate>', text, re.DOTALL)
    return match.group(1).strip() if match else None

review_li = []
for i, r in enumerate(response_split):
    review_text = f"{input_text}\n\n### review\n{r}\n\n" 
    if i == 0:
        print(review_text)
    review_completion = openai_client.beta.chat.completions.parse(
        model= GPT_BASE_MODEL,
        messages = [
            SYSTEM_REVIEW_PROMPT,
            {
                "role":"user",
                "content" : [{"type" : "text",
                              "text" : review_text
                            }],
            }
        ],
        temperature= 0.2,
        top_p = 0.8
    )
    review = review_completion.choices[0].message.content
    review_li.append(extract_translation(review))
    #print(review)
    #break

### glossary
• 용병: mercenaries
• 시그렌 (M): siegren
• 늦었다고 생각할 때가 가장 빠르다 > Never too late
• 시간이 쏜살같이 지나가다 > Time flies fast
• 숲을 보지 못하고 나무만 본다 > Miss the big picture
• 길거리에서 주운 사람 아니다 > Not just anyone
• 생사를 넘나들다 > Be in a dangerous situation
• 쓰레기 같은 말을 하다 > Speak nonsense
• 비슷한 처지다 > Be in the same boat
• 도움의 손길을 내밀다 > Offer a helping hand
• 도움을 주고도 욕먹는다 > No good deed goes unpunished
• 도움을 주고도 욕먹는다 > No good deed goes unpunished
• 톡톡히 본전 생각이 나다 > To regret a bad purchase
• 이런 게 아니라 저런 것도 있다 > There's another way too
• 머리를 쓰다듬다 > Comfort someone
• 금방이라도 눈물이 나올 것 같다 > On the verge of tears
• 지긋지긋하다 > Be sick and tired of


###source
000	[UNK] 외로웠다.
001	[UNK] 누군가 날 필요로 해주면 좋겠다고 생각했다.
002	[UNK] 이 벌레만도 못한 목숨이라도 의미가 있을까?
003	[UNK] 시간이 지나고, 용병단은 헤일론 영지의 방어를 맡게 되었다.
004	[UNK] 마물과의 싸움은 위험했지만, 돈이 됐다.
005	[UNK] 나는 제대로 된 무기도 받지 못하고,
006	[UNK] 전장에서 주운 누군가의 검으로 버텼다.
007	[UNK] 끝도 없는 고단한 싸움의 좋은 점이 있다면
008	[UNK] 생사를 넘는 전투로 강해졌다는 것일까.
009	[UNK] 살아남았다.
010	[UNK] 하지만, 기어코 일은 터졌다.
011	[UNK] 밀리고 있어.
012	[U

In [52]:
source = input_text.split("###source")[1].strip().split('\n')

In [53]:
print(len(source))

50


In [54]:
assert len(response_split) == len(review_li) == len(source)
for i in range(len(response_split)):
    print(f'[한글]{source[i]}')
    print(f'[기존]{response_split[i]}')
    print(f'[리뷰]{review_li[i]}')
    print()

[한글]000	[UNK] 외로웠다.
[기존]000	I was lonely.
[리뷰]I was lonely.

[한글]001	[UNK] 누군가 날 필요로 해주면 좋겠다고 생각했다.
[기존]001	I wished someone would need me.
[리뷰]I wished someone would need me.

[한글]002	[UNK] 이 벌레만도 못한 목숨이라도 의미가 있을까?
[기존]002	would this life, which is worth less than a bug, ever have any meaning?
[리뷰]Would this worthless life ever hold any meaning?

[한글]003	[UNK] 시간이 지나고, 용병단은 헤일론 영지의 방어를 맡게 되었다.
[기존]003	as time passed, the mercenary troop was assigned to defend the barony of haillon.
[리뷰]As time passed, the mercenary troop was tasked with defending the territory of Haillon.

[한글]004	[UNK] 마물과의 싸움은 위험했지만, 돈이 됐다.
[기존]004	fighting demons was dangerous, but it paid well.
[리뷰]Fighting demons was dangerous, but it was profitable.

[한글]005	[UNK] 나는 제대로 된 무기도 받지 못하고,
[기존]005	I didn’t even have a proper weapon,
[리뷰]I wasn’t even given a proper weapon,

[한글]006	[UNK] 전장에서 주운 누군가의 검으로 버텼다.
[기존]006	so I had to make do with a sword I picked up on the battlefield.
[리뷰]So I had to make do with a sword