In [1]:
import re
from langchain_community.vectorstores import FAISS
from langchain.docstore.document import Document
import bs4
import ssl
import urllib3
import pandas as pd
import faiss
import os
from langchain.embeddings import HuggingFaceEmbeddings
import torch
import gc

def instruct_structure(prompt):
    input_text, output_text = prompt.split('### target')
    input_text = input_text.replace('### glossaries', '### glossary').replace('\n* ', '\n• ')
    input_text = re.sub(r"\[[^\]]+\] ", "[UNK] ", input_text)
    return input_text

project_id = "prod-ai-project"

from google.cloud import bigquery
client = bigquery.Client(project=project_id)
sql = """select series_id, episode_id, org_input_text, org_output_text, prompt 
        from webtoon_translation.structured_240820_ep_line
        where data_split = 'romance_valid'"""
df = client.query(sql).result().to_dataframe()
from tqdm import tqdm
tqdm.pandas()
df['prompt'] = df['prompt'].progress_apply(lambda x: instruct_structure(x))

100%|████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 18197.61it/s]


In [2]:
def substring_containment(s1, s2, penta_weight = 5, quad_weight=4, tri_weight=3, bi_weight=2, char_weight=1):
    def get_ngrams(s, n):
        s = ''.join(s.split()) #space 제거  
        return {s[i:i+n] for i in range(len(s) - (n-1))}

    s1_char = get_ngrams(s1, 1)
    s2_char = get_ngrams(s2, 1)
    
    s1_bigrams = get_ngrams(s1, 2)
    s2_bigrams = get_ngrams(s2, 2)
    
    s1_trigrams = get_ngrams(s1, 3)
    s2_trigrams = get_ngrams(s2, 3)

    s1_quadgrams = get_ngrams(s1, 4)
    s2_quadgrams = get_ngrams(s2, 4)

    s1_pentagrams = get_ngrams(s1, 5)
    s2_pentagrams = get_ngrams(s2, 5)

    #char 계산
    common_char = s1_char & s2_char
    char_score = len(common_char)
    
    # bi-gram 포함도 계산
    common_bigrams = s1_bigrams & s2_bigrams
    bigram_score = len(common_bigrams)

    # tri-gram 포함도 계산
    common_trigrams = s1_trigrams & s2_trigrams
    trigram_score = len(common_trigrams)

    # quad-gram 포함도 계산
    common_quadgrams = s1_quadgrams & s2_quadgrams
    quadgram_score = len(common_quadgrams)

    # penta-gram 포함도 계산
    common_pentagrams = s1_pentagrams & s2_pentagrams
    pentagram_score = len(common_pentagrams)

    # 최종 점수 계산 
    # 공통 부분이 많을수록 점수가 커지고, 적을수록 점수가 작아지는 구조
    # 공통 부분이 많을수록 n-gram의 교집합 크기가 커지고, 가중치가 반영되면서 점수가 높아짐.
    # 공통 부분이 적으면 교집합 크기가 작아지고, 동일한 분모(가중치 합)로 나누니까 값이 작아짐.
    denominator = char_weight + bi_weight + tri_weight + quad_weight + penta_weight
    numerator = char_weight * char_score + \
                 bi_weight * bigram_score + \
                 tri_weight * trigram_score + \
                 quad_weight * quadgram_score + \
                 penta_weight * pentagram_score
    final_score = numerator / denominator
    
    return final_score

def adjusted_edit_distance(s1, s2):
    """Levenshtein 거리 기반 + 공통 단어 + 포함도 반영"""
    containment_ratio = substring_containment(s1, s2)

    # 겹치는 문자가 없으면 후보 제외
    if containment_ratio == 0:
        return -float('inf')
        
    adjusted_distance = containment_ratio

    return adjusted_distance

def find_most_similar_sentence(target, sentences):
    """주어진 문장 목록에서 target 문장과 가장 유사한 문장을 찾음"""
    similarities = []
    for sentence in sentences:
        #길이 3이내로 차이나는 것만 담기
        if len(target) >= len(sentence) + 3:
            #print(len(sentence), len(target))
            similarities.append((sentence, adjusted_edit_distance(target, sentence)))
    similarities.sort(key=lambda x: x[1],reverse=True)  # 거리 기준 정렬 (높을수록 유사)
    return similarities[:3]

In [3]:
file_path = "./data/idiom_dict.txt"
with open(file_path, 'r', encoding='utf-8') as file:
    lines = file.readlines()
origin_lines = [line.split('>')[0].strip() for line in lines]
question = '내 무덤을 내가 팠지...'
result = find_most_similar_sentence(question, origin_lines)
print(result)

[('가까운 무덤을 보다', 0.7333333333333333), ('무덤을 파다', 0.6666666666666666), ('자기 무덤을 파다', 0.6666666666666666)]


In [4]:
def extract_top(question):
    file_path = "./data/idiom_dict.txt"
    with open(file_path, 'r', encoding='utf-8') as file:
        lines = file.readlines()
    origin_lines = [line.split('>')[0].strip() for line in lines]

    result = find_most_similar_sentence(question, origin_lines)
    #문법적 유사성 판단 결과 
    #1점 이하는 문법적 유사성이 낮다고 판단
    SYNTATIC_THRESHOLD = 1.0
    result = [r[0] for r in result if r[1] > SYNTATIC_THRESHOLD]
    #문법적 유사성으로 1차 필터링
    print('문장 : ',question)
    print('문법적으로 유사한 후보군들 : ',result[:3])
    if len(result) == 0:
        return None

    #의미적 유사성 비교
    docs = [Document(page_content=f"{line}") for line in result]
    embeddings = HuggingFaceEmbeddings(model_name="nlpai-lab/KURE-v1")
    #embeddings = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large")

    vectorstore = FAISS.from_documents(documents=docs, embedding=embeddings)
    retriever = vectorstore.as_retriever(search_type='similarity', search_kwargs={'k': 5})
    docs_with_scores = retriever.vectorstore.similarity_search_with_score(question, k=5)
    print(docs_with_scores)
    doc = docs_with_scores[0][0]
    score = docs_with_scores[0][1]
    
    if hasattr(vectorstore, "index") and isinstance(vectorstore.index, faiss.Index):
        # FAISS 인덱스를 CPU로 변환 (GPU 해제)
        vectorstore.index = faiss.index_gpu_to_cpu(vectorstore.index)
    
    # FAISS 객체 삭제
    del vectorstore
    # Python 가비지 컬렉션 실행
    gc.collect()
    # PyTorch GPU 캐시 정리
    torch.cuda.empty_cache()
    
    #2차 필터링, 의미적으로 가장 유사한 대상 중 0.6이하만 (L2 distance는 작을 수록 유사)
    SEMANTIC_THRESHOLD = 0.9
    if score < SEMANTIC_THRESHOLD:
        return (doc.page_content, score)
    else:
        return None

In [5]:
data_idx = 4
data = df['prompt'][data_idx]
example = data.split("### source")[1].strip()
#print(example)

In [6]:
# print(find_most_similar_sentence("왜 남주가 벌써 내 코앞에서 굴러다니고 있는 거지?",["코 앞이다"]))
# print(find_most_similar_sentence("한가지 억울한 점이 있다면",["싹이 있다"]))

In [7]:
# print(substring_containment("왜 남주가 벌써 내 코앞에서 굴러다니고 있는 거지?", "코 앞이다"))

In [8]:
# print(extract_top("그를 눈엣가시처럼 여겨 죽이고 싶어 하는 자들은 많았다."))

In [9]:
# result = ['눈엣가시처럼 여기다', '눈엣가시다', '눈엣가시 같다']
# docs = [Document(page_content=f"{line}") for line in result]
# embeddings = HuggingFaceEmbeddings(model_name="nlpai-lab/KURE-v1")
# #embeddings = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large")
# vectorstore = FAISS.from_documents(documents=docs, embedding=embeddings)
# retriever = vectorstore.as_retriever(search_type='similarity', search_kwargs={'k': 5})
# question = "그를 눈엣가시처럼 여겨 죽이고 싶어 하는 자들은 많았다."
# docs_with_scores = retriever.vectorstore.similarity_search_with_score(question, k=5)
# for d, s in docs_with_scores:
#     print(d.page_content, s)



In [10]:
# print(find_most_similar_sentence('지긋지긋했던 내 인생에서 가장 평화로운 광경이었다.', ['지긋지긋하다.']))

In [11]:
sens = example.split('\n')
hints = []
for sen in sens:
    q = sen.split('[UNK]')[1].strip()
    result = extract_top(q)
    if result:
        idiom = result[0]
        print(idiom, result[1])
        print()
        hints.append(idiom)
    else:
        print()

문장 :  외로웠다.
문법적으로 유사한 후보군들 :  []

문장 :  누군가 날 필요로 해주면 좋겠다고 생각했다.
문법적으로 유사한 후보군들 :  ['늦었다고 생각할 때가 가장 빠르다', '늦었다고 생각할 때가 가장 빠를 때다', '늦었다고 생각할 때가 가장 빠른 때다']


  embeddings = HuggingFaceEmbeddings(model_name="nlpai-lab/KURE-v1")
  from .autonotebook import tqdm as notebook_tqdm


[(Document(id='15d896fd-6405-4559-91a7-98b17d8fdb94', metadata={}, page_content='늦었다고 생각할 때가 가장 빠르다'), 1.015663), (Document(id='aca9cac4-a0c3-481b-aac7-b204cc894a55', metadata={}, page_content='늦었다고 생각할 때가 가장 빠른 때다'), 1.0195477), (Document(id='577691f7-5dfa-44db-9212-61225fc6a971', metadata={}, page_content='늦었다고 생각할 때가 가장 빠를 때다'), 1.0240672)]

문장 :  이 벌레만도 못한 목숨이라도 의미가 있을까?
문법적으로 유사한 후보군들 :  []

문장 :  시간이 지나고, 용병단은 헤일론 영지의 방어를 맡게 되었다.
문법적으로 유사한 후보군들 :  ['시간이 살같이 지나가다', '시간이 쏜살같이 지나가다']
[(Document(id='2d7c3d52-d4d9-4797-be0b-f5f897169a64', metadata={}, page_content='시간이 쏜살같이 지나가다'), 1.0867926), (Document(id='27be14ca-69be-4fc1-bc33-80d456c96c83', metadata={}, page_content='시간이 살같이 지나가다'), 1.1527063)]

문장 :  마물과의 싸움은 위험했지만, 돈이 됐다.
문법적으로 유사한 후보군들 :  []

문장 :  나는 제대로 된 무기도 받지 못하고,
문법적으로 유사한 후보군들 :  ['숲을 보지 못하고 나무만 본다', '제대로 된 밥벌이를 하다']
[(Document(id='184cc738-b085-4748-bbf3-1342adf280db', metadata={}, page_content='숲을 보지 못하고 나무만 본다'), 0.9339523), (Document(id='350d7b3e-02b6-4452-8b3b-a19b

In [12]:
print(hints)

['생사를 넘나들다', '쓰레기 같은 말을 하다', '비슷한 처지', '도움의 손길을 내밀다', '도움을 주고도 욕먹는다', '도움을 주다', '머리를 쓰다듬다', '눈물이 나다', '지긋지긋하다']


In [13]:
file_path = "./data/idiom_dict.txt"
with open(file_path, 'r', encoding='utf-8') as file:
    lines = file.readlines()
origin_lines = [line.split('>')[0].strip() for line in lines]

In [14]:
print(sens[0])
print(lines[0].strip())
print(origin_lines[0])

000	[UNK] 외로웠다.
가슴이 뜨겁다 > Have a passionate heart
가슴이 뜨겁다


In [15]:
hints_origin = []
for h in hints:
    for line in lines:
        if h in line:
            hints_origin.append(line.strip())
            break

In [16]:
print(hints_origin)

['생사를 넘나들다 > Be in a dangerous situation', '쓰레기 같은 말을 하다 > Speak nonsense', '비슷한 처지다 > Be in the same boat', '도움의 손길을 내밀다 > Offer a helping hand', '도움을 주고도 욕먹는다 > No good deed goes unpunished', '도움을 주다 > Give a helping hand', '머리를 쓰다듬다 > Comfort someone', '눈물이 나다 > Feel emotional', '지긋지긋하다 > Be sick and tired of']


In [17]:
prompt = data.split("### source")[0].strip()+'\n'
for i in range(len(hints_origin)):
    prompt += '• '+hints_origin[i]+'\n'
input_text = prompt + '\n\n###source\n' + example



In [18]:
print(input_text)

### glossary
• 용병: mercenaries
• 시그렌 (M): siegren
• 생사를 넘나들다 > Be in a dangerous situation
• 쓰레기 같은 말을 하다 > Speak nonsense
• 비슷한 처지다 > Be in the same boat
• 도움의 손길을 내밀다 > Offer a helping hand
• 도움을 주고도 욕먹는다 > No good deed goes unpunished
• 도움을 주다 > Give a helping hand
• 머리를 쓰다듬다 > Comfort someone
• 눈물이 나다 > Feel emotional
• 지긋지긋하다 > Be sick and tired of


###source
000	[UNK] 외로웠다.
001	[UNK] 누군가 날 필요로 해주면 좋겠다고 생각했다.
002	[UNK] 이 벌레만도 못한 목숨이라도 의미가 있을까?
003	[UNK] 시간이 지나고, 용병단은 헤일론 영지의 방어를 맡게 되었다.
004	[UNK] 마물과의 싸움은 위험했지만, 돈이 됐다.
005	[UNK] 나는 제대로 된 무기도 받지 못하고,
006	[UNK] 전장에서 주운 누군가의 검으로 버텼다.
007	[UNK] 끝도 없는 고단한 싸움의 좋은 점이 있다면
008	[UNK] 생사를 넘는 전투로 강해졌다는 것일까.
009	[UNK] 살아남았다.
010	[UNK] 하지만, 기어코 일은 터졌다.
011	[UNK] 밀리고 있어.
012	[UNK] 즉시 퇴각해!
013	[UNK] 철수다, 철수!
014	[UNK] 거기서 뭐 하는 거냐! 굼뜬 자식!
015	[UNK] 하, 쓸모가 없다면…
016	[UNK] 인간 방패라도 되라고!
017	[UNK] 살아야 한다,
018	[UNK] 시그렌.
019	[UNK] 살아야 한다…
020	[UNK] 살기 위해 버텼다.
021	[UNK] 하지만 아무리 실력이 늘었다고 한들,
022	[UNK] 역부족이었다.
023	[UNK] 드디어 죽는 건가.
024	[UNK] 어쩐지 안심되기까지 한다.

In [19]:
from openai import OpenAI
GPT_FINE_TUNING_MODEL="ft:gpt-4o-2024-08-06:kakaoent:webtoon-sft-250225:B4j839q0"
openai_client = OpenAI(
    api_key='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')

In [20]:
SYSTEM_PROMPT = {
            "role": "system",
            "content": [
                {
                    "type": "text",
                    "text": """You're an expert translator who translates Korean webtoon in English. Make sure the number of target sentences matches the number of source sentences. The result should be TSV formatted. 
            • Find a balance between staying true to the Korean meaning and keeping a natural flow. Don't be afraid to add to the text. Embellish it. 
            • Avoid translating word-for-word. Keep the general feeling and translate the text accordingly. 
            • Translate with an American audience in mind. This means easy-to-read, conversational English.
            • Please translate using ### glossary.""",
                }
            ],
        }

chat_completion = openai_client.beta.chat.completions.parse(
    model= GPT_FINE_TUNING_MODEL,
    messages = [
        SYSTEM_PROMPT,
        {
            "role":"user",
            "content" : [{"type" : "text",
                          "text" : input_text
                        }],
        }
    ],
    temperature= 0.2,
    top_p = 0.8
)
response = chat_completion.choices[0].message.content

In [21]:
print(response)

000	I was lonely.
001	I wished someone would need me.
002	would that give my worthless life some meaning?
003	as time passed, the mercenary troop was assigned to defend the barony of hailon.
004	fighting the demons was dangerous, but it paid well.
005	I wasn’t given a proper weapon,
006	so I had to make do with a sword I found on the battlefield.
007	if there was any good that came out of the endless, grueling battles,
008	it was that I became stronger by being in a dangerous situation.
009	I survived.
010	but eventually, it happened.
011	we’re being pushed back.
012	retreat immediately!
013	retreat, retreat!
014	what are you doing there, you slowpoke?!
015	haa, if you’re that useless,
016	you might as well become a human shield!
017	you must survive,
018	siegren.
019	you must survive...
020	I endured to stay alive.
021	but no matter how much stronger I became,
022	it wasn’t enough.
023	am I finally going to die?
024	I feel strangely relieved.
025	if there’s one thing I regret,
026	it’