In [37]:
from langchain_community.vectorstores import FAISS
from langchain.docstore.document import Document
import bs4
import ssl
import urllib3
import pandas as pd

In [2]:
file_path = "./data/idiom_dict.txt"
with open(file_path, 'r', encoding='utf-8') as file:
    lines = file.readlines()
lines = [line.strip() for line in lines]

docs = [Document(page_content=f"{line}") for line in lines]

In [3]:
print(len(docs))

22138


In [4]:
print(docs[0].page_content)

가슴이 뜨겁다 > Have a passionate heart


In [5]:
from langchain.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large")

  embeddings = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large")
  from .autonotebook import tqdm as notebook_tqdm


In [6]:
import os
faiss_index_path = "./embed_vector/multilingual-e5-large"
if os.path.exists(faiss_index_path):
    print("캐시된 벡터 로드...")
    vectorstore = FAISS.load_local(faiss_index_path, embeddings, allow_dangerous_deserialization=True)
else:
    print("새로운 벡터를 생성하고 저장...")
    vectorstore = FAISS.from_documents(documents=docs, embedding=embeddings)
    vectorstore.save_local(faiss_index_path)

캐시된 벡터 로드...


In [7]:
# ✅ FAISS 인덱스를 GPU로 변환 (공통 적용)
import faiss
try:
    # FAISS 인덱스를 GPU로 변환
    res = faiss.StandardGpuResources()
    gpu_index = faiss.index_cpu_to_gpu(res, 0, vectorstore.index)
    vectorstore.index = gpu_index
    print("GPU로 성공적으로 인덱스를 변환했습니다!")
    print(type(gpu_index))
except faiss.FaissException as e:
    print(f"FAISS 에러 발생: {e}")
    print("GPU 메모리가 부족하거나, 다른 이유로 변환에 실패했습니다.")

if isinstance(vectorstore.index, faiss.GpuIndex):  # GPU 인덱스이면
    print("🚀 FAISS 인덱스가 GPU에서 실행 중입니다!")
else:
    print("💻 FAISS 인덱스가 CPU에서 실행 중입니다!")

GPU로 성공적으로 인덱스를 변환했습니다!
<class 'faiss.swigfaiss.GpuIndexFlat'>
🚀 FAISS 인덱스가 GPU에서 실행 중입니다!


In [10]:
print(vectorstore.index.ntotal, vectorstore.index.d)

22138 1024


In [11]:
retriever = vectorstore.as_retriever(search_type='similarity', search_kwargs={'k':10})

In [12]:
print(retriever)

tags=['FAISS', 'HuggingFaceEmbeddings'] vectorstore=<langchain_community.vectorstores.faiss.FAISS object at 0x7fc05998d0f0> search_kwargs={'k': 10}


In [13]:
SYSTEM_PROMPT = {
            "role": "system",
            "content": [
                {
                    "type": "text",
                    "text": """You're an expert translator who translates Korean webtoon in English. Make sure the number of target sentences matches the number of source sentences. The result should be TSV formatted. 
            • Find a balance between staying true to the Korean meaning and keeping a natural flow. Don't be afraid to add to the text. Embellish it. 
            • Avoid translating word-for-word. Keep the general feeling and translate the text accordingly. 
            • Translate with an American audience in mind. This means easy-to-read, conversational English.""",
                }
            ],
        }

In [15]:
import re
def instruct_structure(prompt):
    input_text, output_text = prompt.split('### target')
    input_text = input_text.replace('### glossaries', '### glossary').replace('\n* ', '\n• ')
    input_text = re.sub(r"\[[^\]]+\] ", "[UNK] ", input_text)
    return input_text

In [16]:
project_id = "prod-ai-project"

from google.cloud import bigquery
client = bigquery.Client(project=project_id)
sql = """select series_id, episode_id, org_input_text, org_output_text, prompt 
        from webtoon_translation.structured_240820_ep_line
        where data_split = 'romance_valid'"""
df = client.query(sql).result().to_dataframe()
from tqdm import tqdm
tqdm.pandas()
df['prompt'] = df['prompt'].progress_apply(lambda x: instruct_structure(x))

100%|████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 18487.02it/s]


In [38]:
data_idx = 2
data = df['prompt'][data_idx]
example = data.split("### source")[1].strip()
print(example)

000	none 마법사님, 괜찮으십니까!
001	none 살아남은 마물이 있다!
002	none 공격 준비!
003	none 거인은 내 위치를 노리고 있었다.
004	none 이 소년이 나와 함께 구르지 않았다면
005	none 나는 죽었을 것이다.
006	none 죽은 줄 알았더니, 숨이 붙은 개체가 있었나?!
007	none 어떡해. 날 안고 굴러서 부상이 악화됐나 봐.
008	none 부축해서 피하는 건 무리야!
009	none 저는 괜찮아요.
010	none 그보다…
011	none 정신 차ㄹ…!
012	none ―그 순간, 차분히 얼굴을 마주한 그때서야…
013	none 나는 퍼뜩 한 가지 사실을 깨달았다.
014	none 용병으로 추정되는 낡은 옷차림.
015	none 밤하늘처럼 새까만 검은 머리카락.
016	none 아름다운 청회색 눈동자,
017	none 먼지투성이임에도 예사롭지 않은 외모.
018	none 내 생각보다 어려서 못 알아봤어.
019	none 이 녀석, 남자 주인공인 시그렌 아냐?!
020	none ※본 작품은 저작권법에 의해 보호를 받는 저작물로 불법 복제와 캡처 등을 이용한 무단 전재 및 유포, 공유하는 것을 금합니다.


In [39]:
def retrieve(question):
    docs = retriever.invoke(question) #retriever로 문서 가져오고
    return docs #context와 question 포함한 딕셔너리 반환

In [40]:
findings = retrieve(example)

In [41]:
hint = data.split("### source")[0].strip()
for i in range(10):
    hint += '\n• '+findings[i].page_content


In [42]:
print(hint)

### glossary
• 시그렌 (M): siegren
• 목숨이 경각에 달려 있다 > Be on the verge of death
• 눈하나 깜짝 안하다 > Remain unfazed
• 호랑이에게 물려 가도 정신만 차리면 산다 > Stay calm in danger
• 눈 하나 깜빡하지 않다 > Remain unfazed
• 굴하지 않다 > Remain undaunted
• 눈 하나 깜짝 안 하다 > Remain unfazed
• 눈 녹듯이 사라지다 > Vanish like melting snow
• 그림자도 밟히지 않게 하다 > Protect someone like a shadow
• 여기서 한 발짝도 못 나간다 > Not budging an inch
• 눈썹 하나 까딱 안 하다 > Stay calm without reaction


In [43]:
input_text = hint + '\n\n###source\n' + example
print(input_text)

### glossary
• 시그렌 (M): siegren
• 목숨이 경각에 달려 있다 > Be on the verge of death
• 눈하나 깜짝 안하다 > Remain unfazed
• 호랑이에게 물려 가도 정신만 차리면 산다 > Stay calm in danger
• 눈 하나 깜빡하지 않다 > Remain unfazed
• 굴하지 않다 > Remain undaunted
• 눈 하나 깜짝 안 하다 > Remain unfazed
• 눈 녹듯이 사라지다 > Vanish like melting snow
• 그림자도 밟히지 않게 하다 > Protect someone like a shadow
• 여기서 한 발짝도 못 나간다 > Not budging an inch
• 눈썹 하나 까딱 안 하다 > Stay calm without reaction

###source
000	none 마법사님, 괜찮으십니까!
001	none 살아남은 마물이 있다!
002	none 공격 준비!
003	none 거인은 내 위치를 노리고 있었다.
004	none 이 소년이 나와 함께 구르지 않았다면
005	none 나는 죽었을 것이다.
006	none 죽은 줄 알았더니, 숨이 붙은 개체가 있었나?!
007	none 어떡해. 날 안고 굴러서 부상이 악화됐나 봐.
008	none 부축해서 피하는 건 무리야!
009	none 저는 괜찮아요.
010	none 그보다…
011	none 정신 차ㄹ…!
012	none ―그 순간, 차분히 얼굴을 마주한 그때서야…
013	none 나는 퍼뜩 한 가지 사실을 깨달았다.
014	none 용병으로 추정되는 낡은 옷차림.
015	none 밤하늘처럼 새까만 검은 머리카락.
016	none 아름다운 청회색 눈동자,
017	none 먼지투성이임에도 예사롭지 않은 외모.
018	none 내 생각보다 어려서 못 알아봤어.
019	none 이 녀석, 남자 주인공인 시그렌 아냐?!
020	none ※본 작품은 저작권법에 의해 보호를 받는 저작물로 불법 복제와 캡처 등을 이용한 

In [44]:
from openai import OpenAI
GPT_FINE_TUNING_MODEL="ft:gpt-4o-2024-08-06:kakaoent:webtoon-sft-250225:B4j839q0"

openai_client = OpenAI(
    api_key='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')
chat_completion = openai_client.beta.chat.completions.parse(
    model= GPT_FINE_TUNING_MODEL,
    messages = [
        SYSTEM_PROMPT,
        {
            "role":"user",
            "content" : [{"type" : "text",
                          "text" : input_text
                        }],
        }
    ],
    temperature= 0.2,
    top_p = 0.8
)

In [45]:
response = chat_completion.choices[0].message.content
print(response)

000	are you all right, master magician?!
001	there's a monster that survived!
002	get ready to attack!
003	the giant was aiming for my position.
004	if this boy hadn't rolled with me,
005	I would have died.
006	I thought they were all dead. is there one still alive?!
007	oh no. his injuries must have gotten worse when he rolled with me.
008	it's impossible to run away with him!
009	I'm all right.
010	more importantly...
011	keep calm--
012	at that moment, when I looked at him closely,
013	I realized something.
014	he was wearing old clothes, like a mercenary.
015	his hair was as dark as the night sky.
016	he had beautiful bluish-gray eyes,
017	and he had an extraordinary appearance, even though he was covered in dust.
018	he's younger than I thought, so I didn't recognize him.
019	isn't this guy the male protagonist, siegren?!
020	*The copyright of this work is protected by copyright law. Therefore, the unauthorized reproduction, distribution, or sharing of this content is strictly pro

In [46]:
print(data)

### glossary
• 시그렌 (M): siegren

### source
000	none 마법사님, 괜찮으십니까!
001	none 살아남은 마물이 있다!
002	none 공격 준비!
003	none 거인은 내 위치를 노리고 있었다.
004	none 이 소년이 나와 함께 구르지 않았다면
005	none 나는 죽었을 것이다.
006	none 죽은 줄 알았더니, 숨이 붙은 개체가 있었나?!
007	none 어떡해. 날 안고 굴러서 부상이 악화됐나 봐.
008	none 부축해서 피하는 건 무리야!
009	none 저는 괜찮아요.
010	none 그보다…
011	none 정신 차ㄹ…!
012	none ―그 순간, 차분히 얼굴을 마주한 그때서야…
013	none 나는 퍼뜩 한 가지 사실을 깨달았다.
014	none 용병으로 추정되는 낡은 옷차림.
015	none 밤하늘처럼 새까만 검은 머리카락.
016	none 아름다운 청회색 눈동자,
017	none 먼지투성이임에도 예사롭지 않은 외모.
018	none 내 생각보다 어려서 못 알아봤어.
019	none 이 녀석, 남자 주인공인 시그렌 아냐?!
020	none ※본 작품은 저작권법에 의해 보호를 받는 저작물로 불법 복제와 캡처 등을 이용한 무단 전재 및 유포, 공유하는 것을 금합니다.


