## 1. Full_Data -> sequntial 변환
- full_data: (웹툰책1권~4권까지 == 애니메이션 기준 1기) - 특정 에피소드 3개 제외한 것

In [21]:
import pandas as pd

input_path = "sl_webtoon_full_data.tsv"
output_path = "sl_webtoon_full_data_sequential.tsv"

df = pd.read_csv(input_path, sep='\t', encoding='utf-8')

df = df.fillna("") #결측치 "" 로 변환

cols = ['에피소드명', '대사', '내적설명', '시스템']0

rows = []
for ep, group in df.groupby('에피소드명'):
    for idx, row in group.iterrows():
        for col in ['대사', '내적설명', '시스템']:
            text = row[col].strip()
            if text:  
                rows.append({
                    '에피소드': ep,
                    'scene_text': text,
                    'type': col  
                })

seq_df = pd.DataFrame(rows)

seq_df.to_csv(output_path, sep='\t', index=False, encoding='utf-8')

print("변환, 저장 위치:", output_path)
print(seq_df.head(10))


변환, 저장 위치: sl_webtoon_full_data_sequential.tsv
         에피소드                     scene_text  type
0  1권_1화_이중던전    네, 김상식 아저씨. 신경 써 주셔서 감사합니다.    대사
1  1권_1화_이중던전               내 이름은 성진우. E급 헌터  내적설명
2  1권_1화_이중던전         뭘요 하하... 오늘도 잘 부탁드릴게요.    대사
3  1권_1화_이중던전    헌터협회 소속 중 가장 낮은 계급, 최약의 헌터.  내적설명
4  1권_1화_이중던전  어? 안녕하세요. 주희 씨도 이번 레이드 가시는군요.    대사
5  1권_1화_이중던전   나에게 이런 일이 일어날 줄은...상상도 못 했다.  내적설명
6  1권_1화_이중던전            어쩌다보니 그렇게 됐네요 하하...    대사
7  1권_1화_이중던전                        대한민국 서울  내적설명
8  1권_1화_이중던전         E급 던전이었는데 저만 다쳐서 나왔어요.    대사
9  1권_1화_이중던전                     E급 헌터 성진우.  내적설명


In [4]:
import faiss
import pickle
from sentence_transformers import SentenceTransformer


index = faiss.read_index("solo_leveling_faiss_ko.index")
with open("solo_leveling_texts.pkl", "rb") as f:
    texts = pickle.load(f)

model = SentenceTransformer('jhgan/ko-sroberta-multitask')

query = "성진우는 몇 급 헌터?"

query_vec = model.encode([query])
D, I = index.search(query_vec, k=10)  # 상위 5개

print("유사 장면 Top 10 \n")
for idx, score in zip(I[0], D[0]):
    print(f"[점수: {score:.4f}] {texts[idx]}")
#점수 낮을 수록 유사

유사 장면 Top 10 

[점수: 83.3571] 1권_1화_이중던전 내 이름은 성진우. E급 헌터 내적설명
[점수: 88.2755] 2권_4화_보스전 헌터 성진우입니다. 대사
[점수: 93.2208] 1권_1화_이중던전 E급 헌터 성진우. 내적설명
[점수: 99.7465] 3권_7화_이상한레이드 그 녀석이 원하는 건 실력은 있지만 등급이 낮은 헌터니까. 내적설명
[점수: 102.8061] 3권_7화_이상한레이드 S급 헌터인 황동수를 말하는 겁니까? 대사
[점수: 109.0561] 2권_4화_보스전 능력치를 올릴 수 있는 헌터가 있다? 내적설명
[점수: 109.9106] 1권_1화_이중던전 헌터협회 소속 중 가장 낮은 계급, 최약의 헌터. 내적설명
[점수: 110.5650] 2권_2화_세가지규율 여기서 기다리고 있으면 다른 헌터들이 구조하러 올까요? 대사
[점수: 114.7391] 1권_1화_이중던전 목숨을 거는 위험한 직업 '헌터'. 나라고 좋아서 이 일을 하는 건 아니다. 내적설명
[점수: 119.2824] 1권_1화_이중던전 고졸 출신에 딱히 잘하는 것도 없는 내게, 헌터라는 직업은 피할 수 없는 선택이었다. 내적설명


In [5]:
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
import pickle

# 1. 벡터 DB 로드
embedding = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')
db = FAISS.load_local("solo_leveling_faiss_ko", embedding, allow_dangerous_deserialization=True)  # 🔹 이 옵션 추가


# 2. 예시 질의
query = "성진우는 황동석과 처음 만난 장면에서 무엇을 했어?"
docs = db.similarity_search(query, k=3)

for i, doc in enumerate(docs, 1):
    print(f"[{i}] {doc.page_content}")
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
import pickle

# 1. 벡터 DB 로드
embedding = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')
db = FAISS.load_local("solo_leveling_faiss_ko", embedding)

# 2. 예시 질의
query = "성진우는 황동석과 처음 만난 장면에서 무엇을 했어?"
docs = db.similarity_search(query, k=3)

for i, doc in enumerate(docs, 1):
    print(f"[{i}] {doc.page_content}")


[1] [1권_1화_이중던전] #1 내적설명 내 이름은 성진우. E급 헌터
[2] [3권_7화_이상한레이드] #487 대사 S급 헌터인 황동수를 말하는 겁니까?
[3] [1권_3화_퀘스트] #91 대사 주희 씨나 송치열 아저씨는 어떻게 되셨죠?


ValueError: The de-serialization relies loading a pickle file. Pickle files can be modified to deliver a malicious payload that results in execution of arbitrary code on your machine.You will need to set `allow_dangerous_deserialization` to `True` to enable deserialization. If you do this, make sure that you trust the source of the data. For example, if you are loading a file that you created, and know that no one else has modified the file, then this is safe to do. Do not set this to `True` if you are loading a file from an untrusted source (e.g., some random site on the internet.).

In [None]:
from langchain.vectorstores import FAISS
from langchain.docstore.in_memory import InMemoryDocstore
from langchain.docstore.document import Document
from langchain.embeddings import HuggingFaceEmbeddings
import faiss
import pickle

# 1. 기존 데이터 로드
index_path = "solo_leveling_faiss_ko.index"
texts_path = "solo_leveling_texts.pkl"

index = faiss.read_index(index_path)
with open(texts_path, "rb") as f:
    texts = pickle.load(f)

# 2. 임베딩 모델 준비
embedding = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')

# 3. LangChain 문서화
docs = [Document(page_content=text) for text in texts]
docstore = InMemoryDocstore({str(i): doc for i, doc in enumerate(docs)})
index_to_docstore_id = {i: str(i) for i in range(len(docs))}

db = FAISS(
    embedding_function=embedding,
    index=index,
    docstore=docstore,
    index_to_docstore_id=index_to_docstore_id
)

# 4. LangChain 호환 구조로 저장
db.save_local("solo_leveling_faiss_langchain")
print("변환 완료: solo_leveling_faiss_langchain 폴더 생성됨")


## 1. tsv full data load

In [6]:
import pandas as pd


df = pd.read_csv("sl_webtoon_full_data_sequential.tsv", sep="\t")


print(df.head())
print("전체 문장 수:", len(df))
print("컬럼 목록:", df.columns.tolist())

# 549
#컬럼 목록: ['에피소드', 'scene_text', 'type']


         에피소드                     scene_text  type
0  1권_1화_이중던전    네, 김상식 아저씨. 신경 써 주셔서 감사합니다.    대사
1  1권_1화_이중던전               내 이름은 성진우. E급 헌터  내적설명
2  1권_1화_이중던전         뭘요 하하... 오늘도 잘 부탁드릴게요.    대사
3  1권_1화_이중던전    헌터협회 소속 중 가장 낮은 계급, 최약의 헌터.  내적설명
4  1권_1화_이중던전  어? 안녕하세요. 주희 씨도 이번 레이드 가시는군요.    대사
전체 문장 수: 549
컬럼 목록: ['에피소드', 'scene_text', 'type']


In [7]:
import pandas as pd

df = pd.read_csv("sl_webtoon_full_data_sequential.tsv", sep="\t")
print(df.head(3))
print("컬럼:", df.columns.tolist(), "전체 행:", len(df))


         에피소드                   scene_text  type
0  1권_1화_이중던전  네, 김상식 아저씨. 신경 써 주셔서 감사합니다.    대사
1  1권_1화_이중던전             내 이름은 성진우. E급 헌터  내적설명
2  1권_1화_이중던전       뭘요 하하... 오늘도 잘 부탁드릴게요.    대사
컬럼: ['에피소드', 'scene_text', 'type'] 전체 행: 549


In [8]:

df['row_id'] = df.index #인덱스 컬럼 추가 <- 원본 추적용

df['text'] = df.apply(
    lambda x: f"[{x['에피소드']}] #{x['row_id']} {x['type']} {x['scene_text']}", #rag 문장 컬럼 생성
    axis=1
)

print(df['text'].head(3).tolist())


['[1권_1화_이중던전] #0 대사 네, 김상식 아저씨. 신경 써 주셔서 감사합니다.', '[1권_1화_이중던전] #1 내적설명 내 이름은 성진우. E급 헌터', '[1권_1화_이중던전] #2 대사 뭘요 하하... 오늘도 잘 부탁드릴게요.']


In [9]:
texts = df['text'].tolist()
print("최종 문장 수:", len(texts))
# 549

최종 문장 수: 549


## 2. Rag 문장 생성

In [10]:
# 2단계: 최종 RAG 문장 생성
df['row_id'] = df.index  # 원본 추적용 인덱스
df['text'] = df.apply(
    lambda x: f"[{x['에피소드']}] #{x['row_id']} {x['type']} {x['scene_text']}",
    axis=1
)

print("예시 5개:")
for t in df['text'].head(5).tolist():
    print("-", t)

texts = df['text'].tolist()
print("\n최종 문장 수:", len(texts))
#549

예시 5개:
- [1권_1화_이중던전] #0 대사 네, 김상식 아저씨. 신경 써 주셔서 감사합니다.
- [1권_1화_이중던전] #1 내적설명 내 이름은 성진우. E급 헌터
- [1권_1화_이중던전] #2 대사 뭘요 하하... 오늘도 잘 부탁드릴게요.
- [1권_1화_이중던전] #3 내적설명 헌터협회 소속 중 가장 낮은 계급, 최약의 헌터.
- [1권_1화_이중던전] #4 대사 어? 안녕하세요. 주희 씨도 이번 레이드 가시는군요.

최종 문장 수: 549


## 3. 한국어 임베딩 모델 로드, 벡터 db - solo_leveling_faiss_ko



In [11]:
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings

embedding_model = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')

db = FAISS.from_texts(texts, embedding_model)
print(" 벡터DB 생성 완료. 총 문장 수:", len(texts))

db.save_local("solo_leveling_faiss_ko")
print(" 'solo_leveling_faiss_ko' 폴더에 저장")


 벡터DB 생성 완료. 총 문장 수: 549
 'solo_leveling_faiss_ko' 폴더에 저장


In [12]:
db = FAISS.load_local("solo_leveling_faiss_ko", embedding_model, allow_dangerous_deserialization=True)


query = "마나석이 뭐지?"
docs = db.similarity_search(query, k=5)

for i, doc in enumerate(docs, 1):
    print(f"[{i}] {doc.page_content}")


[1] [2권_3화_퀘스트 ] #332 대사 던전에 사는 마수라면 마정석을 갖고 있을 줄 알았는데...완전히 다른 부류인가.
[2] [1권_3화_퀘스트] #132 대사 여... 여긴?!  사막...!!
[3] [2권_3화_퀘스트 ] #331 대사 이 녀석들은 마정석 같은 건 안 주나?
[4] [2권_4화_보스전] #457 내적설명 경험이 많으면 많을수록 랭크가 높으면 높을수록 마수들에게서 나오는 마정석은 가치를 더해 간다.
[5] [2권_4화_보스전] #449 대사 문제는 지능인데... 마법과 관련된 스탯일 것 같긴 한데, 이게 피룡할까?


In [13]:
## rag 확인

In [14]:
from transformers import pipeline

generator = pipeline(
    "text-generation",
    model="kakaocorp/kanana-nano-2.1b-instruct",
    device=0  
)



Device set to use cuda:0


In [15]:
from langchain.chains import RetrievalQA
from langchain.vectorstores import FAISS
from langchain.prompts import PromptTemplate
from langchain_community.llms import HuggingFacePipeline
from langchain.embeddings import HuggingFaceEmbeddings
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

embedding_model = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')
vectorstore = FAISS.load_local("solo_leveling_faiss_ko", embedding_model, allow_dangerous_deserialization=True)

model_name = "kakaocorp/kanana-nano-2.1b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16).to("cuda")

llm_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=256)
llm = HuggingFacePipeline(pipeline=llm_pipeline)

custom_prompt = PromptTemplate(
    input_variables=["context", "question"],
    template="다음 문맥을 참고하여 질문에 답하세요.\n\n문맥:\n{context}\n\n질문:\n{question}\n\n답변:"
)

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever(search_kwargs={"k": 5}),
    chain_type="stuff",
    return_source_documents=True,
    chain_type_kwargs={
        "prompt": custom_prompt  }
)

#질문
query = "성진우는 몇 급 헌터지?"
result = qa_chain({"query": query})

print("답변:", result["result"])
print("\n참조 문서:")
for doc in result["source_documents"]:
    print(doc.page_content)


Device set to use cuda:0
  llm = HuggingFacePipeline(pipeline=llm_pipeline)
  result = qa_chain({"query": query})


답변: 다음 문맥을 참고하여 질문에 답하세요.

문맥:
[1권_1화_이중던전] #1 내적설명 내 이름은 성진우. E급 헌터

[2권_4화_보스전] #451 대사 헌터 성진우입니다.

[1권_1화_이중던전] #9 내적설명 E급 헌터 성진우.

[3권_7화_이상한레이드] #484 내적설명 그 녀석이 원하는 건 실력은 있지만 등급이 낮은 헌터니까.

[2권_4화_보스전] #468 내적설명 능력치를 올릴 수 있는 헌터가 있다?

질문:
성진우는 몇 급 헌터지?

답변: 성진우는 E급 헌터입니다.  #1 내적설명 및 #9 내적설명 참고.  #450 내적설명 및 #468 내적설명에서도 이 정보가 확인됩니다.  E급 헌터로 설정되어 있습니다.  #4화_보스전_성진우_대사에서도 확인할 수 있습니다.  성진우는 E급 헌터입니다.  급은 E급입니다.  헌터 등급은 E급입니다.  E급 헌터 성진우.  #1 내적설명 및 #9 내적설명에 명시되어 있습니다.  E급 헌터가 맞습니다.  헌터 등급은 E급입니다.  성진우의 헌터 등급은 E급입니다.  E급 헌터 성진우입니다.  E급 헌터가 맞습니다.  성진우는 E급 헌터입니다.  헌터 등급은 E급입니다.  성진우의 헌터 등급은 E급입니다.  E급 헌터 성진우.  #4화_보스전_성진

참조 문서:
[1권_1화_이중던전] #1 내적설명 내 이름은 성진우. E급 헌터
[2권_4화_보스전] #451 대사 헌터 성진우입니다.
[1권_1화_이중던전] #9 내적설명 E급 헌터 성진우.
[3권_7화_이상한레이드] #484 내적설명 그 녀석이 원하는 건 실력은 있지만 등급이 낮은 헌터니까.
[2권_4화_보스전] #468 내적설명 능력치를 올릴 수 있는 헌터가 있다?


## 4. 황동석 에피소드 

In [16]:
choices = [
    "1-1. 황동석 무리를 모두 처치한다.",
    "1-2. 황동석 무리와 진호를 포함하여 모두 처치한다.",
    "2. 황동석 무리를 기절시키고 살려둔다.",
    "3. 시스템을 거부하고 그냥 도망친다."
]

print("\n[선택지]")
for idx, choice in enumerate(choices, start=1):
    print(f"{idx}. {choice}")

user_idx = int(input("\n선택 번호 입력: ")) - 1
user_choice = choices[user_idx]
print(f"\n[사용자 선택]: {user_choice}")

result = qa_chain({"query": user_choice})

retrieved_context = "\n".join([doc.page_content for doc in result["source_documents"]])
print("\n[검색된 근거 문서 예시]")
print(retrieved_context[:600], "...") 

# 4. 성진우 말투 대사 생성
prompt = f"""
당신은 웹툰 '나 혼자만 레벨업'의 성진우입니다.
현재 상황:
{retrieved_context}

사용자 선택: {user_choice}

성진우의 말투로 간결하고 자연스러운 대사를 1~2문장 생성하세요.
중복된 내용이나 비슷한 문장은 만들지 마세요.
"""

response = generator(prompt, 
                     max_new_tokens=200, 
                     do_sample=True, 
                     temperature=0.6,
                     top_p = 0.9,
                     return_full_text=False  # 추가
)[0]["generated_text"]
print("\n[성진우 응답]")
print(response)



[선택지]
1. 1-1. 황동석 무리를 모두 처치한다.
2. 1-2. 황동석 무리와 진호를 포함하여 모두 처치한다.
3. 2. 황동석 무리를 기절시키고 살려둔다.
4. 3-1. 마정석을 들고 도망친다.
5. 3-2. 시스템을 거부하고 그냥 도망친다.



선택 번호 입력:  5



[사용자 선택]: 3-2. 시스템을 거부하고 그냥 도망친다.

[검색된 근거 문서 예시]
[1권_3화_퀘스트] #162 대사 도망치는 건 자신 있으니까, 만약 지난번처럼 위험해지면 물불 가리지 말고 도망치자!
[1권_3화_퀘스트] #167 대사 어쩌지... 여차하면 도망치려고 했는데 퇴로를 차단하면 도망칠 수가 없잖아!
[2권_2화_세가지규율] #227 내적설명 우리가 실패하면... 저게 밖으로 나갈 수도 있다는 말인가.
[2권_2화_세가지규율] #275 시스템 수락을 거부하실 경우, 0.02초 후 귀하의 심장이 정지합니다.
[2권_2화_세가지규율] #192 내적설명 가까이 갈 수도 없고 도망도 못 쳐! ...

[성진우 응답]
도망치는 게 더 나을 것 같아. 하지만 안전하게 도망칠 수 있을지 걱정이야. 어쨌든 일단 도망쳐보자. 대신 다시는 이런 상황이 오지 않도록 조심해야겠어. 도망치기 전에 잠시 숨을 고르자. 준비가 되면 빠르게 움직이자. 도망칠 수 있는 방법을 찾아보자. 도망치다 보면 더 나은 방법도 찾을 수 있을 거야. 도망치는 게 최선의 선택이야. 하지만 항상 조심하고 대비해야 해. 도망치는 동안에도 상황을 잘 파악하고 있어야 해. 도망치면서 더 나은 전략을 세울 수 있을지도 몰라. 도망치는 게 두려워지면 더 큰 위험이 올 수도 있으니까, 일단 도망치는 게 맞는 것 같아. 하지만 도망친 후에 더 나은


## 