## 1. tsv full data load

In [1]:
import pandas as pd


df = pd.read_csv("sl_webtoon_full_data_sequential.tsv", sep="\t")


print(df.head())
print("전체 문장 수:", len(df))
print("컬럼 목록:", df.columns.tolist())

# 549
#컬럼 목록: ['에피소드', 'scene_text', 'type']


         에피소드                     scene_text  type
0  1권_1화_이중던전    네, 김상식 아저씨. 신경 써 주셔서 감사합니다.    대사
1  1권_1화_이중던전               내 이름은 성진우. E급 헌터  내적설명
2  1권_1화_이중던전         뭘요 하하... 오늘도 잘 부탁드릴게요.    대사
3  1권_1화_이중던전    헌터협회 소속 중 가장 낮은 계급, 최약의 헌터.  내적설명
4  1권_1화_이중던전  어? 안녕하세요. 주희 씨도 이번 레이드 가시는군요.    대사
전체 문장 수: 549
컬럼 목록: ['에피소드', 'scene_text', 'type']


In [2]:
import pandas as pd

df = pd.read_csv("sl_webtoon_full_data_sequential.tsv", sep="\t")
print(df.head(3))
print("컬럼:", df.columns.tolist(), "전체 행:", len(df))


         에피소드                   scene_text  type
0  1권_1화_이중던전  네, 김상식 아저씨. 신경 써 주셔서 감사합니다.    대사
1  1권_1화_이중던전             내 이름은 성진우. E급 헌터  내적설명
2  1권_1화_이중던전       뭘요 하하... 오늘도 잘 부탁드릴게요.    대사
컬럼: ['에피소드', 'scene_text', 'type'] 전체 행: 549


In [3]:

df['row_id'] = df.index #인덱스 컬럼 추가 <- 원본 추적용

df['text'] = df.apply(
    lambda x: f"[{x['에피소드']}] #{x['row_id']} {x['type']} {x['scene_text']}", #rag 문장 컬럼 생성
    axis=1
)

print(df['text'].head(3).tolist())


['[1권_1화_이중던전] #0 대사 네, 김상식 아저씨. 신경 써 주셔서 감사합니다.', '[1권_1화_이중던전] #1 내적설명 내 이름은 성진우. E급 헌터', '[1권_1화_이중던전] #2 대사 뭘요 하하... 오늘도 잘 부탁드릴게요.']


In [4]:
texts = df['text'].tolist()
print("최종 문장 수:", len(texts))
# 549

최종 문장 수: 549


## 2. Rag 문장 생성

In [5]:
# 2단계: 최종 RAG 문장 생성
df['row_id'] = df.index  # 원본 추적용 인덱스
df['text'] = df.apply(
    lambda x: f"[{x['에피소드']}] #{x['row_id']} {x['type']} {x['scene_text']}",
    axis=1
)

print("예시 5개:")
for t in df['text'].head(5).tolist():
    print("-", t)

texts = df['text'].tolist()
print("\n최종 문장 수:", len(texts))
#549

예시 5개:
- [1권_1화_이중던전] #0 대사 네, 김상식 아저씨. 신경 써 주셔서 감사합니다.
- [1권_1화_이중던전] #1 내적설명 내 이름은 성진우. E급 헌터
- [1권_1화_이중던전] #2 대사 뭘요 하하... 오늘도 잘 부탁드릴게요.
- [1권_1화_이중던전] #3 내적설명 헌터협회 소속 중 가장 낮은 계급, 최약의 헌터.
- [1권_1화_이중던전] #4 대사 어? 안녕하세요. 주희 씨도 이번 레이드 가시는군요.

최종 문장 수: 549


## 3. 한국어 임베딩 모델 로드, 벡터 db - solo_leveling_faiss_ko



In [6]:
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings

embedding_model = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')

db = FAISS.from_texts(texts, embedding_model)
print(" 벡터DB 생성 완료. 총 문장 수:", len(texts))

db.save_local("solo_leveling_faiss_ko")
print(" 'solo_leveling_faiss_ko' 폴더에 저장")


  embedding_model = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')


 벡터DB 생성 완료. 총 문장 수: 549
 'solo_leveling_faiss_ko' 폴더에 저장


In [7]:
db = FAISS.load_local("solo_leveling_faiss_ko", embedding_model, allow_dangerous_deserialization=True)


query = "마나석이 뭐지?"
docs = db.similarity_search(query, k=5)

for i, doc in enumerate(docs, 1):
    print(f"[{i}] {doc.page_content}")


[1] [2권_3화_퀘스트 ] #332 대사 던전에 사는 마수라면 마정석을 갖고 있을 줄 알았는데...완전히 다른 부류인가.
[2] [1권_3화_퀘스트] #132 대사 여... 여긴?!  사막...!!
[3] [2권_3화_퀘스트 ] #331 대사 이 녀석들은 마정석 같은 건 안 주나?
[4] [2권_4화_보스전] #457 내적설명 경험이 많으면 많을수록 랭크가 높으면 높을수록 마수들에게서 나오는 마정석은 가치를 더해 간다.
[5] [2권_4화_보스전] #449 대사 문제는 지능인데... 마법과 관련된 스탯일 것 같긴 한데, 이게 피룡할까?


In [8]:
## rag 확인

In [9]:
from transformers import pipeline

generator = pipeline(
    "text-generation",
    model="kakaocorp/kanana-nano-2.1b-instruct",
    device=0  
)



Device set to use cuda:0


In [10]:
from langchain.chains import RetrievalQA
from langchain.vectorstores import FAISS
from langchain.prompts import PromptTemplate
from langchain_community.llms import HuggingFacePipeline
from langchain.embeddings import HuggingFaceEmbeddings
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

embedding_model = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')
vectorstore = FAISS.load_local("solo_leveling_faiss_ko", embedding_model, allow_dangerous_deserialization=True)

model_name = "kakaocorp/kanana-nano-2.1b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16).to("cuda")

llm_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=256)
llm = HuggingFacePipeline(pipeline=llm_pipeline)

custom_prompt = PromptTemplate(
    input_variables=["context", "question"],
    template="다음 문맥을 참고하여 질문에 답하세요.\n\n문맥:\n{context}\n\n질문:\n{question}\n\n답변:"
)

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever(search_kwargs={"k": 5}),
    chain_type="stuff",
    return_source_documents=True,
    chain_type_kwargs={
        "prompt": custom_prompt  }
)

#질문
query = "성진우는 몇 급 헌터지?"
result = qa_chain({"query": query})

print("답변:", result["result"])
print("\n참조 문서:")
for doc in result["source_documents"]:
    print(doc.page_content)


Device set to use cuda:0
  llm = HuggingFacePipeline(pipeline=llm_pipeline)
  result = qa_chain({"query": query})


답변: 다음 문맥을 참고하여 질문에 답하세요.

문맥:
[1권_1화_이중던전] #1 내적설명 내 이름은 성진우. E급 헌터

[2권_4화_보스전] #451 대사 헌터 성진우입니다.

[1권_1화_이중던전] #9 내적설명 E급 헌터 성진우.

[3권_7화_이상한레이드] #484 내적설명 그 녀석이 원하는 건 실력은 있지만 등급이 낮은 헌터니까.

[2권_4화_보스전] #468 내적설명 능력치를 올릴 수 있는 헌터가 있다?

질문:
성진우는 몇 급 헌터지?

답변: 성진우는 E급 헌터입니다.  #1 내적설명 참고  #9 내적설명 참고  #451 대사 참고  #484 내적설명 참고  #468 내적설명 참고   이 모든 문맥을 종합하면 성진우는 E급 헌터임을 알 수 있습니다.   E급 헌터는 가장 낮은 등급의 헌터입니다.  따라서 성진우는 E급 헌터입니다.   #1 내적설명, #9 내적설명, #451 대사, #484 내적설명, #468 내적설명 모두 성진우의 등급을 E급으로 명시하고 있습니다.   따라서 성진우는 E급 헌터입니다.   성진우의 등급은 E급입니다.   E급 헌터는 낮은 등급이기 때문에 성진우는 낮은 실력을 가진 헌터라고 할 수 있습니다.   그러나 성진우의 실력이 낮은지 여부는 이 문제의 범위를 벗어납니다.   성진우의 등급만을 묻는 질문에 대한 답은 E급입니다

참조 문서:
[1권_1화_이중던전] #1 내적설명 내 이름은 성진우. E급 헌터
[2권_4화_보스전] #451 대사 헌터 성진우입니다.
[1권_1화_이중던전] #9 내적설명 E급 헌터 성진우.
[3권_7화_이상한레이드] #484 내적설명 그 녀석이 원하는 건 실력은 있지만 등급이 낮은 헌터니까.
[2권_4화_보스전] #468 내적설명 능력치를 올릴 수 있는 헌터가 있다?


## 4. 황동석 에피소드 

In [14]:
choices = [
    "1: 황동석 무리를 모두 처치한다.",
    "2: 진호를 포함한 황동석 무리를 모두 처치한다.",
    "3: 전부 기절 시키고 살려둔다.",
    "4: 시스템을 거부하고 그냥 도망친다."
]

print("\n[선택지]")
for idx, choice in enumerate(choices, start=1):
    print(f"{idx}. {choice}")

user_idx = int(input("\n선택 번호 입력: ")) - 1
user_choice = choices[user_idx]
print(f"\n[사용자 선택]: {user_choice}")

result = qa_chain({"query": user_choice})

retrieved_context = "\n".join([doc.page_content for doc in result["source_documents"]])
print("\n[검색된 근거 문서 예시]")
print(retrieved_context[:600], "...") 

prompt = f"""
당신은 웹툰 '나 혼자만 레벨업'의 성진우입니다.
상황을 보고 대사를 생성 
현재 상황:
{retrieved_context}

사용자 선택: {user_choice}

성진우의 말투로 간결하고 자연스러운 성진우가 할 말을  1~2문장 생성하세요.
중복된 내용이나 비슷한 문장은 만들지 마세요.
"""

response = generator(prompt, 
                     max_new_tokens=300, 
                     do_sample=True, 
                     temperature=0.6,
                     top_p = 0.9,
                     return_full_text=False  
)[0]["generated_text"]
print("\n[성진우 응답]")
print(response)



[선택지]
1. 1: 황동석 무리를 모두 처치한다.
2. 2: 진호를 포함한 황동석 무리를 모두 처치한다.
3. 3: 전부 기절 시키고 살려둔다.
4. 4: 시스템을 거부하고 그냥 도망친다.



선택 번호 입력:  3



[사용자 선택]: 3: 전부 기절 시키고 살려둔다.

[검색된 근거 문서 예시]
[1권_1화_이중던전] #73 대사 제기랄! 이 녀석들이 마음만 먹으면 언제라도 전멸시킬 수 있다는 건가.
[2권_2화_세가지규율] #247 대사 다 꺼지면 모두 살아서 나갈 수 있을 거예요.
[1권_1화_이중던전] #74 대사 지금 당장에라도 우리를 전멸시킬 수 있을 텐데... 왜 그러지 않는 걸까요?
[1권_3화_퀘스트] #162 대사 도망치는 건 자신 있으니까, 만약 지난번처럼 위험해지면 물불 가리지 말고 도망치자!
[2권_2화_세가지규율] #244 대사 이 이상 사람들이 줄어들어 사각이 생기면 모두 죽어요! ...

[성진우 응답]
대사는 최대한 생동감 있게 작성해 주세요. 
예: "이녀석들, 제발 정신 차려라!" 또는 "이제야 정신 차렸냐?" 등. 

"이녀석들, 제발 정신 차려라! 지금이라도 우리의 계획을 방해하지 말고 협력해라." 또는 "지금 당장 우리를 전멸시킬 수 있을 텐데, 왜 이렇게 무모한 짓을 하는지 이해가 안 되네." 등. 
다양한 표현을 사용해 주세요.  
예: "이제야 정신 차렸냐?" 보다는 "이제야 정신 차린 거냐?"가 더 좋습니다.  예: "이제야 정신 차린 거냐?" 또는 "이제라도 정신 차리고 협력해라." 등.  
예: "이제라도 정신 차리고 협력해라." 또는 "이제라도 정신 차리고 우리와 함께 싸워라." 등.  
다양한 표현을 사용해 주세요.  
예: "이제라도 정신 차리고 우리와 함께 싸워라." 또는 "이제라도 정신 차리고 우리의 계획에 협력해라." 등.  
다양한 표현을 사용해 주세요.   예: "이제라도 정신 차리고 우리와 함께 싸워라." 또는 "이제라도 정신 차리고 우리의 계획에 협력해


In [20]:
choices = [
    "1: 황동석 무리를 모두 처치한다.",
    "2: 진호를 포함한 황동석 무리를 모두 처치한다.",
    "3: 전부 기절 시키고 살려둔다.",
    "4: 시스템을 거부하고 그냥 도망친다."
]

print("\n[선택지]")
for idx, choice in enumerate(choices, start=1):
    print(f"{idx}. {choice}")

user_idx = int(input("\n선택 번호 입력: ")) - 1
user_choice = choices[user_idx]
print(f"\n[사용자 선택]: {user_choice}")

result = qa_chain({"query": user_choice})
retrieved_context = "\n".join([doc.page_content for doc in result["source_documents"]])
print("\n[검색된 근거 문서 예시]")
print(retrieved_context[:600], "...")

# --- 수정된 프롬프트 ---
prompt = f"""
당신은 웹툰 '나 혼자만 레벨업'의 성진우입니다.

[상황]
{retrieved_context}

[선택]
{user_choice}

[규칙]
- 반드시 '대사:'로 시작.
- 설명, 해설, 예시 금지.
- 선택지 문장을 그대로 반복하지 말 것.
- 성진우의 말투로 단호하고 간결하게 1~2문장 작성.

대사:
""".strip()

response = generator(
    prompt,
    max_new_tokens=100,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
    return_full_text=False
)[0]["generated_text"]

response_line = response.split("\n")[0].strip()

print("\n[성진우 응답]")
print(response_line)



[선택지]
1. 1: 황동석 무리를 모두 처치한다.
2. 2: 진호를 포함한 황동석 무리를 모두 처치한다.
3. 3: 전부 기절 시키고 살려둔다.
4. 4: 시스템을 거부하고 그냥 도망친다.



선택 번호 입력:  3


You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset



[사용자 선택]: 3: 전부 기절 시키고 살려둔다.

[검색된 근거 문서 예시]
[1권_1화_이중던전] #73 대사 제기랄! 이 녀석들이 마음만 먹으면 언제라도 전멸시킬 수 있다는 건가.
[2권_2화_세가지규율] #247 대사 다 꺼지면 모두 살아서 나갈 수 있을 거예요.
[1권_1화_이중던전] #74 대사 지금 당장에라도 우리를 전멸시킬 수 있을 텐데... 왜 그러지 않는 걸까요?
[1권_3화_퀘스트] #162 대사 도망치는 건 자신 있으니까, 만약 지난번처럼 위험해지면 물불 가리지 말고 도망치자!
[2권_2화_세가지규율] #244 대사 이 이상 사람들이 줄어들어 사각이 생기면 모두 죽어요! ...

[성진우 응답]
이중던전에서 우리를 전멸시키려는 건가? 그렇다면 그건 너무 무리야. 우리 모두가 힘을 합쳐야 해. 대사: 도망치는 건 선택의 문제가 아니야, 생존이 걸린 문제니까 신중하게 행동해야 해. 대사: 규율을 어기면 모두가 위험해진다는 걸 잊지 마라. 대사: 우리가 힘을 합쳐야만 이 상황을


In [25]:
choices = [
    "1: 황동석 무리를 모두 처치한다.",
    "2: 진호를 포함한 황동석 무리를 모두 처치한다.",
    "3: 전부 기절 시키고 살려둔다.",
    "4: 시스템을 거부하고 그냥 도망친다."
]

print("\n[선택지]")
for idx, choice in enumerate(choices, start=1):
    print(f"{idx}. {choice}")

user_idx = int(input("\n선택 번호 입력: ")) - 1
user_choice = choices[user_idx]
print(f"\n[사용자 선택]: {user_choice}")

result = qa_chain({"query": user_choice})

retrieved_context = "\n".join([doc.page_content for doc in result["source_documents"]])
print("\n[검색된 근거 문서 예시]")
print(retrieved_context[:600], "...") 

prompt = f"""
당신은 웹툰 '나 혼자만 레벨업'의 성진우입니다.

[캐릭터 규칙]
- 이름: 성진우
- 톤: 단호하고 간결, 냉정함
- 불필요한 말 금지

[상황]
{retrieved_context}

[선택]
{user_choice}

[출력 규칙]
- '대사:'로 시작하는 한 줄만 출력
- 1~2문장만 생성
- 선택지 문장을 그대로 반복하지 말 것
- 설명, 예시, 해설, 분석, 메타텍스트 절대 금지
- "대사:"는 단 한 번만 출력
"""

raw_response = generator(
    prompt,
    max_new_tokens=60,  
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
    return_full_text=False
)[0]["generated_text"].strip()

if "대사:" in raw_response:
    raw_response = raw_response.split("대사:", 1)[1].strip()

import re
sentences = re.split(r'(?<=[.?!])\s+', raw_response)
final_response = " ".join(sentences[:2]).strip()

print("\n[성진우 응답]")
print(f"대사: {final_response}")



[선택지]
1. 1: 황동석 무리를 모두 처치한다.
2. 2: 진호를 포함한 황동석 무리를 모두 처치한다.
3. 3: 전부 기절 시키고 살려둔다.
4. 4: 시스템을 거부하고 그냥 도망친다.



선택 번호 입력:  4



[사용자 선택]: 4: 시스템을 거부하고 그냥 도망친다.

[검색된 근거 문서 예시]
[1권_3화_퀘스트] #162 대사 도망치는 건 자신 있으니까, 만약 지난번처럼 위험해지면 물불 가리지 말고 도망치자!
[1권_3화_퀘스트] #167 대사 어쩌지... 여차하면 도망치려고 했는데 퇴로를 차단하면 도망칠 수가 없잖아!
[2권_4화_보스전] #412 내적설명 무력하기 때문에 무시당하는 거야.
[2권_4화_보스전] #409 내적설명 위선도 나를 보호해 주진 않아.
[2권_4화_보스전] #447 대사 반대도 마찬가지. ...

[성진우 응답]
대사: 도망치는 건 자신 있으니까, 만약 지난번처럼 위험해지면 물불 가리지 말고 도망치자! 대사: 어쩌지...


In [27]:
choices = [
    "1: 황동석 무리를 모두 처치한다.",
    "2: 진호를 포함한 황동석 무리를 모두 처치한다.",
    "3: 전부 기절 시키고 살려둔다.",
    "4: 시스템을 거부하고 그냥 도망친다."
]

print("\n[선택지]")
for idx, choice in enumerate(choices, start=1):
    print(f"{idx}. {choice}")

user_idx = int(input("\n선택 번호 입력: ")) - 1
user_choice = choices[user_idx]
print(f"\n[사용자 선택]: {user_choice}")

result = qa_chain({"query": user_choice})

retrieved_context = "\n".join([doc.page_content for doc in result["source_documents"]])
print("\n[검색된 근거 문서 예시]")
print(retrieved_context[:600], "...") 

prompt = f"""
당신은 웹툰 '나 혼자만 레벨업'의 성진우입니다.

[캐릭터 규칙]
- 이름: 성진우
- 톤: 단호하고 간결, 냉정함
- 불필요한 말 금지

[상황]
{retrieved_context}

[선택]
{user_choice}

[출력 규칙]
- '대사:'로 시작하는 한 줄만 출력
- 1~2문장만 생성
- 선택지 문장을 그대로 반복하지 말 것
- 설명, 예시, 해설, 분석, 메타텍스트 절대 금지
- "대사:"는 단 한 번만 출력
"""

raw_response = generator(
    prompt,
    max_new_tokens=60, 
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
    return_full_text=False
)[0]["generated_text"].strip()

if "대사:" in raw_response:
    raw_response = raw_response.split("대사:", 1)[1].strip()

import re
sentences = re.split(r'(?<=[.?!])\s+', raw_response)
final_response = " ".join(sentences[:2]).strip()

print("\n[성진우 응답]")
print(f"대사: {final_response}")



[선택지]
1. 1: 황동석 무리를 모두 처치한다.
2. 2: 진호를 포함한 황동석 무리를 모두 처치한다.
3. 3: 전부 기절 시키고 살려둔다.
4. 4: 시스템을 거부하고 그냥 도망친다.



선택 번호 입력:  2



[사용자 선택]: 2: 진호를 포함한 황동석 무리를 모두 처치한다.

[검색된 근거 문서 예시]
[2권_4화_보스전] #399 내적설명 동시에 이놈의 방어력을 무력화시켜야 해.
[2권_4화_보스전] #437 대사 놈의 방어만 무력화시킬 수 있다면, 할 수 있다!
[1권_1화_이중던전] #73 대사 제기랄! 이 녀석들이 마음만 먹으면 언제라도 전멸시킬 수 있다는 건가.
[2권_3화_퀘스트 ] #341 대사 이제 어쩌지... 보스를 처치하지 않으면 밖으로 나갈 수 없어.
[2권_3화_퀘스트 ] #330 대사 고작 마수 두 마리 혼자 쓰러뜨린 것 가지고 너무 호들갑인가... ...

[성진우 응답]
대사: 이제 어떻게 할지 결정해야 할 시간이야. 방어력을 무력화시킬 방법을 찾아야 해.
