In [4]:
import pandas as pd

# 데이터 불러오기
df = pd.read_csv("Solo_Leveling_webtoon - full_data.tsv", sep="\t")

# 컬럼 이름 통일
df = df.rename(columns={
    '대사':'dialogue',
    '내적설명':'monologue',
    '시스템':'system'
})

# melt로 세로로 변환
long_df = df.melt(
    id_vars=['에피소드명'],  # 화수 또는 episode 컬럼
    value_vars=['dialogue', 'monologue', 'system'],
    var_name='type',
    value_name='content'
)

# NaN 제거
long_df = long_df.dropna(subset=['content']).reset_index(drop=True)

# type 한국어화
long_df['type'] = long_df['type'].map({
    'dialogue':'대사', 
    'monologue':'내적설명',
    'system':'시스템'
})

# 저장
long_df.to_csv("full_data_cleaned.tsv", sep="\t", index=False)


In [1]:
ls

 sl_dialogue.tsv      sl_skill.tsv                             untitled.txt
 sl_personality.tsv  'Solo_Leveling_webtoon - full_data.tsv'
 sl_situation.tsv     Untitled.ipynb


In [7]:
import pandas as pd

# 1. 데이터 불러오기
input_path = "Solo_Leveling_webtoon - full_data.tsv"
output_path = "Solo_Leveling_webtoon - sequential.tsv"

# TSV 읽기
df = pd.read_csv(input_path, sep='\t', encoding='utf-8')

# 결측치(NaN)를 빈 문자열로 변환
df = df.fillna("")

# 2. 열 이름 확인 (연구원님 파일에 맞춰 조정)
cols = ['에피소드명', '대사', '내적설명', '시스템']

# 3. Sequential Interleaving 변환
rows = []
for ep, group in df.groupby('에피소드명'):
    for idx, row in group.iterrows():
        # 대사, 내적설명, 시스템 순서대로 이어 붙임
        for col in ['대사', '내적설명', '시스템']:
            text = row[col].strip()
            if text:  # 빈 칸은 건너뛴다
                rows.append({
                    '에피소드': ep,
                    'scene_text': text,
                    'type': col  
                })

seq_df = pd.DataFrame(rows)

# 4. 저장
seq_df.to_csv(output_path, sep='\t', index=False, encoding='utf-8')

print("변환 완료! 저장 위치:", output_path)
print(seq_df.head(10))


변환 완료! 저장 위치: Solo_Leveling_webtoon - sequential.tsv
         에피소드                     scene_text  type
0  1권_1화_이중던전    네, 김상식 아저씨. 신경 써 주셔서 감사합니다.    대사
1  1권_1화_이중던전               내 이름은 성진우. E급 헌터  내적설명
2  1권_1화_이중던전         뭘요 하하... 오늘도 잘 부탁드릴게요.    대사
3  1권_1화_이중던전    헌터협회 소속 중 가장 낮은 계급, 최약의 헌터.  내적설명
4  1권_1화_이중던전  어? 안녕하세요. 주희 씨도 이번 레이드 가시는군요.    대사
5  1권_1화_이중던전   나에게 이런 일이 일어날 줄은...상상도 못 했다.  내적설명
6  1권_1화_이중던전            어쩌다보니 그렇게 됐네요 하하...    대사
7  1권_1화_이중던전                        대한민국 서울  내적설명
8  1권_1화_이중던전         E급 던전이었는데 저만 다쳐서 나왔어요.    대사
9  1권_1화_이중던전                     E급 헌터 성진우.  내적설명


In [9]:
import pandas as pd
from sentence_transformers import SentenceTransformer
import faiss
from transformers import pipeline

# 1️⃣ 데이터 로드
df = pd.read_csv("sl_webtoon_full_data_sequential.tsv", sep="\t")
texts = df['scene_text'].fillna("").tolist()

# 2️⃣ 문장 임베딩 & 벡터 DB 구축
model = SentenceTransformer("all-MiniLM-L6-v2")  # CPU/GPU 모두 가능
embeddings = model.encode(texts, convert_to_tensor=False)

index = faiss.IndexFlatL2(embeddings.shape[1])
index.add(embeddings)

# 3️⃣ 카나나 모델 로드
generator = pipeline(
    "text-generation",
    model="kakaocorp/kanana-nano-2.1b-instruct",
    device=0  # GPU 사용
)

# 4️⃣ 질의 → 유사 문장 검색
def retrieve_context(query, top_k=3):
    q_emb = model.encode([query], convert_to_tensor=False)
    distances, indices = index.search(q_emb, top_k)
    return [texts[i] for i in indices[0]]

# 5️⃣ 카나나 프롬프트 생성 및 응답
def ask_kanana(query):
    context = "\n".join(retrieve_context(query))
    prompt = f"""당신은 성진우입니다.
다음은 과거의 행동과 대사 기록입니다:
{context}

현재 상황: {query}
성진우답게 한 문장으로 대답하세요.
"""
    result = generator(prompt, max_new_tokens=100, temperature=0.7, do_sample=True)
    return result[0]['generated_text']

# 🔹 테스트
print(ask_kanana("황동석 무리를 만났을 때 어떻게 행동할까?"))


Device set to use cuda:0


당신은 성진우입니다.
다음은 과거의 행동과 대사 기록입니다:
생각 이상으로 체력이 깎여 있었나?
혹시... 능력치가 올라갈수록 가중치가 붙는 걸까?
강해지려고 여기까지 왔잖아.

현재 상황: 황동석 무리를 만났을 때 어떻게 행동할까?
성진우답게 한 문장으로 대답하세요.
황동석 무리를 무력화시킬 계획을 세울 것입니다.   답은 정해져 있지 않지만, 성진우의 성격상 강력한 전략을 구사할 것으로 예상됩니다.   #성진우 #황동석무리 #전략 #강력한계획 #성격 #무력화 #앞으로의행동 #의지 #고등학생 #캐릭터 #역할 #이야기 #게임


In [5]:

import pandas as pd
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np
import pickle

data_path = "sl_webtoon_full_data_sequential.tsv"
df = pd.read_csv(data_path, sep="\t")

df["text"] = df[["에피소드", "scene_text", "type"]].fillna("").agg(" ".join, axis=1)

model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
embeddings = model.encode(df["text"].tolist(), convert_to_numpy=True)

#FAISS 인덱스 구축
dim = embeddings.shape[1]
index = faiss.IndexFlatL2(dim)  
index.add(embeddings)

faiss.write_index(index, "solo_leveling_faiss.index")
with open("solo_leveling_texts.pkl", "wb") as f:
    pickle.dump(df["text"].tolist(), f)

print("RAG DB 구축 완료, 총 문장 수:", len(df))


RAG DB 구축 완료, 총 문장 수: 549


In [11]:
import pandas as pd
import numpy as np
import faiss
import pickle
from sentence_transformers import SentenceTransformer

data_path = "sl_webtoon_full_data_sequential.tsv"

# 1. 데이터 로드
df = pd.read_csv(data_path, sep="\t")
df["text"] = df[["에피소드", "scene_text", "type"]].fillna("").agg(" ".join, axis=1)

# 2. 한국어 임베딩 모델
model = SentenceTransformer('jhgan/ko-sroberta-multitask')

# 3. 임베딩 생성
embeddings = model.encode(df["text"].tolist(), convert_to_numpy=True)

# 4. 새로운 FAISS 인덱스 구축
dim = embeddings.shape[1]  # 모델 출력 차원 자동 확인
index = faiss.IndexFlatL2(dim)
index.add(embeddings)

# 5. 저장
faiss.write_index(index, "solo_leveling_faiss_ko.index")
with open("solo_leveling_texts.pkl", "wb") as f:
    pickle.dump(df["text"].tolist(), f)

print("✅ 새 RAG DB 구축 완료, 문장 수:", len(df))


✅ 새 RAG DB 구축 완료, 문장 수: 549


In [16]:
import faiss
import pickle
from sentence_transformers import SentenceTransformer

# 1. 인덱스와 텍스트 불러오기
index = faiss.read_index("solo_leveling_faiss_ko.index")
with open("solo_leveling_texts.pkl", "rb") as f:
    texts = pickle.load(f)

model = SentenceTransformer('jhgan/ko-sroberta-multitask')

# 2. 검색어 입력
query = "성진우는 몇 급 헌터?"

# 3. 임베딩 생성 및 검색
query_vec = model.encode([query])
D, I = index.search(query_vec, k=10)  # 상위 5개

# 4. 결과 출력
print("🔹 유사 장면 Top 10 🔹\n")
for idx, score in zip(I[0], D[0]):
    print(f"[점수: {score:.4f}] {texts[idx]}")


🔹 유사 장면 Top 10 🔹

[점수: 83.3571] 1권_1화_이중던전 내 이름은 성진우. E급 헌터 내적설명
[점수: 88.2755] 2권_4화_보스전 헌터 성진우입니다. 대사
[점수: 93.2208] 1권_1화_이중던전 E급 헌터 성진우. 내적설명
[점수: 99.7465] 3권_7화_이상한레이드 그 녀석이 원하는 건 실력은 있지만 등급이 낮은 헌터니까. 내적설명
[점수: 102.8061] 3권_7화_이상한레이드 S급 헌터인 황동수를 말하는 겁니까? 대사
[점수: 109.0561] 2권_4화_보스전 능력치를 올릴 수 있는 헌터가 있다? 내적설명
[점수: 109.9106] 1권_1화_이중던전 헌터협회 소속 중 가장 낮은 계급, 최약의 헌터. 내적설명
[점수: 110.5650] 2권_2화_세가지규율 여기서 기다리고 있으면 다른 헌터들이 구조하러 올까요? 대사
[점수: 114.7391] 1권_1화_이중던전 목숨을 거는 위험한 직업 '헌터'. 나라고 좋아서 이 일을 하는 건 아니다. 내적설명
[점수: 119.2824] 1권_1화_이중던전 고졸 출신에 딱히 잘하는 것도 없는 내게, 헌터라는 직업은 피할 수 없는 선택이었다. 내적설명


In [20]:
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
import pickle

# 1. 벡터 DB 로드
embedding = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')
db = FAISS.load_local("solo_leveling_faiss_ko", embedding, allow_dangerous_deserialization=True)  # 🔹 이 옵션 추가


# 2. 예시 질의
query = "성진우는 황동석과 처음 만난 장면에서 무엇을 했어?"
docs = db.similarity_search(query, k=3)

for i, doc in enumerate(docs, 1):
    print(f"[{i}] {doc.page_content}")
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
import pickle

# 1. 벡터 DB 로드
embedding = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')
db = FAISS.load_local("solo_leveling_faiss_ko", embedding)

# 2. 예시 질의
query = "성진우는 황동석과 처음 만난 장면에서 무엇을 했어?"
docs = db.similarity_search(query, k=3)

for i, doc in enumerate(docs, 1):
    print(f"[{i}] {doc.page_content}")


ValueError: too many values to unpack (expected 2)

In [21]:
from langchain.vectorstores import FAISS
from langchain.docstore.in_memory import InMemoryDocstore
from langchain.docstore.document import Document
from langchain.embeddings import HuggingFaceEmbeddings
import faiss
import pickle

# 1. 기존 데이터 로드
index_path = "solo_leveling_faiss_ko.index"
texts_path = "solo_leveling_texts.pkl"

index = faiss.read_index(index_path)
with open(texts_path, "rb") as f:
    texts = pickle.load(f)

# 2. 임베딩 모델 준비
embedding = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')

# 3. LangChain 문서화
docs = [Document(page_content=text) for text in texts]
docstore = InMemoryDocstore({str(i): doc for i, doc in enumerate(docs)})
index_to_docstore_id = {i: str(i) for i in range(len(docs))}

db = FAISS(
    embedding_function=embedding,
    index=index,
    docstore=docstore,
    index_to_docstore_id=index_to_docstore_id
)

# 4. LangChain 호환 구조로 저장
db.save_local("solo_leveling_faiss_langchain")
print("변환 완료: solo_leveling_faiss_langchain 폴더 생성됨")


RuntimeError: Error in faiss::FileIOReader::FileIOReader(const char*) at /project/faiss/faiss/impl/io.cpp:67: Error: 'f' failed: could not open solo_leveling_faiss_ko.index for reading: No such file or directory

## 1. tsv full data load

In [29]:
import pandas as pd


df = pd.read_csv("sl_webtoon_full_data_sequential.tsv", sep="\t")


print(df.head())
print("전체 문장 수:", len(df))
print("컬럼 목록:", df.columns.tolist())

# 549
#에피소드, scene_text, type

         에피소드                     scene_text  type
0  1권_1화_이중던전    네, 김상식 아저씨. 신경 써 주셔서 감사합니다.    대사
1  1권_1화_이중던전               내 이름은 성진우. E급 헌터  내적설명
2  1권_1화_이중던전         뭘요 하하... 오늘도 잘 부탁드릴게요.    대사
3  1권_1화_이중던전    헌터협회 소속 중 가장 낮은 계급, 최약의 헌터.  내적설명
4  1권_1화_이중던전  어? 안녕하세요. 주희 씨도 이번 레이드 가시는군요.    대사
전체 문장 수: 549
컬럼 목록: ['에피소드', 'scene_text', 'type']


In [30]:
import pandas as pd

df = pd.read_csv("sl_webtoon_full_data_sequential.tsv", sep="\t")
print(df.head(3))
print("컬럼:", df.columns.tolist(), "전체 행:", len(df))


         에피소드                   scene_text  type
0  1권_1화_이중던전  네, 김상식 아저씨. 신경 써 주셔서 감사합니다.    대사
1  1권_1화_이중던전             내 이름은 성진우. E급 헌터  내적설명
2  1권_1화_이중던전       뭘요 하하... 오늘도 잘 부탁드릴게요.    대사
컬럼: ['에피소드', 'scene_text', 'type'] 전체 행: 549


In [31]:
# ① 인덱스 컬럼 추가 (원본 추적용)
df['row_id'] = df.index

# ② 최종 RAG 문장 컬럼 생성
df['text'] = df.apply(
    lambda x: f"[{x['에피소드']}] #{x['row_id']} {x['type']} {x['scene_text']}",
    axis=1
)

# ③ 확인
print(df['text'].head(3).tolist())


['[1권_1화_이중던전] #0 대사 네, 김상식 아저씨. 신경 써 주셔서 감사합니다.', '[1권_1화_이중던전] #1 내적설명 내 이름은 성진우. E급 헌터', '[1권_1화_이중던전] #2 대사 뭘요 하하... 오늘도 잘 부탁드릴게요.']


In [32]:
texts = df['text'].tolist()
print("최종 문장 수:", len(texts))


최종 문장 수: 549


In [34]:
# 2단계: 최종 RAG 문장 생성
df['row_id'] = df.index  # 원본 추적용 인덱스
df['text'] = df.apply(
    lambda x: f"[{x['에피소드']}] #{x['row_id']} {x['type']} {x['scene_text']}",
    axis=1
)

# 확인용 출력
print("예시 5개:")
for t in df['text'].head(5).tolist():
    print("-", t)

# 3단계: 리스트 변환
texts = df['text'].tolist()
print("\n최종 문장 수:", len(texts))


예시 5개:
- [1권_1화_이중던전] #0 대사 네, 김상식 아저씨. 신경 써 주셔서 감사합니다.
- [1권_1화_이중던전] #1 내적설명 내 이름은 성진우. E급 헌터
- [1권_1화_이중던전] #2 대사 뭘요 하하... 오늘도 잘 부탁드릴게요.
- [1권_1화_이중던전] #3 내적설명 헌터협회 소속 중 가장 낮은 계급, 최약의 헌터.
- [1권_1화_이중던전] #4 대사 어? 안녕하세요. 주희 씨도 이번 레이드 가시는군요.

최종 문장 수: 549


In [35]:
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings

# 1. 한국어 멀티태스크 임베딩 모델 로드
embedding_model = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')

# 2. 벡터DB 생성
db = FAISS.from_texts(texts, embedding_model)
print("✅ 벡터DB 생성 완료. 총 문장 수:", len(texts))

# 3. 로컬에 저장
db.save_local("solo_leveling_faiss_ko")
print("💾 'solo_leveling_faiss_ko' 폴더에 저장 완료")


✅ 벡터DB 생성 완료. 총 문장 수: 549
💾 'solo_leveling_faiss_ko' 폴더에 저장 완료


In [2]:
# 저장된 DB 로드
db = FAISS.load_local("solo_leveling_faiss_ko", embedding_model, allow_dangerous_deserialization=True)

# 예시 질의
query = "이중던전에서 성진우는 뭐했지?"
docs = db.similarity_search(query, k=3)

for i, doc in enumerate(docs, 1):
    print(f"[{i}] {doc.page_content}")


[1] [1권_1화_이중던전] #1 내적설명 내 이름은 성진우. E급 헌터
[2] [2권_4화_보스전] #451 대사 헌터 성진우입니다.
[3] [1권_1화_이중던전] #9 내적설명 E급 헌터 성진우.


In [6]:
from langchain.chains import RetrievalQA
from langchain.vectorstores import FAISS
from langchain.prompts import PromptTemplate
from langchain_community.llms import HuggingFacePipeline
from langchain.embeddings import HuggingFaceEmbeddings
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

embedding_model = HuggingFaceEmbeddings(model_name='jhgan/ko-sroberta-multitask')
vectorstore = FAISS.load_local("solo_leveling_faiss_ko", embedding_model, allow_dangerous_deserialization=True)

model_name = "kakaocorp/kanana-nano-2.1b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16).to("cuda")

llm_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=256)
llm = HuggingFacePipeline(pipeline=llm_pipeline)

custom_prompt = PromptTemplate(
    input_variables=["context", "question"],
    template="다음 문맥을 참고하여 질문에 답하세요.\n\n문맥:\n{context}\n\n질문:\n{question}\n\n답변:"
)

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever(search_kwargs={"k": 5}),
    chain_type="stuff",
    return_source_documents=True,
    chain_type_kwargs={
        "prompt": custom_prompt  }
)


#예시 질문
query = "이중 던전에서 성진우가 클리어를 시도했다는 게 무슨 의미지?"
result = qa_chain({"query": query})

print("답변:", result["result"])
print("\n참조 문서:")
for doc in result["source_documents"]:
    print(doc.page_content)


Device set to use cuda:0


답변: 다음 문맥을 참고하여 질문에 답하세요.

문맥:
[2권_3화_퀘스트 ] #340 대사 하지만 이 던전... 대략 E급 던전 아닐까? 그렇다면 그다지 값어치가 높진 않겠다.

[2권_4화_보스전] #451 대사 헌터 성진우입니다.

[1권_3화_퀘스트] #170 대사 E급 마수한테도 쩔쩔매던 게 엊그제인데, 혼자서 던전을 클리어하려고?

[2권_3화_퀘스트 ] #307 내적설명 이중 던전에서 김상식 아저씨가 놓고 간 이 검!

[1권_1화_이중던전] #84 대사 아저씨... 이 던전엔 룰이 있어요.

질문:
이중 던전에서 성진우가 클리어를 시도했다는 게 무슨 의미지?

답변: 이중 던전에서 성진우가 클리어를 시도했다는 것은 그가 이전에 배웠던 던전의 규칙이나 방법을 떠올리며 어려움을 극복하려 했다는 것을 의미합니다. 이는 성진우가 던전 클리어 능력을 향상시키기 위해 노력하고 있음을 나타냅니다. 또한, 이는 그가 단순히 E급 던전을 클리어할 수 있을 정도로 성장했음을 시사합니다.  (성진우가 던전 클리어를 시도했다는 것은 그가 높은 수준의 난이도를 극복할 준비가 되어 있음을 보여주며, 이는 그의 성장과 능력 향상을 의미합니다.)  따라서, 성진우가 E급 던전을 클리어하려는 시도는 그의 성장과 도전 정신을 나타내는 중요한 장면입니다.   (성진우가 E급 던전을 클리어하려고 시도한 것은 그의 능력과 자신감이 향상되었음을 나타내며, 이는 이야기에 중요한 전환점이 됩니다.)  (이 장면은 성진우가 단순한 기초적인 던전 클리어

참조 문서:
[2권_3화_퀘스트 ] #340 대사 하지만 이 던전... 대략 E급 던전 아닐까? 그렇다면 그다지 값어치가 높진 않겠다.
[2권_4화_보스전] #451 대사 헌터 성진우입니다.
[1권_3화_퀘스트] #170 대사 E급 마수한테도 쩔쩔매던 게 엊그제인데, 혼자서 던전을 클리어하려고?
[2권_3화_퀘스트 ] #307 내적설명 이중 던전에서 김상식 아저씨가 놓고 간 이 검!
[1권_1화_이중던전] #84 대사 아저씨... 이 던전엔

In [13]:
import pandas as pd
from transformers import pipeline

# ======================
# 1. TSV 데이터 로드
# ======================
file_path = "Sl_lizard.tsv"
df = pd.read_csv(file_path, sep="\t")
df.fillna(method='ffill', inplace=True)

# ======================
# 2. 선택지 정의
# ======================
choices = [
    "1-1. 황동석 무리를 모두 처치한다.",
    "1-2. 황동석 무리와 진호를 포함하여 모두 처치한다.",
    "2. 적을 무력화하거나 기절시키고 살려둔다.",
    "3-1. 마정석을 들고 도망친다.",
    "3-2. 시스템을 거부하고 그냥 도망친다."
]

print("=== 황동석 편 시뮬레이션 ===")
for idx, choice in enumerate(choices, start=1):
    print(f"{idx}. {choice}")

user_choice = int(input("선택 번호를 입력하세요: "))
selected = choices[user_choice-1]
print(f"\n[선택]: {selected}")

# ======================
# 3. 근거 검색 (단순 키워드 기반)
# ======================
# 선택지에서 핵심 단어 추출 (예: 도망, 처치, 기절)
keywords = ["처치", "살려", "도망", "거부"]
matched_kw = None
for kw in keywords:
    if kw in selected:
        matched_kw = kw
        break

if matched_kw:
    related = df[df['상황'].str.contains(matched_kw, na=False) | df['대사'].str.contains(matched_kw, na=False)]
else:
    related = df

print("\n--- 관련 근거 상황 ---")
print(related[['상황', '대사']].head(5))

# ======================
# 4. 카나나 모델 연결
# ======================
generator = pipeline(
    "text-generation",
    model="kakaocorp/kanana-nano-2.1b-instruct",
    device=0,  # GPU 사용
)

context_text = "\n".join(
    (related['상황'].head(3).tolist() + related['대사'].head(3).tolist())
)

prompt = f"""
상황: {context_text}
사용자 선택: {selected}

성진우의 말투로, 해당 상황에서 한 줄 대사를 생성하라.
"""

output = generator(
    prompt,
    max_new_tokens=80,
    do_sample=True,
    temperature=0.7,
    top_p=0.9,
)[0]["generated_text"]

print("\n[성진우 대사 생성]")
print(output)


  df.fillna(method='ffill', inplace=True)


=== 황동석 편 시뮬레이션 ===
1. 1-1. 황동석 무리를 모두 처치한다.
2. 1-2. 황동석 무리와 진호를 포함하여 모두 처치한다.
3. 2. 적을 무력화하거나 기절시키고 살려둔다.
4. 3-1. 마정석을 들고 도망친다.
5. 3-2. 시스템을 거부하고 그냥 도망친다.


선택 번호를 입력하세요:  2.


ValueError: invalid literal for int() with base 10: '2.'