In [1]:
import pandas as pd

TSV_PATH = "sl_webtoon_full_data_sequential.tsv"  
df = pd.read_csv(TSV_PATH, sep="\t")

# 대사만
df = df[df["type"].astype(str).str.contains("대사", na=False)].copy()
df = df.dropna(subset=["scene_text"])
df["scene_text"] = df["scene_text"].astype(str).str.strip()

print(len(df), "lines (대사)")
df.head(3)


273 lines (대사)


Unnamed: 0,에피소드,scene_text,type
0,1권_1화_이중던전,"네, 김상식 아저씨. 신경 써 주셔서 감사합니다.",대사
2,1권_1화_이중던전,뭘요 하하... 오늘도 잘 부탁드릴게요.,대사
4,1권_1화_이중던전,어? 안녕하세요. 주희 씨도 이번 레이드 가시는군요.,대사


In [2]:
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS

emb = HuggingFaceEmbeddings(model_name="jhgan/ko-sroberta-multitask")

texts = df["scene_text"].tolist()
metadatas = [{"episode": e} for e in df["에피소드"].astype(str).tolist()]

vectorstore = FAISS.from_texts(texts=texts, embedding=emb, metadatas=metadatas)
vectorstore.save_local("jinwoo_faiss")  # index.faiss / index.pkl 생성


  emb = HuggingFaceEmbeddings(model_name="jhgan/ko-sroberta-multitask")


In [3]:
from langchain_community.vectorstores import FAISS
emb = HuggingFaceEmbeddings(model_name="jhgan/ko-sroberta-multitask")
vectorstore = FAISS.load_local("jinwoo_faiss", emb, allow_dangerous_deserialization=True)


In [4]:
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

MODEL_NAME = "kakaocorp/kanana-nano-2.1b-instruct" 
tok = AutoTokenizer.from_pretrained(MODEL_NAME)
mdl = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype=torch.float32, device_map=None)

gen = pipeline(
    "text-generation",
    model=mdl,
    tokenizer=tok,
    max_new_tokens=80,      
    temperature=0.6,
    top_p=0.9,
    do_sample=True,
    return_full_text=False
)

Device set to use cuda:0


In [5]:
import re

def build_examples(query, k=5):
    """질의와 비슷한 '대사' 예시 k개 선택 → 프롬프트용 문자열"""
    docs = vectorstore.similarity_search(query, k=k)
    lines = []
    seen = set()
    for d in docs:
        t = d.page_content.strip()
        if t and t not in seen:
            seen.add(t)
            lines.append(f"대사: {t}")
    return "\n".join(lines)

def postprocess_to_one_or_two_sentences(text: str) -> str:
    """'대사:' 이후 내용만 추출 → 문장 부호 기준 2문장까지만"""
    # 1) '대사:' 이후만
    if "대사:" in text:
        text = text.split("대사:", 1)[1].strip()
    else:
        text = text.strip()

    sentences = re.split(r'(?<=[.?!…])\s+', text)
    text = " ".join(sentences[:2]).strip()
    text = re.sub(r"\s+", " ", text)
    return f"대사: {text}"

def generate_jinwoo_line(situation: str, k=5) -> str:
    examples = build_examples(situation, k=k)

    prompt = f"""
당신은 웹툰 '나 혼자만 레벨업'의 성진우입니다.

[성진우 대사 예시(스타일만 참고)]
{examples}

[현재 상황]
{situation}

[지시]
- 위 예시의 말투/리듬을 참고하되, 문장 내용은 새로 작성.
- 1~2문장, 반드시 '대사:'로 시작.
- 설명/해설/예시/메타텍스트 금지.
- '대사:'는 한 번만 사용.
""".strip()

    raw = gen(prompt)[0]["generated_text"].strip()
    return postprocess_to_one_or_two_sentences(raw)


In [6]:
choices = [
    "황동석 무리를 모두 처치한다.",
    "진호를 포함한 황동석 무리를 모두 처치한다.",
    "전부 기절 시키고 살려둔다.",
    "시스템을 거부하고 그냥 도망친다."
]

for c in choices:
    print(c, "→", generate_jinwoo_line(c, k=6))


황동석 무리를 모두 처치한다. → 대사: 이제 황동석 무리를 모두 처치할 시간이야. 대사: 혼자서도 충분히 해낼 수 있을 거야.
진호를 포함한 황동석 무리를 모두 처치한다. → 대사: 모두가 잠든 시간, 나는 혼자서 던전을 탐험하기로 결심했다. 대사: 오늘은 반드시 승리할 거야, 어떤 위험이 닥쳐도 두렵지 않아.
전부 기절 시키고 살려둔다. → 대사: 모두 기절 시키고 살려둬야 해. 대사: 그래야 나중에 도움이 될 거야.
시스템을 거부하고 그냥 도망친다. → 대사: 도망치는 건 자신 있으니까, 만약 이번엔 위험해지면 물불 가리지 말고 도망치자! 대사: 어쩌지...


In [19]:
choices = [
    "황동석 무리를 모두 처치한다.",
    "진호를 포함한 황동석 무리를 모두 처치한다.",
    "전부 기절 시키고 살려둔다.",
    "시스템을 거부하고 그냥 도망친다."
]

print("\n[선택지]")
for idx, choice in enumerate(choices, start=1):
    print(f"{idx}. {choice}")

user_idx = int(input("\n선택 번호 입력: ")) - 1

if 0 <= user_idx < len(choices):
    user_choice = choices[user_idx]
    # 성진우 대사 생성
    line = generate_jinwoo_line(user_choice, k=6)
    
    # "대사:" 기준으로 분리 후 줄바꿈
    formatted_line = "\n".join(
        part.strip() for part in line.split("대사:") if part.strip()
    )
    formatted_line = "대사: " + formatted_line.replace("\n대사:", "\n대사:")

    print("\n[성진우 응답]")
    print(formatted_line)

else:
    print("❗ 잘못된 번호를 입력하셨습니다.")



[선택지]
1. 황동석 무리를 모두 처치한다.
2. 진호를 포함한 황동석 무리를 모두 처치한다.
3. 전부 기절 시키고 살려둔다.
4. 시스템을 거부하고 그냥 도망친다.



선택 번호 입력:  4



[성진우 응답]
대사: 도망치는 건 자신 있으니까, 이번엔 꼭 살아남아보자.
지난번처럼 위험해지면 물불 가리지 말고 도망치자.


In [23]:
pwd

'/home/a09999/r-story-telling/kaka/Solo_Leveling/sl_selection'