In [3]:
from langchain_community.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
from transformers import pipeline
import pandas as pd
import torch


In [4]:
# TSV 파일 로드 (컬럼: episode, type, text)
df = pd.read_csv("sl_webtoon_full_data_sequential.tsv", sep="\t")

# 내적설명과 대사 분리
df_context = df[df["type"] == "내적설명"].reset_index(drop=True)
df_dialogue = df[df["type"] == "대사"].reset_index(drop=True)

print(f"내적설명 개수: {len(df_context)}")
print(f"대사 개수: {len(df_dialogue)}")


내적설명 개수: 233
대사 개수: 273


In [5]:
#내적설명으로 벡터 db 구축(rag)

In [7]:
embeddings = HuggingFaceEmbeddings(model_name="jhgan/ko-sbert-sts")

# 내적설명 DB 생성
context_db = FAISS.from_texts(df_context["scene_text"].tolist(), embeddings)
context_db.save_local("faiss_context_db")

# 필요시 로드 예시
# context_db = FAISS.load_local("faiss_context_db", embeddings, allow_dangerous_deserialization=True)


In [9]:
generator = pipeline(
    "text-generation",
    model="kakaocorp/kanana-nano-2.1b-instruct",
    device=2 if torch.cuda.is_available() else -1
)


Device set to use cuda:2


In [12]:
from transformers import pipeline

# 모델 로드 (예: 카나나 모델)
generator = pipeline(
    "text-generation",
    model="kakaocorp/kanana-nano-2.1b-instruct",
    device=2  # GPU 0 사용 (필요 시 변경)
)

def generate_jinwoo_line(choice):
    prompt = f"상황: {choice}\n성진우의 대사를 생성해 주세요."
    result = generator(prompt, max_new_tokens=50, do_sample=True, temperature=0.7)
    return result[0]['generated_text'].replace(prompt, "").strip()


Device set to use cuda:2


In [27]:
# ===============================
# 1. 라이브러리 & 모델 로드
# ===============================
from langchain_community.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
from transformers import pipeline

# 벡터DB 로드
embedding_model = HuggingFaceEmbeddings(
    model_name="jhgan/ko-sbert-sts",
    model_kwargs={"device": "cuda:3"} )  # 임베딩 모델
db = FAISS.load_local("faiss_context_db", embedding_model, allow_dangerous_deserialization=True)

# 대사 생성 모델 로드 (카나나 예시)
generator = pipeline(
    "text-generation",
    model="kakaocorp/kanana-nano-2.1b-instruct",
    device=3,  # GPU 사용
    max_new_tokens=100
)

# ===============================
# 대사 생성 함수 (RAG 포함)
generator = pipeline(
    "text-generation",
    model="kakaocorp/kanana-nano-2.1b-instruct",
    device=3,
    max_new_tokens=50,
    temperature=0.9,   # 창의성 ↑
    top_p=0.9          # 다양성 ↑
)
    # Step 2: 프롬프트 생성
    prompt = f"""
다음은 성진우 캐릭터의 정보와 현재 상황이다.

[캐릭터 페르소나]
성진우: 침착하지만 냉정한 판단, 필요시 과감한 행동. 존댓말은 쓰지 않음.

[현재 상황]
{context_text}

[사용자 선택]
"{choice}"

[지시]
위의 페르소나와 현재 상황을 반영하여,
사용자 선택을 그대로 반복하지 말고,
성진우가 상황에 맞게 창의적으로 말할 법한 자연스러운 대사를 한 줄 생성하라.
반드시 따옴표(") 안에만 대사를 출력하고, 해시태그나 추가 설명은 포함하지 말 것.
"""

    # Step 3: 대사 생성
    result = generator(prompt, max_new_tokens=50, do_sample=True, temperature=0.7)
    line = result[0]['generated_text']

    # 따옴표 안의 내용만 추출
    import re
    match = re.search(r'"(.*?)"', line)
    if match:
        return f'"{match.group(1)}"'
    else:
        return line.strip()

# ===============================
# 3. 선택지 UI
# ===============================
choices = [
    "황동석 무리를 모두 처치한다.",
    "진호를 포함한 황동석 무리를 모두 처치한다.",
    "전부 기절 시키고 살려둔다.",
    "시스템을 거부하고 그냥 도망친다."
]

print("\n[선택지]")
for idx, choice in enumerate(choices, start=1):
    print(f"{idx}. {choice}")

user_idx = int(input("\n선택 번호 입력: ")) - 1
user_choice = choices[user_idx]

print("\n[성진우 대사 생성]")
print(generate_jinwoo_line_with_rag(user_choice))


Device set to use cuda:3



[선택지]
1. 황동석 무리를 모두 처치한다.
2. 진호를 포함한 황동석 무리를 모두 처치한다.
3. 전부 기절 시키고 살려둔다.
4. 시스템을 거부하고 그냥 도망친다.



선택 번호 입력:  1



[성진우 대사 생성]
"황동석 무리를 모두 처치한다."
