### =============================================================
### 셀 1: 필수 라이브러리 설치 및 환경 변수 설정 (RunPod Jupyter Notebook에서 가장 먼저 실행)
### =============================================================

In [1]:
# ==============================================================================
# 0. 필수 모듈 임포트 및 환경 설정
# ==============================================================================

# RunPod 환경: runpod/pytorch:2.1.0-py3.10-cuda11.8.0-devel-ubuntu22.04

import os
import sys
import pkg_resources
import gc # 가비지 컬렉션을 위함

# pip 및 torch 업그레이드
print("환경 설정 및 필수 라이브러리 설치를 시작합니다.")
!pip install --upgrade pip torch

# ==============================================================================

# --- 1. 현재 커널의 Python 버전 확인 (참고용) ---
print(f"현재 커널의 Python 버전: {sys.version}")

# --- 2. CUDA 버전 확인 ---
print("\n--- CUDA 버전 확인 중 ---")

# --- 3. PyTorch 및 CUDA 버전 확인 (RunPod 환경에 이미 설치된 것 활용) ---
print("\n--- RunPod 환경의 PyTorch 및 CUDA 버전 확인 중 ---")
try:
    import torch # PyTorch 버전 확인을 위함
    print(f"현재 PyTorch 버전: {torch.__version__}")
    print(f"PyTorch CUDA 사용 가능 여부: {torch.cuda.is_available()}")
    if torch.cuda.is_available():
        print(f"PyTorch가 인식하는 CUDA 버전: {torch.version.cuda}")
        print(f"현재 GPU 이름: {torch.cuda.get_device_name(0)}")
    else:
        print("PyTorch가 CUDA를 인식하지 못합니다. 문제 발생 가능성이 있습니다.")
except ImportError:
    print("PyTorch가 설치되지 않았거나 임포트할 수 없습니다. 수동 설치가 필요할 수 있습니다.")

# --- 4. pip 캐시 완전 삭제 ---
print("\n--- pip 캐시 삭제 중... ---")
!pip cache purge

# --- 5. 핵심 라이브러리 최신 버전 설치 ---
!pip install -U peft trl transformers bitsandbytes typing_extensions accelerate

# --- 6. NumPy 2.0.2 버전 설치 ---
print("\n--- NumPy 2.0.2 버전 설치 중... ---")
!pip install numpy==2.0.2

# --- 7. ipykernel 설치 ---
print("\n--- ipykernel 설치 중... ---")
!pip install ipykernel

# --- 8. 나머지 필수 라이브러리 설치 (datasets, safetensors, langchain 등) ---
print("\n--- 나머지 필수 라이브러리 및 datasets, safetensors 설치 중... ---")
!pip install \
    datasets \
    safetensors \
    langchain \
    langchain-community \
    langchain-core \
    faiss-cpu \
    sentence_transformers \
    wikipedia-api \

# --- 9. 가비지 컬렉션 및 GPU 캐시 정리 ---
print("\n--- 가비지 컬렉션 및 GPU 캐시 정리 중... ---")
gc.collect()
torch.cuda.empty_cache()
print("\n--- 모든 라이브러리 설치 및 환경 변수 설정 완료! ---")

# --- 10. 설치 확인 (모든 주요 라이브러리 임포트 테스트 강화) ---
print("\n--- bitsandbytes 진단 실행 중... ---")
get_ipython().system('python -m bitsandbytes')
print("\n--- 주요 라이브러리 임포트 테스트 ---")
try:
    installed_numpy_version = pkg_resources.get_distribution("numpy").version
    print(f"\n설치된 numpy 버전: {installed_numpy_version}")

    installed_typing_extensions_version = pkg_resources.get_distribution("typing_extensions").version
    print(f"설치된 typing_extensions 버전: {installed_typing_extensions_version}")

    import torch
    print(f"설치된 PyTorch 버전: {torch.__version__}")
    print(f"PyTorch CUDA 사용 가능 여부: {torch.cuda.is_available()}")
    if torch.cuda.is_available():
        print(f"PyTorch CUDA 버전: {torch.version.cuda}")

    import transformers
    print(f"transformers 버전: {transformers.__version__}")

    import bitsandbytes as bnb
    print(f"bitsandbytes 버전: {bnb.__version__}")

    import accelerate
    print(f"accelerate 버전: {accelerate.__version__}")

    import peft
    print(f"peft 버전: {peft.__version__}")

    import trl
    print(f"trl 버전: {trl.__version__}")

    import tokenizers
    print(f"tokenizers 버전: {tokenizers.__version__}")

    import safetensors
    # safetensors는 'safetensors'라는 이름으로 설치되므로, pkg_resources.get_distribution 사용
    installed_safetensors_version = pkg_resources.get_distribution("safetensors").version
    print(f"safetensors 버전: {installed_safetensors_version}")

    import datasets
    print(f"datasets 버전: {datasets.__version__}")

    import langchain
    print(f"langchain 버전: {langchain.__version__}")

    import faiss
    print(f"faiss-cpu 버전: {faiss.__version__}")

    print("\n--- 모든 주요 라이브러리 임포트 테스트 성공. ---")
except Exception as e:
    print(f"\n--- 라이브러리 확인 중 오류 발생: {e} ---")

# --- 11. 중요: Jupyter 커널 재시작 권장 ---
print("\n--- 경고: Jupyter 커널을 재시작하는 것을 강력히 권장합니다 (메뉴: Kernel -> Restart Kernel). ---")
print("재시작 후, 이 셀을 건너뛰고 바로 다음 셀(본 코드)을 실행하십시오.")

환경 설정 및 필수 라이브러리 설치를 시작합니다.


  import pkg_resources


Collecting pip
  Downloading pip-25.1.1-py3-none-any.whl.metadata (3.6 kB)
Collecting torch
  Downloading torch-2.7.1-cp310-cp310-manylinux_2_28_x86_64.whl.metadata (29 kB)
Collecting typing-extensions>=4.10.0 (from torch)
  Downloading typing_extensions-4.14.0-py3-none-any.whl.metadata (3.0 kB)
Collecting sympy>=1.13.3 (from torch)
  Downloading sympy-1.14.0-py3-none-any.whl.metadata (12 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.6.77 (from torch)
  Downloading nvidia_cuda_nvrtc_cu12-12.6.77-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.6.77 (from torch)
  Downloading nvidia_cuda_runtime_cu12-12.6.77-py3-none-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.6.80 (from torch)
  Downloading nvidia_cuda_cupti_cu12-12.6.80-py3-none-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.5.1.17 (from torch)
  Downloading nvidia_cudnn_cu12-9.5.1.17-py3-

### ===================================================
### 셀 2: RAG 추론 코드 (셀 1 실행 및 커널 재시작 후 실행)
### ===================================================

In [None]:
# ==============================================================================
# 1. 필수 라이브러리 임포트 및 환경 설정
# ==============================================================================

import os, gc, re, time

# Metrics
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from rouge_score import rouge_scorer

import torch
import wikipediaapi
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
from sentence_transformers import SentenceTransformer
from peft import PeftModel

# Metrics
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from rouge_score import rouge_scorer
import numpy as np

# LangChain
from langchain_community.vectorstores.faiss import FAISS
from langchain_core.runnables import RunnableSequence
from langchain_core.prompts import PromptTemplate
from langchain_huggingface import HuggingFacePipeline
from huggingface_hub import login

# 로그인 (한 번만)
HF_TOKEN = "MY_HF_TOKEN"
# HF_TOKEN = os.getenv("HF_TOKEN")
login(token=HF_TOKEN)

In [None]:
# ==============================================================================
# 2. 모델 병합 & Hub 푸시 (한 번만 수행)
# ==============================================================================  

BASE    = "Qwen/Qwen3-8B"
ADAPTER = "SIQRIT/DAIS-Qwen3-8B-qdora"

base = AutoModelForCausalLM.from_pretrained(BASE, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(BASE, trust_remote_code=True)
peft_model = PeftModel.from_pretrained(base, ADAPTER, trust_remote_code=True)
merged = peft_model.merge_and_unload()

specials = [
    "[DAIS_INSTRUCTION]", "[DAIS_STYLE]", "[DAIS_RULE]",
    "[DAIS_EXAMPLE]", "[HISTORY]", "[INPUT]", "[OUTPUT]", "[CONTEXT]"
]

tokenizer.add_special_tokens({"additional_special_tokens": specials})
merged.resize_token_embeddings(len(tokenizer))

merged.push_to_hub(ADAPTER)
tokenizer.push_to_hub(ADAPTER)

In [None]:
# ==============================================================================
# 3. RAG용 리소스 로드
# ==============================================================================

merged.eval()

generator = pipeline(
    "text-generation",
    model=merged,
    tokenizer=tokenizer,
    device_map="auto",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True
)

hf_pipeline = HuggingFacePipeline(pipeline=generator)

Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

Device set to use cuda:0


In [None]:
# ==============================================================================
# 4. 벡터 DB & 위키 API 초기화
# ==============================================================================

EMBED_MODEL = "nlpai-lab/KURE-v1"
DB_PATH     = "./vectordb/"
st_model    = SentenceTransformer(EMBED_MODEL)

class KUREEmbeddings:
    def __init__(self, m): self.m = m
    def __call__(self, texts):
        return self.m.encode([texts], normalize_embeddings=True)[0] if isinstance(texts, str) else self.m.encode(texts, normalize_embeddings=True)

faiss_store = FAISS.load_local(
    folder_path=DB_PATH,
    embeddings=KUREEmbeddings(st_model),
    allow_dangerous_deserialization=True
)

wiki = wikipediaapi.Wikipedia(user_agent="DAIS-ScienceBot/1.0", language="ko")

`embedding_function` is expected to be an Embeddings object, support for passing in a function will soon be removed.


In [None]:
# ==============================================================================
# 5. DAIS SFT 프롬프트 템플릿 정의
# ==============================================================================

PROMPT_TEMPLATE = """
[DAIS_INSTRUCTION]
너는 과학 AI 인플루언서 DAIS야.
{input}에 대해 {output}을 참고해서, 친근하고 유머러스하게 답변을 생성해줘.

[DAIS_STYLE]
1. 핵심만 쉽게 설명.
2. 반드시 반말.
3. 쾌활·위트·유머러스.

[DAIS_RULE]
1. 절대 한국어 이외 언어 사용 금지.
2. CoT 적용.
3. 중복 표현 금지.
4. 컨텍스트 기반 응답.

[DAIS_EXAMPLE]
Q: 블랙홀이 뭐야?
A: 블랙홀은 중력이 워낙 세서 빛조차 못 빠져나가는 우주의 구멍이야. 주변 물질을 빨아들이면서 커지기도 해! — DAIS

[HISTORY]
{history}

[INPUT]
{input}

[OUTPUT]
{output}

[CONTEXT]
"""
AGENT_PROMPT = PromptTemplate(input_variables=["history","input","output"], template=PROMPT_TEMPLATE)


In [None]:
# ==============================================================================
# 6. Tool 함수 정의: rag_db, rag_wiki
# ==============================================================================

def tool_rag_db(query: str):
    docs = faiss_store.similarity_search_with_score(query, k=1)
    return {"doc": docs[0][0], "score": docs[0][1]} if docs else {"doc": None, "score": 0.0}

def tool_rag_wiki(query: str):
    page = wiki.page(query)
    summary = page.summary[:1000] if page.exists() else "위키피디아에 관련 정보가 없습니다."
    return {"doc": summary, "score": None}

In [None]:
# ==============================================================================
# 7. RunnableSequence 정의
# ==============================================================================

def step_back(inputs: dict):
    print(f"[CoT] 사용자 질문 핵심 파악: '{inputs['input']}'")
    return inputs

def run_rag_db(inputs: dict):
    out = tool_rag_db(inputs['input'])
    print(f"[CoT] DB cosine similarity = {out['score']:.4f}")
    return {**inputs, **out}

def choose_output(inputs: dict):
    if inputs['score'] < 0.6:
        print("[CoT] score<0.6 → Wikipedia fallback")
        wiki_out = tool_rag_wiki(inputs['input'])
        return {**inputs, 'output': wiki_out['doc']}
    return {**inputs, 'output': inputs['doc'].page_content}

def run_llm(inputs: dict):
    prompt = AGENT_PROMPT.format(history=inputs['history'], input=inputs['input'], output=inputs['output'])
    tok = tokenizer(prompt, return_tensors='pt', truncation=True, max_length=2048).to(merged.device)
    start = time.time()
    out_ids = merged.generate(
        **tok,
        max_new_tokens=512,
        do_sample=True,
        temperature=0.75,
        top_p=0.25,
        repetition_penalty=1.02,
        no_repeat_ngram_size=3,                     # n-gram 반복 방지 (최적값: 3)
        eos_token_id=tokenizer.eos_token_id,
        pad_token_id=tokenizer.eos_token_id
    )
    rt = time.time() - start
    gen = out_ids[0, tok['input_ids'].shape[1]:]
    inputs_out = {**inputs, 'output': tokenizer.decode(gen, skip_special_tokens=True), 'response_time': rt}
    return inputs_out

def cleanup(inputs: dict) -> dict:
    text = inputs['output']
    text = re.sub(r'다음은.*?의 설명입니다', '', text)
    text = text.replace('다이스', '')
    text = re.sub(r'(</?think>)', '', text)
    text = text.replace(inputs['input'], '')
    for token in specials:
        text = text.replace(token, '')
    text = re.sub(r'<[^>]+>', '', text)
    text = re.sub(r"[^가-힣0-9\.\?\!\,\s]", '', text)
    # metrics 계산
    # Perplexity
    enc = tokenizer(inputs['input'], return_tensors='pt').to(merged.device)
    with torch.no_grad():
        outputs = merged(**enc, labels=enc['input_ids'])
    ppl = torch.exp(outputs.loss).item()
    # BLEU
    ref = inputs['output'].split() if inputs['output'] else []
    hyp = text.split()
    bleu = sentence_bleu([ref], hyp, smoothing_function=SmoothingFunction().method1)
    # ROUGE-L
    scorer = rouge_scorer.RougeScorer(['rougeL'], use_stemmer=True)
    rouge = scorer.score(' '.join(ref), text)['rougeL'].fmeasure
    # log
    metrics = {
        'cosine': inputs['score'], 'perplexity': ppl,
        'bleu4': bleu, 'rougeL': rouge,
        'response_time': inputs['response_time']
    }
    return {'response': text.strip() + ' — DAIS', 'metrics': metrics}

agent_chain = RunnableSequence(step_back, run_rag_db, choose_output, run_llm, cleanup)

In [None]:
# ==============================================================================
# 8. 채팅 루프 + 통계
# ==============================================================================

def chat_loop():
    history = []
    all_metrics = []
    print("=== DAIS RAG Agent Chat (threshold=0.6) ===\n(종료: exit)")
    while True:
        q = input('>> ').strip()
        if q.lower() == 'exit':
            break
        history.append(f'[USER] {q}')

        # 직전 1턴 히스토리
        hist = history[-2:] if len(history)>=2 and history[-2].startswith('[DAIS]') else history[-1:]
        inputs = {'history': '\n'.join(hist), 'input': q, 'output': ''}

        # get output
        db_out = tool_rag_db(q)
        ctx = db_out['doc'].page_content if db_out['score']>=0.6 else tool_rag_wiki(q)['doc']
        inputs['output'] = ctx
        result = agent_chain.invoke(inputs)
        if result.get('metrics'):
            all_metrics.append(result['metrics'])
        print(f"\n[DAIS]\n{result['response']}\n")
        
    # 종합 통계
    print("=== Metrics Summary ===")
    arr = {k: np.array([m[k] for m in all_metrics]) for k in all_metrics[0]}
    for k, v in arr.items():
        print(f"{k}: min={v.min():.4f}, avg={v.mean():.4f}, max={v.max():.4f}")

if __name__ == '__main__':
    chat_loop()

=== DAIS RAG Chat (CoT + threshold=0.6) ===


>>  멘델의 유전법칙에 대해서 설명해줘


[CoT] DB cosine similarity = 0.6469


KeyboardInterrupt: 

In [None]:
# 1. 멘델의 유전법칙에 대해서 설명해줘
# 2. 다윈의 진화론에 대해서 알려줄래?
# 3. 상대성 이론에 대해 알고 싶어
# 4. 양자역학의 기본 원리가 어떤거야?
# 5. 우주 팽창론과 블랙홀에 대해 가르쳐줘
# 6. 인공지능에 대해서 알려줘봐
# 7. 지구 온난화를 과학적으로 설명좀요
# 8. 코로나19 바이러스의 구조와 전파 방식에 알려주라
# 9. 유전자 편집 기술인 CRISPR-Cas9에 대해 대답해줘
# 10. 외계인은 진짜 있을까?