In [1]:
# !pip install pandas tqdm transformers accelerate bitsandbytes

In [2]:
import re
import os
import pandas as pd
from tqdm import tqdm

import torch

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

In [3]:
test = pd.read_csv('../data/test.csv')
test

Unnamed: 0,ID,Question
0,TEST_000,금융산업의 이해와 관련하여 금융투자업의 구분에 해당하지 않는 것은?\n1 소비자금융...
1,TEST_001,위험 관리 계획 수립 시 고려해야 할 요소로 적절하지 않은 것은?\n1 수행인력\n...
2,TEST_002,관리체계 수립 및 운영'의 '정책 수립' 단계에서 가장 중요한 요소는 무엇인가?\n...
3,TEST_003,재해 복구 계획 수립 시 고려해야 할 요소로 옳지 않은 것은?\n1 복구 절차 수립...
4,TEST_004,트로이 목마(Trojan) 기반 원격제어 악성코드(RAT)의 특징과 주요 탐지 지표...
...,...,...
510,TEST_510,"""정보보호최고책임자""의 임명에 관한 설명으로 옳지 않은 것은?\n1 정보보호최고책임..."
511,TEST_511,IPv6 주소 체계의 주요 특징으로 옳지 않은 것은?\n1 NAT 필요성 감소\n2...
512,TEST_512,하이브리드 위협에 대한 설명으로 가장 적절한 것은?\n1 사이버 공간에서만 발생하는...
513,TEST_513,전자금융거래법의 주요 목적 중 하나는 무엇인가?\n1 전자금융거래의 비대면성 강화\...


In [4]:
# test = test.iloc[[492, 446, 362, 111, 121, 162, 434, 4, 7, 82, 101, 102, 126, 131, 182, 458], :]

In [5]:
# 객관식 여부 판단 함수
def is_multiple_choice(question_text):
    """
    객관식 여부를 판단: 2개 이상의 숫자 선택지가 줄 단위로 존재할 경우 객관식으로 간주
    """
    lines = question_text.strip().split("\n")
    option_count = sum(bool(re.match(r"^\s*[1-9][0-9]?\s", line)) for line in lines)
    return option_count >= 2


# 질문과 선택지 분리 함수
def extract_question_and_choices(full_text):
    """
    전체 질문 문자열에서 질문 본문과 선택지 리스트를 분리
    """
    lines = full_text.strip().split("\n")
    q_lines = []
    options = []

    for line in lines:
        if re.match(r"^\s*[1-9][0-9]?\s", line):
            options.append(line.strip())
        else:
            q_lines.append(line.strip())

    question = " ".join(q_lines)
    return question, options

In [6]:
# 프롬프트 생성기
def make_prompt_auto(text):
    if is_multiple_choice(text):
        question, options = extract_question_and_choices(text)
        prompt = (
                "당신은 금융보안 전문가입니다.\n"
                "아래 질문에 대해 적절한 **정답 선택지 번호만 출력**하세요.\n\n"
                f"질문: {question}\n"
                "선택지:\n"
                f"{chr(10).join(options)}\n\n"
                "답변:"
                )
    else:
        prompt = (
                "당신은 금융보안 전문가입니다.\n"
                # "아래 주관식 질문에 대해 정확하고 간략한 설명을 작성하세요.\n\n"
                "아래 질문에 대해 정답의 핵심 키워드와 의미를 모두 포함하여 3문장 이내로 간결하게 답변하세요. 군더더기 없이 요점만 명확하게 작성하세요.\n\n"
                f"질문: {text}\n\n"
                "답변:"
                )
    return prompt

In [7]:
# -*- coding: utf-8 -*-
# 멀티법령 RAG 전처리/인덱싱 (PIPA, 신용정보법, 전자서명법, 정보통신망법)

import os, re, json, math
from dataclasses import dataclass, asdict
from typing import List, Dict, Tuple, Optional

import numpy as np
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

from PyPDF2 import PdfReader
from langchain_community.embeddings import HuggingFaceEmbeddings
import faiss

# ===== 사용자 환경 상수 =====
# LLM_ID = "nlpai-lab/KULLM3"
LLM_ID = "MLP-KTLim/llama-3-Korean-Bllossom-8B"
EMB_MODEL = "jhgan/ko-sroberta-multitask"   # 경량/호환성 위주
# EMB_MODEL = "intfloat/multilingual-e5-base"
CHUNK_TOKENS = 600
CHUNK_OVERLAP = 32
CTX_TOKEN_BUDGET = 1200
TOP_K = 3
SEED = 42
torch.manual_seed(SEED)

# ===== 법령 설정: 파일 경로 + 제거/정규식 패턴 =====
LAW_CONFIG = {
    # 개인정보 보호법
    "pipa": {
        "law_name": "개인정보 보호법",
        "pdf_path": "../data/개인정보 보호법(법률)(제19234호)(20250313).pdf",
        "drop_patterns": [
            r'법제처\s+\d+\s+국가법령정보센터\s*개인정보\s*보호법',
            r'법제처\s+\d+\s+국가법령정보센터',
            r'국가법령정보센터\s*개인정보\s*보호법',
            r'법제처|국가법령정보센터',
            r'<[^>]+>',         # <개정 …>, <신설 …>
            r'\[[^\]]+\]',      # [본조신설 …]
        ],
    },
    # 신용정보의 이용 및 보호에 관한 법률
    "ciupa": {
        "law_name": "신용정보법",
        "pdf_path": "../data/신용정보의 이용 및 보호에 관한 법률(법률)(제20304호)(20240814).pdf",
        "drop_patterns": [
            r'법제처\s+\d+\s+국가법령정보센터\s*신용정보.*법',
            r'법제처|국가법령정보센터',
            r'<[^>]+>', r'\[[^\]]+\]',
        ],
    },
    # 전자서명법
    "es_act": {
        "law_name": "전자서명법",
        "pdf_path": "../data/전자서명법(법률)(제18479호)(20221020).pdf",
        "drop_patterns": [
            r'법제처\s+\d+\s+국가법령정보센터\s*전자서명법',
            r'법제처|국가법령정보센터',
            r'<[^>]+>', r'\[[^\]]+\]',
        ],
    },
    # 정보통신망 이용촉진 및 정보보호 등에 관한 법률
    "icn_act": {
        "law_name": "정보통신망법",
        "pdf_path": "../data/정보통신망 이용촉진 및 정보보호 등에 관한 법률(법률)(제20678호)(20250722).pdf",
        "drop_patterns": [
            r'법제처\s+\d+\s+국가법령정보센터\s*정보통신망.*법',
            r'법제처|국가법령정보센터',
            r'<[^>]+>', r'\[[^\]]+\]',
        ],
    },
    # 전자금융거래법
    "eft_act": {
        "law_name": "전자금융거래법",
        "pdf_path": "../data/전자금융거래법(법률)(제19734호)(20240915).pdf",
        "drop_patterns": [
            r'법제처\s+\d+\s+국가법령정보센터\s*전자금융거래.*법',
            r'법제처|국가법령정보센터',
            r'<[^>]+>', r'\[[^\]]+\]',
        ],
    },
    # 전자금융감독규정
    "rs_act": {
        "law_name": "전자금융감독규정",
        "pdf_path": "../data/전자금융감독규정(금융위원회고시)(제2025-4호)(20250205).pdf",
        "drop_patterns": [
            r'법제처\s+\d+\s+국가법령정보센터\s*전자금융거래.*법',
            r'법제처|국가법령정보센터',
            r'<[^>]+>', r'\[[^\]]+\]',
        ],
    },
    # 자본시장법
    "fis_act": {
        "law_name": "자본시장법",
        "pdf_path": "../data/자본시장과 금융투자업에 관한 법률(법률)(제20718호)(20250722).pdf",
        "drop_patterns": [
            r'법제처\s+\d+\s+국가법령정보센터\s*자본시장.*법',
            r'법제처|국가법령정보센터',
            r'<[^>]+>', r'\[[^\]]+\]',
        ],
    },
}

In [8]:
# ===== 토크나이저: 토큰 길이 계산/청킹 =====
llm_tokenizer = AutoTokenizer.from_pretrained(LLM_ID)
if llm_tokenizer.pad_token is None:
    llm_tokenizer.pad_token = llm_tokenizer.eos_token
llm_tokenizer.padding_side = "right"

def token_len(s: str) -> int:
    return len(llm_tokenizer(s, add_special_tokens=False)["input_ids"])

def split_sentences_ko(text: str) -> List[str]:
    # 고정폭 lookbehind: '다.' 또는 일반 종결부호
    text = re.sub(r'\s+', ' ', text).strip()
    if not text:
        return []
    return re.split(r'(?<=다\.)\s+|(?<=[.?!。！？])\s+', text)




tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/444 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [9]:
# ===== 공통 정제 =====
def normalize_common(text: str) -> str:
    # 한자 제거
    text = re.sub(r'[\u4e00-\u9fff]', '', text)
    # circled numbers → (n)
    circled = '①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳'
    for idx, c in enumerate(circled, 1):
        text = text.replace(c, f'({idx})')
    # 공백/빈 괄호 정리
    text = re.sub(r'\s+', ' ', text).strip()
    text = re.sub(r'\(\s*\)', '', text)
    return text

def clean_text_by_config(text: str, drop_patterns: List[str]) -> str:
    for pat in drop_patterns:
        text = re.sub(pat, '', text)
    return normalize_common(text)

# ===== 조문 단위 분리 =====
ARTICLE_HEADER_PATTERN = r'(제\d+조(?:의\d+)?\([^)]+\))'  # 제X조(제목) / 제X조의Y(제목)

def split_articles(raw_text: str) -> List[Tuple[str, str, str]]:
    parts = re.split(ARTICLE_HEADER_PATTERN, raw_text)
    out = []
    for i in range(1, len(parts), 2):
        header = parts[i]
        body = (parts[i+1] if i+1 < len(parts) else "").strip().replace("\n", " ")
        m = re.match(r'(제\d+조(?:의\d+)?)[(]([^)]+)[)]', header)
        if not m:
            continue
        article_id = m.group(1)          # 제xx조 / 제xx조의y
        article_title = m.group(2)       # (제목)
        out.append((article_id, article_title, body))
    return out

def chunk_article(article_body: str, header: str) -> List[str]:
    prefix = header.strip() + "\n"
    sents = split_sentences_ko(article_body) or [article_body]
    chunks, cur, cur_toks = [], [], token_len(prefix)
    for s in sents:
        tl = token_len(s)
        if cur_toks + tl > CHUNK_TOKENS and cur:
            chunks.append(prefix + " ".join(cur))
            # overlap: 마지막 문장 유지
            keep = cur[-1] if CHUNK_OVERLAP > 0 and cur else ""
            cur = [keep] if keep else []
            cur_toks = token_len(prefix) + (token_len(keep) if keep else 0)
        cur.append(s); cur_toks += tl
    if cur:
        chunks.append(prefix + " ".join(cur))
    return chunks


In [10]:
# ===== 데이터 클래스 =====
@dataclass
class LawDoc:
    text: str
    meta: Dict

# ===== 임베딩 =====
embeddings = HuggingFaceEmbeddings(
    model_name=EMB_MODEL,
    model_kwargs={"device": "cuda" if torch.cuda.is_available() else "cpu"},
    encode_kwargs={
        "normalize_embeddings": True,
        "batch_size": 128,
        "convert_to_numpy": True,
        "convert_to_tensor": False
    }
)

# ===== 인덱스 (FAISS HNSW) =====
def build_faiss_hnsw(vectors: np.ndarray, m: int = 32, ef_search: int = 32) -> faiss.IndexHNSWFlat:
    dim = vectors.shape[1]
    idx = faiss.IndexHNSWFlat(dim, m)
    idx.hnsw.efSearch = ef_search
    idx.add(vectors.astype(np.float32))
    return idx

# ===== 파이프라인: 1) 로드 → 2) 정제 → 3) 조문분리 → 4) 청킹 → 5) 임베딩/인덱스
def load_pdf_text(pdf_path: str) -> str:
    reader = PdfReader(pdf_path)
    text = ""
    for p in reader.pages:
        t = p.extract_text() or ""
        text += t + "\n"
    return text

def preprocess_law(law_id: str, cfg: Dict) -> List[LawDoc]:
    raw = load_pdf_text(cfg["pdf_path"])
    cleaned = clean_text_by_config(raw, cfg["drop_patterns"])
    articles = split_articles(cleaned)

    docs: List[LawDoc] = []
    # 시행일 파싱(있으면): [시행 YYYY. M. D.]가 머리말에 있는 경우가 많으나 PDF마다 다름 → 필요 시 별도 파서
    effective_date = None  # 필요 시 추출 로직 추가

    for article_id, title, body in articles:
        header = f'{cfg["law_name"]} {article_id}({title})'
        chunks = chunk_article(body, header)
        for ch in chunks:
            meta = {
                "law_id": law_id,
                "law_name": cfg["law_name"],
                "article_id": article_id,
                "article_title": title,
                "effective_date": effective_date,   # None 가능
                "tok_len": token_len(ch),
                "source_uri": cfg.get("pdf_path"),
                "version": None
            }
            docs.append(LawDoc(text=ch, meta=meta))
    return docs

def build_indices(all_docs: List[LawDoc]):
    # (a) 법령별 인덱스
    per_law_docs: Dict[str, List[LawDoc]] = {}
    for d in all_docs:
        per_law_docs.setdefault(d.meta["law_id"], []).append(d)

    indices = {}
    for law_id, docs in per_law_docs.items():
        mat = np.array(embeddings.embed_documents([d.text for d in docs]), dtype=np.float32)
        indices[f"faiss_hnsw_{law_id}"] = {
            "index": build_faiss_hnsw(mat, m=32, ef_search=32),
            "docs": docs
        }

    # (b) 글로벌 인덱스
    mat_all = np.array(embeddings.embed_documents([d.text for d in all_docs]), dtype=np.float32)
    indices["faiss_hnsw_all"] = {
        "index": build_faiss_hnsw(mat_all, m=32, ef_search=32),
        "docs": all_docs
    }
    return indices

  embeddings = HuggingFaceEmbeddings(


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/123 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/744 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/443M [00:00<?, ?B/s]

  return self.fget.__get__(instance, owner)()


tokenizer_config.json:   0%|          | 0.00/585 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/156 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [11]:
all_docs: List[LawDoc] = []
for law_id, cfg in LAW_CONFIG.items():
    if not os.path.exists(cfg["pdf_path"]):
        print(f"[WARN] PDF not found: {cfg['pdf_path']}")
        continue
    docs = preprocess_law(law_id, cfg)
    all_docs.extend(docs)
    print(f"[OK] {cfg['law_name']} → chunks: {len(docs)}")

indices = build_indices(all_docs)
print("[OK] built indices:", list(indices.keys()))

[OK] 개인정보 보호법 → chunks: 160
[OK] 신용정보법 → chunks: 125
[OK] 전자서명법 → chunks: 26
[OK] 정보통신망법 → chunks: 113
[OK] 전자금융거래법 → chunks: 78
[OK] 전자금융감독규정 → chunks: 113
[OK] 자본시장법 → chunks: 782
[OK] built indices: ['faiss_hnsw_pipa', 'faiss_hnsw_ciupa', 'faiss_hnsw_es_act', 'faiss_hnsw_icn_act', 'faiss_hnsw_eft_act', 'faiss_hnsw_rs_act', 'faiss_hnsw_fis_act', 'faiss_hnsw_all']


In [12]:
# ===== 라우팅 규칙 =====
ARTICLE_PTRN = re.compile(r"제\d+조(?:의\d+)?")  # 조문 표기
LAW_HINTS = {
    "pipa": ("개인정보", "개인 정보", "개인정보보호법"),
    "ciupa": ("신용정보",  "신용정보법"),
    "es_act": ("전자서명", "전자서명법"),
    "icn_act": ("정보통신망", "통신망", "정보통신망법"),
    "eft_act": ("전자금융", "금융거래", "전자금융거래법"),
    "rs_act": ("전자금융감독", "금융감독", "전자금융감독규정"),
    "fis_act": ("자본", "자본시장", "금융투자", "채권", "자본시장법", "금융투자업", "투자"),
}

def detect_law_id(query: str) -> Optional[str]:
    q = query.lower()
    for law_id, kws in LAW_HINTS.items():
        if any(kw.lower() in q for kw in kws):
            return law_id
    return None

def route_is_domain(query: str) -> bool:
    # 법/금융/보안 도메인 간단 라우터 (검색 여부 판단용)
    domain_kws = ("법", "조(", "과징금", "처벌", "보안", "침해", "금융", "개인정보", "신용정보", "전자서명", "정보통신", "전자금융", "금융감독", "자본", "자본시장", "금융투자", "채권", "투자")
    q = query.lower()
    return any(kw in q for kw in domain_kws) or bool(ARTICLE_PTRN.search(query))

def choose_index(indices: dict, query: str):
    """
    1) 질의에서 법령 단서 -> 해당 법 인덱스 우선
    2) 조문 패턴만 있거나 단서가 불분명 -> 글로벌 인덱스
    3) 아무 단서도 없으면 None (베이스모델 경로)
    """
    law_id = detect_law_id(query)
    if law_id:
        key = f"faiss_hnsw_{law_id}"
        if key in indices:
            return indices[key]  # {"index": ..., "docs": ...}
    # 법령 단서 없지만 도메인성/조문 표기는 있는 경우 글로벌
    if route_is_domain(query) and "faiss_hnsw_all" in indices:
        return indices["faiss_hnsw_all"]
    return None  # 베이스모델 직행


In [13]:
# ===== 검색 with 점수 (해당 인덱스에서) =====
def faiss_search_with_scores_from_index(index_entry: dict, query: str, top_k: int = TOP_K):
    # embeddings는 상위 스코프에서 로드되었다고 가정
    qv = np.array(embeddings.embed_query(query), dtype=np.float32).reshape(1, -1)
    D, I = index_entry["index"].search(qv, top_k)     # L2 거리 (정규화 벡터 가정)
    cos = 1.0 - (D[0] / 2.0)                          # L2 -> cosine
    out = []
    docs = index_entry["docs"]
    for idx, i in enumerate(I[0]):
        ii = int(i)
        if ii >= 0:
            out.append((docs[ii], float(cos[idx])))
    return out  # [(LawDoc, cosine), ...]

# ===== 컨텍스트 패킹 (질문 주신 코드 재사용 + tok_len 캐시) =====
def pack_context(docs_in, token_budget=CTX_TOKEN_BUDGET):
    acc, used = [], 0
    for d in docs_in:
        tl = d.meta.get("tok_len", None)
        if tl is None:
            tl = token_len(d.text); d.meta["tok_len"] = tl
        if used + tl <= token_budget:
            acc.append(d.text); used += tl
        else:
            remain = token_budget - used
            if remain > 50:
                ids = llm_tokenizer(d.text, add_special_tokens=False)["input_ids"][:remain]
                acc.append(llm_tokenizer.decode(ids))
            break
    return "\n\n".join(acc)


In [14]:
# ===== 프롬프트 =====
def chat_prompt(system, user):
    messages = [
        {"role": "system", "content": system},
        {"role": "user", "content": user},
    ]
    return llm_tokenizer.apply_chat_template(
        messages, tokenize=False, add_generation_prompt=True
    )

def build_prompt(query: str, use_context: bool, context) -> Tuple[str, int]:
    """컨텍스트 유무에 따라 간단 프롬프트와 max_len을 반환"""
    # 객관식 질문
    if is_multiple_choice(query):
        question, options = extract_question_and_choices(query)
        if use_context:
            prompt = (
                "아래 컨텍스트를 우선 사용해 정확히 답하세요. 불충분하면 아는 범위에서만 간결히 답하세요.\n\n"
                "아래 질문에 대해 적절한 **정답 선택지 번호만 출력**하세요.\n\n"
                f"=== 컨텍스트 ===\n{context}\n=== 끝 ===\n"
                f"질문: {question}\n"
                "선택지:\n"
                f"{chr(10).join(options)}\n\n"
                "답변:"
            )

            system = "당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요."
            prompt = chat_prompt(system, prompt)

            max_new = dynamic_max_new_tokens(query)
            max_len = 3072  # 입력 길이 상한도 줄여 토크나이즈 시간 단축
            return prompt, max_len
        else:
            prompt = (
                "아래 질문에 대해 적절한 **정답 선택지 번호만 출력**하세요.\n\n"
                f"질문: {question}\n"
                "선택지:\n"
                f"{chr(10).join(options)}\n\n"
                "답변:"
            )

            system = "당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요."
            prompt = chat_prompt(system, prompt)

            max_new = dynamic_max_new_tokens(query)
            max_len = 2048
            return prompt, max_len
    # 주관식 질문
    else:
        if use_context:
            prompt = (
                "아래 컨텍스트를 우선 사용해 정확히 답하세요. 불충분하면 아는 범위에서만 간결히 답하세요.\n\n"
                f"=== 컨텍스트 ===\n{context}\n=== 끝 ===\n"
                """아래 질문에 대해 **사실에 근거한 간결한 답변**을 작성하세요. 

규칙:
1. 답변은 2~3문장 이내로 작성합니다. 장황한 서론, 결론 문구는 쓰지 않습니다.
2. 불확실할 경우 '알 수 없습니다'라고 답하고 생성을 종료합니다.
3. 특수문자 없이 오로지 한글과 숫자로만 대답합니다.\n
"""
                f"질문: {query}\n\n"
                "답변:"
            )

            system = "당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요."
            prompt = chat_prompt(system, prompt)

            max_new = dynamic_max_new_tokens(query)
            max_len = 3072  # 입력 길이 상한도 줄여 토크나이즈 시간 단축
            return prompt, max_len
        else:
            prompt = (
                """아래 질문에 대해 **사실에 근거한 간결한 답변**을 작성하세요. 

규칙:
1. 답변은 2~3문장 이내로 작성합니다. 장황한 서론, 결론 문구는 쓰지 않습니다.
2. 불확실할 경우 '알 수 없습니다'라고 답하고 생성을 종료합니다.
3. 특수문자 없이 오로지 한글과 숫자로만 대답합니다.\n
"""
                f"질문: {query}\n\n"
                "답변:"
            )

            system = "당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요."
            prompt = chat_prompt(system, prompt)

            max_new = dynamic_max_new_tokens(query)
            max_len = 2048
            return prompt, max_len


# ===== 생성 토큰 상한 =====
def dynamic_max_new_tokens(question: str) -> int:
    lines = [ln.strip() for ln in question.split("\n") if ln.strip()]
    opt_cnt = sum(bool(re.match(r"^\d+(\s|[.)])", ln)) for ln in lines)
    return 96 if opt_cnt >= 2 else 192

# ===== 메인: 다중 인덱스 기반 텍스트 생성 =====
def generate_answer_with_indices(query: str, indices: dict) -> str:
    """
    indices: build_indices() 반환 구조
    - 라우팅 → 해당 인덱스에서 top-k 검색(점수 포함)
    - 최고 유사도 임계치 미만이면 컨텍스트 없이 베이스모델 생성(Adaptive RAG)
    """
    # 0) 우선, 일반상식/비도메인은 곧장 베이스모델
    if not route_is_domain(query):
        prompt, max_len = build_prompt(query, use_context=False, context=None)
        inputs = llm_tokenizer(prompt, return_tensors="pt", truncation=True, max_length=max_len, padding=False)
        inputs = {k: v.to(llm_model.device) for k, v in inputs.items()}
        with torch.inference_mode():
            out = llm_model.generate(**inputs,
                                     max_new_tokens=dynamic_max_new_tokens(query),
                                     do_sample=False,
                                     temperature=0.0,
                                     top_p=0.1,
                                     repetition_penalty=1.1,
                                     eos_token_id=llm_tokenizer.eos_token_id,
                                     pad_token_id=llm_tokenizer.pad_token_id,
                                     )
        gen = out[0][inputs["input_ids"].shape[1]:]
        return llm_tokenizer.decode(gen, skip_special_tokens=True).strip()

    # 1) 인덱스 선택
    idx_entry = choose_index(indices, query)

    # 2) 인덱스가 없으면 베이스모델
    if idx_entry is None:
        prompt, max_len = build_prompt(query, use_context=False, context=None)
        inputs = llm_tokenizer(prompt, return_tensors="pt", truncation=True, max_length=max_len, padding=False)
        inputs = {k: v.to(llm_model.device) for k, v in inputs.items()}
        with torch.inference_mode():
            out = llm_model.generate(**inputs,
                                     max_new_tokens=dynamic_max_new_tokens(query),
                                     do_sample=False,
                                     temperature=0.0,
                                     top_p=0.1,
                                     repetition_penalty=1.1,
                                     eos_token_id=llm_tokenizer.eos_token_id,
                                     pad_token_id=llm_tokenizer.pad_token_id,
                                     )
        gen = out[0][inputs["input_ids"].shape[1]:]
        return llm_tokenizer.decode(gen, skip_special_tokens=True).strip()

    # 3) 선택 인덱스에서 검색 + 점수
    scored = faiss_search_with_scores_from_index(idx_entry, query, top_k=TOP_K)
    best_cos = max((s for _, s in scored), default=0.0)

    # 4) 임계치: 충분히 유사할 때만 컨텍스트 사용 (속도 최적화)
    THRESH = 0.80
    use_context = best_cos >= THRESH and len(scored) > 0

    context = pack_context([d for d, s in scored if s >= THRESH], token_budget=CTX_TOKEN_BUDGET) if use_context else None
    prompt, max_len = build_prompt(query, use_context, context)
    print(prompt)

    # 5) LLM 생성
    inputs = llm_tokenizer(prompt, return_tensors="pt", truncation=True, max_length=max_len, padding=False)
    inputs = {k: v.to(llm_model.device) for k, v in inputs.items()}
    with torch.inference_mode():
        out = llm_model.generate(
            **inputs,
            max_new_tokens=dynamic_max_new_tokens(query),
            do_sample=False,
            temperature=0.0,
            top_p=0.1,
            repetition_penalty=1.1,
            eos_token_id=llm_tokenizer.eos_token_id,
            pad_token_id=llm_tokenizer.pad_token_id,
            )
    gen = out[0][inputs["input_ids"].shape[1]:]
    return llm_tokenizer.decode(gen, skip_special_tokens=True).strip()

In [15]:
# ---------------- LLM 로드 & 생성 ----------------
llm_model = AutoModelForCausalLM.from_pretrained(
    LLM_ID,
    device_map="auto",
    load_in_4bit=True,
    torch_dtype=torch.float16
)
if torch.cuda.is_available():
    torch.backends.cuda.matmul.allow_tf32 = True
    try:
        # llm_model.config.attn_implementation = "sdpa"
        llm_model.config.attn_implementation = "flash_attention_2"
        # llm_model.config.attn_implementation = "eager"
    except Exception:
        pass
llm_model.eval()
torch.set_grad_enabled(False)

config.json:   0%|          | 0.00/710 [00:00<?, ?B/s]

The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


model.safetensors.index.json: 0.00B [00:00, ?B/s]

Downloading shards:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/172 [00:00<?, ?B/s]

<torch.autograd.grad_mode.set_grad_enabled at 0x75ef9dd9fa00>

In [16]:
# 후처리 함수
def extract_answer_only(generated_text: str, original_question: str) -> str:
    """
    - "답변:" 이후 텍스트만 추출
    - 객관식 문제면: 정답 숫자만 추출 (실패 시 전체 텍스트 또는 기본값 반환)
    - 주관식 문제면: 전체 텍스트 그대로 반환
    - 공백 또는 빈 응답 방지: 최소 "미응답" 반환
    """
    # "답변:" 기준으로 텍스트 분리
    if "답변:" in generated_text:
        text = generated_text.split("답변:")[-1].strip()
    else:
        text = generated_text.strip()

    # 공백 또는 빈 문자열일 경우 기본값 지정
    if not text:
        return "미응답"

    # 객관식 여부 판단
    is_mc = is_multiple_choice(original_question)

    if is_mc:
        # 숫자만 추출
        match = re.match(r"\D*([1-9][0-9]?)", text)
        if match:
            return match.group(1)
        else:
            # 숫자 추출 실패 시 "0" 반환
            return "0"
    else:
        return text


In [17]:
def strip_explanations(answer: str) -> str:
    """
    키워드 뒤 설명을 제거하고 키워드만 남김
    - '키워드: 설명' → '키워드'
    - '키워드 ... 설명문' → '키워드'
    """
    lines = answer.split("\n")
    cleaned = []
    for line in lines:
        # "키워드: 설명" → "키워드"
        m = re.match(r"^\s*[-0-9.]*\s*([^\:]+)", line)
        if m:
            keyword = m.group(1).strip()
            cleaned.append(keyword)
    return "\n".join(cleaned)

In [18]:
preds = []

for q in tqdm(test['Question'], desc="Inference"):
    print("#################### Question ###########################")
    print(q)
    ans = generate_answer_with_indices(q, indices)
    pred_answer = extract_answer_only(ans, original_question=q)
    print("#################### Answer ###########################")
    print(strip_explanations(pred_answer))
    preds.append(pred_answer)

Inference:   0%|          | 0/16 [00:00<?, ?it/s]

#################### Question ###########################
금융투자업의 종류로 올바르게 나열된 것은?
1 투자매매업, 보험업, 대출업, 자산관리업, 투자일임업, 투자자문업
2 투자중개업, 집합투자업, 신탁업, 대출업, 보험업, 자산관리업
3 투자매매업, 투자중개업, 신탁업, 보험업, 대출업, 자산관리업
4 투자매매업, 투자중개업, 집합투자업, 신탁업, 자산운용업, 금융자문업
5 투자매매업, 투자중개업, 집합투자업, 신탁업, 투자일임업, 투자자문업
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

아래 컨텍스트를 우선 사용해 정확히 답하세요. 불충분하면 아는 범위에서만 간결히 답하세요.

아래 질문에 대해 적절한 **정답 선택지 번호만 출력**하세요.

=== 컨텍스트 ===
자본시장법 제6조(금융투자업)
(1) 이 법에서 “금융투자업”이란 이익을 얻을 목적으로 계속적이거나 반복적인 방법으로 행하는 행 위로서 다음 각 호의 어느 하나에 해당하는 업을 말한다. 1. 투자매매업 2. 투자중개업 3. 집합투자업 4. 투자자문업 5. 투자일임업 6. 신탁업 (2) 이 법에서 “투자매매업”이란 누구의 명의로 하든지 자기의 계산으로 금융투자상품의 매도ㆍ매수, 증권의 발행ㆍ 인수 또는 그 청약의 권유, 청약, 청약의 승낙을 영업으로 하는 것을 말한다. (3) 이 법에서 “투자중개업”이란 누구의 명의로 하든지 타인의 계산으로 금융투자상품의 매도ㆍ매수, 그 중개나 청 약의 권유, 청약, 청약의 승낙 또는 증권의 발행ㆍ인수에 대한 청약의 권유, 청약, 청약의 승낙을 영업으로 하는 것을 말한다. (4) 이 법에서 “집합투자업”이란 집합투자를 영업으로 하는 것을 말한다. (5) 제4항에서 “집합투자”란 2인 이상의 투자자로부터 모

Inference:   6%|▋         | 1/16 [00:02<00:34,  2.28s/it]

#################### Answer ###########################
3
#################### Question ###########################
개인정보보호법 제7조의4에 따르면, 위원의 임기는 몇 년이며, 몇 차례 연임할 수 있는가?
1 5년, 두 차례 연임 가능
2 3년, 한 차례 연임 가능
3 2년, 한 차례 연임 가능
4 3년, 연임 제한 없음
5 4년, 두 차례 연임 가능
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

아래 질문에 대해 적절한 **정답 선택지 번호만 출력**하세요.

질문: 개인정보보호법 제7조의4에 따르면, 위원의 임기는 몇 년이며, 몇 차례 연임할 수 있는가?
선택지:
1 5년, 두 차례 연임 가능
2 3년, 한 차례 연임 가능
3 2년, 한 차례 연임 가능
4 3년, 연임 제한 없음
5 4년, 두 차례 연임 가능

답변:<|eot_id|><|start_header_id|>assistant<|end_header_id|>




Inference:  12%|█▎        | 2/16 [00:03<00:22,  1.64s/it]

#################### Answer ###########################
2
#################### Question ###########################
개인정보보호법 시행령 제60조에 따르면, 개인정보 유출 등 정보주체의 개인정보에 관한 권리 또는 이익을 침해하는 사건이 발생할 가능성이 상당히 있는 경우, 보호위원회는 어떤 기관에 기술적인 사항을 자문할 수 있는가?
1 한국정보보호진흥원
2 국가정보원
3 금융감독원
4 개인정보보호위원회
5 한국인터넷진흥원
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

아래 질문에 대해 적절한 **정답 선택지 번호만 출력**하세요.

질문: 개인정보보호법 시행령 제60조에 따르면, 개인정보 유출 등 정보주체의 개인정보에 관한 권리 또는 이익을 침해하는 사건이 발생할 가능성이 상당히 있는 경우, 보호위원회는 어떤 기관에 기술적인 사항을 자문할 수 있는가?
선택지:
1 한국정보보호진흥원
2 국가정보원
3 금융감독원
4 개인정보보호위원회
5 한국인터넷진흥원

답변:<|eot_id|><|start_header_id|>assistant<|end_header_id|>




Inference:  19%|█▉        | 3/16 [00:04<00:18,  1.43s/it]

#################### Answer ###########################
3
#################### Question ###########################
신용정보법 제12조에 의하면, 신용정보회사와 유사한 업무를 수행할 수 있도록 다른 법령에서 허용한 경우, 사용할 수 있는 명칭은 무엇인가?
1 마이데이터
2 신용관리
3 신용정보중개
4 신용평가
5 신용조사
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

아래 컨텍스트를 우선 사용해 정확히 답하세요. 불충분하면 아는 범위에서만 간결히 답하세요.

아래 질문에 대해 적절한 **정답 선택지 번호만 출력**하세요.

=== 컨텍스트 ===
신용정보법 제12조(유사명칭의 사용 금지)
이 법에 따라 허가받은 신용정보회사, 본인신용정보관리회사, 채권추심회사 또는 신용정 보집중기관이 아닌 자는 상호 또는 명칭 중에 신용정보ㆍ신용조사ㆍ개인신용평가ㆍ신용관리ㆍ마이데이터 (MyData)ㆍ채권추심 또는 이와 비슷한 문자를 사용하지 못한다. 다만, 신용정보회사, 본인신용정보관리회사, 채권추 심회사 또는 신용정보집중기관과 유사한 업무를 수행할 수 있도록 다른 법령에서 허용한 경우 등 대통령령으로 정 하는 경우는 제외한다.

신용정보법 제2조(정의)
4. “신용정보업”이란 다음 각 목의 어느 하나에 해당하는 업을 말한다. 가. 개인신용평가업 나. 개인사업자신용평가업 다. 기업신용조회업 라. 신용조사업 5. “신용정보회사”란 제4호 각 목의 신용정보업에 대하여 금융위원회의 허가를 받은 자로서 다음 각 목의 어느 하나 에 해당하는 자를 말한다. 가. 개인신용평가회사: 개인신용평가업 허가를 받은 자 나. 개인사업자신용평가회사: 개인사업자신용평가업 허가를 받은 자 다. 기업신용조

Inference:  25%|██▌       | 4/16 [00:05<00:15,  1.33s/it]

#################### Answer ###########################
3
#################### Question ###########################
정보통신망법 제44조의6에 따르면, 특정 이용자의 정보 제공 청구를 할 수 있는 경우는 무엇인가?
1 정보통신서비스 제공자가 정보를 삭제한 경우
2 이용자의 접근권한이 일시적으로 제한된 경우
3 사생활 침해 또는 명예훼손 등 권리를 침해당한 경우
4 이용자가 정보 제공을 거부한 경우
5 이용자의 동의 없이 정보를 수집한 경우
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

아래 컨텍스트를 우선 사용해 정확히 답하세요. 불충분하면 아는 범위에서만 간결히 답하세요.

아래 질문에 대해 적절한 **정답 선택지 번호만 출력**하세요.

=== 컨텍스트 ===
정보통신망법 제44조의6(이용자 정보의 제공청구)
(1) 특정한 이용자에 의한 정보의 게재나 유통으로 사생활 침해 또는 명예훼손 등 권리를 침해당하였다고 주장하는 자는 민ㆍ형사상의 소를 제기하기 위하여 침해사실을 소명하여 제44조의10에 따 른 명예훼손 분쟁조정부에 해당 정보통신서비스 제공자가 보유하고 있는 해당 이용자의 정보(민ㆍ형사상의 소를 제 기하기 위한 성명ㆍ주소 등 대통령령으로 정하는 최소한의 정보를 말한다)를 제공하도록 청구할 수 있다. (2) 명예훼손 분쟁조정부는 제1항에 따른 청구를 받으면 해당 이용자와 연락할 수 없는 등의 특별한 사정이 있는 경 우 외에는 그 이용자의 의견을 들어 정보제공 여부를 결정하여야 한다. (3) 제1항에 따라 해당 이용자의 정보를 제공받은 자는 해당 이용자의 정보를 민ㆍ형사상의 소를 제기하기 위한 목 적 외의 목적으로 사용하여서는 아니 된다. (4) 그 밖

Inference:  31%|███▏      | 5/16 [00:06<00:13,  1.27s/it]

#################### Answer ###########################
3
#################### Question ###########################
정보통신망법 제48조의5에 의거하여, 정보통신망연결기기등 관련 침해사고 발생 시 과학기술정보통신부장관이 할 수 있는 조치는?
1 침해사고의 원인을 분석하고 필요한 조치를 권고한다.
2 침해사고 발생 시 모든 데이터를 복구한다.
3 침해사고 발생 시 모든 관련 기관에 경고를 발송한다.
4 침해사고 발생 시 모든 정보통신망을 차단한다.
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

아래 컨텍스트를 우선 사용해 정확히 답하세요. 불충분하면 아는 범위에서만 간결히 답하세요.

아래 질문에 대해 적절한 **정답 선택지 번호만 출력**하세요.

=== 컨텍스트 ===
정보통신망법 제48조의4(침해사고의 원인 분석 등)
(1) 정보통신서비스 제공자 등 정보통신망을 운영하는 자는 침해사고가 발생하면 침해사고의 원인을 분석하고 그 결과에 따라 피해의 확산 방지를 위하여 사고대응, 복구 및 재발 방지에 필요한 조치 를 하여야 한다. (2) 과학기술정보통신부장관은 정보통신서비스 제공자의 정보통신망에 침해사고가 발생하면 그 침해사고의 원인을 분석하고 피해 확산 방지, 사고대응, 복구 및 재발 방지를 위한 대책을 마련하여 해당 정보통신서비스 제공자(공공 기관등은 제외한다)에게 필요한 조치를 이행하도록 명령할 수 있다. (3) 과학기술정보통신부장관은 제2항에 따른 조치의 이행 여부를 점검하고, 보완이 필요한 사항에 대하여 해당 정보 통신서비스 제공자에게 시정을 명할 수 있다. (4) 과학기술정보통신부장관은 정보통신서비스 제공자의 정보통신망에 중대한 침해사고가 발생한 경

Inference:  38%|███▊      | 6/16 [00:08<00:12,  1.23s/it]

#################### Answer ###########################
1
#################### Question ###########################
금융회사가 정보보호 예산을 관리할 때, 「전자금융감독규정」에 따라 정보기술부문 인력 중 정보보호 인력의 비율은 최소 몇 퍼센트 이상이어야 하는가?
1 10%
2 5%
3 7%
4 3%
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

아래 질문에 대해 적절한 **정답 선택지 번호만 출력**하세요.

질문: 금융회사가 정보보호 예산을 관리할 때, 「전자금융감독규정」에 따라 정보기술부문 인력 중 정보보호 인력의 비율은 최소 몇 퍼센트 이상이어야 하는가?
선택지:
1 10%
2 5%
3 7%
4 3%

답변:<|eot_id|><|start_header_id|>assistant<|end_header_id|>




Inference:  44%|████▍     | 7/16 [00:09<00:10,  1.18s/it]

#################### Answer ###########################
3
#################### Question ###########################
트로이 목마(Trojan) 기반 원격제어 악성코드(RAT)의 특징과 주요 탐지 지표를 설명하세요.


Inference:  50%|█████     | 8/16 [01:16<02:57, 22.23s/it]

#################### Answer ###########################
트로이 목마(Trojan) 기반 원격제어 악성코드(RAT)는 웹 애플러의 취약적 공격으로, 특징은 다음과 같습니다.
* 네트워크 침투를 통해 웹 페이지에 접근하여 정보를 훔쳐거나 삭제하는 등의 행위를 수행합니다.
* 다양한 방법으로 웹 페이지를 조작하거나 파괴할 수 있습니다.
주요 탐지 지표로는 다음과 같습니다.
* 네트워크 보안 설정 확인
* 웹 애플러 업데이트 및 패치 설치 확인
* 웹 페이지 접근 기록 확인
* 웹 서버 로그 파일 분석
이러면 트로이 목마 기반 원격제어 악성코드(RAT)를 방지하고 예방할 수 있습니다.
#################### Question ###########################
전자금융거래법에 따라 이용자가 금융 분쟁조정을 신청할 수 있는 기관을 기술하세요.
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

아래 컨텍스트를 우선 사용해 정확히 답하세요. 불충분하면 아는 범위에서만 간결히 답하세요.

=== 컨텍스트 ===
전자금융거래법 제27조(분쟁처리 및 분쟁조정)
(1)금융회사 또는 전자금융업자는 대통령령이 정하는 바에 따라 전자금융거래와 관련하 여 이용자가 제기하는 정당한 의견이나 불만을 반영하고 이용자가 전자금융거래에서 입은 손해를 배상하기 위한 절 차를 마련하여야 한다. (2)이용자는 전자금융거래의 처리에 관하여 이의가 있을 때에는 제1항에서 정한 절차에 따라 손해배상 등 분쟁처리 를 요구하거나 금융감독원 또는 한국소비자원 등을 통하여 분쟁조정을 신청할 수 있다. (3)제1항 및 제2항의 규정에 따른 분쟁처리 및 분쟁조정의 신청을 위한 구체적인 절차와 방법 등은 대통령령으로 정 한다. (4)금융회

Inference:  56%|█████▋    | 9/16 [01:37<02:33, 21.86s/it]

#################### Answer ###########################
금융회사 또는 전자금융업자는 전자금융거래에서 발생한 문제나 불만에 대한 분쟁조정을 신청할 수 있는 기관으로 금융감독원, 한국소비자원 등을 들 수 있습니다.
#################### Question ###########################
딥페이크 기술 악용에 대비한 금융권의 대응 방안을 기술하세요.
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

아래 질문에 대해 **사실에 근거한 간결한 답변**을 작성하세요. 

규칙:
1. 답변은 2~3문장 이내로 작성합니다. 장황한 서론, 결론 문구는 쓰지 않습니다.
2. 불확실할 경우 '알 수 없습니다'라고 답하고 생성을 종료합니다.
3. 특수문자 없이 오로지 한글과 숫자로만 대답합니다.
질문: 딥페이크 기술 악용에 대비한 금융권의 대응 방안을 기술하세요.답변:<|eot_id|><|start_header_id|>assistant<|end_header_id|>




Inference:  62%|██████▎   | 10/16 [02:20<02:49, 28.32s/it]

#################### Answer ###########################
금융권의 대응 방안은 딥페이크 기술 악용에 대한 즉각적 대응을 강조합니다. 이를 위해 실시간 모니터링 시스템을 구축하여 위험 신호를 빠르게 감지하고, 즉각적으로 대응하는 구조를 갖추고 있습니다. 또한, 데이터 분석 및 예측 기술을 활용하여 예방책을 마련하고, 추가적인 보안 조치를 강화하여 최소한 피해를 줄이는 데모색합니다.
#################### Question ###########################
디지털 지갑(Digital Wallet)에서 우려되는 주요 보안 위협을 설명하세요.
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

아래 질문에 대해 **사실에 근거한 간결한 답변**을 작성하세요. 

규칙:
1. 답변은 2~3문장 이내로 작성합니다. 장황한 서론, 결론 문구는 쓰지 않습니다.
2. 불확실할 경우 '알 수 없습니다'라고 답하고 생성을 종료합니다.
3. 특수문자 없이 오로지 한글과 숫자로만 대답합니다.
질문: 디지털 지갑(Digital Wallet)에서 우려되는 주요 보안 위협을 설명하세요.답변:<|eot_id|><|start_header_id|>assistant<|end_header_id|>




Inference:  69%|██████▉   | 11/16 [03:14<03:01, 36.31s/it]

#################### Answer ###########################
디지털 지갑(Digital Wallet)은 사용자의 개인 정보와 자금을 보호하는 데 있어 다음과 같은 주요 보안 위협을 겪고 있습니다.
해킹(Hacking)
인공성(Insecure Authentication)
인용(Injection Attacks)
#################### Question ###########################
개인정보 접근 권한 검토는 어떻게 수행해야 하며, 그 목적은 무엇인가요?
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

아래 질문에 대해 **사실에 근거한 간결한 답변**을 작성하세요. 

규칙:
1. 답변은 2~3문장 이내로 작성합니다. 장황한 서론, 결론 문구는 쓰지 않습니다.
2. 불확실할 경우 '알 수 없습니다'라고 답하고 생성을 종료합니다.
3. 특수문자 없이 오로지 한글과 숫자로만 대답합니다.
질문: 개인정보 접근 권한 검토는 어떻게 수행해야 하며, 그 목적은 무엇인가요?답변:<|eot_id|><|start_header_id|>assistant<|end_header_id|>




Inference:  75%|███████▌  | 12/16 [03:34<02:05, 31.36s/it]

#################### Answer ###########################
개인 정보 접근 권한 검토는 개인의 동의를 얻어야 하는 절차입니다. 이러한 절차는 개인의 프라이버티 보호와 보안을 위해 필요합니다.
#################### Question ###########################
정보보호의 3대 요소에 해당하는 보안 목표를 3가지 기술하세요.
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

아래 질문에 대해 **사실에 근거한 간결한 답변**을 작성하세요. 

규칙:
1. 답변은 2~3문장 이내로 작성합니다. 장황한 서론, 결론 문구는 쓰지 않습니다.
2. 불확실할 경우 '알 수 없습니다'라고 답하고 생성을 종료합니다.
3. 특수문자 없이 오로지 한글과 숫자로만 대답합니다.
질문: 정보보호의 3대 요소에 해당하는 보안 목표를 3가지 기술하세요.답변:<|eot_id|><|start_header_id|>assistant<|end_header_id|>




Inference:  81%|████████▏ | 13/16 [04:16<01:43, 34.62s/it]

#################### Answer ###########################
보안 목표 3가지는 다음과 같습니다.
**데이터 암호성**
**인증 및 권한 부여**
**악용 방지**
#################### Question ###########################
금융회사가 정보보호 예산을 관리할 때, 전자금융감독규정상 정보기술부문 인력 및 예산의 기준 비율은 얼마인가요?
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

아래 질문에 대해 **사실에 근거한 간결한 답변**을 작성하세요. 

규칙:
1. 답변은 2~3문장 이내로 작성합니다. 장황한 서론, 결론 문구는 쓰지 않습니다.
2. 불확실할 경우 '알 수 없습니다'라고 답하고 생성을 종료합니다.
3. 특수문자 없이 오로지 한글과 숫자로만 대답합니다.
질문: 금융회사가 정보보호 예산을 관리할 때, 전자금융감독규정상 정보기술부문 인력 및 예산의 기준 비율은 얼마인가요?답변:<|eot_id|><|start_header_id|>assistant<|end_header_id|>




Inference:  88%|████████▊ | 14/16 [04:23<00:52, 26.01s/it]

#################### Answer ###########################
이 질문에 대한 간결한 답변은 알 수 없습니다.
#################### Question ###########################
SMTP 프로토콜의 보안상 주요 역할을 설명하세요.
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

아래 질문에 대해 **사실에 근거한 간결한 답변**을 작성하세요. 

규칙:
1. 답변은 2~3문장 이내로 작성합니다. 장황한 서론, 결론 문구는 쓰지 않습니다.
2. 불확실할 경우 '알 수 없습니다'라고 답하고 생성을 종료합니다.
3. 특수문자 없이 오로지 한글과 숫자로만 대답합니다.
질문: SMTP 프로토콜의 보안상 주요 역할을 설명하세요.답변:<|eot_id|><|start_header_id|>assistant<|end_header_id|>




Inference:  94%|█████████▍| 15/16 [05:13<00:33, 33.47s/it]

#################### Answer ###########################
SMTP(Simple Mail Transfer Protocol) 프로토콜의 보안상 주요 역할은 다음과 같습니다.
인증(Authentication)
암호(Encryption)
인증서(Authorization)
#################### Question ###########################
개인신용평점 하락 가능성과 관련해 설명의무가 발생하는 경우, 금융기관이 설명해야 할 주요 내용은 무엇인가요?
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

아래 컨텍스트를 우선 사용해 정확히 답하세요. 불충분하면 아는 범위에서만 간결히 답하세요.

=== 컨텍스트 ===
신용정보법 제35조의2(개인신용평점 하락 가능성 등에 대한 설명의무)
대통령령으로 정하는 신용정보제공ㆍ이용자는 개인인 신용 정보주체와 신용위험이 따르는 금융거래로서 대통령령으로 정하는 금융거래를 하는 경우 다음 각 호의 사항을 해당 신용정보주체에게 설명하여야 한다. 1. 해당 금융거래로 인하여 개인신용평가회사가 개인신용평점을 만들어 낼 때 해당 신용정보주체에게 불이익이 발 생할 수 있다는 사실 2. 그 밖에 해당 금융거래로 인하여 해당 신용정보주체에게 영향을 미칠 수 있는 사항으로서 대통령령으로 정하는 사항
=== 끝 ===
아래 질문에 대해 **사실에 근거한 간결한 답변**을 작성하세요. 

규칙:
1. 답변은 2~3문장 이내로 작성합니다. 장황한 서론, 결론 문구는 쓰지 않습니다.
2. 불확실할 경우 '알 수 없습니다'라고 답하고 생성을 종료합니다.
3. 특수문자 없이 오로지 한글과 숫자로만 대답합니다.
질문: 개인신용평점 하락 가능성과 관련해 설명의무가 발생하는 경우, 금

Inference: 100%|██████████| 16/16 [05:43<00:00, 21.46s/it]

#################### Answer ###########################
금융거래에 따른 개인신용평점 하락 가능성을 설명해야 하는 경우, 금융기관은 다음 사항을 설명해야 합니다.
개인신용평가회사가 개인신용평점을 만들어 낼 때 해당 신용정보주체에게 불이익이 발생할 수 있다는 사실.





In [19]:
sample_submission = pd.read_csv('../submission/sample_submission.csv')
sample_submission['Answer'] = preds
sample_submission.to_csv('../submission/gen_v4.05_submission.csv', index=False, encoding='utf-8-sig')

ValueError: Length of values (16) does not match length of index (515)