In [1]:
# !pip install pandas tqdm transformers accelerate bitsandbytes

In [2]:
import re
import os
import pandas as pd
from tqdm import tqdm

import torch

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

In [3]:
test = pd.read_csv('../data/test.csv')
test

Unnamed: 0,ID,Question
0,TEST_000,금융산업의 이해와 관련하여 금융투자업의 구분에 해당하지 않는 것은?\n1 소비자금융...
1,TEST_001,위험 관리 계획 수립 시 고려해야 할 요소로 적절하지 않은 것은?\n1 수행인력\n...
2,TEST_002,관리체계 수립 및 운영'의 '정책 수립' 단계에서 가장 중요한 요소는 무엇인가?\n...
3,TEST_003,재해 복구 계획 수립 시 고려해야 할 요소로 옳지 않은 것은?\n1 복구 절차 수립...
4,TEST_004,트로이 목마(Trojan) 기반 원격제어 악성코드(RAT)의 특징과 주요 탐지 지표...
...,...,...
510,TEST_510,"""정보보호최고책임자""의 임명에 관한 설명으로 옳지 않은 것은?\n1 정보보호최고책임..."
511,TEST_511,IPv6 주소 체계의 주요 특징으로 옳지 않은 것은?\n1 NAT 필요성 감소\n2...
512,TEST_512,하이브리드 위협에 대한 설명으로 가장 적절한 것은?\n1 사이버 공간에서만 발생하는...
513,TEST_513,전자금융거래법의 주요 목적 중 하나는 무엇인가?\n1 전자금융거래의 비대면성 강화\...


In [4]:
# 객관식 여부 판단 함수
def is_multiple_choice(question_text):
    """
    객관식 여부를 판단: 2개 이상의 숫자 선택지가 줄 단위로 존재할 경우 객관식으로 간주
    """
    lines = question_text.strip().split("\n")
    option_count = sum(bool(re.match(r"^\s*[1-9][0-9]?\s", line)) for line in lines)
    return option_count >= 2


# 질문과 선택지 분리 함수
def extract_question_and_choices(full_text):
    """
    전체 질문 문자열에서 질문 본문과 선택지 리스트를 분리
    """
    lines = full_text.strip().split("\n")
    q_lines = []
    options = []

    for line in lines:
        if re.match(r"^\s*[1-9][0-9]?\s", line):
            options.append(line.strip())
        else:
            q_lines.append(line.strip())

    question = " ".join(q_lines)
    return question, options

In [5]:
# 프롬프트 생성기
def make_prompt_auto(text):
    if is_multiple_choice(text):
        question, options = extract_question_and_choices(text)
        prompt = (
                "당신은 금융보안 전문가입니다.\n"
                "아래 질문에 대해 적절한 **정답 선택지 번호만 출력**하세요.\n\n"
                f"질문: {question}\n"
                "선택지:\n"
                f"{chr(10).join(options)}\n\n"
                "답변:"
                )
    else:
        prompt = (
                "당신은 금융보안 전문가입니다.\n"
                # "아래 주관식 질문에 대해 정확하고 간략한 설명을 작성하세요.\n\n"
                "아래 질문에 대해 정답의 핵심 키워드와 의미를 모두 포함하여 3문장 이내로 간결하게 답변하세요. 군더더기 없이 요점만 명확하게 작성하세요.\n\n"
                f"질문: {text}\n\n"
                "답변:"
                )
    return prompt

In [6]:
# -*- coding: utf-8 -*-
# 멀티법령 RAG 전처리/인덱싱 (PIPA, 신용정보법, 전자서명법, 정보통신망법)

import os, re, json, math
from dataclasses import dataclass, asdict
from typing import List, Dict, Tuple, Optional

import numpy as np
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

from PyPDF2 import PdfReader
from langchain_community.embeddings import HuggingFaceEmbeddings
import faiss

# ===== 사용자 환경 상수 =====
# LLM_ID = "nlpai-lab/KULLM3"
LLM_ID = "MLP-KTLim/llama-3-Korean-Bllossom-8B"
EMB_MODEL = "jhgan/ko-sroberta-multitask"   # 경량/호환성 위주
CHUNK_TOKENS = 600
CHUNK_OVERLAP = 32
CTX_TOKEN_BUDGET = 600
TOP_K = 4
SEED = 42
torch.manual_seed(SEED)

# ===== 법령 설정: 파일 경로 + 제거/정규식 패턴 =====
LAW_CONFIG = {
    # 개인정보 보호법
    "pipa": {
        "law_name": "개인정보 보호법",
        "pdf_path": "../data/개인정보 보호법(법률)(제19234호)(20250313).pdf",
        "drop_patterns": [
            r'법제처\s+\d+\s+국가법령정보센터\s*개인정보\s*보호법',
            r'법제처\s+\d+\s+국가법령정보센터',
            r'국가법령정보센터\s*개인정보\s*보호법',
            r'법제처|국가법령정보센터',
            r'<[^>]+>',         # <개정 …>, <신설 …>
            r'\[[^\]]+\]',      # [본조신설 …]
        ],
    },
    # 신용정보의 이용 및 보호에 관한 법률
    "ciupa": {
        "law_name": "신용정보법",
        "pdf_path": "../data/신용정보의 이용 및 보호에 관한 법률(법률)(제20304호)(20240814).pdf",
        "drop_patterns": [
            r'법제처\s+\d+\s+국가법령정보센터\s*신용정보.*법',
            r'법제처|국가법령정보센터',
            r'<[^>]+>', r'\[[^\]]+\]',
        ],
    },
    # 전자서명법
    "es_act": {
        "law_name": "전자서명법",
        "pdf_path": "../data/전자서명법(법률)(제18479호)(20221020).pdf",
        "drop_patterns": [
            r'법제처\s+\d+\s+국가법령정보센터\s*전자서명법',
            r'법제처|국가법령정보센터',
            r'<[^>]+>', r'\[[^\]]+\]',
        ],
    },
    # 정보통신망 이용촉진 및 정보보호 등에 관한 법률
    "icn_act": {
        "law_name": "정보통신망법",
        "pdf_path": "../data/정보통신망 이용촉진 및 정보보호 등에 관한 법률(법률)(제20678호)(20250722).pdf",
        "drop_patterns": [
            r'법제처\s+\d+\s+국가법령정보센터\s*정보통신망.*법',
            r'법제처|국가법령정보센터',
            r'<[^>]+>', r'\[[^\]]+\]',
        ],
    },
    # 전자금융거래법
    "eft_act": {
        "law_name": "전자금융거래법",
        "pdf_path": "../data/전자금융거래법(법률)(제19734호)(20240915).pdf",
        "drop_patterns": [
            r'법제처\s+\d+\s+국가법령정보센터\s*전자금융거래.*법',
            r'법제처|국가법령정보센터',
            r'<[^>]+>', r'\[[^\]]+\]',
        ],
    },
    # 전자금융감독규정
    "rs_act": {
        "law_name": "전자금융감독규정",
        "pdf_path": "../data/전자금융감독규정(금융위원회고시)(제2025-4호)(20250205).pdf",
        "drop_patterns": [
            r'법제처\s+\d+\s+국가법령정보센터\s*전자금융거래.*법',
            r'법제처|국가법령정보센터',
            r'<[^>]+>', r'\[[^\]]+\]',
        ],
    },
}

In [7]:
# ===== 토크나이저: 토큰 길이 계산/청킹 =====
llm_tokenizer = AutoTokenizer.from_pretrained(LLM_ID)
if llm_tokenizer.pad_token is None:
    llm_tokenizer.pad_token = llm_tokenizer.eos_token
llm_tokenizer.padding_side = "right"

def token_len(s: str) -> int:
    return len(llm_tokenizer(s, add_special_tokens=False)["input_ids"])

def split_sentences_ko(text: str) -> List[str]:
    # 고정폭 lookbehind: '다.' 또는 일반 종결부호
    text = re.sub(r'\s+', ' ', text).strip()
    if not text:
        return []
    return re.split(r'(?<=다\.)\s+|(?<=[.?!。！？])\s+', text)


Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [8]:
# ===== 공통 정제 =====
def normalize_common(text: str) -> str:
    # 한자 제거
    text = re.sub(r'[\u4e00-\u9fff]', '', text)
    # circled numbers → (n)
    circled = '①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳'
    for idx, c in enumerate(circled, 1):
        text = text.replace(c, f'({idx})')
    # 공백/빈 괄호 정리
    text = re.sub(r'\s+', ' ', text).strip()
    text = re.sub(r'\(\s*\)', '', text)
    return text

def clean_text_by_config(text: str, drop_patterns: List[str]) -> str:
    for pat in drop_patterns:
        text = re.sub(pat, '', text)
    return normalize_common(text)

# ===== 조문 단위 분리 =====
ARTICLE_HEADER_PATTERN = r'(제\d+조(?:의\d+)?\([^)]+\))'  # 제X조(제목) / 제X조의Y(제목)

def split_articles(raw_text: str) -> List[Tuple[str, str, str]]:
    parts = re.split(ARTICLE_HEADER_PATTERN, raw_text)
    out = []
    for i in range(1, len(parts), 2):
        header = parts[i]
        body = (parts[i+1] if i+1 < len(parts) else "").strip().replace("\n", " ")
        m = re.match(r'(제\d+조(?:의\d+)?)[(]([^)]+)[)]', header)
        if not m:
            continue
        article_id = m.group(1)          # 제xx조 / 제xx조의y
        article_title = m.group(2)       # (제목)
        out.append((article_id, article_title, body))
    return out

def chunk_article(article_body: str, header: str) -> List[str]:
    prefix = header.strip() + "\n"
    sents = split_sentences_ko(article_body) or [article_body]
    chunks, cur, cur_toks = [], [], token_len(prefix)
    for s in sents:
        tl = token_len(s)
        if cur_toks + tl > CHUNK_TOKENS and cur:
            chunks.append(prefix + " ".join(cur))
            # overlap: 마지막 문장 유지
            keep = cur[-1] if CHUNK_OVERLAP > 0 and cur else ""
            cur = [keep] if keep else []
            cur_toks = token_len(prefix) + (token_len(keep) if keep else 0)
        cur.append(s); cur_toks += tl
    if cur:
        chunks.append(prefix + " ".join(cur))
    return chunks


In [9]:
# ===== 데이터 클래스 =====
@dataclass
class LawDoc:
    text: str
    meta: Dict

# ===== 임베딩 =====
embeddings = HuggingFaceEmbeddings(
    model_name=EMB_MODEL,
    model_kwargs={"device": "cuda" if torch.cuda.is_available() else "cpu"},
    encode_kwargs={
        "normalize_embeddings": True,
        "batch_size": 128,
        "convert_to_numpy": True,
        "convert_to_tensor": False
    }
)

# ===== 인덱스 (FAISS HNSW) =====
def build_faiss_hnsw(vectors: np.ndarray, m: int = 32, ef_search: int = 32) -> faiss.IndexHNSWFlat:
    dim = vectors.shape[1]
    idx = faiss.IndexHNSWFlat(dim, m)
    idx.hnsw.efSearch = ef_search
    idx.add(vectors.astype(np.float32))
    return idx

# ===== 파이프라인: 1) 로드 → 2) 정제 → 3) 조문분리 → 4) 청킹 → 5) 임베딩/인덱스
def load_pdf_text(pdf_path: str) -> str:
    reader = PdfReader(pdf_path)
    text = ""
    for p in reader.pages:
        t = p.extract_text() or ""
        text += t + "\n"
    return text

def preprocess_law(law_id: str, cfg: Dict) -> List[LawDoc]:
    raw = load_pdf_text(cfg["pdf_path"])
    cleaned = clean_text_by_config(raw, cfg["drop_patterns"])
    articles = split_articles(cleaned)

    docs: List[LawDoc] = []
    # 시행일 파싱(있으면): [시행 YYYY. M. D.]가 머리말에 있는 경우가 많으나 PDF마다 다름 → 필요 시 별도 파서
    effective_date = None  # 필요 시 추출 로직 추가

    for article_id, title, body in articles:
        header = f'{cfg["law_name"]} {article_id}({title})'
        chunks = chunk_article(body, header)
        for ch in chunks:
            meta = {
                "law_id": law_id,
                "law_name": cfg["law_name"],
                "article_id": article_id,
                "article_title": title,
                "effective_date": effective_date,   # None 가능
                "tok_len": token_len(ch),
                "source_uri": cfg.get("pdf_path"),
                "version": None
            }
            docs.append(LawDoc(text=ch, meta=meta))
    return docs

def build_indices(all_docs: List[LawDoc]):
    # (a) 법령별 인덱스
    per_law_docs: Dict[str, List[LawDoc]] = {}
    for d in all_docs:
        per_law_docs.setdefault(d.meta["law_id"], []).append(d)

    indices = {}
    for law_id, docs in per_law_docs.items():
        mat = np.array(embeddings.embed_documents([d.text for d in docs]), dtype=np.float32)
        indices[f"faiss_hnsw_{law_id}"] = {
            "index": build_faiss_hnsw(mat, m=32, ef_search=32),
            "docs": docs
        }

    # (b) 글로벌 인덱스
    mat_all = np.array(embeddings.embed_documents([d.text for d in all_docs]), dtype=np.float32)
    indices["faiss_hnsw_all"] = {
        "index": build_faiss_hnsw(mat_all, m=32, ef_search=32),
        "docs": all_docs
    }
    return indices

  embeddings = HuggingFaceEmbeddings(
  return self.fget.__get__(instance, owner)()


In [10]:
all_docs: List[LawDoc] = []
for law_id, cfg in LAW_CONFIG.items():
    if not os.path.exists(cfg["pdf_path"]):
        print(f"[WARN] PDF not found: {cfg['pdf_path']}")
        continue
    docs = preprocess_law(law_id, cfg)
    all_docs.extend(docs)
    print(f"[OK] {cfg['law_name']} → chunks: {len(docs)}")

indices = build_indices(all_docs)
print("[OK] built indices:", list(indices.keys()))

[OK] 개인정보 보호법 → chunks: 160
[OK] 신용정보법 → chunks: 125
[OK] 전자서명법 → chunks: 26
[OK] 정보통신망법 → chunks: 113
[OK] 전자금융거래법 → chunks: 78
[OK] 전자금융감독규정 → chunks: 113
[OK] built indices: ['faiss_hnsw_pipa', 'faiss_hnsw_ciupa', 'faiss_hnsw_es_act', 'faiss_hnsw_icn_act', 'faiss_hnsw_eft_act', 'faiss_hnsw_rs_act', 'faiss_hnsw_all']


In [11]:
# ===== 라우팅 규칙 =====
ARTICLE_PTRN = re.compile(r"제\d+조(?:의\d+)?")  # 조문 표기
LAW_HINTS = {
    "pipa": ("개인정보", "개인 정보", "개인정보보호법"),
    "ciupa": ("신용정보",  "신용정보법"),
    "es_act": ("전자서명", "전자서명법"),
    "icn_act": ("정보통신망", "통신망", "정보통신망법"),
    "eft_act": ("전자금융", "금융거래", "전자금융거래법"),
    "rs_act": ("전자금융감독", "금융감독", "전자금융감독규정"),
}

def detect_law_id(query: str) -> Optional[str]:
    q = query.lower()
    for law_id, kws in LAW_HINTS.items():
        if any(kw.lower() in q for kw in kws):
            return law_id
    return None

def route_is_domain(query: str) -> bool:
    # 법/금융/보안 도메인 간단 라우터 (검색 여부 판단용)
    domain_kws = ("법", "조(", "과징금", "처벌", "보안", "침해", "금융", "개인정보", "신용정보", "전자서명", "정보통신", "전자금융", "금융감독")
    q = query.lower()
    return any(kw in q for kw in domain_kws) or bool(ARTICLE_PTRN.search(query))

def choose_index(indices: dict, query: str):
    """
    1) 질의에서 법령 단서 -> 해당 법 인덱스 우선
    2) 조문 패턴만 있거나 단서가 불분명 -> 글로벌 인덱스
    3) 아무 단서도 없으면 None (베이스모델 경로)
    """
    law_id = detect_law_id(query)
    if law_id:
        key = f"faiss_hnsw_{law_id}"
        if key in indices:
            return indices[key]  # {"index": ..., "docs": ...}
    # 법령 단서 없지만 도메인성/조문 표기는 있는 경우 글로벌
    if route_is_domain(query) and "faiss_hnsw_all" in indices:
        return indices["faiss_hnsw_all"]
    return None  # 베이스모델 직행


In [12]:
# ===== 검색 with 점수 (해당 인덱스에서) =====
def faiss_search_with_scores_from_index(index_entry: dict, query: str, top_k: int = TOP_K):
    # embeddings는 상위 스코프에서 로드되었다고 가정
    qv = np.array(embeddings.embed_query(query), dtype=np.float32).reshape(1, -1)
    D, I = index_entry["index"].search(qv, top_k)     # L2 거리 (정규화 벡터 가정)
    cos = 1.0 - (D[0] / 2.0)                          # L2 -> cosine
    out = []
    docs = index_entry["docs"]
    for idx, i in enumerate(I[0]):
        ii = int(i)
        if ii >= 0:
            out.append((docs[ii], float(cos[idx])))
    return out  # [(LawDoc, cosine), ...]

# ===== 컨텍스트 패킹 (질문 주신 코드 재사용 + tok_len 캐시) =====
def pack_context(docs_in, token_budget=CTX_TOKEN_BUDGET):
    acc, used = [], 0
    for d in docs_in:
        tl = d.meta.get("tok_len", None)
        if tl is None:
            tl = token_len(d.text); d.meta["tok_len"] = tl
        if used + tl <= token_budget:
            acc.append(d.text); used += tl
        else:
            remain = token_budget - used
            if remain > 50:
                ids = llm_tokenizer(d.text, add_special_tokens=False)["input_ids"][:remain]
                acc.append(llm_tokenizer.decode(ids))
            break
    return "\n\n".join(acc)


In [13]:
# ===== 프롬프트 =====
def build_prompt(query: str, use_context: bool, context) -> Tuple[str, int]:
    """컨텍스트 유무에 따라 간단 프롬프트와 max_len을 반환"""
    # 객관식 질문
    if is_multiple_choice(query):
        question, options = extract_question_and_choices(query)
        if use_context:
            prompt = (
                "<<SYS>>\n당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.\n<</SYS>>\n\n"
                "아래 컨텍스트를 우선 사용해 정확히 답하세요. 불충분하면 아는 범위에서만 간결히 답하세요.\n\n"
                "아래 질문에 대해 적절한 **정답 선택지 번호만 출력**하세요.\n\n"
                f"=== 컨텍스트 ===\n{context}\n=== 끝 ===\n"
                f"질문: {query}"
                "선택지:\n"
                f"{chr(10).join(options)}\n\n"
                "답변:"
            )
            max_new = dynamic_max_new_tokens(query)
            max_len = 3072  # 입력 길이 상한도 줄여 토크나이즈 시간 단축
            return prompt, max_len
        else:
            prompt = (
                "<<SYS>>\n당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.\n<</SYS>>\n\n"
                "아래 질문에 대해 적절한 **정답 선택지 번호만 출력**하세요.\n\n"
                f"질문: {query}"
                "선택지:\n"
                f"{chr(10).join(options)}\n\n"
                "답변:"
            )
            max_new = dynamic_max_new_tokens(query)
            max_len = 2048
            return prompt, max_len
    # 주관식 질문
    else:
        if use_context:
            prompt = (
                "<<SYS>>\n당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.\n<</SYS>>\n\n"
                "아래 컨텍스트를 우선 사용해 정확히 답하세요. 불충분하면 아는 범위에서만 간결히 답하세요.\n\n"
                f"=== 컨텍스트 ===\n{context}\n=== 끝 ===\n"
                """아래 질문에 대해 **사실에 근거한 간결한 답변**을 작성하세요. 

규칙:
1. 답변은 2~3문장 이내로 작성합니다. 장황한 서론, 결론 문구는 쓰지 않습니다.
2. 불확실할 경우 '알 수 없습니다'라고 답하고 생성을 종료합니다.
3. 특수문자 없이 오로지 한글과 숫자로만 대답합니다."""
                f"질문: {query}"
                "답변:"
            )
            max_new = dynamic_max_new_tokens(query)
            max_len = 3072  # 입력 길이 상한도 줄여 토크나이즈 시간 단축
            return prompt, max_len
        else:
            prompt = (
                "<<SYS>>\n당신은 금융/보안 QA 도우미입니다. 포맷을 엄격히 지키세요.\n<</SYS>>\n\n"
                """아래 질문에 대해 **사실에 근거한 간결한 답변**을 작성하세요. 

규칙:
1. 답변은 2~3문장 이내로 작성합니다. 장황한 서론, 결론 문구는 쓰지 않습니다.
2. 불확실할 경우 '알 수 없습니다'라고 답하고 생성을 종료합니다.
3. 특수문자 없이 오로지 한글과 숫자로만 대답합니다."""
                f"질문: {query}"
                "답변:"
            )
            max_new = dynamic_max_new_tokens(query)
            max_len = 2048
            return prompt, max_len


# ===== 생성 토큰 상한 =====
def dynamic_max_new_tokens(question: str) -> int:
    lines = [ln.strip() for ln in question.split("\n") if ln.strip()]
    opt_cnt = sum(bool(re.match(r"^\d+(\s|[.)])", ln)) for ln in lines)
    return 96 if opt_cnt >= 2 else 192

# ===== 메인: 다중 인덱스 기반 텍스트 생성 =====
def generate_answer_with_indices(query: str, indices: dict) -> str:
    """
    indices: build_indices() 반환 구조
    - 라우팅 → 해당 인덱스에서 top-k 검색(점수 포함)
    - 최고 유사도 임계치 미만이면 컨텍스트 없이 베이스모델 생성(Adaptive RAG)
    """
    # 0) 우선, 일반상식/비도메인은 곧장 베이스모델
    if not route_is_domain(query):
        prompt, max_len = build_prompt(query, use_context=False, context=None)
        inputs = llm_tokenizer(prompt, return_tensors="pt", truncation=True, max_length=max_len, padding=False)
        inputs = {k: v.to(llm_model.device) for k, v in inputs.items()}
        with torch.inference_mode():
            out = llm_model.generate(**inputs,
                                     max_new_tokens=dynamic_max_new_tokens(query),
                                     do_sample=False, temperature=0.2,
                                     eos_token_id=llm_tokenizer.eos_token_id,
                                     pad_token_id=llm_tokenizer.pad_token_id)
        gen = out[0][inputs["input_ids"].shape[1]:]
        return llm_tokenizer.decode(gen, skip_special_tokens=True).strip()

    # 1) 인덱스 선택
    idx_entry = choose_index(indices, query)

    # 2) 인덱스가 없으면 베이스모델
    if idx_entry is None:
        prompt, max_len = build_prompt(query, use_context=False, context=None)
        inputs = llm_tokenizer(prompt, return_tensors="pt", truncation=True, max_length=max_len, padding=False)
        inputs = {k: v.to(llm_model.device) for k, v in inputs.items()}
        with torch.inference_mode():
            out = llm_model.generate(**inputs,
                                     max_new_tokens=dynamic_max_new_tokens(query),
                                     do_sample=False, temperature=0.2,
                                     eos_token_id=llm_tokenizer.eos_token_id,
                                     pad_token_id=llm_tokenizer.pad_token_id)
        gen = out[0][inputs["input_ids"].shape[1]:]
        return llm_tokenizer.decode(gen, skip_special_tokens=True).strip()

    # 3) 선택 인덱스에서 검색 + 점수
    scored = faiss_search_with_scores_from_index(idx_entry, query, top_k=TOP_K)
    best_cos = max((s for _, s in scored), default=0.0)

    # 4) 임계치: 충분히 유사할 때만 컨텍스트 사용 (속도 최적화)
    THRESH = 0.70
    use_context = best_cos >= THRESH and len(scored) > 0

    context = pack_context([d for d, _ in scored], token_budget=CTX_TOKEN_BUDGET) if use_context else None
    prompt, max_len = build_prompt(query, use_context, context)

    # 5) LLM 생성
    inputs = llm_tokenizer(prompt, return_tensors="pt", truncation=True, max_length=max_len, padding=False)
    inputs = {k: v.to(llm_model.device) for k, v in inputs.items()}
    with torch.inference_mode():
        out = llm_model.generate(
            **inputs,
            max_new_tokens=dynamic_max_new_tokens(query),
            do_sample=False,
            temperature=0.2,
            eos_token_id=llm_tokenizer.eos_token_id,
            pad_token_id=llm_tokenizer.pad_token_id,
        )
    gen = out[0][inputs["input_ids"].shape[1]:]
    return llm_tokenizer.decode(gen, skip_special_tokens=True).strip()


In [14]:
# ---------------- LLM 로드 & 생성 ----------------
llm_model = AutoModelForCausalLM.from_pretrained(
    LLM_ID,
    device_map="auto",
    load_in_4bit=True,
    torch_dtype=torch.float16
)
if torch.cuda.is_available():
    torch.backends.cuda.matmul.allow_tf32 = True
    try:
        # llm_model.config.attn_implementation = "sdpa"
        llm_model.config.attn_implementation = "flash_attention_2"
        # llm_model.config.attn_implementation = "eager"
    except Exception:
        pass
llm_model.eval()
torch.set_grad_enabled(False)

config.json:   0%|          | 0.00/710 [00:00<?, ?B/s]

The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


model.safetensors.index.json: 0.00B [00:00, ?B/s]

Downloading shards:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/172 [00:00<?, ?B/s]

<torch.autograd.grad_mode.set_grad_enabled at 0x72ca88187760>

In [15]:
# 후처리 함수
def extract_answer_only(generated_text: str, original_question: str) -> str:
    """
    - "답변:" 이후 텍스트만 추출
    - 객관식 문제면: 정답 숫자만 추출 (실패 시 전체 텍스트 또는 기본값 반환)
    - 주관식 문제면: 전체 텍스트 그대로 반환
    - 공백 또는 빈 응답 방지: 최소 "미응답" 반환
    """
    # "답변:" 기준으로 텍스트 분리
    if "답변:" in generated_text:
        text = generated_text.split("답변:")[-1].strip()
    else:
        text = generated_text.strip()

    # 공백 또는 빈 문자열일 경우 기본값 지정
    if not text:
        return "미응답"

    # 객관식 여부 판단
    is_mc = is_multiple_choice(original_question)

    if is_mc:
        # 숫자만 추출
        match = re.match(r"\D*([1-9][0-9]?)", text)
        if match:
            return match.group(1)
        else:
            # 숫자 추출 실패 시 "0" 반환
            return "0"
    else:
        return text


In [16]:
preds = []

for q in tqdm(test['Question'], desc="Inference"):
    print("#################### Question ###########################")
    print(q)
    ans = generate_answer_with_indices(q, indices)
    pred_answer = extract_answer_only(ans, original_question=q)
    print("#################### Answer ###########################")
    print(pred_answer)
    preds.append(pred_answer)



#################### Question ###########################
금융산업의 이해와 관련하여 금융투자업의 구분에 해당하지 않는 것은?
1 소비자금융업
2 투자자문업
3 투자매매업
4 투자중개업
5 보험중개업


Inference:   0%|          | 1/515 [00:04<37:20,  4.36s/it]

#################### Answer ###########################
2
#################### Question ###########################
위험 관리 계획 수립 시 고려해야 할 요소로 적절하지 않은 것은?
1 수행인력
2 위험 수용
3 위험 대응 전략 선정
4 대상
5 기간


Inference:   0%|          | 2/515 [00:08<36:30,  4.27s/it]

#################### Answer ###########################
1
#################### Question ###########################
관리체계 수립 및 운영'의 '정책 수립' 단계에서 가장 중요한 요소는 무엇인가?
1 정보보호 및 개인정보보호 정책의 제·개정
2 경영진의 참여
3 최고책임자의 지정
4 자원 할당
5 내부 감사 절차의 수립


Inference:   1%|          | 3/515 [00:12<36:56,  4.33s/it]

#################### Answer ###########################
1
#################### Question ###########################
재해 복구 계획 수립 시 고려해야 할 요소로 옳지 않은 것은?
1 복구 절차 수립
2 비상연락체계 구축
3 개인정보 파기 절차
4 복구 목표시간 정의


Inference:   1%|          | 4/515 [00:17<37:06,  4.36s/it]

#################### Answer ###########################
3
#################### Question ###########################
트로이 목마(Trojan) 기반 원격제어 악성코드(RAT)의 특징과 주요 탐지 지표를 설명하세요.


Inference:   1%|          | 5/515 [00:25<49:25,  5.81s/it]

#################### Answer ###########################
RAT은 트로이 목마(Trojan) 기반 원격제어 악성코드의 약자입니다. 이 코드는 1990년대에 개발된 것으로, 특징은 다음과 같습니다.
- 원격제어: RAT은 원격제어 악성코드로, 특정한 악성코드를 생성합니다.
- 트로이 목마 기반: RAT은 트로이 목마(Trojan) 기반으로, 특정한 악성코드를 생성합니다.
- 주요 탐지 지표: RAT의 주요 탐지 지표는 다음과 같습니다.
- 악성코드 생성: RAT은 악성코드를 생성하여, 악성의 특징을 분석합니다.
- 악성 분석: RAT은 악성의 특징을 분석하여, 악성의 특징을 파악합니다.
- 악성 예측: RAT은 악
#################### Question ###########################
한국은행이 금융통화위원회의 요청에 따라 금융회사 및 전자금융업자에게 자료제출을 요구할 수 있는 경우는?
1 전자금융거래의 보안 강화를 위해
2 전자금융거래의 통계조사를 위해
3 금융회사의 경영 실적 분석을 위해
4 통화신용정책의 수행 및 지급결제제도의 원활한 운영을 위해


Inference:   1%|          | 6/515 [00:30<45:23,  5.35s/it]

#################### Answer ###########################
4
#################### Question ###########################
개인정보보호법 제22조의2에 따라 만 14세 미만 아동의 개인정보를 처리하기 위해 필요한 절차로 옳은 것은?
1 아동의 학교의 동의를 받아야 한다.
2 법정대리인의 동의를 받아야 한다.
3 아동 본인의 동의만 받으면 된다.
4 아동의 친구의 동의를 받아야 한다.


Inference:   1%|▏         | 7/515 [00:34<42:47,  5.05s/it]

#################### Answer ###########################
2
#################### Question ###########################
전자금융거래법에 따라 이용자가 금융 분쟁조정을 신청할 수 있는 기관을 기술하세요.


Inference:   2%|▏         | 8/515 [00:43<51:44,  6.12s/it]

#################### Answer ###########################
금융회사 또는 전자금융업자는 대통령령으로 정한 절차에 따라 분쟁조정을 신청할 수 있습니다. (1)금융회사 또는 전자금융업자는 대통령령으로 정한 절차에 따라 분쟁조정을 신청할 수 있습니다. (2)금융회사 또는 전자금융업자는 전자금융거래의 계약을 체결하는 때에는 제1항 내지 제3항의 규정에 따른 절차를 명시하여야 한다. (3)금융회사 또는 전자금융업자는 전자금융거래의 처리에 관하여 이의가 있을 때에는 제1항에서 정한 절차에 따라 손해배상 등 분쟁처리를 요구하거나 금융감독원 또는 한국소비자원 등을 통하여 분쟁조정을 신청할 수 있다. (4)금융회사 또는 전자금
#################### Question ###########################
금융권에서 SBOM을 활용하는 이유로 가장 적절한 것은?
1 금융 시스템의 접근 제어 정책을 효율적으로 구현하기 위해
2 금융 거래의 투명성을 높이기 위해
3 고객의 개인정보 보호를 강화하기 위해
4 금융 상품의 다양성을 확보하기 위해
5 S/W 공급망 공격을 예방하기 위해


Inference:   2%|▏         | 9/515 [00:47<46:42,  5.54s/it]

#################### Answer ###########################
2
#################### Question ###########################
전자금융거래법 제44조에 따르면, 청문 절차가 필요한 경우는 무엇인가?
1 전자금융거래의 중단
2 전자금융거래의 보안 점검
3 전자금융업자의 등록 취소
4 전자금융거래의 수수료 변경


Inference:   2%|▏         | 10/515 [00:51<43:33,  5.17s/it]

#################### Answer ###########################
3
#################### Question ###########################
다음 중 SPF(Sender Policy Framework)에 대한 설명으로 옳은 것은?
1 SPF는 이메일 발신자의 도메인 인증 방식을 제공한다.
2 SPF는 메일 클라이언트에서만 작동한다.
3 SPF는 스팸 메일을 필터링하지 않는다.
4 SMTP 서버에서 발신자의 사실 여부를 확인하지 않는다.


Inference:   2%|▏         | 11/515 [00:55<40:55,  4.87s/it]

#################### Answer ###########################
1
#################### Question ###########################
전자금융거래의 보안관리 통제 중에서 의심되는 전자금융거래를 발견하고 확인하여 비정상 거래를 차단하는 통제는 무엇인가?
1 접근통제
2 정보유출 방지
3 내부통제
4 모니터링 통제


Inference:   2%|▏         | 12/515 [01:00<38:58,  4.65s/it]

#################### Answer ###########################
3
#################### Question ###########################
키 분배 프로토콜에서 대칭 키 기반 분배 방식의 운영에 대한 설명으로 옳지 않은 것은?
1 대칭 키는 키 분배의 어려움이 있다.
2 대칭 키는 빠른 암호화 속도를 제공한다.
3 대칭 키는 두 개의 키를 사용하여 암호화한다.
4 대칭 키는 동일한 키로 암호화 및 복호화한다.


Inference:   3%|▎         | 13/515 [01:04<37:44,  4.51s/it]

#################### Answer ###########################
2
#################### Question ###########################
다음 중 전자금융거래법 제6조의3에 따라 계좌정보의 사용 및 관리에 대한 설명으로 옳은 것은?
1 계좌정보는 범죄에 이용될 가능성이 있어도 제공할 수 있다.
2 계좌정보는 범죄에 이용될 것을 알면서도 보관할 수 있다.
3 계좌정보는 범죄에 이용될 가능성이 있어도 유통할 수 있다.
4 계좌정보는 범죄에 이용될 목적으로 제공받아서는 안 된다.
5 계좌정보는 정당한 사유 없이 제3자에게 양도할 수 있다.


Inference:   3%|▎         | 14/515 [01:08<37:06,  4.44s/it]

#################### Answer ###########################
1
#################### Question ###########################
취약점 스캐닝의 특징으로 옳지 않은 것은?
1 보안 패치가 필요한 부분을 제안한다.
2 자동화된 도구를 사용하여 취약점을 탐지한다.
3 네트워크 트래픽을 분석하여 암호화한다.
4 시스템의 보안 취약점을 식별한다.
5 취약점 스캐닝은 발견된 취약점을 자동으로 즉시 수정한다.


Inference:   3%|▎         | 15/515 [01:12<36:25,  4.37s/it]

#################### Answer ###########################
4
#################### Question ###########################
국내대리인을 지정할 때 반드시 충족해야 하는 조건으로 옳은 것은?
1 국내대리인은 개인정보를 직접 처리해야 한다.
2 국내대리인은 매출액이 1조원 이상이어야 한다.
3 국내대리인은 외국에 주소가 있어야 한다.
4 국내대리인은 문서로 지정되어야 한다.


Inference:   3%|▎         | 16/515 [01:17<36:23,  4.38s/it]

#################### Answer ###########################
1
#################### Question ###########################
신용정보법 제11조에 따라 신용정보회사가 겸영할 수 있는 업무로 올바른 것은?
1 신용회복지원 협약에 따른 채권 서류의 집중 및 보관 업무
2 신용카드 부정사용 탐지를 위한 실시간 거래 차단 서비스
3 전자문서 및 전자거래 기본법에 따른 공인전자문서중계자의 업무
4 기업 및 법인 또는 그 상품의 홍보ㆍ광고
5 업무용 부동산의 임대차


Inference:   3%|▎         | 17/515 [01:21<36:35,  4.41s/it]

#################### Answer ###########################
5
#################### Question ###########################
개인정보관리 전문기관이 수행할 수 있는 업무로 적절한 것은?
1 정보주체에게 개인정보의 전송 요구를 강요하는 행위
2 거짓이나 부정한 방법으로 지정을 받는 행위
3 개인정보 처리 위탁업체의 내부 보안 점검을 대리하여 실시하는 행위
4 정보주체의 권리행사를 지원하기 위한 개인정보 전송시스템의 구축 및 표준화
5 개인정보를 침해하거나 정보주체의 권리를 제한할 우려가 있는 행위


Inference:   3%|▎         | 18/515 [01:26<36:46,  4.44s/it]

#################### Answer ###########################
1
#################### Question ###########################
다음 중 "정보보호최고책임자"에 대한 설명으로 옳은 것은?
1 정보보호최고책임자는 전자금융업무의 보안을 총괄하여 책임진다.
2 정보보호최고책임자는 전자금융거래의 안정성 확보와 무관하다.
3 정보보호최고책임자는 임원으로 지정될 필요가 없다.
4 정보보호최고책임자는 모든 정보기술부문 업무를 겸직할 수 있다.
5 정보보호최고책임자는 내부감사와 정보보호 업무를 반드시 동시에 수행해야 한다.


Inference:   4%|▎         | 19/515 [01:30<36:36,  4.43s/it]

#################### Answer ###########################
1
#################### Question ###########################
국내대리인이 법을 위반한 경우, 그 책임은 누구에게 있는가?
1 국내대리인
2 정부기관
3 법원
4 정보통신서비스 제공자
5 개인정보 처리 위탁업체


Inference:   4%|▍         | 20/515 [01:34<36:22,  4.41s/it]

#################### Answer ###########################
1
#################### Question ###########################
개인정보보호법 제63조에 따르면, 보호위원회가 자료제출 요구 및 검사를 통해 수집한 서류나 자료를 제3자에게 제공하거나 일반에 공개할 수 있는 경우는?
1 자료가 비밀이 아닌 경우
2 개인정보처리자의 동의가 있는 경우
3 정보주체가 개인정보 열람을 요청한 경우
4 법에 따른 경우
5 보호위원회의 내부 규정에 따른 경우


Inference:   4%|▍         | 21/515 [01:39<36:32,  4.44s/it]

#################### Answer ###########################
4
#################### Question ###########################
신용정보 관련 산업의 육성을 위해 금융위원회가 할 수 있는 조치로 옳은 것은?
1 신용정보 제공능력의 향상 계획 수립
2 신용정보 제공업체의 수익성 분석
3 신용정보 관련 산업의 규제 강화
4 신용정보 취급기관에 대한 일괄적 영업정지 명령
5 신용정보 보호를 위한 법률 제정


Inference:   4%|▍         | 22/515 [01:43<36:21,  4.43s/it]

#################### Answer ###########################
1
#################### Question ###########################
전자금융업자가 준수해야 할 경영지도기준에 해당하지 않는 것은 무엇인가?
1 자산의 건전성
2 자본의 적정성
3 고객 만족도
4 유동성


Inference:   4%|▍         | 23/515 [01:48<35:54,  4.38s/it]

#################### Answer ###########################
4
#################### Question ###########################
다음 중 네트워크 보안에서 NAT(Network Address Translation)의 주요 목적은 무엇인가?
1 네트워크 트래픽의 암호화
2 네트워크 접근 제어 목록(ACL)의 자동 생성
3 데이터 패킷의 무결성 검증
4 사용자 인증 절차 강화
5 IP 주소의 사설화 및 보호


Inference:   5%|▍         | 24/515 [01:52<36:03,  4.41s/it]

#################### Answer ###########################
1
#################### Question ###########################
FTP 서비스의 개념에 대한 설명으로 옳은 것은?
1 이메일 전송을 위한 프로토콜로, SMTP와 함께 사용된다.
2 파일 전송을 위한 프로토콜로, 기본적으로 암호화되지 않은 상태로 전송된다.
3 웹 페이지를 전송하는 프로토콜로, 주로 HTML 파일을 전송한다.
4 파일 전송을 위한 프로토콜로, 기본적으로 암호화되어 있다.


Inference:   5%|▍         | 25/515 [01:56<35:46,  4.38s/it]

#################### Answer ###########################
4
#################### Question ###########################
기업신용조회회사가 기업 및 법인의 신용상태를 평가할 때 고려해야 할 사항으로 옳은 것은?
1 평가에 관련된 모든 정보를 무시한다.
2 평가에 혜택을 줄 수 있는 정보만 고려한다.
3 평가에 불이익과 혜택을 줄 수 있는 정보를 모두 고려한다.
4 평가에 불이익이 발생할 수 있는 정보만 고려한다.
5 평가에 사용되는 정보는 금융보안법에서 정한 표준 등급 정보만 활용한다.


Inference:   5%|▌         | 26/515 [02:01<35:47,  4.39s/it]

#################### Answer ###########################
3
#################### Question ###########################
이동형 영상정보처리기기로 사람의 영상을 촬영할 때, 촬영 사실을 알리기 위해 필요한 조치로 적절한 것은?
1 촬영 사실을 알리지 않고 촬영을 진행한다.
2 촬영 후에 정보주체에게 알린다.
3 불빛, 소리, 안내판 등으로 촬영 사실을 표시한다.
4 정보주체의 동의 없이 촬영을 진행한다.


Inference:   5%|▌         | 27/515 [02:05<35:14,  4.33s/it]

#################### Answer ###########################
3
#################### Question ###########################
서버 접근통제 시스템의 주요 기능으로 옳지 않은 것은?
1 명령어 통제
2 실시간 모니터링
3 서버 하드웨어 장애 자동 복구
4 데이터 전송 속도 최적화
5 사용자별 시스템 접근 권한 통제


Inference:   5%|▌         | 28/515 [02:09<34:57,  4.31s/it]

#################### Answer ###########################
1
#################### Question ###########################
다음 중 데이터베이스(DB) 보안에서 중요한 정보가 암호화되어 저장되는 이유로 가장 적절한 것은?
1 데이터베이스의 기밀성을 유지하기 위해
2 데이터베이스의 성능 향상을 위해
3 데이터베이스의 무결성을 보장하기 위해
4 데이터베이스의 저장 공간 절약을 위해


Inference:   6%|▌         | 29/515 [02:13<34:47,  4.30s/it]

#################### Answer ###########################
3
#################### Question ###########################
다음 중 개인정보파일의 등록사항을 전자적으로 처리할 수 있도록 시스템을 구축ㆍ운영할 수 있는 기관은 어디인가?
1 공공기관의 장
2 보호위원회
3 개인정보처리자
4 정보주체


Inference:   6%|▌         | 30/515 [02:18<34:58,  4.33s/it]

#################### Answer ###########################
2
#################### Question ###########################
전자서명법 제25조 양벌규정에 따르면, 법인의 대표자나 법인 또는 개인의 대리인, 사용인, 그 밖의 종업원이 법인의 업무에 관하여 위반행위를 한 경우, 법인 또는 개인에게도 벌금형을 과할 수 있는 조건은 무엇인가?
1 법인 또는 개인이 위반행위를 방지하기 위한 주의와 감독을 철저히 한 경우
2 법인 또는 개인이 위반행위를 방지하기 위한 주의와 감독을 일부만 한 경우
3 법인 또는 개인이 위반행위를 방지하기 위한 주의와 감독을 게을리한 경우
4 법인 또는 개인이 위반행위를 방지하기 위한 주의와 감독을 전혀 하지 않은 경우


Inference:   6%|▌         | 31/515 [02:22<35:03,  4.35s/it]

#################### Answer ###########################
1
#################### Question ###########################
전자금융업자가 전자금융거래법 제35조에 따라 겸업제한을 위반할 경우, 어떤 조치를 받을 수 있는가?
1 과태료 부과
2 형사처벌
3 영업정지
4 경고


Inference:   6%|▌         | 32/515 [02:27<35:11,  4.37s/it]

#################### Answer ###########################
1
#################### Question ###########################
다음 중 개인정보보호법 제7조의11에 따라 위원이 심의ㆍ의결에서 회피할 수 있는 경우는?
1 위원이 해당 사안에 관하여 증언을 한 경우
2 위원이 해당 사안의 당사자와 이해관계가 없는 경우
3 위원이 해당 사안에 관하여 법률자문을 하지 않은 경우
4 위원이 해당 사안의 당사자와 친족이 아닌 경우


Inference:   6%|▋         | 33/515 [02:31<35:12,  4.38s/it]

#################### Answer ###########################
2
#################### Question ###########################
신용정보회사 등이 개인식별정보를 수집, 이용 및 제공할 때 준용해야 하는 신용정보법 조항은 무엇인가?
1 제15조, 제32조, 제33조
2 제10조, 제22조, 제29조
3 제12조, 제30조, 제31조
4 제20조, 제25조, 제28조


Inference:   7%|▋         | 34/515 [02:35<35:00,  4.37s/it]

#################### Answer ###########################
1
#################### Question ###########################
어플리케이션 개발 보안에서 사용되는 정적 분석 도구의 주요 목적은 무엇인가?
1 코드의 보안 취약점을 사전에 식별한다.
2 네트워크 트래픽을 모니터링한다.
3 사용자 인터페이스의 디자인을 개선한다.
4 런타임 시 발생하는 오류를 탐지한다.


Inference:   7%|▋         | 35/515 [02:40<34:37,  4.33s/it]

#################### Answer ###########################
1
#################### Question ###########################
정보통신망법 제49조의2에 따르면, 속이는 행위에 의한 정보의 수집을 금지하는 이유로 가장 적절한 것은?
1 정보의 효율적인 수집을 위한 절차 간소화
2 정보의 무단 수집으로 인한 개인정보 침해 방지
3 정보의 국제적 교류 촉진
4 정보의 상업적 활용을 위한 법적 근거 마련


Inference:   7%|▋         | 36/515 [02:44<35:09,  4.40s/it]

#################### Answer ###########################
2
#################### Question ###########################
신용정보회사, 본인신용정보관리회사 및 채권추심회사가 사업의 전부 또는 일부를 양도ㆍ양수하거나 합병하려는 경우 필요한 절차는?
1 국회의 동의를 받아야 한다.
2 금융감독원의 사전 심의를 받아야 한다.
3 법무부의 승인을 받아야 한다.
4 대통령의 허가를 받아야 한다.
5 금융위원회의 인가를 받아야 한다.


Inference:   7%|▋         | 37/515 [02:49<35:43,  4.48s/it]

#################### Answer ###########################
1
#################### Question ###########################
침입차단시스템(Firewall)의 주요 기능으로 옳지 않은 것은?
1 네트워크 트래픽 모니터링
2 패킷 필터링
3 악성코드 탐지 및 제거
4 암호화된 데이터 복호화
5 접근 제어


Inference:   7%|▋         | 38/515 [02:53<35:25,  4.46s/it]

#################### Answer ###########################
3
#################### Question ###########################
개인정보보호법 제71조에 따르면, 정보주체의 동의를 받지 않고 개인정보를 제3자에게 제공한 자에 대한 처벌로 옳은 것은?
1 7년 이하의 징역 또는 7천만원 이하의 벌금
2 2년 이하의 징역 또는 2천만원 이하의 벌금
3 10년 이하의 징역 또는 1억원 이하의 벌금
4 3년 이하의 징역 또는 3천만원 이하의 벌금
5 5년 이하의 징역 또는 5천만원 이하의 벌금


Inference:   8%|▊         | 39/515 [02:58<35:20,  4.45s/it]

#################### Answer ###########################
2
#################### Question ###########################
전자금융거래법 제21조의6에 따라 금융회사 및 전자금융업자가 침해사고 대응능력을 확보하기 위해 연 1회 이상 수행해야 하는 것은 무엇인가?
1 금융위원회에 보안취약점 통보
2 전자금융거래 기록 보존
3 금융권 통합 보안관제센터 운영
4 침해사고 대응 및 복구훈련 계획 수립 및 시행


Inference:   8%|▊         | 40/515 [03:02<35:12,  4.45s/it]

#################### Answer ###########################
4
#################### Question ###########################
소스코드 개발 보안(Secure Coding)에서 권장되는 방법으로 적절하지 않은 것은?
1 에러 메시지에 시스템 정보를 포함시킨다.
2 민감한 데이터는 암호화하여 저장한다.
3 외부 라이브러리의 보안 업데이트를 주기적으로 확인한다.
4 입력값의 유효성을 철저히 검증한다.


Inference:   8%|▊         | 41/515 [03:07<35:16,  4.47s/it]

#################### Answer ###########################
2
#################### Question ###########################
원격접속 공격에 대한 대응 방법으로 가장 적절한 것은?
1 원격접속 시 계정 비밀번호를 주기적으로 메모장에 저장해 관리한다.
2 원격접속을 허용하는 IP 주소를 무제한으로 설정한다.
3 방화벽 설정을 통해 모든 포트를 차단한다.
4 모든 네트워크 트래픽을 암호화하지 않고 전송한다.
5 원격접속 시 다중 인증을 적용한다.


Inference:   8%|▊         | 42/515 [03:11<34:34,  4.39s/it]

#################### Answer ###########################
3
#################### Question ###########################
전자서명법 제2조에 따르면, 전자서명의 정의로 올바른 것은?
1 서명자의 금융거래내역을 검증할 수 있는 것
2 서명자의 직위를 확인할 수 있는 것
3 서명자의 실지명의를 확인할 수 있는 것
4 서명자의 주소를 확인할 수 있는 것
5 서명자의 연락처를 확인할 수 있는 것


Inference:   8%|▊         | 43/515 [03:15<34:12,  4.35s/it]

#################### Answer ###########################
2
#################### Question ###########################
전자금융거래법 제2조에 따르면, 전자금융업자가 제공하는 서비스에 해당하는 것은 무엇인가?
1 계좌 개설
2 대출 상담
3 신용카드 발급 신청
4 온라인 송금
5 보험 가입


Inference:   9%|▊         | 44/515 [03:19<34:05,  4.34s/it]

#################### Answer ###########################
4
#################### Question ###########################
개인정보보호법 제64조의2에 따라 과징금을 부과받은 금융기관이 과징금을 납부한 후, 보호위원회에 통보해야 하는 시점은 언제인가?
1 과징금을 납부한 다음 달 말일까지
2 과징금을 납부한 다음 분기 말일까지
3 과징금을 납부한 다음 해 말일까지
4 과징금을 납부한 즉시
5 과징금 부과 사실을 분기별로 일괄 통보할 때


Inference:   9%|▊         | 45/515 [03:24<33:56,  4.33s/it]

#################### Answer ###########################
1
#################### Question ###########################
SBOM(Software Bill of Materials)의 주요 기능으로 옳은 것은?
1 S/W 공급망의 모든 구성요소를 목록화하여 보안 취약점을 신속하게 파악
2 S/W 개발 과정에서 발생하는 모든 오류를 자동으로 수정
3 금융회사의 모든 거래 내역을 기록하여 보안성을 강화
4 금융 데이터의 암호화를 통해 정보 유출을 방지
5 S/W 라이선스 위반 여부를 자동으로 차단하여 법적 분쟁을 예방


Inference:   9%|▉         | 46/515 [03:28<33:37,  4.30s/it]

#################### Answer ###########################
1
#################### Question ###########################
아동의 개인정보 처리와 관련하여 법정대리인의 동의를 받기 위해 수집할 수 있는 정보로 옳은 것은?
1 아동의 친구 목록
2 아동의 학교 성적
3 법정대리인의 성명 및 연락처
4 법정대리인의 직업 정보


Inference:   9%|▉         | 47/515 [03:32<33:38,  4.31s/it]

#################### Answer ###########################
3
#################### Question ###########################
정보통신망법 제5조의2에 의거하여, 국외에서 발생한 행위가 국내 시장에 영향을 미칠 경우, 이 법의 적용 범위는 어떻게 되는가?
1 국내 시장에 영향을 미치는 경우에만 적용된다.
2 국외에서 발생한 행위는 국내 정보통신서비스 제공자에게만 적용된다.
3 국내외 모든 행위에 무조건 적용된다.
4 국외 행위는 항상 면제된다.
5 국내 시장에 영향을 미치지 않는 경우에도 적용된다.


Inference:   9%|▉         | 48/515 [03:37<33:45,  4.34s/it]

#################### Answer ###########################
1
#################### Question ###########################
외주 보안관리에서 아웃소싱 직원에게 금융회사의 시스템에 접속하는 경우 필요한 조치는?
1 별도의 물리적 PC 지급 및 단말기 보호대책 적용
2 아웃소싱 직원의 개인 장비 사용 권장
3 아웃소싱 직원의 시스템 접근 제한 없이 업무 수행
4 아웃소싱 직원의 자유로운 시스템 접근 허용


Inference:  10%|▉         | 49/515 [03:41<33:46,  4.35s/it]

#################### Answer ###########################
1
#################### Question ###########################
신용정보의 이해와 활용에 대한 설명으로 옳은 것은?
1 신용정보는 금융기관의 여신심사에 영향을 미치지 않는다.
2 신용정보는 공공기관에서만 수집된다.
3 신용정보는 금융기관 간에 공유되지 않는다.
4 신용정보는 개인의 신용위험을 관리하는 데 사용된다.


Inference:  10%|▉         | 50/515 [03:45<33:42,  4.35s/it]

#################### Answer ###########################
1
#################### Question ###########################
개인정보보호법 제35조의2에 따라 정보주체가 개인정보 전송을 요구할 수 있는 조건으로 옳지 않은 것은?
1 전송을 요구하는 개인정보가 개인정보처리자가 수집한 개인정보를 기초로 별도로 생성한 정보일 것
2 정보주체는 대통령령으로 정하는 기준에 해당하는 개인정보처리자에게 전송을 요구할 수 있음
3 전송을 요구하는 개인정보가 정보처리장치로 처리되는 개인정보일 것
4 전송 요구는 정보주체의 본인 여부가 확인된 경우에만 가능함


Inference:  10%|▉         | 51/515 [03:50<33:37,  4.35s/it]

#################### Answer ###########################
2
#################### Question ###########################
금융권 정보보호 상시평가제의 수행 체계에서 금융보안원의 역할로 옳은 것은?
1 금융기관의 정보보호 내부감사 직접 수행
2 금융위원회의 정보보호 정책 수립
3 상시평가 업무의 위탁 수행
4 금융감독원의 검사 결과 활용
5 금융회사의 정보보호 투자 결정


Inference:  10%|█         | 52/515 [03:54<33:37,  4.36s/it]

#################### Answer ###########################
4
#################### Question ###########################
정부가 정보통신서비스 제공자단체의 자율규제를 지원할 수 있는 활동은 무엇인가?
1 정보통신서비스 제공자단체의 자율규제를 무시
2 정보통신서비스 제공자단체의 모든 활동에 대한 직접 개입
3 정보통신서비스 제공자단체의 자율규제를 위한 활동 지원
4 정보통신서비스 제공자단체의 자율규제와 무관한 보안감사만 실시
5 정보통신서비스 제공자단체의 자율규제를 제한


Inference:  10%|█         | 53/515 [03:59<33:30,  4.35s/it]

#################### Answer ###########################
3
#################### Question ###########################
전자금융보안의 중요성이 부각되는 이유로 가장 적절한 것은?
1 IT 의존도의 감소로 인한 보안 필요성 감소
2 금융 분야의 자산과 국가 경제와의 직접적 연관성
3 금융산업의 규제 완화로 인한 보안 필요성 감소
4 금융거래의 비대면화로 인한 보안 위협 감소


Inference:  10%|█         | 54/515 [04:03<33:12,  4.32s/it]

#################### Answer ###########################
2
#################### Question ###########################
다음 중 분산 서비스 거부(DDoS) 공격에 대한 대응 방법으로 가장 적절한 것은?
1 웹 애플리케이션 방화벽을 통해 SQL 인젝션 공격을 차단한다.
2 데이터베이스의 암호화 수준을 높인다.
3 운영체제의 보안 패치를 최신으로 유지한다.
4 네트워크 트래픽을 모니터링하여 이상 징후를 탐지한다.
5 사용자 비밀번호를 주기적으로 변경한다.


Inference:  10%|█         | 54/515 [04:06<35:06,  4.57s/it]


KeyboardInterrupt: 

In [None]:
sample_submission = pd.read_csv('../submission/sample_submission.csv')
sample_submission['Answer'] = preds
sample_submission.to_csv('../submission/gen_v4_submission.csv', index=False, encoding='utf-8-sig')