### 사전 준비 사항 

#### (1) uv add (터미널)

```bash
uv add rank_bm25
```

#### (2) .env 파일 세팅
```bash
OPENAI_API_KEY = ""
HF_TOKEN = ""
```

#### (3) pdf 파일 세팅
pdf 파일 100개를 `data/raw/files` 에 위치합니다.  
eval 파일(csv 2개, jsonl 1개)을 `data/raw/eval` 에 위치합니다.(*30개 파일 합친 버전)  

#### 실행 방법

1. 처음 1회(커널 새로 시작): 처음부터 끝까지 순서대로 실행
2. exp1 결과 저장 확인
3. <실험 ID 변경> 셀의 exp_id 를 변경 후 새로운 실험 진행 (실험 결과 저장 확인 후 커널 재시작)  
\*커널 재시작하지 않는 경우, 실험 ID 변경 + 실험 진행 섹션 코드만 실행해도 됨.(OOM 발생 가능성이 있어 권장하지 않음.)
4. 원하는 실험로 변경 및 반복

In [1]:
import json, re, unicodedata
import numpy as np
import pandas as pd
from tqdm.auto import tqdm
from dotenv import load_dotenv, find_dotenv
from openai import OpenAI
from sentence_transformers import SentenceTransformer

from preprocess.pp_basic import docs, BASE_DIR, EVAL_DIR, GOLD_EVIDENCE_CSV, GOLD_FIELDS_JSONL
from preprocess.rag_experiment import (
    CONFIG, ExperimentSpec, load_questions_df, make_components, RAGExperiment
)

# [추가] RAGAS 통합 실행 함수
from preprocess.ragas_eval import run_experiment_with_ragas

# [추가] 노트북에서 바로 돌릴 수 있게 .env 로드
load_dotenv(find_dotenv(), override=False)

client = OpenAI()

# embed 모델은 커널에서 1번만 로드(중요)
embed_model = SentenceTransformer("nlpai-lab/KoE5")

# gold 로드
gold_evidence_df = pd.read_csv(GOLD_EVIDENCE_CSV)

def load_gold_fields_jsonl(path):
    rows = []
    with open(path, "r", encoding="utf-8", errors="replace") as f:
        for line in f:
            if line.strip():
                rows.append(json.loads(line))
    out = []
    for r in rows:
        iid = r["instance_id"]
        doc_id = r.get("doc_id", "")
        fields = r.get("fields", {}) or {}
        for k, v in fields.items():
            out.append({"instance_id": iid, "doc_id": doc_id, "field": k, "gold": v})
    return pd.DataFrame(out)

gold_fields_df = load_gold_fields_jsonl(GOLD_FIELDS_JSONL)

questions_df = load_questions_df()

print("gold_evidence_df:", gold_evidence_df.shape)
print("gold_fields_df:", gold_fields_df.shape)
print("questions_df:", questions_df.shape)
print("n_docs:", len(docs))

  from .autonotebook import tqdm as notebook_tqdm


gold_evidence_df: (630, 5)
gold_fields_df: (630, 4)
questions_df: (311, 5)
n_docs: 100


In [2]:
# 평가 문서 필터(커널당 1회)
def name_key(s: str) -> str:
    s = unicodedata.normalize("NFC", str(s)).strip()
    s = unicodedata.normalize("NFKC", s)
    s = re.sub(r"\s+", " ", s)
    return s

gold_doc_key_set = set(name_key(x) for x in gold_fields_df["doc_id"].astype(str).unique())
EVAL_DOCS = [p for p in docs if name_key(p.name) in gold_doc_key_set]

print("Eval docs:", len(EVAL_DOCS))

Eval docs: 30


### 실험 ID 변경

In [3]:
RUN_EXP_ID = 3   # 1~18
N_DOCS = 5       # 디버깅은 1~5 추천, 전체는 None 또는 아래 라인 변경

# N개 문서 또는 전체 문서 테스트
# RUN_DOCS = EVAL_DOCS[:N_DOCS]
RUN_DOCS = EVAL_DOCS

# exp table (18개)
SPECS = {
    1:  ("C1","R1","G1"),  2:  ("C1","R1","G2"),
    3:  ("C1","R2","G1"),  4:  ("C1","R2","G2"),
    5:  ("C1","R3","G1"),  6:  ("C1","R3","G2"),
    7:  ("C2","R1","G1"),  8:  ("C2","R1","G2"),
    9:  ("C2","R2","G1"),  10: ("C2","R2","G2"),
    11: ("C2","R3","G1"),  12: ("C2","R3","G2"),
    13: ("C3","R1","G1"),  14: ("C3","R1","G2"),
    15: ("C3","R2","G1"),  16: ("C3","R2","G2"),
    17: ("C3","R3","G1"),  18: ("C3","R3","G2"),
    19: ("C4","R1","G1"),  20: ("C4","R1","G2"),
    21: ("C4","R2","G1"),  22: ("C4","R2","G2"),
    23: ("C4","R3","G1"),  24: ("C4","R3","G2"),
}

c, r, g = SPECS[RUN_EXP_ID]
spec = ExperimentSpec(exp_id=RUN_EXP_ID, chunker=c, retriever=r, generator=g)
print("Running spec:", spec)
print("RUN_DOCS:", len(RUN_DOCS))

# (선택) 실험 컨텍스트 cap 조정하고 싶은 경우 주석 해제 및 수정
# CONFIG["max_context_chars"] = 4000

# [추가] RAGAS 실행 여부 / 지표 / 평가자 모델 (원하는 대로 수정)
RUN_RAGAS = True
RAGAS_EVALUATOR_MODEL = "gpt-5-mini"
RAGAS_METRICS = ["faithfulness", "context_precision", "answer_correctness"]

Running spec: ExperimentSpec(exp_id=3, chunker='C1', retriever='R2', generator='G1')
RUN_DOCS: 30


### 디버깅 사전 설정(선택)

In [4]:
# (옵션) sentinel 모니터링용
SENT_NOT_FOUND = "NOT_FOUND"
SENT_GEN_FAIL = "GEN_FAIL"

def count_sentinels(pred_map: dict) -> dict:
    if not isinstance(pred_map, dict):
        return {"n_keys": 0, "n_not_found": 0, "n_gen_fail": 0}

    vals = [str(v).strip() for v in pred_map.values()]
    vals_l = [v.lower() for v in vals]

    n_nf = sum(v in {"not_found", "notfound"} for v in vals_l)
    n_gf = sum(v == "gen_fail" for v in vals_l)
    return {"n_keys": len(vals), "n_not_found": n_nf, "n_gen_fail": n_gf}

### 실험 수행 및 결과 저장

In [5]:
chunker, retriever, generator = make_components(spec, embed_model=embed_model, client=client)
rag = RAGExperiment(chunker=chunker, retriever=retriever, generator=generator, questions_df=questions_df)

rows = []
for doc_path in tqdm(RUN_DOCS, desc=f"Exp {spec.exp_id} docs"):
    m = rag.run_single_doc_metrics_singleq(
        doc_path,
        gold_fields_df=gold_fields_df,
        gold_evidence_df=gold_evidence_df,
        top_k=CONFIG["top_k"],
        sim_threshold=80,
    )
    m["exp_id"] = spec.exp_id
    m["chunker"] = spec.chunker
    m["retriever"] = spec.retriever
    m["generator"] = spec.generator
    rows.append(m)

doc_df = pd.DataFrame(rows)

# exp-level average
avg = doc_df[["ret_recall","ret_mrr","gen_fill","gen_match","gen_sim"]].mean(numeric_only=True)
exp_df = pd.DataFrame([{
    "exp_id": spec.exp_id,
    "chunk": spec.chunker,
    "retriever": spec.retriever,
    "model": spec.generator,
    "n_docs": len(doc_df),
    **{k: float(avg[k]) for k in avg.index},
}])

display(exp_df.round(4))

out_dir = BASE_DIR / "outputs"
out_dir.mkdir(parents=True, exist_ok=True)

exp_out = out_dir / f"exp{spec.exp_id:02d}_explevel.csv"
exp_df.to_csv(exp_out, index=False, encoding="utf-8-sig")
print("Saved:", exp_out)

Exp 3 docs: 100%|██████████| 30/30 [27:23<00:00, 54.78s/it]


Unnamed: 0,exp_id,chunk,retriever,model,n_docs,ret_recall,ret_mrr,gen_fill,gen_match,gen_sim
0,3,C1,R2,G1,30,0.8869,0.6378,1.0,0.3548,55.9795


Saved: /home/ohs3201/codeit/codeit-part3-team4/outputs/exp03_explevel.csv


In [6]:
# 문서별 pred_map 저장 (옵션)
pred_dir = out_dir / f"exp{spec.exp_id:02d}_pred_maps"
pred_dir.mkdir(parents=True, exist_ok=True)

saved = 0
for _, row in doc_df.iterrows():
    doc_id = str(row["doc_id"])
    pred_map = row.get("pred_map", None)
    if isinstance(pred_map, dict):
        # 파일명 안전화
        safe = re.sub(r"[\\/:*?\"<>|]", "_", doc_id)
        path = pred_dir / f"{safe}.json"
        with open(path, "w", encoding="utf-8") as f:
            json.dump(pred_map, f, ensure_ascii=False, indent=2)
        saved += 1

print("Saved pred_maps:", saved, "->", pred_dir)

Saved pred_maps: 30 -> /home/ohs3201/codeit/codeit-part3-team4/outputs/exp03_pred_maps


### 디버깅(선택)

In [7]:
DEBUG = True  # 필요할 때만 True

if DEBUG:
    print("last_debug:", getattr(rag.generator, "last_debug", None))

    raw = getattr(rag.generator, "last_raw_text", "") or ""
    print("raw_text_len:", len(raw.strip()))
    print("raw_text_preview:\n", raw[:600])

    d = getattr(rag.generator, "last_resp_dump", None)
    print("dump is None?", d is None)
    if isinstance(d, dict):
        # responses API는 output_text가 별도 필드로 있을 수 있음(덤프엔 없을 때도 있음)
        print("top keys:", list(d.keys())[:30])
        print("status:", d.get("status"))
        usage = d.get("usage") or {}
        print("usage.output_tokens:", usage.get("output_tokens"))
        out = d.get("output")
        if isinstance(out, list):
            print("output item types:", [x.get("type") for x in out if isinstance(x, dict)])

last_debug: {'model': 'gpt-5-mini', 'n_questions': 1, 'context_len': 6000, 'max_context_chars': 6000, 'prompt_len': 6466, 'response_status': 'completed', 'output_tokens': 64, 'output_text_repr': '\'{"training_requirement": "사용자, 관리자 등 시스템의 이용대상자별로 구분하여 교육훈련 방법, 내용, 교육일정, 교육훈련 조직 등을 상세히 제시하여야 한다."}\'', 'exception': None, 'parse_error': None}
raw_text_len: 100
raw_text_preview:
 {"training_requirement": "사용자, 관리자 등 시스템의 이용대상자별로 구분하여 교육훈련 방법, 내용, 교육일정, 교육훈련 조직 등을 상세히 제시하여야 한다."}
dump is None? False
top keys: ['id', 'created_at', 'error', 'incomplete_details', 'instructions', 'metadata', 'model', 'object', 'output', 'parallel_tool_calls', 'temperature', 'tool_choice', 'tools', 'top_p', 'background', 'completed_at', 'conversation', 'max_output_tokens', 'max_tool_calls', 'previous_response_id', 'prompt', 'prompt_cache_key', 'prompt_cache_retention', 'reasoning', 'safety_identifier', 'service_tier', 'status', 'text', 'top_logprobs', 'truncation']
status: completed
usage.output_tokens: 64
outp

In [8]:
# (옵션) GEN_FAIL/NOT_FOUND 비율 빠르게 보기: 마지막 doc 1개 기준
try:
    last_row = doc_df.iloc[-1].to_dict()
    pm = last_row.get("pred_map")
    print("pred_map sentinel counts:", count_sentinels(pm))
except Exception as e:
    print("pred_map sentinel counts: skipped:", repr(e))

pred_map sentinel counts: {'n_keys': 21, 'n_not_found': 0, 'n_gen_fail': 0}


### RAGAS도 같은 spec/RUN_DOCS/CONFIG로 한 번에 계산

In [9]:
if RUN_RAGAS:
    # 핵심: 같은 spec, 같은 RUN_DOCS, 같은 embed_model, 같은 client, 같은 CONFIG로 실행
    res = run_experiment_with_ragas(
        spec=spec,
        run_docs=list(RUN_DOCS),
        gold_fields_jsonl_path=GOLD_FIELDS_JSONL,
        embed_model=embed_model,
        client=client,
        evaluator_model=RAGAS_EVALUATOR_MODEL,
        ragas_metrics=RAGAS_METRICS,
        compute_baseline_doc_metrics=False,   # 이미 doc_df를 위에서 만들었으니 중복 계산 방지
        gold_evidence_df=None,                # compute_baseline_doc_metrics=False면 필요 없음
    )

    # 질문 단위 RAGAS
    ragas_sample_df = res.ragas_sample_df
    display(ragas_sample_df.head())

    # 문서 단위 평균 RAGAS
    ragas_doc_df = res.ragas_doc_df
    display(ragas_doc_df.sort_values("faithfulness").head(10))

    # exp 단위 평균 RAGAS
    ragas_exp_df = res.ragas_exp_df
    display(ragas_exp_df)

    # (선택) exp_df(기존)와 ragas_exp_df(새) 한 줄로 합쳐보기
    merged_exp = exp_df.merge(ragas_exp_df, on="exp_id", how="left")
    display(merged_exp.round(4))

    # (선택) 저장
    ragas_out_csv = out_dir / f"exp{spec.exp_id:02d}_ragas_explevel.csv"
    merged_exp.to_csv(ragas_out_csv, index=False, encoding="utf-8-sig")
    print("Saved:", ragas_out_csv)
else:
    print("RUN_RAGAS=False (skip)")

RAG + RAGAS | exp 3: 100%|██████████| 30/30 [10:06<00:00, 20.21s/it]
GPT-5 judge scoring: 100%|██████████| 604/604 [13:50<00:00,  1.38s/it]


Unnamed: 0,exp_id,chunker,retriever,generator,doc_id,field,user_input,faithfulness,context_precision,answer_correctness
0,3,C1,R2,G1,(사)벤처기업협회_2024년 벤처확인종합관리시스템 기능 고도화 용역사업 .pdf,project_name,사업(용역)명은 무엇인가?,1.0,0.9,1.0
1,3,C1,R2,G1,(사)벤처기업협회_2024년 벤처확인종합관리시스템 기능 고도화 용역사업 .pdf,agency,발주 기관(수요기관)은 어디인가?,0.1,0.2,0.0
2,3,C1,R2,G1,(사)벤처기업협회_2024년 벤처확인종합관리시스템 기능 고도화 용역사업 .pdf,purpose,사업 목적(추진 배경)은 무엇인가?,0.98,0.9,0.98
3,3,C1,R2,G1,(사)벤처기업협회_2024년 벤처확인종합관리시스템 기능 고도화 용역사업 .pdf,budget,총 사업 예산(사업비)은 얼마인가?,0.0,0.1,0.0
4,3,C1,R2,G1,(사)벤처기업협회_2024년 벤처확인종합관리시스템 기능 고도화 용역사업 .pdf,contract_type,계약 방식(일반경쟁/제한경쟁/협상에 의한 계약 등)은 무엇인가?,0.0,0.2,0.0


Unnamed: 0,doc_id,faithfulness,context_precision,answer_correctness
0,(사)벤처기업협회_2024년 벤처확인종합관리시스템 기능 고도화 용역사업 .pdf,0.370476,0.411905,0.367647
4,2025 구미 아시아육상경기선수권대회 조직위원회_2025 구미아시아육상경.pdf,0.371429,0.409524,0.239059
8,경상북도 봉화군_봉화군 재난통합관리시스템 고도화 사업(협상)(긴급).pdf,0.452381,0.602381,0.425
25,대전대학교_대전대학교 2024학년도 다층적 융합 학습경험 플랫폼(MILE) 전.pdf,0.483333,0.554762,0.504737
22,나노종합기술원_스마트 팹 서비스 활용체계 구축관련 설비온라인 시스.pdf,0.492857,0.528571,0.447368
2,(사）한국대학스포츠협의회_KUSF 체육특기자 경기기록 관리시스템 개발.pdf,0.507143,0.547619,0.397059
3,(재)예술경영지원센터_통합 정보시스템 구축 사전 컨설팅.pdf,0.560952,0.616667,0.6
17,국민연금공단_2024년 이러닝시스템 운영 용역.pdf,0.578947,0.626316,0.24375
6,경기도 평택시_2024년도 평택시 버스정보시스템(BIS) 구축사업.pdf,0.590476,0.652381,0.442222
7,경기도사회서비스원_2024년 통합사회정보시스템 운영지원.pdf,0.597619,0.564286,0.492105


Unnamed: 0,exp_id,faithfulness,context_precision,answer_correctness
0,3,0.639437,0.670944,0.606068


Unnamed: 0,exp_id,chunk,retriever,model,n_docs,ret_recall,ret_mrr,gen_fill,gen_match,gen_sim,faithfulness,context_precision,answer_correctness
0,3,C1,R2,G1,30,0.8869,0.6378,1.0,0.3548,55.9795,0.6394,0.6709,0.6061


Saved: /home/ohs3201/codeit/codeit-part3-team4/outputs/exp03_ragas_explevel.csv


In [10]:
doc_compare = doc_df.merge(ragas_doc_df, on="doc_id", how="left")
display(doc_compare[["doc_id","gen_match","gen_sim","faithfulness","context_precision","answer_correctness"]].head())

Unnamed: 0,doc_id,gen_match,gen_sim,faithfulness,context_precision,answer_correctness
0,(사)벤처기업협회_2024년 벤처확인종합관리시스템 기능 고도화 용역사업 .pdf,0.238095,51.551053,0.370476,0.411905,0.367647
1,(사)부산국제영화제_2024년 BIFF & ACFM 온라인서비스 재개발 및 행사지원...,0.3,51.622062,0.757143,0.77381,0.665789
2,(사）한국대학스포츠협의회_KUSF 체육특기자 경기기록 관리시스템 개발.pdf,0.35,49.618203,0.507143,0.547619,0.397059
3,(재)예술경영지원센터_통합 정보시스템 구축 사전 컨설팅.pdf,0.3,57.007021,0.560952,0.616667,0.6
4,2025 구미 아시아육상경기선수권대회 조직위원회_2025 구미아시아육상경.pdf,0.55,67.622858,0.371429,0.409524,0.239059
