# Chunked vs Merged Summary 확인

- chunked csv와 chunked_merged csv를 읽어 chunk별 요약과 병합 후 요약을 나란히 확인합니다.
- 기본 경로는 `251207001_enc=enc_guide_block_cot=cot_standard_reasoning_chunked.csv`/`..._chunked_merged.csv`로 설정되어 있습니다.
- `max_examples`를 조절해 몇 개의 fname을 볼지 정할 수 있습니다.

In [None]:
import pandas as pd
from pathlib import Path

# 기본 파일 경로 (필요하면 교체)
chunked_path = Path(
    "/root/NLP_Dialouge_Summarization/prediction/251207001_enc=enc_guide_block_cot=cot_standard_reasoning_chunked.csv"
)
merged_path = chunked_path.with_name(chunked_path.name.replace("_chunked.csv", "_chunked_merged.csv"))

max_examples = 30  # 확인할 fname 개수

chunked_df = pd.read_csv(chunked_path)
merged_df = pd.read_csv(merged_path)

unique_fnames = list(dict.fromkeys(chunked_df["fname"].tolist()))[:max_examples]
print(f"Loaded {len(chunked_df)} chunked rows, {len(merged_df)} merged rows")
print(f"Showing first {len(unique_fnames)} fname groups\n")

In [None]:
for fname in unique_fnames:
    chunk_rows = (
        chunked_df.loc[chunked_df["fname"] == fname, ["chunk_id", "summary"]]
        .sort_values("chunk_id")
        .reset_index(drop=True)
    )
    merged_row = merged_df.loc[merged_df["fname"] == fname]
    merged_summary = merged_row["summary"].iloc[0] if not merged_row.empty else "<missing>"

    print(f"=== fname: {fname} ===")
    for _, r in chunk_rows.iterrows():
        print(f"[chunk {int(r['chunk_id'])}] {r['summary']}")
    print("-- merged --")
    print(merged_summary)
    print()
