# K-ClassicBench: 한국 고전 문헌 이해 벤치마크

**C3Bench 기반 한국형 고전 문헌 벤치마크**

---

## 📋 프로젝트 개요

K-ClassicBench는 중국의 C3Bench를 참고하여 개발한 **한국 고전 문헌 이해를 위한 포괄적인 벤치마크**입니다.

### 🎯 목표

- 대규모 언어 모델(LLM)의 **한국 고전 한문 및 사서 데이터**에 대한 이해 능력 평가
- 5가지 핵심 태스크를 통한 **다각적 성능 측정**
- 과거시험 데이터와 사서 데이터를 활용한 **실제적이고 의미있는 평가**

### 📊 벤치마크 통계

| 항목 | 값 |
|:---|:---|
| **총 항목 수** | 7,871개 |
| **태스크 수** | 5개 |
| **지원 언어** | 고전 한문, 한국어, 영어 |
| **데이터 소스** | 과거시험 데이터, 사서(四書) |
| **버전** | 1.0 |

---

## 🎯 5가지 핵심 태스크

### 1. Classification (분류) - 808개

**목적**: 주어진 고전 문헌의 문체를 분류

- **입력**: 고전 한문 텍스트
- **출력**: 문체 레이블 (賦/詩/疑/義/策/表 등 21개 카테고리)
- **평가 지표**: Accuracy

#### 문체 분포

주요 문체:
- **賦** (부): 95개 - 서사적 산문체
- **詩** (시): 95개 - 운문체
- **疑** (의): 95개 - 의문문체
- **義** (의): 95개 - 의리를 논하는 글
- **策** (책): 95개 - 정책을 논하는 글
- **表** (표): 95개 - 임금에게 올리는 글
- **論** (논): 51개 - 논설문
- **銘** (명): 53개 - 교훈적 글
- **箋** (전): 49개 - 편지글

**예시**:
```
입력: "蓋麟云"
출력: "賦"
```

---

### 2. Retrieval (검색) - 1,209개

**목적**: 주어진 문장이 유래한 원문의 출처(Book/Chapter) 식별

- **입력**: 고전 한문 문장
- **출력**: 책 이름 + 장(章)
- **평가 지표**: Accuracy

#### 책별 분포

| 책 | 항목 수 |
|:---|---:|
| **論語** | 500 |
| **孟子** | 500 |
| **中庸** | 137 |
| **大學** | 72 |

**예시**:
```
입력: "學而時習之，不亦說乎"
출력: "論語 - 學而"
```

---

### 3. Punctuation (구두점 찍기) - 2,000개

**목적**: 구두점이 없는 백문(白文)에 적절한 구두점 복원

- **입력**: 구두점이 제거된 한글 번역문
- **출력**: 올바른 구두점이 포함된 문장
- **평가 지표**: F1 Score

#### 데이터 구성

- **사서 데이터**: 50% (1,000개)
- **과거시험 데이터**: 50% (1,000개)

**예시**:
```
입력: "공자께서말씀하시기를지혜로운자는그것에이르고어진자는그것을지킬수있으며"
출력: "공자께서 말씀하시기를, 지혜로운 자는 그것에 이르고, 어진 자는 그것을 지킬 수 있으며"
```

---

### 4. NLI (자연언어추론) - 1,854개

**목적**: 두 문장 간의 논리적 관계 판단

- **입력**: Premise (전제) + Hypothesis (가설)
- **출력**: entailment (함의) / contradiction (모순) / neutral (중립)
- **평가 지표**: Accuracy

#### 레이블 분포

| 레이블 | 항목 수 | 비율 |
|:---|---:|---:|
| **entailment** | 1,313 | 70.8% |
| **neutral** | 400 | 21.6% |
| **contradiction** | 141 | 7.6% |

#### NLI 카테고리

1. **translation_equivalence**: 번역 등가성 (원문 ↔ 번역)
2. **cross_lingual_entailment**: 언어 간 함의 (한글 ↔ 영어)
3. **cross_text_relation**: 텍스트 간 관계 (다른 문헌)
4. **negation_based**: 부정 기반 모순
5. **metaphorical_reasoning**: 비유적 추론
6. **analogical_reasoning**: 유추 추론

**예시**:
```
Premise: "禮與食孰重？" (예와 밥은 어느 것이 더 중한가?)
Hypothesis: "예의와 음식 중 어느 것이 더 중요한가?"
Label: entailment
```

---

### 5. Translation (번역) - 2,000개

**목적**: 한문, 한글, 영문 간의 번역 수행

- **입력**: 원문 (source_lang)
- **출력**: 번역문 (target_lang)
- **평가 지표**: BLEU Score

#### 언어 쌍 분포

| 언어 쌍 | 항목 수 | 비율 |
|:---|---:|---:|
| **고전 한문 → 한국어** | 1,320 | 66.0% |
| **한국어 → 영어** | 680 | 34.0% |

**예시 1 (한문→한글)**:
```
입력: "學而時習之，不亦說乎"
출력: "배우고 때때로 익히니, 또한 기쁘지 아니한가"
```

**예시 2 (한글→영문)**:
```
입력: "배우고 때때로 익히니, 또한 기쁘지 아니한가"
출력: "To learn and practice what one has learned, is this not a pleasure?"
```

---

## 📊 전체 태스크 비교

| 태스크 | 항목 수 | 비율 | 평가 지표 | 난이도 |
|:---|---:|---:|:---|:---|
| Classification | 808 | 10.3% | Accuracy | ⭐⭐ |
| Retrieval | 1,209 | 15.4% | Accuracy | ⭐⭐⭐ |
| Punctuation | 2,000 | 25.4% | F1 Score | ⭐⭐ |
| NLI | 1,854 | 23.6% | Accuracy | ⭐⭐⭐⭐ |
| Translation | 2,000 | 25.4% | BLEU | ⭐⭐⭐⭐⭐ |
| **총계** | **7,871** | **100%** | - | - |

---

## 💾 데이터 구조

### JSON 포맷 예시

#### Classification
```json
{
  "task": "classification",
  "id": "cls_0001",
  "input": "蓋麟云",
  "label": "賦",
  "question_id": "Qab67a7ae089c",
  "metadata": {
    "has_korean": true,
    "has_english": true
  }
}
```

#### Retrieval
```json
{
  "task": "retrieval",
  "id": "ret_0001",
  "input": "學而時習之，不亦說乎",
  "answer": " 論語 - 論語序說",
  "book": " 論語",
  "chapter": "論語序說",
  "metadata": {
    "has_translation": true,
    "has_comment": true
  }
}
```

#### NLI
```json
{
  "task": "nli",
  "id": "nli_0001",
  "premise": "임나라 사람이 옥려자에게 물었다. 예와 밥은 어느 것이 더 중한가?",
  "hypothesis": "옥려자는 예가 더 중요하다고 답했다.",
  "label": "entailment",
  "source": "맹자",
  "difficulty": "easy",
  "category": "direct_inference"
}
```

---

## 🚀 사용 방법

### 1. 데이터 로드

```python
import json
import pandas as pd

# JSON으로 로드
with open('benchmark/k_classic_bench/k_classic_bench_full.json', 'r', encoding='utf-8') as f:
    benchmark = json.load(f)

# CSV로 로드 (분석 편의)
df_classification = pd.read_csv('benchmark/k_classic_bench/k_classic_bench_classification.csv')
df_nli = pd.read_csv('benchmark/k_classic_bench/k_classic_bench_nli.csv')
```

### 2. 태스크별 접근

```python
# 특정 태스크만 로드
classification_data = benchmark['tasks']['classification']['data']

# 예시 출력
for item in classification_data[:5]:
    print(f"Input: {item['input']}")
    print(f"Label: {item['label']}")
    print()
```

### 3. 평가 예시

```python
from sklearn.metrics import accuracy_score, f1_score

# Classification 평가
y_true = [item['label'] for item in classification_data]
y_pred = model.predict([item['input'] for item in classification_data])
accuracy = accuracy_score(y_true, y_pred)
print(f"Classification Accuracy: {accuracy:.4f}")

# NLI 평가
nli_data = benchmark['tasks']['nli']['data']
nli_true = [item['label'] for item in nli_data]
nli_pred = model.predict_nli(nli_data)
nli_accuracy = accuracy_score(nli_true, nli_pred)
print(f"NLI Accuracy: {nli_accuracy:.4f}")
```

---

## 📈 C3Bench와의 비교

| 항목 | C3Bench | K-ClassicBench |
|:---|:---:|:---:|
| **총 항목 수** | 50,000 | 7,871 |
| **태스크 수** | 5 | 5 |
| **분류 태스크** | 10,000 (10개 분야) | 808 (21개 문체) |
| **검색 태스크** | 10,000 | 1,209 (4서) |
| **구두점 태스크** | 10,000 | 2,000 |
| **NER 태스크** | 10,000 | ❌ (NLI로 대체) |
| **NLI 태스크** | ❌ | 1,854 |
| **번역 태스크** | 10,000 | 2,000 (3개 언어) |
| **언어** | 고전 중국어, 현대 중국어 | 고전 한문, 한국어, 영어 |

### 주요 차이점

1. **NLI 태스크 추가**: C3Bench의 NER 대신 NLI(자연언어추론) 포함
2. **다국어 지원**: 한문-한글-영문 3개 언어 지원
3. **문체 세분화**: 21개의 세밀한 문체 카테고리
4. **실용적 규모**: 약 8천개 항목으로 실험 가능한 규모

---

## 🎓 데이터 출처

### 1. 과거시험 데이터 (3,348 → 2,849 항목)

- **파일**: `translated_full_20251020_212605.csv`
- **내용**: 조선시대 과거시험 문제 및 답안
- **포함 정보**:
  - question_id, category (문체)
  - abstract, content (원문 한문)
  - abstract_ko, content_ko (한글 번역)
  - abstract_en, content_en (영문 번역)

### 2. 사서(四書) 데이터 (2,624 → 2,119 항목)

- **파일**: `External_raw.csv`
- **포함 서적**:
  - 論語 (논어)
  - 孟子 (맹자)
  - 大學 (대학)
  - 中庸 (중용)
- **포함 정보**:
  - Book, Chapter, Volume, Index
  - Original (원문 한문)
  - Original_trans (한글 번역)
  - Comment (주석)

### 3. NLI 예시 데이터 (15 항목)

- **파일**: `nli_examples.json`
- **내용**: 자연언어추론 템플릿 및 예시
- **활용**: NLI 태스크 생성 시 가이드라인

---

## 🔬 생성 프로세스

### 1. 데이터 전처리

```
과거시험 데이터: 3,348 → 2,849 항목 (결측치 제거)
사서 데이터: 2,624 → 2,119 항목 (결측치 제거)
```

### 2. 태스크별 생성 전략

#### Classification (808개)
- 카테고리별 균등 샘플링 (각 95개)
- abstract 또는 content 사용

#### Retrieval (1,209개)
- 책별 균등 샘플링
- Book + Chapter 정보 포함

#### Punctuation (2,000개)
- 한글 번역문에서 구두점 제거
- 최소 길이 10자 이상 필터링
- 사서 50% + 과거시험 50%

#### NLI (1,854개)
- **Entailment (70.8%)**:
  - 원문 → 번역 관계
  - 한문 → 한글 → 영문
- **Neutral (21.6%)**:
  - 다른 책의 문장 페어링
- **Contradiction (7.6%)**:
  - 부정 표현 추가
  - 다른 카테고리 문장 조합

#### Translation (2,000개)
- 한문 → 한글 (66%)
- 한글 → 영문 (34%)

### 3. 품질 검증

- 이중 검증 (데이터 전처리 단계)
- 최소 길이 필터링
- 레이블 분포 균형 확인

---

## 📁 파일 구조

```
korean_eda/
├── benchmark/
│   └── k_classic_bench/
│       ├── k_classic_bench_full.json          (5.0 MB)
│       ├── k_classic_bench_classification.json (248 KB)
│       ├── k_classic_bench_retrieval.json      (447 KB)
│       ├── k_classic_bench_punctuation.json    (1.6 MB)
│       ├── k_classic_bench_nli.json            (1.1 MB)
│       ├── k_classic_bench_translation.json    (1.3 MB)
│       ├── k_classic_bench_classification.csv  (134 KB)
│       ├── k_classic_bench_retrieval.csv       (239 KB)
│       ├── k_classic_bench_punctuation.csv     (1.3 MB)
│       ├── k_classic_bench_nli.csv             (774 KB)
│       ├── k_classic_bench_translation.csv     (952 KB)
│       └── README.md                           (4.4 KB)
├── notebook/experiments/
│   ├── k_classic_bench_generator.py            (생성 스크립트)
│   ├── k_classic_bench_summary.ipynb           (본 문서)
│   └── 4번실험.ipynb                           (C3Bench 제안서)
└── data/
    ├── External_raw.csv                        (사서 데이터)
    └── translated_full_20251020_212605.csv     (과거시험 데이터)
```

---

## 🔮 향후 계획

### Phase 1: 벤치마크 확장 (목표: 10,000+ 항목)
- [ ] Classification: 1,000개로 증가 (더 많은 문체)
- [ ] Retrieval: 2,000개로 증가 (오경 추가)
- [ ] NER 태스크 추가 (인명, 지명, 관직명 등)

### Phase 2: 품질 개선
- [ ] 전문가 검증 (고전문헌학자)
- [ ] NLI Contradiction 샘플 품질 향상
- [ ] 난이도 레이블링 추가

### Phase 3: 평가 실험
- [ ] 주요 LLM 평가 (GPT-4, Claude, Gemini 등)
- [ ] 한국어 특화 모델 평가 (HyperCLOVA X, EXAONE 등)
- [ ] 베이스라인 모델 구축

### Phase 4: 공개 및 배포
- [ ] GitHub 공개 저장소
- [ ] Hugging Face Datasets 등록
- [ ] 리더보드 구축
- [ ] 논문 작성 및 투고

---

## 📜 라이선스 및 인용

### 인용 방법

```bibtex
@misc{k_classic_bench_2024,
  title={K-ClassicBench: Korean Classical Literature Understanding Benchmark},
  author={[Your Name]},
  year={2024},
  note={Inspired by C3Bench},
  url={https://github.com/[your-repo]/k-classic-bench}
}
```

### 참고 문헌

- **C3Bench**: Sun et al., "C3Bench: A Comprehensive Classical Chinese Understanding Benchmark for Large Language Models"

---

## 📧 문의

벤치마크 관련 문의사항은 이메일로 연락 주시기 바랍니다.

---

**생성일**: 2024-10-21

**버전**: 1.0


---

## 📊 데이터 로드 및 탐색


In [None]:
import json
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter

# 한글 폰트 설정
plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['axes.unicode_minus'] = False

print("✅ 라이브러리 로드 완료")

In [None]:
# 전체 벤치마크 로드
with open('../../benchmark/k_classic_bench/k_classic_bench_full.json', 'r', encoding='utf-8') as f:
    benchmark = json.load(f)

print("📋 벤치마크 정보:")
print(f"  - 이름: {benchmark['benchmark_info']['name']}")
print(f"  - 총 항목 수: {benchmark['benchmark_info']['total_size']:,}개")
print(f"  - 태스크 수: {len(benchmark['benchmark_info']['tasks'])}개")
print(f"  - 지원 언어: {', '.join(benchmark['benchmark_info']['languages'])}")

In [None]:
# CSV 데이터 로드
df_classification = pd.read_csv('../../benchmark/k_classic_bench/k_classic_bench_classification.csv')
df_retrieval = pd.read_csv('../../benchmark/k_classic_bench/k_classic_bench_retrieval.csv')
df_punctuation = pd.read_csv('../../benchmark/k_classic_bench/k_classic_bench_punctuation.csv')
df_nli = pd.read_csv('../../benchmark/k_classic_bench/k_classic_bench_nli.csv')
df_translation = pd.read_csv('../../benchmark/k_classic_bench/k_classic_bench_translation.csv')

print("✅ 모든 태스크 데이터 로드 완료")
print(f"  - Classification: {len(df_classification):,} 항목")
print(f"  - Retrieval: {len(df_retrieval):,} 항목")
print(f"  - Punctuation: {len(df_punctuation):,} 항목")
print(f"  - NLI: {len(df_nli):,} 항목")
print(f"  - Translation: {len(df_translation):,} 항목")

## 📈 데이터 시각화


In [None]:
# 태스크별 항목 수 분포
task_sizes = {
    'Classification': len(df_classification),
    'Retrieval': len(df_retrieval),
    'Punctuation': len(df_punctuation),
    'NLI': len(df_nli),
    'Translation': len(df_translation)
}

plt.figure(figsize=(10, 6))
plt.bar(task_sizes.keys(), task_sizes.values(), color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#FFA07A', '#98D8C8'])
plt.title('K-ClassicBench 태스크별 항목 수 분포', fontsize=16, fontweight='bold')
plt.xlabel('태스크', fontsize=12)
plt.ylabel('항목 수', fontsize=12)
plt.xticks(rotation=15)
for i, (task, size) in enumerate(task_sizes.items()):
    plt.text(i, size + 50, f'{size:,}', ha='center', fontsize=11, fontweight='bold')
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Classification 문체 분포
classification_counts = df_classification['label'].value_counts().head(10)

plt.figure(figsize=(12, 6))
classification_counts.plot(kind='barh', color='#FF6B6B')
plt.title('Classification: 문체별 분포 (Top 10)', fontsize=14, fontweight='bold')
plt.xlabel('항목 수', fontsize=12)
plt.ylabel('문체', fontsize=12)
plt.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# NLI 레이블 분포
nli_counts = df_nli['label'].value_counts()

plt.figure(figsize=(8, 8))
plt.pie(nli_counts.values, labels=nli_counts.index, autopct='%1.1f%%', 
        colors=['#4ECDC4', '#FFA07A', '#FF6B6B'], startangle=90)
plt.title('NLI: 레이블 분포', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

print("\n레이블별 항목 수:")
for label, count in nli_counts.items():
    print(f"  {label}: {count:,}개 ({count/len(df_nli)*100:.1f}%)")

In [None]:
# Translation 언어 쌍 분포
df_translation['lang_pair'] = df_translation['source_lang'] + ' → ' + df_translation['target_lang']
translation_counts = df_translation['lang_pair'].value_counts()

plt.figure(figsize=(10, 5))
translation_counts.plot(kind='bar', color='#98D8C8')
plt.title('Translation: 언어 쌍 분포', fontsize=14, fontweight='bold')
plt.xlabel('언어 쌍', fontsize=12)
plt.ylabel('항목 수', fontsize=12)
plt.xticks(rotation=15)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

## 💡 데이터 예시


In [None]:
print("📋 Classification 예시:")
print("=" * 70)
for i, row in df_classification.head(3).iterrows():
    print(f"\n[{i+1}] ID: {row['id']}")
    print(f"입력: {row['input'][:100]}...")
    print(f"레이블: {row['label']}")
    print("-" * 70)

In [None]:
print("🧠 NLI 예시:")
print("=" * 70)
for i, row in df_nli.head(3).iterrows():
    print(f"\n[{i+1}] ID: {row['id']}")
    print(f"Premise: {row['premise'][:80]}...")
    print(f"Hypothesis: {row['hypothesis'][:80]}...")
    print(f"Label: {row['label']}")
    print(f"Category: {row['category']}")
    print("-" * 70)

In [None]:
print("🌐 Translation 예시:")
print("=" * 70)
for i, row in df_translation.head(3).iterrows():
    print(f"\n[{i+1}] ID: {row['id']}")
    print(f"Source ({row['source_lang']}): {row['source_text'][:80]}...")
    print(f"Target ({row['target_lang']}): {row['target_text'][:80]}...")
    print("-" * 70)

## 📊 상세 통계


In [None]:
# 텍스트 길이 통계
df_classification['input_length'] = df_classification['input'].apply(len)
df_nli['premise_length'] = df_nli['premise'].apply(len)
df_nli['hypothesis_length'] = df_nli['hypothesis'].apply(len)
df_translation['source_length'] = df_translation['source_text'].apply(len)

print("📏 텍스트 길이 통계:")
print("\nClassification (입력):")
print(f"  평균: {df_classification['input_length'].mean():.1f}자")
print(f"  중앙값: {df_classification['input_length'].median():.1f}자")
print(f"  최소/최대: {df_classification['input_length'].min()}자 / {df_classification['input_length'].max()}자")

print("\nNLI (Premise):")
print(f"  평균: {df_nli['premise_length'].mean():.1f}자")
print(f"  중앙값: {df_nli['premise_length'].median():.1f}자")

print("\nTranslation (Source):")
print(f"  평균: {df_translation['source_length'].mean():.1f}자")
print(f"  중앙값: {df_translation['source_length'].median():.1f}자")

---

## ✅ 결론

K-ClassicBench v1.0이 성공적으로 생성되었습니다!

### 주요 성과

✅ **총 7,871개 항목** 생성

✅ **5가지 핵심 태스크** 구성
- Classification (808개)
- Retrieval (1,209개)
- Punctuation (2,000개)
- NLI (1,854개)
- Translation (2,000개)

✅ **다양한 데이터 소스** 활용
- 과거시험 데이터
- 사서(四書) 데이터
- NLI 템플릿

✅ **3개 언어 지원**: 고전 한문, 한국어, 영어

### 다음 단계

1. **벤치마크 확장**: 10,000+ 항목 목표
2. **품질 개선**: 전문가 검증
3. **LLM 평가**: 주요 모델 성능 측정
4. **공개 배포**: GitHub, Hugging Face

---

**K-ClassicBench v1.0**

_한국 고전 문헌 이해의 새로운 기준_
