<a href="https://colab.research.google.com/github/masterlyj/MedicalGPT/blob/main/data/eval/C_Evalmedical%E6%95%B0%E6%8D%AE%E9%9B%86.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Google Colab 教程：加载与分析 C-Eval (临床医学) 数据集

### 第一步：加载特定学科的数据集

C-Eval 包含 52 个学科。根据需求，我们这里指定加载 `clinical_medicine`（临床医学）子集。

In [None]:
from datasets import load_dataset

# 1. 定义数据集名称和子集名称
dataset_name = "ceval/ceval-exam"
subset_name = "clinical_medicine"

print(f"正在加载 {subset_name} 数据集，请稍候...")

# 2. 加载数据
dataset = load_dataset(dataset_name, name=subset_name)

# 3. 查看数据集的整体结构
print("\n数据集加载成功！结构如下：")
print(dataset)

**预期输出解释：**

* **dev**: 开发集（少量带解析的样本，用于 Few-shot 演示）
* **val**: 验证集（带答案，通常用于测试）
* **test**: 测试集（用于最终评分）

### 第二步：使用 Pandas 进行表格化浏览

直接看原始数据比较乱，转换成 Pandas DataFrame 可以像 Excel 一样清晰地查看数据。我们这里查看 **测试集 (test)** 的数据。

In [None]:
import pandas as pd

# 1. 将 'test' 分割转换为 Pandas DataFrame
df_test = pd.DataFrame(dataset['test'])

# 2. 设置 Pandas 显示选项，防止长文本被截断
pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_columns', None)

# 3. 显示前 5 行数据
print("=== 测试集 (test) 前 5 条数据预览 ===")
display(df_test.head())

# 4. 查看数据量
print(f"\n该学科验证集总题数: {len(df_test)}")

### 第三步：深入解析单道题目（模拟考试视图）

让我们提取一道具体的题目，按照人类阅读考试题的习惯格式化打印出来。这有助于你理解数据字段的含义。

In [None]:
# 获取验证集的第一道题
sample_item = dataset['val'][0]

def print_exam_question(item):
    print("="*40)
    print(f"题目 ID: {item['id']}")
    print("="*40)
    print(f"【问题】:\n{item['question']}")
    print("-"*40)
    print(f"A. {item['A']}")
    print(f"B. {item['B']}")
    print(f"C. {item['C']}")
    print(f"D. {item['D']}")
    print("-"*40)
    print(f"【正确答案】: {item['answer']}")

    # 验证集通常explanation为空，只有dev集才有详细解释
    if item['explanation']:
        print(f"【解析】:\n{item['explanation']}")
    else:
        print("【解析】: (当前 split 无解析)")
    print("="*40)

# 打印示例
print_exam_question(sample_item)

### 第四步：查看带解析的样本 (Dev Set)

根据官方文档，`dev` 集包含了带有详细解释（Explanation）的样本，这对于让大模型学习解题思路非常重要。

In [None]:
# 查看 dev 集的第一条数据，看看 'explanation' 字段长什么样
dev_item = dataset['dev'][0]

print("=== Dev 集样本（包含解析） ===")
print_exam_question(dev_item)

### 第五步： 将数据下载为 jsonl 文件
可以运行以下代码将数据保存并下载。

In [None]:
import pandas as pd
from google.colab import files

target_df = df_test

# 定义文件名
jsonl_filename = 'ceval_clinical_medicine_test.jsonl'
target_df.to_json(jsonl_filename, orient='records', lines=True, force_ascii=False)

print(f"{jsonl_filename} 已生成。")

try:
    files.download(jsonl_filename)
    print("正在下载文件到本地...")
except Exception as e:
    print(f"自动下载失败: {e}，请在左侧文件栏手动下载。")

### 第六步： 下载`Physician`和`Basuc Medicine`数据

In [None]:
dataset_name = "ceval/ceval-exam"
subset_name = "basic_medicine"

dataset = load_dataset(dataset_name, name=subset_name)
df_test = pd.DataFrame(dataset['test'])

jsonl_filename = 'ceval_basic_medical_test.jsonl'
df_test.to_json(jsonl_filename, orient='records', lines=True, force_ascii=False)
files.download(jsonl_filename)

In [None]:
dataset_name = "ceval/ceval-exam"
subset_name = "physician"

dataset = load_dataset(dataset_name, name=subset_name)
df_test = pd.DataFrame(dataset['test'])

jsonl_filename = 'ceval_physician_test.jsonl'
df_test.to_json(jsonl_filename, orient='records', lines=True, force_ascii=False)
files.download(jsonl_filename)