In [1]:
import pandas as pd
import random

# 文件路径
file1 = "custom/data/simplelr_abel_level3to5/test.parquet"
file2 = "custom/data/simplelr_qwen_level3to5/test.parquet"

# 读取两个文件
df1 = pd.read_parquet(file1)
df2 = pd.read_parquet(file2)

# 第一步：查看两个文件的列名
def show_columns():
    """显示两个文件的列名信息"""
    print("📊 文件1 (simplelr_abel) 列名:")
    print(df1.columns.tolist())
    
    print("\n📊 文件2 (simplelr_qwen) 列名:")
    print(df2.columns.tolist())
    
    # 找出共有的列
    common_cols = set(df1.columns) & set(df2.columns)
    print("\n🔍 两个文件共有的列:")
    print(list(common_cols))
    
    # 找出各自独有的列
    unique_to_df1 = set(df1.columns) - set(df2.columns)
    unique_to_df2 = set(df2.columns) - set(df1.columns)
    
    print("\n🚫 文件1独有的列:")
    print(list(unique_to_df1) if unique_to_df1 else "无")
    
    print("\n🚫 文件2独有的列:")
    print(list(unique_to_df2) if unique_to_df2 else "无")

# 第二步：对比指定列的样本
def compare_samples_by_idx(idx=None, compare_col='prompt'):
    """
    对比两个文件中相同索引的数据
    :param idx: 指定索引，如果为None则随机选择
    :param compare_col: 要对比的列名
    """
    # 检查列是否存在
    if compare_col not in df1.columns or compare_col not in df2.columns:
        print(f"⚠️ 列 '{compare_col}' 在至少一个文件中不存在！")
        print("请使用 show_columns() 查看可用列名")
        return
    
    # 如果没有指定idx，则随机选择一个共有的idx
    if idx is None:
        common_indices = set(df1.index) & set(df2.index)
        if not common_indices:
            print("⚠️ 两个文件没有共同的索引！")
            return
        idx = random.choice(list(common_indices))
    
    print(f"\n🔍 对比索引 [{idx}] 的 [{compare_col}] 列:")
    
    # 获取两个文件的数据
    data1 = df1.loc[idx] if idx in df1.index else None
    data2 = df2.loc[idx] if idx in df2.index else None
    
    # 显示对比结果
    print("\n📁 文件1 (simplelr_abel):")
    if data1 is not None and compare_col in data1:
        display_sample(data1[compare_col], idx)
    else:
        print("❌ 数据不存在")
    
    print("\n📁 文件2 (simplelr_qwen):")
    if data2 is not None and compare_col in data2:
        display_sample(data2[compare_col], idx)
    else:
        print("❌ 数据不存在")

def display_sample(content, idx):
    """美化显示样本内容"""
    print(f"索引: {idx}")
    if isinstance(content, list):
        print("(列表类型)")
        for i, item in enumerate(content, 1):
            if isinstance(item, dict):
                print(f"\n项 {i}:")
                for k, v in item.items():
                    print(f"  {k}: {str(v)[:150]}...")
            else:
                print(f"项 {i}: {str(item)[:200]}...")
    elif isinstance(content, dict):
        print("(字典类型)")
        for k, v in content.items():
            print(f"{k}: {str(v)[:150]}...")
    else:
        print(str(content)[:500] + "..." if len(str(content)) > 500 else str(content))



In [2]:

# 1. 首先查看列名
print("="*80)
print("第一步：查看文件列名")
print("="*80)
show_columns()



第一步：查看文件列名
📊 文件1 (simplelr_abel) 列名:
['solution', 'subject', 'level', 'unique_id', 'data_source', 'prompt', 'ability', 'reward_model', 'extra_info']

📊 文件2 (simplelr_qwen) 列名:
['solution', 'subject', 'level', 'unique_id', 'data_source', 'prompt', 'ability', 'reward_model', 'extra_info']

🔍 两个文件共有的列:
['level', 'subject', 'unique_id', 'prompt', 'ability', 'data_source', 'extra_info', 'solution', 'reward_model']

🚫 文件1独有的列:
无

🚫 文件2独有的列:
无


In [3]:
# 2. 然后选择要对比的列
print("\n" + "="*80)
print("第二步：对比样本数据")
print("="*80)

# 示例：随机对比5个样本（使用'prompt'列）
for _ in range(5):
    compare_samples_by_idx(compare_col='level')
    print("\n" + "="*80 + "\n")

# 也可以指定其他列进行对比
# compare_samples_by_idx(compare_col='solution')
# compare_samples_by_idx(idx=123, compare_col='response')


第二步：对比样本数据

🔍 对比索引 [317] 的 [level] 列:

📁 文件1 (simplelr_abel):
索引: 317
4

📁 文件2 (simplelr_qwen):
索引: 317
2



🔍 对比索引 [210] 的 [level] 列:

📁 文件1 (simplelr_abel):
索引: 210
4

📁 文件2 (simplelr_qwen):
索引: 210
4



🔍 对比索引 [197] 的 [level] 列:

📁 文件1 (simplelr_abel):
索引: 197
4

📁 文件2 (simplelr_qwen):
索引: 197
4



🔍 对比索引 [395] 的 [level] 列:

📁 文件1 (simplelr_abel):
索引: 395
3

📁 文件2 (simplelr_qwen):
索引: 395
2



🔍 对比索引 [216] 的 [level] 列:

📁 文件1 (simplelr_abel):
索引: 216
3

📁 文件2 (simplelr_qwen):
索引: 216
3


