In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, LabelEncoder
import warnings
warnings.filterwarnings('ignore')

# 1. 加载数据
df = pd.read_excel('ed38976-edd.xlsx')  # 假设文件在当前目录

# 2. 目标列转换：disengagement_score -> engagement_score
df['engagement_score'] = 1 - df['disengagement_score']

# 3. 删除原始目标列（可选，保留也可）
df = df.drop(columns=['disengagement_score'])

# 4. 特征工程：对分类列进行编码
categorical_columns = ['experience_level', 'learning_style', 'category', 'difficulty_level', 'video_topic']

# 对每个分类列进行标签编码
label_encoders = {}
for col in categorical_columns:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col])
    label_encoders[col] = le


df = df.drop(columns=['interests'])

# 6. 确保所有列都是数值类型
df = df.apply(pd.to_numeric, errors='coerce')

# 7. 检查并处理缺失值（如果有）
if df.isnull().sum().sum() > 0:
    print("存在缺失值，用中位数填充")
    df = df.fillna(df.median())

# 8. 最大最小归一化
scaler = MinMaxScaler()
numeric_columns = df.columns.tolist()
# 排除目标列 engagement_score
if 'engagement_score' in numeric_columns:
    numeric_columns.remove('engagement_score')
    df[numeric_columns] = scaler.fit_transform(df[numeric_columns])
else:
    df[numeric_columns] = scaler.fit_transform(df[numeric_columns])

# 9. 保存到新的 Excel 文件
output_path = 'ed38976-edd_preprocess.xlsx'
df.to_excel(output_path, index=False)

print(f"数据预处理完成，已保存到：{output_path}")
print(f"总列数：{df.shape[1]}")
print(f"总行数：{df.shape[0]}")
print(f"目标列：engagement_score（范围：{df['engagement_score'].min():.3f} ~ {df['engagement_score'].max():.3f}）")

存在缺失值，用中位数填充
数据预处理完成，已保存到：ed38976-edd_preprocess.xlsx
总列数：15
总行数：14101
目标列：engagement_score（范围：0.000 ~ 1.000）


In [4]:
import pandas as pd
import numpy as np
import os
from sklearn.preprocessing import MinMaxScaler, LabelEncoder
import warnings
warnings.filterwarnings('ignore')

# 1. 加载数据
df = pd.read_excel('ed38976-edd_preprocessed.xlsx')

# 8. 创建保存数据的文件夹
output_dir = 'tabpfn_datasets'
os.makedirs(output_dir, exist_ok=True)
print(f"创建文件夹: {output_dir}")

# 9. 设置随机种子以保证可重复性
np.random.seed(42)

# 10. 定义要抽取的样本大小
sample_sizes = [100, 200, 300, 400, 500, 600, 700, 800, 900, 1000]

# 11. 检查原始数据集是否足够大
max_needed = max(sample_sizes)
if df.shape[0] < max_needed:
    print(f"警告：原始数据集只有 {df.shape[0]} 行，但需要最多 {max_needed} 行")
    # 调整样本大小到可用的最大值
    sample_sizes = [s for s in sample_sizes if s <= df.shape[0]]
    print(f"调整后的样本大小: {sample_sizes}")

# 12. 抽取并保存不同大小的数据集
print("\n开始抽取数据集...")
for size in sample_sizes:
    if size > df.shape[0]:
        print(f"跳过 {size}（数据集大小不足）")
        continue
    
    # 随机抽取指定数量的样本
    sample_df = df.sample(n=size, random_state=42)  # 固定随机种子
    
    # 保存到文件
    filename = f'tabpfn_dataset_{size}.xlsx'
    filepath = os.path.join(output_dir, filename)
    sample_df.to_excel(filepath, index=False)
    
    print(f"已保存: {filename} ({size} 行, {sample_df.shape[1]} 列)")
    
    # 输出一些统计信息
    print(f"  - 目标列范围: {sample_df['engagement_score'].min():.3f} ~ {sample_df['engagement_score'].max():.3f}")
    print(f"  - 目标列均值: {sample_df['engagement_score'].mean():.3f}")

print(f"\n所有数据集已保存到: {output_dir}/")

# 13. 可选：创建一个汇总文件
summary_df = pd.DataFrame({
    'sample_size': sample_sizes,
    'file_name': [f'tabpfn_dataset_{size}.xlsx' for size in sample_sizes],
    'available': [size <= df.shape[0] for size in sample_sizes]
})

summary_path = os.path.join(output_dir, 'dataset_summary.csv')
summary_df.to_csv(summary_path, index=False)
print(f"数据集汇总已保存到: {summary_path}")

# 14. 显示文件夹内容
print(f"\n文件夹内容:")
for file in os.listdir(output_dir):
    if file.endswith('.xlsx'):
        filepath = os.path.join(output_dir, file)
        df_temp = pd.read_excel(filepath)
        print(f"  {file}: {df_temp.shape[0]} 行, {df_temp.shape[1]} 列")

创建文件夹: tabpfn_datasets

开始抽取数据集...
已保存: tabpfn_dataset_100.xlsx (100 行, 15 列)
  - 目标列范围: 0.010 ~ 0.950
  - 目标列均值: 0.514
已保存: tabpfn_dataset_200.xlsx (200 行, 15 列)
  - 目标列范围: 0.010 ~ 0.950
  - 目标列均值: 0.517
已保存: tabpfn_dataset_300.xlsx (300 行, 15 列)
  - 目标列范围: 0.010 ~ 0.950
  - 目标列均值: 0.523
已保存: tabpfn_dataset_400.xlsx (400 行, 15 列)
  - 目标列范围: 0.010 ~ 0.970
  - 目标列均值: 0.527
已保存: tabpfn_dataset_500.xlsx (500 行, 15 列)
  - 目标列范围: 0.010 ~ 0.970
  - 目标列均值: 0.523
已保存: tabpfn_dataset_600.xlsx (600 行, 15 列)
  - 目标列范围: 0.010 ~ 0.970
  - 目标列均值: 0.523
已保存: tabpfn_dataset_700.xlsx (700 行, 15 列)
  - 目标列范围: 0.010 ~ 0.970
  - 目标列均值: 0.525
已保存: tabpfn_dataset_800.xlsx (800 行, 15 列)
  - 目标列范围: 0.000 ~ 0.970
  - 目标列均值: 0.520
已保存: tabpfn_dataset_900.xlsx (900 行, 15 列)
  - 目标列范围: 0.000 ~ 0.970
  - 目标列均值: 0.521
已保存: tabpfn_dataset_1000.xlsx (1000 行, 15 列)
  - 目标列范围: 0.000 ~ 1.000
  - 目标列均值: 0.522

所有数据集已保存到: tabpfn_datasets/
数据集汇总已保存到: tabpfn_datasets/dataset_summary.csv

文件夹内容:
  tabpfn_dataset_100.xlsx: 10