In [3]:
import pandas as pd
import numpy as np
from sklearn.utils import shuffle

# 设置随机种子确保结果可复现
np.random.seed(42)

# 学生类别及其比例
categories = {
    '学霸': {'size': 60, 'mean': 85, 'std': 5},
    '优秀学生': {'size': 90, 'mean': 75, 'std': 8},
    '一般学生': {'size': 90, 'mean': 60, 'std': 10},
    '学渣': {'size': 60, 'mean': 45, 'std': 12}
}

# 初始化数据
data = []

# 为每个类别生成数据
for cat, params in categories.items():
    size = params['size']
    mean = params['mean']
    std = params['std']
    
    # 生成 exam1 和 exam2 成绩（正态分布，截断在0-100之间）
    exam1 = np.clip(np.random.normal(mean, std, size), 0, 100)
    exam2 = np.clip(np.random.normal(mean, std, size), 0, 100)
    
    # 计算综合得分（加权平均）
    combined_score = 0.6 * exam1 + 0.4 * exam2
    
    # 根据综合得分确定第三科通过概率（加入随机波动）
    base_probability = combined_score / 100
    random_fluctuation = np.random.uniform(-0.1, 0.1, size)
    pass_probability = np.clip(base_probability + random_fluctuation, 0, 1)
    
    # 生成通过标签（0=未通过，1=通过）
    pass_label = np.random.binomial(1, pass_probability)
    
    # 添加到数据列表
    for i in range(size):
        data.append({
            'exam1': round(exam1[i], 1),
            'exam2': round(exam2[i], 1),
            'pass': pass_label[i]
        })

# 打乱数据顺序
df = pd.DataFrame(data)
df = shuffle(df).reset_index(drop=True)

# 保存到本地（可选）
df.to_excel('student_scores_simplified.xlsx', index=False)

print(f"数据已生成，共 {len(df)} 条记录")
print("\n数据基本统计：")
print(df.describe())

# 显示数据前几行
df.head()

数据已生成，共 300 条记录

数据基本统计：
            exam1       exam2        pass
count  300.000000  300.000000  300.000000
mean    66.746667   67.085333    0.663333
std     15.585021   16.223930    0.473359
min     26.800000   18.600000    0.000000
25%     55.350000   55.650000    0.000000
50%     68.550000   69.350000    1.000000
75%     80.125000   80.500000    1.000000
max     94.300000   97.300000    1.000000


Unnamed: 0,exam1,exam2,pass
0,57.8,30.0,1
1,87.7,86.6,1
2,52.8,58.4,0
3,88.1,74.9,1
4,94.3,89.8,1
