In [1]:
import numpy as np
import pandas as pd

# 练习1：
# 生成用户画像，共有3类特征及2类数值。
# 3类特征：性别（男/女/未透露），所在城市（北京/上海/广州/深圳/其他），消费水平（高/中/低）
# 2类数值：年龄(18-60)，最近活跃天数(1-30)

# 生成用户数量
num_samples = 500
DATA_FILE = "../data/user-data.csv"

# 随机种子，保证结果可复现
SEED = 42
np.random.seed(SEED)

# 定义特征及采样概率（性别、城市、消费水平）

sex_choices = ['男', '女', '未透露']
sex_probs = [0.38, 0.52, 0.10]

city_choices = ['北京', '上海', '广州', '深圳', '其他']
city_probs = [0.18, 0.17, 0.15, 0.15, 0.35]

level_choices = ['高', '中', '低']
level_probs = [0.2, 0.5, 0.3]

# 采样类别特征
sex_sample = np.random.choice(sex_choices, num_samples, p=sex_probs)
city_sample = np.random.choice(city_choices, num_samples, p=city_probs)
level_sample = np.random.choice(level_choices, num_samples, p=level_probs)

# 生成数值特征

# 年龄：正态分布，取值范围 [18, 60]，均值35。标准差8(离散程度)，数据范围35±(2×8)
age_sample = np.clip(
    np.random.normal(loc=35, scale=8, size=num_samples),
    18, 60
).astype(int)

# 最近活跃天数：指数分布，取值范围 [1, 30]。平均活跃天数7
active_days_sample = np.clip(
    np.random.exponential(scale=7, size=num_samples),
    1, 30
).astype(int)

# 将数据整合到DataFrame中
user_data = pd.DataFrame({
    '性别': sex_sample,
    '所在城市': city_sample,
    '消费水平': level_sample,
    '年龄': age_sample,
    '最近活跃天数': active_days_sample
})

# 将DataFrame保存为CSV文件
user_data.to_csv(DATA_FILE, index=False, encoding='utf-8-sig')
print(f"已生成 {num_samples} 条用户画像数据，已保存到 'user-data.csv' 文件。")


已生成 500 条用户画像数据，已保存到 'user-data.csv' 文件。
