In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

# 练习3：
# 使用练习1中的数据，分层抽样法体验，高保真分层划分
# 针对消费水平这一特征，查看原始占比
# 使用分层抽样法，按消费水平划分训练集与测试集：80/20，查看划分后每个部分中消费水平所占比例，与原始占比基本一致。

DATA_FILE = "../data/user-data.csv"

#读取数据
data_train = pd.read_csv(DATA_FILE)

# 按消费水平分层抽样，80%训练集，20%测试集
train_set, test_set = train_test_split(
    data_train, 
    test_size=0.2, 
    random_state=42,
    stratify=data_train["消费水平"]  # 关键：按消费水平分层抽样
)

# 计算原始数据中各消费水平的占比
original_percent = data_train["消费水平"].value_counts(normalize=True).sort_index()

# 计算训练集各消费水平的占比
train_percent = train_set["消费水平"].value_counts(normalize=True).sort_index()

# 计算测试集各消费水平的占比
test_percent = test_set["消费水平"].value_counts(normalize=True).sort_index()

# 创建对比表格
comparison = pd.DataFrame({
    '原始占比': original_percent,
    '训练集占比': train_percent,
    '测试集占比': test_percent
}).fillna(0)  # 填充可能缺失的值（某些类别在测试集中可能为0）

print("\n【对比总结】")
print(comparison)


【对比总结】
       原始占比   训练集占比  测试集占比
消费水平                      
中     0.482  0.4825   0.48
低     0.322  0.3225   0.32
高     0.196  0.1950   0.20
