In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

plt.rcParams['font.sans-serif'] = ['WenQuanYi Micro Hei']  # 例如，设置为黑体，适用于中文
plt.rcParams['axes.unicode_minus'] = False    # 正确显示负号

# 练习2：
# 使用练习1中的数据，简单留出法体验
# 针对消费水平这一特征，查看原始占比
# 简单常规的划分训练集与测试集：80/20，查看划分后每个部分中消费水平所占比例，一定会有偏差。

DATA_FILE = "../data/user-data.csv"

# 读取数据
data_train = pd.read_csv(DATA_FILE)

In [2]:
# 画直方图
def plot_percentage_bar(percentages, title='分布图', xlabel='类别', ylabel='占比', 
                       color='skyblue', alpha=0.7, rotation=45, figsize=(10, 6)):
    """
    绘制带百分比标签的条形图
    
    参数:
    percentages -- Pandas Series对象，索引为类别，值为占比(0-1之间的小数)
    title -- 图表标题 (默认为'分布图')
    xlabel -- X轴标签 (默认为'类别')
    ylabel -- Y轴标签 (默认为'占比')
    color -- 条形颜色 (默认为'skyblue')
    alpha -- 透明度 (默认为0.7)
    rotation -- X轴标签旋转角度 (默认为45度)
    figsize -- 图表尺寸 (默认为(10, 6))
    """
    # 创建图表
    fig, ax = plt.subplots(figsize=figsize)
    
    # 绘制条形图
    percentages.plot(kind='bar', ax=ax, color=color, alpha=alpha)
    
    # 添加百分比标签
    for p in ax.patches:
        height = p.get_height()
        # 确保高度有效（非NaN且大于0）
        if not np.isnan(height) and height > 0:
            ax.annotate(f'{height:.1%}', 
                        (p.get_x() + p.get_width() / 2., height),
                        ha='center', va='center', 
                        xytext=(0, 5), 
                        textcoords='offset points',
                        fontsize=9)  # 可以调整字体大小
    
    # 设置标题和标签
    plt.title(title, fontsize=14)
    plt.xlabel(xlabel, fontsize=12)
    plt.ylabel(ylabel, fontsize=12)
    
    # 旋转X轴标签
    plt.xticks(rotation=rotation)
    
    # 调整布局
    plt.tight_layout()
    
    # 显示网格线（可选）
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    
    # 返回图表对象，以便进一步操作
    return fig, ax

In [3]:
# 计算每个类别的比例
original_percent = data_train["消费水平"].value_counts(normalize=True).sort_index()

# # 绘制条形图
# ax = original_percent.plot(kind='bar', figsize=(10, 6), color='skyblue', alpha=0.7)

# # 添加百分比标签
# for p in ax.patches:
#     height = p.get_height()
#     ax.annotate(f'{height:.1%}', 
#                 (p.get_x() + p.get_width() / 2., height),
#                 ha='center', va='center', 
#                 xytext=(0, 5), 
#                 textcoords='offset points')

# plt.title('全部样本-消费水平分布')
# plt.xlabel('消费水平')
# plt.ylabel('占比')
# plt.xticks(rotation=45)  # 旋转x轴标签
# plt.tight_layout()
# plt.show()

In [4]:
# 随机划分训练集和测试集
train_set, test_set = train_test_split(data_train, test_size=0.2, random_state=42, shuffle=True)

# 计算每个类别的比例
train_percent = train_set["消费水平"].value_counts(normalize=True).sort_index()
# plot_percentage_bar(train_percent, title="训练集-消费水平占比")
# plt.show()

# 计算每个类别的比例
test_percent = test_set["消费水平"].value_counts(normalize=True).sort_index()
# plot_percentage_bar(test_percent, title="测试集-消费水平占比")
# plt.show()

# 创建对比表格
comparison = pd.DataFrame({
    '原始占比': original_percent,
    '训练集占比': train_percent,
    '测试集占比': test_percent
}).fillna(0)  # 填充可能缺失的值（某些类别在测试集中可能为0）

print(comparison)

       原始占比   训练集占比  测试集占比
消费水平                      
中     0.482  0.4625   0.56
低     0.322  0.3250   0.31
高     0.196  0.2125   0.13
