In [2]:
# explore_purchase_behavior.py

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
'''
解决汉字乱码问题
'''
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置字体
plt.rcParams['axes.unicode_minus'] = False

# 设置Seaborn样式
sns.set(style="whitegrid")


In [5]:
# 1. 加载数据
def load_data(file_path):
    try:
        data = pd.read_csv(file_path)
        print(f"{os.path.basename(file_path)} 加载成功")
        return data
    except Exception as e:
        print(f"{os.path.basename(file_path)} 加载失败:", e)
        return None


# 2. 数据清理
def clean_data(data):
    # 检查缺失值
    missing_data = data.isnull().sum()
    print("缺失值统计:\n", missing_data[missing_data > 0])

    # 去除缺失值行（如适用）
    data = data.dropna()

    # 检查重复值
    duplicates = data.duplicated().sum()
    print("重复值数量:", duplicates)
    data = data.drop_duplicates()

    return data


# 3. 数据统计和合并
def data_statistics_and_merge(user_behavior, user_info, user_comments, purchase_info, orders):
    # 示例：统计订单数据中的购买量
    purchase_counts = user_behavior['user_id'].value_counts()
    print("每位用户的购买频率:\n", purchase_counts.describe())

    # 合并数据（假设各表中有user_id或order_id等关联字段）
    merged_data = user_behavior.merge(user_info, on='user_id', how='inner') \
        .merge(user_comments, on='user_id', how='left') \
        .merge(purchase_info, on='user_id', how='inner') \
        .merge(orders, on='order_id', how='left')
    return merged_data


# 4. 可视化
def visualize_data(data):
    plt.figure(figsize=(10, 6))

    # 用户购买频率直方图
    purchase_counts = data['user_id'].value_counts()
    sns.histplot(purchase_counts, bins=30, kde=True)
    plt.title("用户购买频率分布")
    plt.xlabel("购买次数")
    plt.ylabel("用户数量")
    plt.show()


# 主函数
def main():
    # 数据集文件路径（请将路径替换为实际路径）
    file_paths = {
         "用户行为表": "电商平台行为数据表/用户行为表.csv",
        "用户表": "电商平台行为数据表/用户表.csv",
        "用户评论表": "电商平台行为数据表/用户评论表.csv",
        "用户购买信息表": "电商平台行为数据表/用户购买信息表.csv",
        "订单表": "电商平台行为数据表/订单表.csv"
    }

    # 加载各个CSV文件
    user_behavior = load_data(file_paths["用户行为表"])
    user_info = load_data(file_paths["用户表"])
    user_comments = load_data(file_paths["用户评论表"])
    purchase_info = load_data(file_paths["用户购买信息表"])
    orders = load_data(file_paths["订单表"])

    # 数据清理
    user_behavior = clean_data(user_behavior)
    user_info = clean_data(user_info)
    user_comments = clean_data(user_comments)
    purchase_info = clean_data(purchase_info)
    orders = clean_data(orders)

    # 数据统计和合并
    merged_data = data_statistics_and_merge(user_behavior, user_info, user_comments, purchase_info, orders)

    # 数据可视化
    visualize_data(merged_data)


if __name__ == "__main__":
    main()


用户行为表.csv 加载成功
用户表.csv 加载成功
用户评论表.csv 加载成功
用户购买信息表.csv 加载成功
订单表.csv 加载成功
缺失值统计:
 复购次数    18254
dtype: int64
重复值数量: 0
缺失值统计:
 Series([], dtype: int64)
重复值数量: 0
缺失值统计:
 差评    39871
好评     1228
中评    39869
dtype: int64
重复值数量: 0
缺失值统计:
 Series([], dtype: int64)
重复值数量: 0
缺失值统计:
 商品属性     9261
套餐信息    21897
备注      21767
dtype: int64
重复值数量: 0


KeyError: 'user_id'