# 订单数据EDA分析报告
## 数据概览

In [ ]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 设置中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 读取数据
file_path = '/Users/circle/Desktop/heywhale/agents.nosync/notebook_agent/data/tmall_order_report.csv'
data = pd.read_csv(file_path)

# 显示数据前5行
print(data.head())

# 数据基本信息
print("\n数据基本信息:")
print(data.info())

# 缺失值统计
print("\n缺失值统计:")
print(data.isnull().sum())

## 单变量分析

In [ ]:
# 数值型变量描述性统计
print("\n数值型变量描述性统计:")
print(data.describe())

# 分类变量统计
print("\n分类变量统计:")
for column in data.select_dtypes(include=['object']).columns:
    print(f"{column}:")
    print(data[column].value_counts())
    print()

## 时间趋势分析

In [ ]:
# 假设有订单时间字段
if 'order_time' in data.columns:
    data['order_time'] = pd.to_datetime(data['order_time'])
    data['order_date'] = data['order_time'].dt.date
    data['order_month'] = data['order_time'].dt.to_period('M')
    
    # 按日订单量趋势
    daily_orders = data.groupby('order_date').size()
    plt.figure(figsize=(12, 6))
    daily_orders.plot(title='每日订单量趋势')
    plt.xlabel('日期')
    plt.ylabel('订单量')
    plt.show()
    
    # 按月订单量趋势
    monthly_orders = data.groupby('order_month').size()
    plt.figure(figsize=(12, 6))
    monthly_orders.plot(kind='bar', title='每月订单量趋势')
    plt.xlabel('月份')
    plt.ylabel('订单量')
    plt.show()

## 用户行为分析

In [ ]:
# 假设有用户ID字段
if 'user_id' in data.columns:
    # 用户购买频次
    user_frequency = data['user_id'].value_counts()
    plt.figure(figsize=(12, 6))
    sns.histplot(user_frequency, bins=30, kde=True)
    plt.title('用户购买频次分布')
    plt.xlabel('购买频次')
    plt.ylabel('用户数量')
    plt.show()
    
    # 用户客单价
    if 'order_amount' in data.columns:
        user_avg_spend = data.groupby('user_id')['order_amount'].mean()
        plt.figure(figsize=(12, 6))
        sns.histplot(user_avg_spend, bins=30, kde=True)
        plt.title('用户客单价分布')
        plt.xlabel('客单价')
        plt.ylabel('用户数量')
        plt.show()

## 相关性分析

In [ ]:
# 数值型变量相关性热力图
numeric_data = data.select_dtypes(include=['int64', 'float64'])
if len(numeric_data.columns) > 1:
    plt.figure(figsize=(10, 8))
    sns.heatmap(numeric_data.corr(), annot=True, cmap='coolwarm')
    plt.title('数值型变量相关性热力图')
    plt.show()