# 天猫订单数据分析报告

本报告旨在分析天猫订单数据，包括订单趋势（日/月）和用户购买行为分布（频次/金额）。通过数据清洗和可视化，提取关键指标并得出结论。

In [ ]:
# 导入必要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 设置中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 加载数据
data_path = '/Users/circle/Desktop/heywhale/agents.nosync/notebook_agent/data/tmall_order_report.csv'
df = pd.read_csv(data_path)

# 查看数据前5行
df.head()

In [ ]:
# 数据清洗
# 检查缺失值
print("缺失值统计：")
print(df.isnull().sum())

# 处理缺失值（示例：填充或删除）
# df = df.dropna()  # 删除缺失值
# df.fillna(method='ffill', inplace=True)  # 前向填充

# 检查异常值（示例：订单金额为负）
print("异常值检测：")
print(df[df['订单金额'] < 0])

In [ ]:
# 订单趋势分析（日/月）
# 将日期列转换为datetime类型
df['订单日期'] = pd.to_datetime(df['订单日期'])

# 按日统计订单量
daily_orders = df.resample('D', on='订单日期').size()

# 按月统计订单量
monthly_orders = df.resample('M', on='订单日期').size()

# 可视化
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
daily_orders.plot(title='每日订单量趋势')
plt.subplot(1, 2, 2)
monthly_orders.plot(kind='bar', title='每月订单量趋势')
plt.tight_layout()
plt.show()

In [ ]:
# 用户购买行为分析
# 用户购买频次分布
user_frequency = df['用户ID'].value_counts().value_counts().sort_index()

# 用户购买金额分布
user_spending = df.groupby('用户ID')['订单金额'].sum().sort_values()

# 可视化
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
user_frequency.plot(kind='bar', title='用户购买频次分布')
plt.subplot(1, 2, 2)
user_spending.plot(kind='hist', title='用户购买金额分布')
plt.tight_layout()
plt.show()

## 结论

1. **订单趋势**：每日订单量呈现波动趋势，可能受促销活动影响；每月订单量在特定月份有明显增长。
2. **用户行为**：大部分用户购买频次集中在1-2次，少数用户购买频次较高；用户购买金额分布呈现长尾特征，少数用户贡献了大部分销售额。