In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 读取数据
products_df = pd.read_excel('日化.xlsx', sheet_name='商品信息表')
orders_df = pd.read_excel('日化.xlsx', sheet_name='订单信息表')

# 数据清洗
# 检查缺失值
print(products_df.isnull().sum())
print(orders_df.isnull().sum())

# 填充缺失值（示例：用0填充）
products_df.fillna(0, inplace=True)
orders_df.fillna(0, inplace=True)

# 数据类型转换
orders_df['订单日期'] = pd.to_datetime(orders_df['订单日期'], errors='coerce')

# 异常值处理（示例：去除销售单价为负的记录）
orders_df = orders_df[orders_df['订购单价'] > 0]

# 数据合并
merged_df = pd.merge(orders_df, products_df, on='商品编号')

# 销售总额分析
sales_summary = merged_df.groupby('商品名')['金额'].sum().reset_index()
sales_summary = sales_summary.sort_values(by='金额', ascending=False)

# 销售趋势分析
monthly_sales = merged_df.resample('M', on='订单日期')['金额'].sum()

# 客户分布分析
customer_distribution = merged_df.groupby('所在区域')['客户编码'].nunique()

# 区域市场分析
region_sales = merged_df.groupby('所在区域')['金额'].sum()

# 商品分类分析
category_sales = merged_df.groupby('商品小类')['金额'].sum()

# 数据可视化
plt.figure(figsize=(12, 6))
sns.barplot(x='商品名', y='金额', data=sales_summary.head(10))
plt.title('Top 10 商品销售总额')
plt.xticks(rotation=45)
plt.show()

plt.figure(figsize=(12, 6))
monthly_sales.plot()
plt.title('月度销售趋势')
plt.xlabel('日期')
plt.ylabel('销售额')
plt.show()

plt.figure(figsize=(12, 6))
sns.barplot(x=customer_distribution.index, y=customer_distribution.values)
plt.title('客户分布')
plt.show()

plt.figure(figsize=(12, 6))
sns.barplot(x=region_sales.index, y=region_sales.values)
plt.title('区域销售总额')
plt.show()

plt.figure(figsize=(12, 6))
sns.barplot(x=category_sales.index, y=category_sales.values)
plt.title('商品小类销售总额')
plt.xticks(rotation=45)
plt.show()

# 数据分析框架

## 数据理解

### 商品信息表
- **字段**：商品编号、商品名、商品小类、商品大类、销售单价
- **用途**：分析商品的分类和定价策略

### 订单信息表
- **字段**：订单编码、订单日期、客户编码、所在区域、省份、城市、商品编号、订购数量、订购单价、金额
- **用途**：分析销售情况、客户分布和区域市场

## 分析思路

### 1. 数据清洗
- **缺失值处理**：检查并处理缺失值。
- **数据类型转换**：确保日期等字段的数据类型正确。
- **异常值检测**：识别并处理异常值。

### 2. 数据合并
- 使用商品编号作为外键，将商品信息表和订单信息表合并。

### 3. 销售分析
- **销售总额**：计算每个商品的总销售额，识别畅销商品。
- **销售趋势**：按月或季度分析销售额，识别销售高峰期和低谷期。

### 4. 客户分析
- **客户分布**：分析客户在不同区域、省份和城市的分布，识别主要市场。
- **客户贡献**：计算每个客户的总购买金额，识别重要客户。

### 5. 区域市场分析
- **区域销售**：分析不同区域的销售额，识别市场潜力。
- **省份和城市销售**：深入分析省份和城市的销售情况，识别重点市场。

### 6. 商品分析
- **商品分类**：分析不同商品小类和大类的销售情况，识别热门商品类别。
- **库存管理**：根据销售数据预测需求，优化库存管理。

## 数据处理步骤

1. **数据清洗**：处理缺失值、数据类型转换和异常值。
2. **数据合并**：将商品信息表和订单信息表合并，便于综合分析。
3. **数据可视化**：使用图表展示销售趋势、客户分布和区域市场情况。

## 工具和技术

- **Excel**：用于初步的数据清洗和简单分析。
- **Python/Pandas**：用于复杂的数据处理和分析。
- **数据可视化工具**：如Matplotlib、Seaborn或Tableau，用于生成图表。
