# 巧克力销售数据分析

## 数据概述
本数据集包含2022年全球巧克力销售记录，涵盖不同国家、产品和销售人员的信息。

### 数据字段
- **Sales Person**: 销售人员姓名
- **Country**: 销售国家
- **Product**: 产品名称
- **Date**: 销售日期
- **Amount**: 销售金额
- **Boxes Shipped**: 发货盒数

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

# 设置显示中文字体
plt.rcParams['font.sans-serif'] = ['SimHei', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False

# 读取数据
df = pd.read_csv('Chocolate Sales (2).csv')

# 显示前几行数据
print("数据集形状:", df.shape)
print("\n前5行数据:")
df.head()

In [None]:
# 数据预处理
# 清理Amount列，去除$符号和逗号
df['Amount'] = df['Amount'].str.replace('$', '').str.replace(',', '').astype(float)

# 转换日期格式
df['Date'] = pd.to_datetime(df['Date'], format='%d/%m/%Y')

# 提取年、月信息
df['Year'] = df['Date'].dt.year
df['Month'] = df['Date'].dt.month
df['Month_Name'] = df['Date'].dt.month_name()

print("数据类型:")
print(df.dtypes)
print("\n缺失值统计:")
print(df.isnull().sum())
print("\n数据描述统计:")
print(df.describe())

## 数据分析结果

### 1. 整体销售概况

In [None]:
# 销售总额和总订单数
total_sales = df['Amount'].sum()
total_orders = df.shape[0]
avg_order_value = df['Amount'].mean()
total_boxes = df['Boxes Shipped'].sum()

print(f"销售总额: ${total_sales:,.2f}")
print(f"总订单数: {total_orders:,}")
print(f"平均订单金额: ${avg_order_value:,.2f}")
print(f"总发货盒数: {total_boxes:,}")
print(f"平均每盒单价: ${total_sales/total_boxes:,.2f}")

### 2. 按国家销售分析

In [None]:
# 按国家统计
country_stats = df.groupby('Country').agg({
    'Amount': ['sum', 'mean', 'count'],
    'Boxes Shipped': 'sum'
}).round(2)
country_stats.columns = ['总销售额', '平均订单金额', '订单数', '总盒数']
country_stats = country_stats.sort_values('总销售额', ascending=False)

print("各国销售统计:")
print(country_stats)

In [None]:
# 按国家销售可视化
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# 销售额对比
country_stats['总销售额'].plot(kind='bar', ax=axes[0, 0], color='steelblue')
axes[0, 0].set_title('各国总销售额')
axes[0, 0].set_ylabel('金额 ($)')
axes[0, 0].tick_params(axis='x', rotation=45)

# 订单数对比
country_stats['订单数'].plot(kind='bar', ax=axes[0, 1], color='coral')
axes[0, 1].set_title('各国订单数')
axes[0, 1].set_ylabel('订单数')
axes[0, 1].tick_params(axis='x', rotation=45)

# 平均订单金额
country_stats['平均订单金额'].plot(kind='bar', ax=axes[1, 0], color='lightgreen')
axes[1, 0].set_title('各国平均订单金额')
axes[1, 0].set_ylabel('金额 ($)')
axes[1, 0].tick_params(axis='x', rotation=45)

# 总盒数
country_stats['总盒数'].plot(kind='bar', ax=axes[1, 1], color='purple')
axes[1, 1].set_title('各国总发货盒数')
axes[1, 1].set_ylabel('盒数')
axes[1, 1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

### 3. 按产品销售分析

In [None]:
# 按产品统计
product_stats = df.groupby('Product').agg({
    'Amount': ['sum', 'mean', 'count'],
    'Boxes Shipped': 'sum'
}).round(2)
product_stats.columns = ['总销售额', '平均订单金额', '订单数', '总盒数']
product_stats = product_stats.sort_values('总销售额', ascending=False)

print("产品销售统计:")
print(product_stats)

In [None]:
# 产品销售额Top 10
plt.figure(figsize=(12, 6))
product_stats['总销售额'].head(10).plot(kind='barh')
plt.title('销售额Top 10产品')
plt.xlabel('销售额 ($)')
plt.ylabel('产品')
plt.tight_layout()
plt.show()

### 4. 销售人员绩效分析

In [None]:
# 按销售人员统计
salesperson_stats = df.groupby('Sales Person').agg({
    'Amount': ['sum', 'mean', 'count'],
    'Boxes Shipped': 'sum'
}).round(2)
salesperson_stats.columns = ['总销售额', '平均订单金额', '订单数', '总盒数']
salesperson_stats = salesperson_stats.sort_values('总销售额', ascending=False)

print("销售人员绩效统计:")
print(salesperson_stats.head(10))

In [None]:
# 销售人员绩效Top 10
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# 总销售额Top 10
salesperson_stats['总销售额'].head(10).plot(kind='barh', ax=axes[0])
axes[0].set_title('总销售额Top 10销售人员')
axes[0].set_xlabel('销售额 ($)')

# 订单数Top 10
salesperson_stats['订单数'].head(10).plot(kind='barh', ax=axes[1])
axes[1].set_title('订单数Top 10销售人员')
axes[1].set_xlabel('订单数')

plt.tight_layout()
plt.show()

### 5. 时间趋势分析

In [None]:
# 按月统计
monthly_stats = df.groupby(['Month', 'Month_Name']).agg({
    'Amount': ['sum', 'count'],
    'Boxes Shipped': 'sum'
}).reset_index()
monthly_stats.columns = ['Month', 'Month_Name', '总销售额', '订单数', '总盒数']
monthly_stats = monthly_stats.sort_values('Month')

print("月度销售统计:")
print(monthly_stats)

In [None]:
# 月度销售趋势
fig, axes = plt.subplots(2, 1, figsize=(12, 10))

# 销售额趋势
axes[0].plot(monthly_stats['Month_Name'], monthly_stats['总销售额'], marker='o', linewidth=2)
axes[0].set_title('2022年月度销售额趋势')
axes[0].set_ylabel('销售额 ($)')
axes[0].tick_params(axis='x', rotation=45)
axes[0].grid(True, alpha=0.3)

# 订单数趋势
axes[1].plot(monthly_stats['Month_Name'], monthly_stats['订单数'], marker='s', linewidth=2, color='coral')
axes[1].set_title('2022年月度订单数趋势')
axes[1].set_ylabel('订单数')
axes[1].set_xlabel('月份')
axes[1].tick_params(axis='x', rotation=45)
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 数据场景

### 1. 销售策略优化
- **应用场景**: 根据各国家、产品的销售表现，制定针对性的市场策略
- **价值**: 识别高潜力市场和产品，优化资源配置，提高ROI

### 2. 销售团队管理
- **应用场景**: 评估销售人员绩效，制定激励机制和培训计划
- **价值**: 识别优秀销售人员，分享最佳实践，提升整体团队业绩

### 3. 产品组合优化
- **应用场景**: 根据产品销售数据，优化产品组合和库存管理
- **价值**: 聚焦高价值产品，淘汰滞销产品，提高整体盈利能力

### 4. 市场拓展规划
- **应用场景**: 分析各国市场表现，指导国际市场拓展策略
- **价值**: 识别未充分开发的市场机会，制定进入策略

### 5. 季节性需求预测
- **应用场景**: 基于月度销售趋势，预测未来需求，优化库存和生产计划
- **价值**: 降低库存成本，避免缺货，提高供应链效率

### 6. 定价策略优化
- **应用场景**: 分析不同产品和市场的订单金额分布，优化定价策略
- **价值**: 找到最优定价点，平衡销量和利润

## 主要发现

1. **市场表现**: 某些国家表现突出，销售额和订单数都领先
2. **产品热度**: 少数产品贡献大部分销售额，呈现长尾效应
3. **销售差异**: 销售人员之间存在明显绩效差异
4. **季节性**: 销售存在一定的季节性波动，需要针对性策略
5. **订单价值**: 平均订单金额差异较大，可进行细分营销

## 数据质量
- 数据完整性: 无明显缺失值
- 数据准确性: 日期和金额格式需要转换
- 数据时效性: 2022年数据，反映当年销售状况

## 建议

1. **重点市场**: 加大对高销售国家的投入和渠道建设
2. **产品策略**: 重点推广高销售额产品，优化产品组合
3. **团队激励**: 建立基于绩效的激励机制，分享优秀销售经验
4. **库存管理**: 根据销售预测优化库存，减少滞销风险
5. **市场拓展**: 考虑进入表现良好的邻国市场