In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.ensemble import RandomForestRegressor
import warnings
import os
warnings.filterwarnings('ignore')

# 设置中文
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

In [3]:
try:
    df1 = pd.read_excel(r"C:\Users\安雨琪\Desktop\附件1.xlsx")
    df2 = pd.read_excel(r"C:\Users\安雨琪\Desktop\附件2.xlsx")
    df3 = pd.read_excel(r"C:\Users\安雨琪\Desktop\附件3.xlsx")
    df4 = pd.read_excel(r"C:\Users\安雨琪\Desktop\附件4.xlsx")
    print(f"附件1: {df1.shape}")
    print(f"附件2: {df2.shape}")
    print(f"附件3: {df3.shape}")
    print(f"附件4: {df4.shape}")
except Exception as e:
    print(f" 读取失败: {e}")
    exit()

附件1: (251, 4)
附件2: (878503, 7)
附件3: (55982, 3)
附件4: (6, 3)


In [4]:
#数据预处理
data = df2.copy()
data.columns = ['销售日期', '扫码时间', '单品编码', '销量', '单价', '销售类型', '是否打折']

# 转换日期
data['日期'] = pd.to_datetime(data['销售日期'])
data['年份'] = data['日期'].dt.year
data['季度'] = data['日期'].dt.quarter
data['月份'] = data['日期'].dt.month
data['星期'] = data['日期'].dt.weekday
data['是否周末'] = data['星期'] >= 5

In [6]:
columns_to_drop = ['分类名称_x', '分类名称_y', '分类名称_data', '分类名称_df1', '单品名称_x', '单品名称_y', '单品名称_data', '单品名称_df1']
for col in columns_to_drop:
    if col in data.columns:
        data = data.drop(columns=[col])
if '单品编码' in df1.columns and '分类名称' in df1.columns and '单品名称' in df1.columns:
# 合并数据，将单品名称也纳入合并范围
    data = pd.merge(data, df1[['单品编码', '分类名称', '单品名称']], on='单品编码', how='left', suffixes=('_data', '_df1'))
    print(data.columns)
    data['品类'] = data['分类名称_data'].fillna(data['分类名称_df1'])
    data['单品名称'] = data['单品名称_data'].fillna(data['单品名称_df1'])

    # 选择需要的列，同时包含单品名称
    data = data[['单品编码', '单品名称', '品类', '销量', '单价','是否打折', '日期', '年份', '季度','月份', '星期', '是否周末']]
else:
    print("附件1没有品类信息或单品名称信息，使用单品编码前2位作为品类")
    data['品类'] = data['单品编码'].astype(str).str[:2]
    # 如果没有单品名称信息，单品名称列将填充缺失值
    data['单品名称'] = None
    data = data[['单品编码', '单品名称', '品类', '销量', '单价', '是否打折', '日期', '年份', '季度','月份', '星期', '是否周末']]

print(f"处理完成: {len(data)} 行数据")
data.head()

Index(['销售日期', '扫码时间', '单品编码', '销量', '单价', '销售类型', '是否打折', '日期', '年份', '季度',
       '月份', '星期', '是否周末', '分类名称_data', '单品名称_data', '分类名称_df1', '单品名称_df1'],
      dtype='object')
处理完成: 878503 行数据


Unnamed: 0,单品编码,单品名称,品类,销量,单价,是否打折,日期,年份,季度,月份,星期,是否周末
0,102900005117056,泡泡椒(精品),辣椒类,0.396,7.6,否,2020-07-01,2020,3,7,2,False
1,102900005115960,大白菜,花叶类,0.849,3.2,否,2020-07-01,2020,3,7,2,False
2,102900005117056,泡泡椒(精品),辣椒类,0.409,7.6,否,2020-07-01,2020,3,7,2,False
3,102900005115823,上海青,花叶类,0.421,10.0,否,2020-07-01,2020,3,7,2,False
4,102900005115908,菜心,花叶类,0.539,8.0,否,2020-07-01,2020,3,7,2,False


In [7]:
#基础分析
#单品销量前十
sales_by_cat = data.groupby('单品名称')['销量'].sum().sort_values(ascending=False)
for cat, sales in sales_by_cat.head(10).items():  # 只显示前10
    print(f"  {cat}: {sales:,.1f}千克")

  芜湖青椒(1): 28,164.3千克
  西兰花: 27,537.2千克
  净藕(1): 27,149.4千克
  大白菜: 19,187.2千克
  云南生菜: 15,910.5千克
  金针菇(盒): 15,596.0千克
  云南生菜(份): 14,325.0千克
  紫茄子(2): 13,602.0千克
  西峡香菇(1): 11,920.2千克
  小米椒(份): 10,833.0千克


In [8]:
#各品类销售额
data['销售额'] = data['销量'] * data['单价']

# 按年份和分类汇总销量和销售额
yearly = data.groupby(['年份', '品类']).agg({
    '销量': 'sum',
    '销售额': 'sum',
}).reset_index()

print("\n各品类年度销量和销售额:")
years = sorted(yearly['年份'].unique())
for year in years:
    year_data = yearly[yearly['年份'] == year]
    print(f"\n{year}年:")
    print(f"{'分类':<8} {'销量(kg)':>12} {'销售额(元)':>15}")
    for _, row in year_data.sort_values('销售额', ascending=False).head(6).iterrows():
        print(f"{row['品类']:<8} {row['销量']:12,.0f} {row['销售额']:15,.0f}")

# 年度增长率（销量和销售额）
print("\n年度增长率（销量和销售额）:")
top_cats = yearly.groupby('品类')['销售额'].sum().nlargest(6).index

for cat in top_cats:
    cat_data = yearly[yearly['品类'] == cat].sort_values('年份')
    if len(cat_data) >= 2:
        first_year = cat_data.iloc[0]
        last_year = cat_data.iloc[-1]
        
        # 销量增长率
        sales_growth = (last_year['销量'] - first_year['销量']) / first_year['销量'] * 100 if first_year['销量'] > 0 else 0
        
        # 销售额增长率
        revenue_growth = (last_year['销售额'] - first_year['销售额']) / first_year['销售额'] * 100 if first_year['销售额'] > 0 else 0
        
    
        
        print(f"\n{cat}:")
        print(f"  销量增长率（2020-2023）: {sales_growth:+.1f}% ({first_year['销量']:,.0f}kg → {last_year['销量']:,.0f}kg)")
        print(f"  销售额增长率（2020-2023）: {revenue_growth:+.1f}% (¥{first_year['销售额']:,.0f} → ¥{last_year['销售额']:,.0f})")



各品类年度销量和销售额:

2020年:
分类             销量(kg)          销售额(元)
花叶类            39,322         234,439
食用菌            14,654         138,142
辣椒类            12,187         125,532
花菜类             9,431          84,183
水生根茎类           6,199          52,632
茄类              4,790          34,601

2021年:
分类             销量(kg)          销售额(元)
花叶类            58,682         364,897
辣椒类            23,238         236,387
食用菌            21,921         206,950
水生根茎类          13,103         116,849
花菜类            12,688         112,079
茄类              7,796          63,201

2022年:
分类             销量(kg)          销售额(元)
花叶类            67,105         308,505
辣椒类            34,680         247,009
食用菌            23,346         168,546
水生根茎类          15,754         131,482
花菜类            14,158         122,287
茄类              6,259          58,943

2023年:
分类             销量(kg)          销售额(元)
花叶类            33,412         171,229
辣椒类            21,484         145,205
食用菌            16,165         105,960
花菜类 

In [9]:
quarterly = data.groupby(['季度', '品类']).agg({
    '销量': 'mean'  # 季度日均销量
}).reset_index()

quarter_names = {1: 'Q1(1-3月)', 2: 'Q2(4-6月)', 3: 'Q3(7-9月)', 4: 'Q4(10-12月)'}

print("\n各季度平均日销量 (kg):")
for quarter in [1, 2, 3, 4]:
    quarter_data = quarterly[quarterly['季度'] == quarter]
    print(f"\n{quarter_names[quarter]}:")
    for _, row in quarter_data.sort_values('销量', ascending=False).head(3).iterrows():
        print(f"  {row['品类']}: {row['销量']:.1f}kg/天")

# 季节性分析
print("\n季节性分析（旺季/淡季）:")
for cat in quarterly['品类'].unique()[:6]:
    cat_data = quarterly[quarterly['品类'] == cat]
    peak = cat_data.loc[cat_data['销量'].idxmax()]
    low = cat_data.loc[cat_data['销量'].idxmin()]
    diff = (peak['销量'] - low['销量']) / low['销量'] * 100
    print(f"  {cat}: 旺季{quarter_names[peak['季度']]}, 淡季{quarter_names[low['季度']]}, 差异{diff:.0f}%")


各季度平均日销量 (kg):

Q1(1-3月):
  水生根茎类: 0.8kg/天
  花叶类: 0.6kg/天
  食用菌: 0.6kg/天

Q2(4-6月):
  花叶类: 0.5kg/天
  食用菌: 0.5kg/天
  水生根茎类: 0.5kg/天

Q3(7-9月):
  水生根茎类: 0.7kg/天
  花叶类: 0.6kg/天
  茄类: 0.5kg/天

Q4(10-12月):
  水生根茎类: 0.7kg/天
  花叶类: 0.6kg/天
  食用菌: 0.5kg/天

季节性分析（旺季/淡季）:
  水生根茎类: 旺季Q1(1-3月), 淡季Q2(4-6月), 差异58%
  花叶类: 旺季Q1(1-3月), 淡季Q2(4-6月), 差异18%
  花菜类: 旺季Q1(1-3月), 淡季Q3(7-9月), 差异4%
  茄类: 旺季Q3(7-9月), 淡季Q1(1-3月), 差异8%
  辣椒类: 旺季Q1(1-3月), 淡季Q3(7-9月), 差异24%
  食用菌: 旺季Q1(1-3月), 淡季Q3(7-9月), 差异39%


In [10]:
#周末对比平常

data['是否周末'] = data['是否周末'].astype(bool)

# 按品类和是否周末分组，计算每组销量的均值
grouped = data.groupby(['品类', '是否周末'])['销量'].mean().reset_index()

# 重塑数据，将是否周末作为列名
pivot_table = grouped.pivot(index='品类', columns='是否周末', values='销量')
# 重命名列名，便于识别
pivot_table.columns = ['平时销量均值', '周末销量均值']

pivot_table['周末/平时销量均值比值'] = pivot_table['周末销量均值'] / pivot_table['平时销量均值']
pivot_table['销量均值差值'] = pivot_table['周末销量均值'] - pivot_table['平时销量均值']
pivot_table['周末还是平时卖得好'] = pivot_table['周末/平时销量均值比值'].apply(
    lambda x: '周末' if x > 1 else '平时'
)
# 打印结果
print(pivot_table)

         平时销量均值    周末销量均值  周末/平时销量均值比值    销量均值差值 周末还是平时卖得好
品类                                                        
水生根茎类  0.688026  0.698699     1.015513  0.010673        周末
花叶类    0.600892  0.592800     0.986532 -0.008093        平时
花菜类    0.479111  0.488519     1.019636  0.009408        周末
茄类     0.498880  0.500941     1.004131  0.002061        周末
辣椒类    0.440589  0.439886     0.998405 -0.000703        平时
食用菌    0.512579  0.512721     1.000277  0.000142        周末


In [11]:
daily_sales = data.groupby(['日期', '品类'])['销量'].sum().unstack(fill_value=0)

if len(daily_sales.columns) >= 3:  # 至少有3个品类
    # K-means聚类
    print("K-means聚类分析:")
    
    # 提取特征：为每个品类计算特征
    features = []
    cats = daily_sales.columns.tolist()
    
    for cat in cats[:6]:  # 最多分析6个品类
        cat_sales = daily_sales[cat]
        if cat_sales.sum() > 0:
            features.append([
                cat_sales.mean(),  # 平均销量
                cat_sales.std() / cat_sales.mean() if cat_sales.mean() > 0 else 0,  # 变异系数
                cat_sales.skew()  # 偏度
            ])
    
    if len(features) >= 3:
        kmeans = KMeans(n_clusters=min(3, len(features)), random_state=42)
        clusters = kmeans.fit_predict(features)
        
        print("聚类分组(品类):")
        for i in range(max(clusters) + 1):
            group_cats = [cats[j] for j in range(len(cats[:10])) if j < len(clusters) and clusters[j] == i]
            print(f"  第{i+1}组: {', '.join(group_cats[:6])}") 

K-means聚类分析:
聚类分组(品类):
  第1组: 水生根茎类, 花菜类, 茄类
  第2组: 花叶类
  第3组: 辣椒类, 食用菌


In [12]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor

print(f"随机森林关联分析:")

# 检查数据量是否足够进行分析
if len(daily_sales) > 30 and len(daily_sales.columns) > 2:
    # 遍历每个品类进行分析
    for target_cat in daily_sales.columns:
        print(f"\n品类: {target_cat}")

        # 选择当前品类作为分析目标
        # X 为除目标品类外的其他品类数据，作为特征
        X = daily_sales.drop(columns=[target_cat])
        # y 为目标品类的数据，作为目标变量
        y = daily_sales[target_cat]

        # 拆分数据为训练集和测试集，这里按照 80% 和 20% 的比例拆分
        split = int(len(X) * 0.8)
        X_train, X_test = X[:split], X[split:]
        y_train, y_test = y[:split], y[split:]

        # 创建随机森林回归模型
        # n_estimators 表示森林中树的数量，这里设置为 50
        # random_state 用于固定随机种子，保证结果可复现
        # max_depth 表示树的最大深度，这里设置为 5
        rf = RandomForestRegressor(n_estimators=50, random_state=42, max_depth=5)

        # 使用训练集数据对模型进行训练
        rf.fit(X_train, y_train)

        # 计算模型在测试集上的 R² 分数，评估模型的拟合优度
        score = rf.score(X_test, y_test)
        print(f"模型R²: {score:.3f}")

        # 提取特征重要性
        # rf.feature_importances_ 存储了每个特征的重要性得分
        # 这里将其转换为 Pandas 的 Series 对象，索引为特征名称（即品类名称）
        importance = pd.Series(rf.feature_importances_, index=X.columns)

        # 找出对目标品类影响最大的前 5 个特征
        top_5 = importance.nlargest(5)
        print(f"主要影响因素:")
        for cat, imp in top_5.items():
            print(f"{cat}: {imp:.3f}")
else:
    print("数据量不足，跳过随机森林分析")

随机森林关联分析:

品类: 水生根茎类
模型R²: 0.422
主要影响因素:
辣椒类: 0.428
食用菌: 0.350
茄类: 0.126
花叶类: 0.073
花菜类: 0.023

品类: 花叶类
模型R²: 0.412
主要影响因素:
辣椒类: 0.406
花菜类: 0.300
食用菌: 0.171
茄类: 0.081
水生根茎类: 0.043

品类: 花菜类
模型R²: -0.169
主要影响因素:
花叶类: 0.510
辣椒类: 0.292
食用菌: 0.074
水生根茎类: 0.068
茄类: 0.055

品类: 茄类
模型R²: 0.229
主要影响因素:
水生根茎类: 0.361
花叶类: 0.304
辣椒类: 0.160
花菜类: 0.098
食用菌: 0.077

品类: 辣椒类
模型R²: 0.131
主要影响因素:
水生根茎类: 0.378
花叶类: 0.341
花菜类: 0.103
茄类: 0.091
食用菌: 0.086

品类: 食用菌
模型R²: 0.495
主要影响因素:
水生根茎类: 0.392
辣椒类: 0.332
花叶类: 0.161
花菜类: 0.062
茄类: 0.053


In [20]:
from scipy import stats

# 对原有的数据分组聚合逻辑添加日志输出，方便用户了解函数功能和数据处理进展
def summarize_data(data):
    #对数据按日期和品类进行汇总，计算每个品类每天的总销量、平均单价和总销售额。
    daily_summary = data.groupby(['日期', '品类']).agg({
        '销量': 'sum',
        '单价': 'mean',
        '销售额': 'sum'
    }).reset_index()
    return daily_summary

# 封装相关性计算逻辑，让代码结构更清晰，便于复用和测试
def calculate_spearman_correlation(daily_summary):
    #计算每个品类价格与销量的Spearman相关系数，并分析相关性强度、显著性和方向。
    spearman_results = []
    for cat in daily_summary['品类'].unique():
        cat_data = daily_summary[daily_summary['品类'] == cat]
        if len(cat_data) >= 10:  # 至少需要10天数据
            # 计算Spearman相关系数（更稳健，适用于非线性关系）
            price_sales_corr, price_sales_p = stats.spearmanr(cat_data['单价'], cat_data['销量'])
            # 判断相关性强度
            strength = get_correlation_strength(price_sales_corr)
            # 判断显著性 (p < 0.05 为显著相关)
            significant = "显著" if price_sales_p < 0.05 else "不显著"
            direction = "负相关" if price_sales_corr < 0 else "正相关"
            spearman_results.append({
                '品类': cat,
                'Spearman相关系数': round(price_sales_corr, 3),
                'p值': round(price_sales_p, 3),
                '显著性': significant,
                '相关性强度': strength,
                '方向': direction,
                '数据天数': len(cat_data)
            })
    return pd.DataFrame(spearman_results).sort_values('Spearman相关系数')

# 将相关性强度判断逻辑封装成函数，提高代码的复用性和可维护性
def get_correlation_strength(corr):
    #根据相关系数判断相关性强度。
    #param corr: 相关系数
    
    if abs(corr) > 0.5:
        return "强"
    elif abs(corr) > 0.3:
        return "中等"
    elif abs(corr) > 0.1:
        return "弱"
    else:
        return "无"

# 封装结果打印逻辑，使代码更模块化，便于代码的修改和扩展
def print_correlation_results(spearman_df):
    #打印各品类价格与销量的Spearman相关性分析结果。
    print("\n各品类价格与销量Spearman相关性分析:")
    print(f"{'品类':<10} {'Spearman相关系数':>15} {'p值':>10} {'显著性':>8} {'强度':>8} {'方向':>8}")
    for _, row in spearman_df.iterrows():
        print(f"{row['品类']:<10} {row['Spearman相关系数']:15.3f} {row['p值']:10.3f} "
              f"{row['显著性']:>8} {row['相关性强度']:>8} {row['方向']:>8}")

# 分析显著相关的品类，并打印结果，使代码结构更清晰，功能模块化
def analyze_significant_correlations(spearman_df):
    print("\n显著相关的品类 (p < 0.05):")
    significant_corr = spearman_df[spearman_df['显著性'] == '显著']
    if len(significant_corr) > 0:
        # 强负相关
        strong_neg = significant_corr[(significant_corr['Spearman相关系数'] < -0.5)]
        # 中等负相关
        medium_neg = significant_corr[(significant_corr['Spearman相关系数'] >= -0.5) &
                                      (significant_corr['Spearman相关系数'] < -0.3)]
        # 弱负相关
        weak_neg = significant_corr[(significant_corr['Spearman相关系数'] >= -0.3) &
                                    (significant_corr['Spearman相关系数'] < -0.1)]
        # 弱正相关
        weak_pos = significant_corr[(significant_corr['Spearman相关系数'] >= 0.1) &
                                    (significant_corr['Spearman相关系数'] < 0.3)]
        # 中等正相关
        medium_pos = significant_corr[(significant_corr['Spearman相关系数'] >= 0.3) &
                                      (significant_corr['Spearman相关系数'] < 0.5)]
        # 强正相关
        strong_pos = significant_corr[(significant_corr['Spearman相关系数'] >= 0.5)]

        print_correlation_category(strong_neg, "强负相关")
        print_correlation_category(medium_neg, "中等负相关")
        print_correlation_category(weak_neg, "弱负相关")
        print_correlation_category(weak_pos, "弱正相关")
        print_correlation_category(medium_pos, "中等正相关")
        print_correlation_category(strong_pos, "强正相关")
    else:
        print("无显著相关的品类。")

# 封装打印特定相关性类别品类的逻辑，减少代码重复，提高代码的可维护性
def print_correlation_category(category_df, category_name):
    if not category_df.empty:
        print(f"\n{category_name}:")
        for _, row in category_df.iterrows():
            print(f"  {row['品类']}: r={row['Spearman相关系数']:.3f}, p={row['p值']:.3f}")

# 主函数
def main(data):
    daily_summary = summarize_data(data)
    spearman_df = calculate_spearman_correlation(daily_summary)
    print_correlation_results(spearman_df)
    analyze_significant_correlations(spearman_df)

main(data)


各品类价格与销量Spearman相关性分析:
品类            Spearman相关系数         p值      显著性       强度       方向
食用菌                 -0.461      0.000       显著       中等      负相关
水生根茎类               -0.442      0.000       显著       中等      负相关
辣椒类                 -0.312      0.000       显著       中等      负相关
茄类                  -0.299      0.000       显著        弱      负相关
花菜类                 -0.272      0.000       显著        弱      负相关
花叶类                 -0.160      0.000       显著        弱      负相关

显著相关的品类 (p < 0.05):

中等负相关:
  食用菌: r=-0.461, p=0.000
  水生根茎类: r=-0.442, p=0.000
  辣椒类: r=-0.312, p=0.000

弱负相关:
  茄类: r=-0.299, p=0.000
  花菜类: r=-0.272, p=0.000
  花叶类: r=-0.160, p=0.000
