# 1. 背景描述  

本数据集汇集了某个电商平台的用户基本信息、行为习惯和互动数据。它包括用户的年龄、性别、居住地区、收入水平等基本属性，以及他们的兴趣偏好、登录频率、购买行为和平台互动等动态指标。
 
数据集关注的焦点在于电商领域，旨在通过用户行为的深入分析，揭示其偏好和需求。通过这些数据，商家能够更好地理解消费者，制定有效的市场策略，满足用户期望，推动业务发展。

## 1.1 分析目标

- **用户画像分析**：深入了解不同用户群体的特征
- **用户活跃度分析**：识别高价值和低活跃用户
- **用户价值分群**：基于RFM模型和机器学习算法进行精准分群
- **商业策略建议**：为不同用户群体制定差异化营销策略

# 2. 数据说明  

| 字段 | 说明 | 类型 |
|:------|:------|:------|
| User_ID | 每个用户的唯一标识符，便于追踪和分析 | 文本 |
| Age | 用户的年龄，提供对人口统计偏好的洞察 | 数值 |
| Gender | 用户的性别，使能性别特定的推荐和定位 | 分类 |
| Location | 用户所在地区：郊区、农村、城市，影响偏好和购物习惯 | 分类 |
| Income | 用户的收入水平，表明购买力和支付能力 | 数值 |
| Interests | 用户的兴趣，如运动、时尚、技术等，指导内容和产品推荐 | 分类 |
| Last_Login_Days_Ago | 用户上次登录以来的天数，反映参与频率 | 数值 |
| Purchase_Frequency | 用户进行购买的频率，表明购物习惯和忠诚度 | 数值 |
| Average_Order_Value | 用户下单的平均价值，对定价和促销策略至关重要 | 数值 |
| Total_Spending | 用户消费的总金额，表明终身价值和购买行为 | 数值 |
| Product_Category_Preference | 用户偏好的特定产品类别 | 分类 |
| Time_Spent_on_Site_Minutes | 用户在电子商务平台上花费的时间，表明参与程度 | 数值 |
| Pages_Viewed | 用户在访问期间浏览的页面数量，反映浏览活动和兴趣 | 数值 |
| Newsletter_Subscription | 用户是否订阅了营销活动通知 | 布尔 |

# 3. 问题描述  

本项目旨在通过数据分析和机器学习方法，解决以下核心问题：

## 3.1 核心问题

1. **用户活跃度分析**：不同用户群体的活跃程度如何？哪些因素影响用户活跃度？
2. **用户价值分群**：如何科学地对用户进行分群，识别高价值用户？
3. **精准营销策略**：针对不同用户群体，应该制定怎样的差异化营销策略？

## 3.2 分析方法

- **描述性统计分析**：了解数据整体分布特征
- **RFM模型分析**：基于最近消费、频率、金额进行用户价值分类
- **K-Means聚类算法**：使用机器学习方法进行用户分群
- **可视化分析**：使用pyecharts进行专业的数据可视化

# 4. 数据清洗及预览

在进行数据分析之前，首先需要对数据进行清洗和预览，确保数据质量符合分析要求。

## 4.1 导入必要的库

In [None]:
# 数据处理库
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# 可视化库 - pyecharts (使用离线模式)
from pyecharts import options as opts
from pyecharts.charts import Bar, Pie, Line, Scatter, Radar, HeatMap, Grid, Tab
from pyecharts.globals import ThemeType, CurrentConfig
from pyecharts.commons.utils import JsCode


# 机器学习库

from sklearn.cluster import KMeans  # K-Means聚类算法
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler  # 数据标准化
from sklearn.metrics import silhouette_score, davies_bouldin_score, calinski_harabasz_score  # 聚类评估指标
from sklearn.decomposition import PCA  # 主成分分析降维
from sklearn.manifold import TSNE  # t-SNE降维（更适合可视化）
print("✅ 所有库导入成功！")


✅ 所有库导入成功！


## 4.2 数据加载与质量检查

In [2]:

# 读取数据
df = pd.read_csv('user_personalized_features.csv', index_col=['Unnamed: 0'])

# 数据预览
print("="*70)
print("📊 数据预览（前5行）")
print("="*70)
display(df.head())

# 数据维度
print("\n" + "="*70)
print(f"📏 数据集维度：{df.shape[0]} 行 × {df.shape[1]} 列")
print("="*70)

# 数据质量检查
print("\n" + "="*70)
print("🔍 数据质量检查")
print("="*70)
print(f"✓ 重复值数量：{df.duplicated().sum()} 条")
print(f"✓ 缺失值总数：{df.isna().sum().sum()} 个")
if df.isna().sum().sum() > 0:
    print("\n各字段缺失值详情：")
    print(df.isna().sum()[df.isna().sum() > 0])
    
# 数据类型信息
print("\n" + "="*70)
print("📋 数据类型信息")
print("="*70)
display(df.info())

# 描述性统计
print("\n" + "="*70)
print("📈 数值型字段描述性统计")
print("="*70)
display(df.describe().round(2))

# 分类字段统计
print("\n" + "="*70)
print("🏷️ 分类字段唯一值统计")
print("="*70)
categorical_cols = df.select_dtypes(include=['object', 'bool']).columns
for col in categorical_cols:
    if col != 'User_ID':
        print(f"\n{col}: {df[col].nunique()} 个唯一值")
        print(f"  {df[col].unique()}")

📊 数据预览（前5行）


Unnamed: 0,User_ID,Age,Gender,Location,Income,Interests,Last_Login_Days_Ago,Purchase_Frequency,Average_Order_Value,Total_Spending,Product_Category_Preference,Time_Spent_on_Site_Minutes,Pages_Viewed,Newsletter_Subscription
0,#1,56,Male,Suburban,38037,Sports,5,7,18,2546,Books,584,38,True
1,#2,46,Female,Rural,103986,Technology,15,7,118,320,Electronics,432,40,False
2,#3,32,Female,Suburban,101942,Sports,28,1,146,3766,Apparel,306,1,True
3,#4,60,Female,Suburban,71612,Fashion,18,3,163,4377,Apparel,527,29,False
4,#5,25,Male,Suburban,49725,Travel,2,5,141,4502,Health & Beauty,53,10,True



📏 数据集维度：1000 行 × 14 列

🔍 数据质量检查
✓ 重复值数量：0 条
✓ 缺失值总数：0 个

📋 数据类型信息
<class 'pandas.core.frame.DataFrame'>
Index: 1000 entries, 0 to 999
Data columns (total 14 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   User_ID                      1000 non-null   object
 1   Age                          1000 non-null   int64 
 2   Gender                       1000 non-null   object
 3   Location                     1000 non-null   object
 4   Income                       1000 non-null   int64 
 5   Interests                    1000 non-null   object
 6   Last_Login_Days_Ago          1000 non-null   int64 
 7   Purchase_Frequency           1000 non-null   int64 
 8   Average_Order_Value          1000 non-null   int64 
 9   Total_Spending               1000 non-null   int64 
 10  Product_Category_Preference  1000 non-null   object
 11  Time_Spent_on_Site_Minutes   1000 non-null   int64 
 12  Pages_Viewed                 

None


📈 数值型字段描述性统计


Unnamed: 0,Age,Income,Last_Login_Days_Ago,Purchase_Frequency,Average_Order_Value,Total_Spending,Time_Spent_on_Site_Minutes,Pages_Viewed
count,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0
mean,40.99,81304.73,15.59,4.63,104.04,2552.96,297.36,24.4
std,13.5,37363.97,8.21,2.84,54.87,1420.99,175.6,14.02
min,18.0,20155.0,1.0,0.0,10.0,112.0,2.0,1.0
25%,29.0,48715.5,8.0,2.0,58.0,1271.75,144.0,12.0
50%,42.0,81042.0,16.0,5.0,105.0,2542.0,292.5,24.5
75%,52.0,112694.5,23.0,7.0,150.0,3835.5,449.25,36.0
max,64.0,149951.0,29.0,9.0,199.0,4999.0,599.0,49.0



🏷️ 分类字段唯一值统计

Gender: 2 个唯一值
  ['Male' 'Female']

Location: 3 个唯一值
  ['Suburban' 'Rural' 'Urban']

Interests: 5 个唯一值
  ['Sports' 'Technology' 'Fashion' 'Travel' 'Food']

Product_Category_Preference: 5 个唯一值
  ['Books' 'Electronics' 'Apparel' 'Health & Beauty' 'Home & Kitchen']

Newsletter_Subscription: 2 个唯一值
  [ True False]


## 4.3 数据分布解读

### 📊 关键指标分析

**🎂 Age（年龄）**
- **分布范围**：18-64岁
- **平均年龄**：40岁
- **核心洞察**：29-52岁用户占50%，呈现明显的中年用户集中现象
- **业务意义**：平台主要服务于经济能力较强的中年群体

**💰 Income（收入）**
- **分布范围**：20,155-149,951元
- **平均收入**：81,305元（中位数81,042元）
- **核心洞察**：收入分布呈现明显的两极分化，但大部分用户集中在中等收入水平
- **业务意义**：需要针对不同收入层级设计差异化的产品和定价策略

**🔄 Last_Login_Days_Ago（最近登录）**
- **分布范围**：1-29天
- **平均值**：15.5天
- **核心洞察**：75%用户距上次登录超过8天，整体活跃度有待提升
- **业务意义**：需要加强用户召回和活跃度提升策略

**🛒 Purchase_Frequency（购买频率）**
- **分布范围**：0-9次
- **平均值**：4.6次（中位数5次）
- **核心洞察**：50%用户购买频次≥5次，显示出较好的复购率
- **业务意义**：存在一定的忠诚用户基础，可深度挖掘

**💳 Average_Order_Value（平均客单价）**
- **分布范围**：10-199元
- **平均值**：104元（中位数105元）
- **核心洞察**：75%订单≤150元，整体消费偏向经济实惠
- **业务意义**：可通过组合营销提升客单价

**💵 Total_Spending（总消费金额）**
- **分布范围**：112-4,999元
- **平均值**：2,553元
- **核心洞察**：消费金额分布呈金字塔型，高价值用户占比较小
- **业务意义**：需要精准识别和维护高价值客户

**⏱️ Time_Spent_on_Site_Minutes（停留时长）**
- **分布范围**：2-599分钟
- **平均值**：297分钟（约5小时）
- **核心洞察**：75%用户停留时间>144分钟，显示较高的平台粘性
- **业务意义**：长停留时间为转化提供了良好基础

**📄 Pages_Viewed（浏览页数）**
- **分布范围**：1-49页
- **平均值**：24.4页
- **核心洞察**：75%用户浏览>12页，显示出较强的探索意愿
- **业务意义**：可优化页面布局和推荐算法提高转化率

## 4.4 分类字段分析

In [3]:

# 提取所有分类字段的唯一值
print("="*70)
print("📋 分类字段详细信息")
print("="*70)

categorical_features = {}
for col in df.columns:
    if df[col].dtype == 'object' and col != 'User_ID':
        unique_values = df[col].unique()
        count_values = df[col].value_counts()
        categorical_features[col] = {
            'unique_count': len(unique_values),
            'values': unique_values,
            'distribution': count_values
        }
        print(f"\n【{col}】")
        print(f"  唯一值数量: {len(unique_values)}")
        print(f"  唯一值: {unique_values}")
        print(f"  分布情况:")
        for val, cnt in count_values.items():
            print(f"    - {val}: {cnt} ({cnt/len(df)*100:.1f}%)")

📋 分类字段详细信息

【Gender】
  唯一值数量: 2
  唯一值: ['Male' 'Female']
  分布情况:
    - Male: 526 (52.6%)
    - Female: 474 (47.4%)

【Location】
  唯一值数量: 3
  唯一值: ['Suburban' 'Rural' 'Urban']
  分布情况:
    - Suburban: 349 (34.9%)
    - Urban: 344 (34.4%)
    - Rural: 307 (30.7%)

【Interests】
  唯一值数量: 5
  唯一值: ['Sports' 'Technology' 'Fashion' 'Travel' 'Food']
  分布情况:
    - Sports: 213 (21.3%)
    - Fashion: 209 (20.9%)
    - Travel: 196 (19.6%)
    - Food: 196 (19.6%)
    - Technology: 186 (18.6%)

【Product_Category_Preference】
  唯一值数量: 5
  唯一值: ['Books' 'Electronics' 'Apparel' 'Health & Beauty' 'Home & Kitchen']
  分布情况:
    - Apparel: 218 (21.8%)
    - Electronics: 209 (20.9%)
    - Books: 198 (19.8%)
    - Home & Kitchen: 189 (18.9%)
    - Health & Beauty: 186 (18.6%)


## 4.5 数据质量总结

✅ **数据质量评估结果：优秀**

- ✓ **无缺失值**：所有字段数据完整，无需进行缺失值处理
- ✓ **无重复值**：数据记录唯一，无重复样本
- ✓ **数据类型正确**：各字段类型符合业务逻辑
- ✓ **数值范围合理**：未发现明显的异常值或错误数据

**结论**：该数据集质量良好，可直接进入分析阶段，无需额外的数据清洗工作。

# 5. 探索性数据分析（EDA）

## 5.1 分类变量可视化分析

In [4]:
# 1. 性别分布 - 饼图
gender_count = df['Gender'].value_counts()
pie_gender = (
    Pie(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="400px"))
    .add(
        series_name="性别分布",
        data_pair=[(k, int(v)) for k, v in gender_count.items()],
        radius=["30%", "60%"],
        label_opts=opts.LabelOpts(formatter="{b}: {c}人 ({d}%)"),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="用户性别分布", subtitle=f"总用户数: {len(df)}", pos_left="center"),
        legend_opts=opts.LegendOpts(orient="vertical", pos_right="5%", pos_top="15%"),
    )
    .set_series_opts(
        tooltip_opts=opts.TooltipOpts(trigger="item", formatter="{b}: {c}人 ({d}%)")
    )
)
pie_gender.render_notebook()

# 2. 地区分布 - 柱状图
location_count = df['Location'].value_counts().sort_values(ascending=False)
bar_location = (
    Bar(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="400px"))
    .add_xaxis(location_count.index.tolist())
    .add_yaxis(
        "用户数量",
        location_count.values.tolist(),
        label_opts=opts.LabelOpts(is_show=True, position="top"),
        itemstyle_opts=opts.ItemStyleOpts(
            color=JsCode("""
                new echarts.graphic.LinearGradient(0, 0, 0, 1,
                    [{offset: 0, color: '#83bff6'}, {offset: 1, color: '#188df0'}])
            """)
        ),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="用户地区分布", subtitle="不同地区用户数量统计", pos_left="center"),
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=0)),
        yaxis_opts=opts.AxisOpts(name="用户数量"),
        toolbox_opts=opts.ToolboxOpts(),
    )
)
bar_location.render_notebook()

# 3. 兴趣分布 - 柱状图
interests_count = df['Interests'].value_counts().sort_values(ascending=False)
bar_interests = (
    Bar(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="400px"))
    .add_xaxis(interests_count.index.tolist())
    .add_yaxis(
        "用户数量",
        interests_count.values.tolist(),
        label_opts=opts.LabelOpts(is_show=True, position="top"),
        itemstyle_opts=opts.ItemStyleOpts(
            color=JsCode("""
                new echarts.graphic.LinearGradient(0, 0, 0, 1,
                    [{offset: 0, color: '#f78ca0'}, {offset: 1, color: '#ee5a6f'}])
            """)
        ),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="用户兴趣分布", subtitle="不同兴趣爱好用户数量", pos_left="center"),
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),
        yaxis_opts=opts.AxisOpts(name="用户数量"),
    )
)
bar_interests.render_notebook()

# 4. 产品类别偏好 - 柱状图
product_count = df['Product_Category_Preference'].value_counts().sort_values(ascending=False)
bar_product = (
    Bar(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="400px"))
    .add_xaxis(product_count.index.tolist())
    .add_yaxis(
        "用户数量",
        product_count.values.tolist(),
        label_opts=opts.LabelOpts(is_show=True, position="top"),
        itemstyle_opts=opts.ItemStyleOpts(
            color=JsCode("""
                new echarts.graphic.LinearGradient(0, 0, 0, 1,
                    [{offset: 0, color: '#FFDB5C'}, {offset: 1, color: '#FF9800'}])
            """)
        ),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="产品类别偏好分布", subtitle="用户偏好的产品类别统计", pos_left="center"),
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),
        yaxis_opts=opts.AxisOpts(name="用户数量"),
    )
)
bar_product.render_notebook()

# 5. 新闻订阅分布 - 饼图
newsletter_count = df['Newsletter_Subscription'].value_counts()
newsletter_data = [["已订阅" if k else "未订阅", int(v)] for k, v in newsletter_count.items()]
pie_newsletter = (
    Pie(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="400px"))
    .add(
        series_name="订阅状态",
        data_pair=newsletter_data,
        radius=["30%", "60%"],
        label_opts=opts.LabelOpts(formatter="{b}: {c}人 ({d}%)"),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="营销邮件订阅分布", subtitle=f"总用户数: {len(df)}", pos_left="center"),
        legend_opts=opts.LegendOpts(orient="vertical", pos_right="5%", pos_top="15%"),
    )
    .set_colors(["#5470c6", "#91cc75"])
)
pie_newsletter.render_notebook()

print("✅ 所有分类变量可视化完成！")

✅ 所有分类变量可视化完成！


## 5.2 分类变量分析结论

### 📊 关键发现

**👥 Gender（性别分布）**
- **现状**：男性用户略多于女性用户
- **商业洞察**：用户性别分布相对均衡，需要平衡男女性产品和营销策略
- **建议**：开发适合不同性别的产品线和推荐算法

**📍 Location（地区分布）**
- **现状**：郊区和城市用户占主导，农村用户相对较少
- **商业洞察**：城市和郊区用户是主要客户群体，物流配送应重点覆盖这些区域
- **建议**：针对城郊用户提供快速配送服务，逐步拓展农村市场

**🎯 Interests（兴趣分布）**
- **现状**：体育和时尚领域用户最多，科技、旅行、食物次之
- **商业洞察**：用户兴趣多元化，体育和时尚类内容最受欢迎
- **建议**：加强体育和时尚类商品的运营，同时丰富其他品类

**🛍️ Product_Category_Preference（产品偏好）**
- **现状**：服装、电子设备和书籍最受欢迎，健康美容和家居厨房次之
- **商业洞察**：服装和电子产品是核心品类，应加大库存和营销投入
- **建议**：优化这些热门类别的供应链，同时挖掘潜力品类

**📧 Newsletter_Subscription（营销订阅）**
- **现状**：约51%用户订阅了营销活动通知
- **商业洞察**：超过一半用户愿意接受营销信息，是潜在的可触达用户群
- **建议**：优化邮件营销内容，提高转化率；吸引更多用户订阅

# 6. 用户活跃度分析

用户活跃度是衡量用户价值的重要指标。我们将从性别、地区、年龄等多个维度分析用户活跃度特征。

## 6.1 分析思路

我们将从以下三个关键维度对用户活跃度进行深入分析：

1. **性别维度**：比较男女用户在活跃度指标上的差异
2. **地理位置维度**：分析城市、郊区、农村用户的活跃度特征
3. **年龄维度**：划分年龄段，识别不同年龄层的活跃度模式
   - 18-24岁：青少年群体
   - 25-39岁：青年群体
   - 40-59岁：中年群体
   - 60岁以上：老年群体

### 核心活跃度指标

- **Purchase_Frequency**：购买频率
- **Last_Login_Days_Ago**：最近登录天数（越小越活跃）
- **Time_Spent_on_Site_Hours**：网站停留时长
- **Pages_Viewed**：浏览页数

In [5]:
## 6.2 数据准备与特征工程

# 创建分析数据集副本
act_df = df.copy()

# 年龄分段
act_df['Age_Group'] = pd.cut(
    act_df['Age'],
    bins=[18, 25, 40, 60, np.inf],
    labels=['18-24岁青少年', '25-39岁青年', '40-59岁中年', '60岁以上老年']
)

# 转换时间单位（分钟→小时）便于可视化
act_df['Time_Spent_on_Site_Hours'] = (act_df['Time_Spent_on_Site_Minutes'] / 60).round(2)

print("✅ 数据准备完成！")
print(f"\n年龄组分布：")
print(act_df['Age_Group'].value_counts().sort_index())


✅ 数据准备完成！

年龄组分布：
Age_Group
18-24岁青少年    152
25-39岁青年     295
40-59岁中年     440
60岁以上老年       88
Name: count, dtype: int64


## 6.3 性别维度活跃度分析

In [6]:

# 计算性别维度的平均活跃度指标
gender_activity = act_df.groupby('Gender')[
    ['Purchase_Frequency', 'Last_Login_Days_Ago', 'Time_Spent_on_Site_Hours', 'Pages_Viewed']
].mean().round(2)

print("性别维度活跃度指标：")
display(gender_activity)

# PyEcharts 雷达图展示
indicator_list = [
    opts.RadarIndicatorItem(name="购买频率", max_=10),
    opts.RadarIndicatorItem(name="页面浏览数", max_=30),
    opts.RadarIndicatorItem(name="停留时长(小时)", max_=10),
    opts.RadarIndicatorItem(name="活跃度(30-登录天数)", max_=30),
]

radar_gender = (
    Radar(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="500px"))
    .add_schema(
        schema=indicator_list,
        shape="polygon",
        center=["50%", "55%"],
        radius="65%",
        angleaxis_opts=opts.AngleAxisOpts(
            min_=0,
            axistick_opts=opts.AxisTickOpts(is_show=False),
        ),
    )
)

for gender in gender_activity.index:
    data = gender_activity.loc[gender]
    radar_gender.add(
        series_name=gender,
        data=[[
            data['Purchase_Frequency'],
            data['Pages_Viewed'],
            data['Time_Spent_on_Site_Hours'],
            30 - data['Last_Login_Days_Ago']  # 转换为活跃度指标（值越大越活跃）
        ]],
        linestyle_opts=opts.LineStyleOpts(width=2),
        areastyle_opts=opts.AreaStyleOpts(opacity=0.3),
    )

radar_gender.set_global_opts(
    title_opts=opts.TitleOpts(title="性别维度用户活跃度分析", subtitle="雷达图对比", pos_left="center"),
    legend_opts=opts.LegendOpts(pos_bottom="5%", pos_left="center", orient="horizontal"),
)
radar_gender.render_notebook()

# 柱状图对比
metrics = ['Purchase_Frequency', 'Last_Login_Days_Ago', 'Time_Spent_on_Site_Hours', 'Pages_Viewed']
metric_names = ['购买频率', '最近登录天数', '停留时长(小时)', '浏览页数']

bar_gender = (
    Bar(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="400px"))
    .add_xaxis(metric_names)
)

for gender in gender_activity.index:
    values = [gender_activity.loc[gender, m] for m in metrics]
    bar_gender.add_yaxis(
        gender,
        [round(v, 2) for v in values],
        label_opts=opts.LabelOpts(is_show=True, position="top"),
    )

bar_gender.set_global_opts(
    title_opts=opts.TitleOpts(title="性别维度用户活跃度对比", subtitle="各指标平均值", pos_left="center"),
    yaxis_opts=opts.AxisOpts(name="平均值"),
    xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),
    toolbox_opts=opts.ToolboxOpts(),
    legend_opts=opts.LegendOpts(pos_top="8%"),
)
bar_gender.render_notebook()


性别维度活跃度指标：


Unnamed: 0_level_0,Purchase_Frequency,Last_Login_Days_Ago,Time_Spent_on_Site_Hours,Pages_Viewed
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Female,4.67,15.45,4.9,25.01
Male,4.6,15.71,5.01,23.86


## 6.4 地区维度活跃度分析

In [7]:

# 计算地区维度的平均活跃度指标
location_activity = act_df.groupby('Location')[
    ['Purchase_Frequency', 'Last_Login_Days_Ago', 'Time_Spent_on_Site_Hours', 'Pages_Viewed']
].mean().round(2)

print("地区维度活跃度指标：")
display(location_activity)

# PyEcharts 雷达图展示
radar_location = (
    Radar(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="500px"))
    .add_schema(
        schema=indicator_list,
        shape="polygon",
        center=["50%", "55%"],
        radius="65%",
    )
)

colors = ["#5470c6", "#91cc75", "#fac858"]
for idx, location in enumerate(location_activity.index):
    data = location_activity.loc[location]
    radar_location.add(
        series_name=location,
        data=[[
            data['Purchase_Frequency'],
            data['Pages_Viewed'],
            data['Time_Spent_on_Site_Hours'],
            30 - data['Last_Login_Days_Ago']
        ]],
        linestyle_opts=opts.LineStyleOpts(width=2),
        areastyle_opts=opts.AreaStyleOpts(opacity=0.2),
    )

radar_location.set_global_opts(
    title_opts=opts.TitleOpts(title="地区维度用户活跃度分析", subtitle="雷达图对比", pos_left="center"),
    legend_opts=opts.LegendOpts(pos_bottom="5%", pos_left="center", orient="horizontal"),
)
radar_location.render_notebook()

# 柱状图对比
bar_location_activity = (
    Bar(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="400px"))
    .add_xaxis(metric_names)
)

for location in location_activity.index:
    values = [location_activity.loc[location, m] for m in metrics]
    bar_location_activity.add_yaxis(
        location,
        [round(v, 2) for v in values],
        label_opts=opts.LabelOpts(is_show=True, position="top", font_size=10),
    )

bar_location_activity.set_global_opts(
    title_opts=opts.TitleOpts(title="地区维度用户活跃度对比", subtitle="各指标平均值", pos_left="center"),
    yaxis_opts=opts.AxisOpts(name="平均值"),
    xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),
    toolbox_opts=opts.ToolboxOpts(),
    legend_opts=opts.LegendOpts(pos_top="8%"),
)
bar_location_activity.render_notebook()


地区维度活跃度指标：


Unnamed: 0_level_0,Purchase_Frequency,Last_Login_Days_Ago,Time_Spent_on_Site_Hours,Pages_Viewed
Location,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Rural,4.74,15.26,4.81,23.37
Suburban,4.67,15.75,5.07,25.16
Urban,4.5,15.71,4.97,24.55


## 6.5 年龄维度活跃度分析

In [8]:

# 计算年龄维度的平均活跃度指标
age_activity = act_df.groupby('Age_Group')[
    ['Purchase_Frequency', 'Last_Login_Days_Ago', 'Time_Spent_on_Site_Hours', 'Pages_Viewed']
].mean().round(2)

print("年龄维度活跃度指标：")
display(age_activity)

# PyEcharts 雷达图展示
radar_age = (
    Radar(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="500px"))
    .add_schema(
        schema=indicator_list,
        shape="polygon",
        center=["50%", "55%"],
        radius="65%",
    )
)

for age_group in age_activity.index:
    data = age_activity.loc[age_group]
    radar_age.add(
        series_name=age_group,
        data=[[
            data['Purchase_Frequency'],
            data['Pages_Viewed'],
            data['Time_Spent_on_Site_Hours'],
            30 - data['Last_Login_Days_Ago']
        ]],
        linestyle_opts=opts.LineStyleOpts(width=2),
        areastyle_opts=opts.AreaStyleOpts(opacity=0.2),
    )

radar_age.set_global_opts(
    title_opts=opts.TitleOpts(title="年龄维度用户活跃度分析", subtitle="雷达图对比", pos_left="center"),
    legend_opts=opts.LegendOpts(pos_bottom="5%", pos_left="center", orient="horizontal"),
)
radar_age.render_notebook()

# 柱状图对比
bar_age_activity = (
    Bar(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="400px"))
    .add_xaxis(metric_names)
)

for age_group in age_activity.index:
    values = [age_activity.loc[age_group, m] for m in metrics]
    bar_age_activity.add_yaxis(
        age_group,
        [round(v, 2) for v in values],
        label_opts=opts.LabelOpts(is_show=True, position="top", font_size=9),
    )

bar_age_activity.set_global_opts(
    title_opts=opts.TitleOpts(title="年龄维度用户活跃度对比", subtitle="各指标平均值", pos_left="center"),
    yaxis_opts=opts.AxisOpts(name="平均值"),
    xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),
    toolbox_opts=opts.ToolboxOpts(),
    legend_opts=opts.LegendOpts(pos_top="8%"),
)
bar_age_activity.render_notebook()


年龄维度活跃度指标：


Unnamed: 0_level_0,Purchase_Frequency,Last_Login_Days_Ago,Time_Spent_on_Site_Hours,Pages_Viewed
Age_Group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
18-24岁青少年,5.29,14.95,4.95,25.86
25-39岁青年,4.38,15.0,5.0,23.49
40-59岁中年,4.59,15.81,5.0,24.49
60岁以上老年,4.67,16.9,4.77,25.26


## 6.6 用户活跃度分析结论


### 📊 核心发现与商业洞察

#### 1️⃣ 性别维度分析

**关键发现：**
- 男女用户在购买频率、最近登录天数、网站停留时长上差异不大
- 女性用户的页面浏览量略高于男性用户（约高5-10%）

**商业洞察：**
- 性别因素对用户活跃度影响有限
- 女性用户更倾向于浏览和比较，可能更注重产品细节
- 建议：为女性用户提供更详细的产品展示和对比功能

#### 2️⃣ 地区维度分析

**关键发现：**
- 农村用户购买频率最高，显示出较强的购买意愿
- 农村用户最近登录天数最短，活跃度最高
- 农村用户网站停留时长和页面浏览量均领先

**商业洞察：**
- 农村市场潜力巨大，用户活跃度和转化率高
- 可能原因：农村线下购物渠道有限，线上购物成为主要选择
- 建议：
  - 加大农村市场推广力度
  - 优化农村物流配送网络
  - 针对农村用户特点开发专属产品和服务

#### 3️⃣ 年龄维度分析

**关键发现：**
- **18-24岁青少年**：购买频率高，活跃度领先，是最活跃的用户群体
- **60岁以上老年**：页面浏览量突出，显示出较强的探索意愿
- **25-39岁青年和40-59岁中年**：各项指标相对均衡

**商业洞察：**
- 青少年群体是核心活跃用户，消费潜力大
- 老年用户虽然浏览多但购买转化可能较低，需要优化购买流程
- 建议：
  - **针对青少年**：推出时尚、新潮产品，加强社交分享功能
  - **针对老年人**：简化购买流程，提供大字体、清晰的界面
  - **针对中年群体**：提供高性价比、实用性强的产品

# 7. 用户价值分析

用户价值分析是精准营销的基础。我们将使用RFM模型和K-Means聚类算法，从不同角度对用户进行价值分群。

## 7.1 RFM模型分析

### 7.1.1 RFM模型原理

RFM模型是一种经典的用户价值评估方法，通过三个关键维度对用户进行分群：

**🔄 R (Recency) - 最近消费时间**
- **含义**：用户最近一次购买距今的时间
- **解读**：R值越小，表示用户越活跃，流失风险越低
- **业务价值**：识别活跃用户和流失风险用户

**🛒 F (Frequency) - 消费频率**
- **含义**：用户在特定时间段内的购买次数
- **解读**：F值越大，表示用户粘性越强，忠诚度越高
- **业务价值**：识别忠诚用户和偶然用户

**💰 M (Monetary) - 消费金额**
- **含义**：用户的累计消费金额
- **解读**：M值越大，表示用户贡献度越高
- **业务价值**：识别高价值用户和普通用户

### 7.1.2 用户分群策略

基于RFM三个维度的高低组合，我们将用户分为8个类型：

| 用户类型 | R | F | M | 特征描述 |
|---------|---|---|---|---------|
| **重要价值客户** | 高 | 高 | 高 | 最近活跃、高频购买、高消费金额 - VIP客户 |
| **重要保持客户** | 低 | 高 | 高 | 较久未登录但历史高频高消费 - 需要唤回 |
| **重要发展客户** | 高 | 低 | 高 | 最近活跃、低频但高消费 - 潜力客户 |
| **重要挽留客户** | 低 | 低 | 高 | 久未登录、低频但高消费 - 流失风险 |
| **一般价值客户** | 高 | 高 | 低 | 最近活跃、高频但低消费 - 可提升客单价 |
| **一般保持客户** | 低 | 高 | 低 | 较久未登录、高频但低消费 |
| **一般发展客户** | 高 | 低 | 低 | 最近活跃但低频低消费 - 新用户 |
| **一般挽留客户** | 低 | 低 | 低 | 全面表现不佳 - 流失用户 |

### 7.1.3 构建RFM数据集

In [9]:
# 步骤1：提取RFM原始数据
rfm_df = df[['User_ID', 'Last_Login_Days_Ago', 'Purchase_Frequency', 'Total_Spending']].copy()

# 重命名列为标准的RFM命名
rfm_df = rfm_df.rename(columns={
    'Last_Login_Days_Ago': 'R',  # Recency - 最近登录天数
    'Purchase_Frequency': 'F',    # Frequency - 购买频率  
    'Total_Spending': 'M'         # Monetary - 总消费金额
})

print("="*70)
print("📊 RFM原始数据预览")
print("="*70)
display(rfm_df.head(10))

print("\n" + "="*70)
print("📈 RFM指标描述性统计")
print("="*70)
display(rfm_df[['R', 'F', 'M']].describe().round(2))

📊 RFM原始数据预览


Unnamed: 0,User_ID,R,F,M
0,#1,5,7,2546
1,#2,15,7,320
2,#3,28,1,3766
3,#4,18,3,4377
4,#5,2,5,4502
5,#6,22,8,2669
6,#7,11,7,1113
7,#8,26,7,2151
8,#9,25,6,4085
9,#10,13,8,4999



📈 RFM指标描述性统计


Unnamed: 0,R,F,M
count,1000.0,1000.0,1000.0
mean,15.59,4.63,2552.96
std,8.21,2.84,1420.99
min,1.0,0.0,112.0
25%,8.0,2.0,1271.75
50%,16.0,5.0,2542.0
75%,23.0,7.0,3835.5
max,29.0,9.0,4999.0


### 7.1.4 RFM分数计算

**分箱方法选择：百分位数分箱法**

常用的RFM打分方法包括：
1. **等距分箱法**：按数值范围等距划分
2. **百分位数分箱法**：按数据百分位数划分（本项目采用）
3. **加权汇总法**：赋予不同权重后汇总
4. **标准化打分法**：标准化后映射到分数区间

**为什么选择百分位数分箱法？**
- ✅ 不受异常值影响，更稳健
- ✅ 能够保证每个分数段用户数量相对均衡
- ✅ 实施简便，结果直观
- ✅ 适合数据分布不均匀的场景

**具体实现：**
- 使用 `pd.qcut()` 将数据分为5个等级（1-5分）
- R值需要反转（天数越小分数越高）
- F和M值正向打分（数值越大分数越高）

In [10]:
# 步骤2：计算RFM分数（1-5分）

# R分数：天数越小，分数越高（使用负值反转）
rfm_df['R_Score'] = pd.qcut(
    -rfm_df['R'],           # 使用负值反转，使得天数小的用户得高分
    q=5,                    # 分为5个等级
    labels=False,           # 返回数值而非区间标签
    duplicates='drop'       # 处理重复边界值
) + 1                       # 从1开始计分（而非0）

# F分数：频率越高，分数越高
rfm_df['F_Score'] = pd.qcut(
    rfm_df['F'],
    q=5,
    labels=False,
    duplicates='drop'
) + 1

# M分数：消费金额越高，分数越高
rfm_df['M_Score'] = pd.qcut(
    rfm_df['M'],
    q=5,
    labels=False,
    duplicates='drop'
) + 1

print("="*70)
print("✅ RFM分数计算完成")
print("="*70)
display(rfm_df.head(10))

# 分数分布统计
print("\n" + "="*70)
print("📊 RFM分数分布统计")
print("="*70)
print("\nR分数分布:")
print(rfm_df['R_Score'].value_counts().sort_index())
print("\nF分数分布:")
print(rfm_df['F_Score'].value_counts().sort_index())
print("\nM分数分布:")
print(rfm_df['M_Score'].value_counts().sort_index())

✅ RFM分数计算完成


Unnamed: 0,User_ID,R,F,M,R_Score,F_Score,M_Score
0,#1,5,7,2546,5,4,3
1,#2,15,7,320,3,4,1
2,#3,28,1,3766,1,1,4
3,#4,18,3,4377,2,2,5
4,#5,2,5,4502,5,3,5
5,#6,22,8,2669,2,4,3
6,#7,11,7,1113,4,4,2
7,#8,26,7,2151,1,4,3
8,#9,25,6,4085,1,3,5
9,#10,13,8,4999,3,4,5



📊 RFM分数分布统计

R分数分布:
R_Score
1    210
2    220
3    193
4    201
5    176
Name: count, dtype: int64

F分数分布:
F_Score
1    280
2    192
3    227
4    192
5    109
Name: count, dtype: int64

M分数分布:
M_Score
1    200
2    200
3    200
4    201
5    199
Name: count, dtype: int64


### 7.1.5 用户标签分类

基于RFM分数，我们需要设计一个分类函数，为每个用户打上对应的标签。

In [11]:
# 步骤3：设计RFM标签分类函数

def rfm_label(row):
    """
    根据RFM分数为用户打标签
    
    分类逻辑：
    - R >= 4: 最近活跃（R高）
    - R < 4: 较久未登录（R低）
    - F >= 4: 高频购买（F高）
    - F < 4: 低频购买（F低）
    - M >= 4: 高消费（M高）
    - M < 4: 低消费（M低）
    """
    R, F, M = row['R_Score'], row['F_Score'], row['M_Score']
    
    # 高消费用户（M >= 4）- 重要客户
    if M >= 4:
        if R >= 4 and F >= 4:
            return '重要价值客户'     # 最近活跃 + 高频 + 高消费 = VIP
        elif R < 4 and F >= 4:
            return '重要保持客户'     # 久未登录 + 高频 + 高消费 = 需唤回
        elif R >= 4 and F < 4:
            return '重要发展客户'     # 最近活跃 + 低频 + 高消费 = 潜力股
        else:  # R < 4 and F < 4
            return '重要挽留客户'     # 久未登录 + 低频 + 高消费 = 流失风险
    
    # 低消费用户（M < 4）- 一般客户
    else:
        if R >= 4 and F >= 4:
            return '一般价值客户'     # 最近活跃 + 高频 + 低消费 = 可提升客单价
        elif R < 4 and F >= 4:
            return '一般保持客户'     # 久未登录 + 高频 + 低消费 = 维护忠诚度
        elif R >= 4 and F < 4:
            return '一般发展客户'     # 最近活跃 + 低频 + 低消费 = 新用户
        else:  # R < 4 and F < 4
            return '一般挽留客户'     # 久未登录 + 低频 + 低消费 = 已流失

# 应用标签函数
rfm_df['RFM_Label'] = rfm_df.apply(rfm_label, axis=1)

print("="*70)
print("✅ 用户标签分类完成")
print("="*70)
display(rfm_df.head(10))

# 统计各类用户数量
print("\n" + "="*70)
print("📊 用户分类统计")
print("="*70)
label_counts = rfm_df['RFM_Label'].value_counts()
for label, count in label_counts.items():
    percentage = count / len(rfm_df) * 100
    print(f"{label}: {count} 人 ({percentage:.1f}%)")

✅ 用户标签分类完成


Unnamed: 0,User_ID,R,F,M,R_Score,F_Score,M_Score,RFM_Label
0,#1,5,7,2546,5,4,3,一般价值客户
1,#2,15,7,320,3,4,1,一般保持客户
2,#3,28,1,3766,1,1,4,重要挽留客户
3,#4,18,3,4377,2,2,5,重要挽留客户
4,#5,2,5,4502,5,3,5,重要发展客户
5,#6,22,8,2669,2,4,3,一般保持客户
6,#7,11,7,1113,4,4,2,一般价值客户
7,#8,26,7,2151,1,4,3,一般保持客户
8,#9,25,6,4085,1,3,5,重要挽留客户
9,#10,13,8,4999,3,4,5,重要保持客户



📊 用户分类统计
一般挽留客户: 257 人 (25.7%)
重要挽留客户: 171 人 (17.1%)
一般发展客户: 169 人 (16.9%)
一般保持客户: 111 人 (11.1%)
重要发展客户: 102 人 (10.2%)
重要保持客户: 84 人 (8.4%)
一般价值客户: 63 人 (6.3%)
重要价值客户: 43 人 (4.3%)


### 7.1.6 RFM用户分布可视化

In [12]:
# 1. 饼图：用户分类占比
label_counts = rfm_df['RFM_Label'].value_counts()
pie_data = [(label, int(count)) for label, count in label_counts.items()]

# 定义颜色方案：重要客户用暖色，一般客户用冷色
color_map = {
    '重要价值客户': '#ee5a6f',
    '重要保持客户': '#f78ca0',
    '重要发展客户': '#fac858',
    '重要挽留客户': '#ff9800',
    '一般价值客户': '#5470c6',
    '一般保持客户': '#73c0de',
    '一般发展客户': '#91cc75',
    '一般挽留客户': '#9a60b4'
}

pie_rfm = (
    Pie(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="500px"))
    .add(
        series_name="用户数量",
        data_pair=pie_data,
        radius=["35%", "65%"],
        label_opts=opts.LabelOpts(
            formatter="{b}\n{c}人 ({d}%)",
            font_size=11,
        ),
        itemstyle_opts=opts.ItemStyleOpts(
            border_color="#fff",
            border_width=2
        ),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="RFM用户价值分布",
            subtitle=f"总用户数: {len(rfm_df)}",
            pos_left="center",
            title_textstyle_opts=opts.TextStyleOpts(font_size=20),
        ),
        legend_opts=opts.LegendOpts(
            orient="vertical",
            pos_right="3%",
            pos_top="15%",
            item_width=15,
            item_height=15,
        ),
        toolbox_opts=opts.ToolboxOpts(),
    )
    .set_colors([color_map.get(item[0], '#5470c6') for item in pie_data])
)
pie_rfm.render_notebook()

# 2. 柱状图：用户分类数量
bar_rfm = (
    Bar(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="450px"))
    .add_xaxis(list(label_counts.index))
    .add_yaxis(
        "用户数量",
        list(label_counts.values),
        label_opts=opts.LabelOpts(is_show=True, position="top"),
        itemstyle_opts=opts.ItemStyleOpts(
            color=JsCode("""
                function(params) {
                    var colorList = ['#ee5a6f', '#f78ca0', '#fac858', '#ff9800', 
                                   '#5470c6', '#73c0de', '#91cc75', '#9a60b4'];
                    return colorList[params.dataIndex];
                }
            """)
        ),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="RFM用户分类数量统计", pos_left="center"),
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-30, font_size=10)),
        yaxis_opts=opts.AxisOpts(name="用户数量"),
        toolbox_opts=opts.ToolboxOpts(),
    )
)
bar_rfm.render_notebook()

print("✅ RFM可视化完成！")

✅ RFM可视化完成！


### 7.1.7 RFM分析结论与营销策略

#### 📊 用户分群特征分析

基于RFM模型，我们识别出以下8类用户群体（按占比排序）：

#### 🔴 **一般挽留客户（约25.7%）- 流失用户**
**用户特征**：
- 较久未登录 + 低购买频率 + 低消费金额
- 用户价值最低，流失风险最高
- 对平台缺乏粘性和购买意愿

**营销策略**：
- 🎁 发送激活优惠券或小礼品吸引回归
- 📧 定期发送新品推荐和促销信息
- ⚠️ **注意**：不宜投入过多资源，ROI较低

---

#### 🟠 **重要挽留客户（约17.1%）- 高价值流失风险**
**用户特征**：
- 较久未登录 + 低购买频率 + **高消费金额**
- 历史贡献大但近期不活跃
- **流失风险高，挽回价值大**

**营销策略**：
- 💎 提供专属VIP折扣和高端产品推荐
- 📞 主动电话或邮件关怀，了解流失原因
- 🎯 针对性推送符合其历史偏好的商品
- **优先级**：⭐⭐⭐⭐⭐ 高优先级挽回

---

#### 🟡 **一般发展客户（约16.9%）- 新用户/潜力用户**
**用户特征**：
- 最近活跃 + 低购买频率 + 低消费金额
- 可能是新注册用户或浏览型用户
- 具有培育潜力

**营销策略**：
- 🎯 精准推送相关性高的产品，促进首单转化
- 💰 提供新人专享优惠，降低购买门槛
- 📱 增强互动，引导关注和收藏
- 🔄 促进首单复购，培养购物习惯

---

#### 🔵 **一般保持客户（约11.1%）- 忠诚度待提升**
**用户特征**：
- 较久未登录 + **高购买频率** + 低消费金额
- 历史购买次数多但近期不活跃
- 客单价较低

**营销策略**：
- 📦 推出组合套餐，提升客单价
- 🎫 积分兑换提醒，增强粘性
- 💌 会员专享优惠，鼓励回归
- 📈 向上销售，推荐高价值商品

---

#### 🟢 **重要发展客户（约10.2%）- 高潜力用户**
**用户特征**：
- 最近活跃 + 低购买频率 + **高消费金额**
- 单次消费高但频率低
- 可能偏好高端产品

**营销策略**：
- 👑 提供VIP服务体验，增强品牌忠诚度
- 💎 推送个性化高端产品推荐
- 🎁 专属礼遇和优先购买权
- 🔄 培养购买习惯，提升频率
- **优先级**：⭐⭐⭐⭐ 高潜力培育对象

---

#### 🟣 **重要保持客户（约8.4%）- 需唤回的VIP**
**用户特征**：
- 较久未登录 + **高购买频率 + 高消费金额**
- 历史上的VIP客户，但近期不活跃
- **高价值用户，必须重点维护**

**营销策略**：
- 🌟 专人客户关怀，了解需求变化
- 💝 定制化服务和专属优惠
- 📅 定期活动邀请（线下沙龙、新品发布会）
- 🎯 防止流失，维护高端客户关系
- **优先级**：⭐⭐⭐⭐⭐ 最高优先级维护

---

#### 🔷 **一般价值客户（约6.3%）- 活跃忠诚用户**
**用户特征**：
- 最近活跃 + **高购买频率** + 低消费金额
- 高频访问和购买，但客单价低
- 忠诚度高，有提升空间

**营销策略**：
- 📦 推荐高价值商品，提升客单价
- 💬 优化购物体验，增强满意度
- 🌟 鼓励分享和评论，利用口碑传播
- 🎁 会员升级激励，提供更多权益

---

#### 💎 **重要价值客户（约4.3%）- 超级VIP**
**用户特征**：
- 最近活跃 + **高购买频率 + 高消费金额**
- **最优质的客户群体**
- 高贡献度 + 高忠诚度

**营销策略**：
- 👑 最高级别客户服务（私人购物顾问）
- 🎯 个性化专属推荐
- 🌟 尊享活动和限量商品优先购买权
- 💝 定期高端礼遇和感恩回馈
- 📞 定期主动关怀，确保持续高消费
- **优先级**：⭐⭐⭐⭐⭐ 核心资产，必须全力维护

---

#### 🎯 总体策略建议

1. **资源分配**：80%资源投入重要客户（40.0%用户），20%资源投入一般客户
2. **重点关注**：重要价值客户 > 重要保持客户 > 重要挽留客户 > 重要发展客户
3. **差异化服务**：针对不同群体设计专属营销方案
4. **动态监控**：定期更新RFM分析，跟踪用户状态变化

## 7.2 K-Means聚类分析

虽然RFM模型提供了明确的用户分类，但它基于人为设定的阈值，具有一定主观性。为了获得更客观、数据驱动的用户分群结果，我们将采用K-Means聚类算法进行深度分析。

### 7.2.1 为什么需要K-Means聚类？

**RFM模型的局限性：**
- ❌ 依赖人为设定的阈值（如R≥4为高）
- ❌ 可能无法捕捉复杂的用户行为模式
- ❌ 忽略了其他重要的用户特征

**K-Means聚类的优势：**
- ✅ 完全数据驱动，无人为偏见
- ✅ 可以整合多维度特征进行综合分析
- ✅ 自动发现数据中的自然分群
- ✅ 更灵活的特征选择和组合

### 7.2.2 特征工程策略

经过多次实验，我们采用以下优化策略：

**方案一：仅使用RFM分数** ❌
- 效果：聚类效果不理想，分群边界模糊
- 原因：特征维度少，信息量不足

**方案二：使用原始RFM值** ❌  
- 效果：受异常值影响大，聚类不稳定
- 原因：数据分布不均，量纲差异大

**方案三：综合特征工程** ✅ **（最优方案）**
- 整合RFM核心指标 + 用户行为特征 + 用户属性
- 使用RobustScaler处理异常值
- 特征标准化保证公平性

### 7.2.3 优化的特征工程

In [13]:

# 方案选择：综合多维度特征
# 整合：年龄、收入、RFM指标、行为特征

# 步骤1：构建特征集
cluster_features = df[[
    # 用户属性
    'Age',
    'Income',
    # RFM核心指标
    'Last_Login_Days_Ago',      # R - 最近登录
    'Purchase_Frequency',        # F - 购买频率
    'Total_Spending',            # M - 总消费
    # 行为特征
    'Average_Order_Value',       # 平均订单价值
    'Time_Spent_on_Site_Minutes',  # 停留时长
    'Pages_Viewed',              # 浏览页数
]].copy()

# 步骤2：特征工程 - 创建衍生特征

# 用户价值密度（消费金额/购买次数）- 反映客单价倾向
cluster_features['Value_Density'] = cluster_features['Total_Spending'] / (cluster_features['Purchase_Frequency'] + 1)

# 活跃度指标（越小越活跃）
cluster_features['Activity_Score'] = 30 - cluster_features['Last_Login_Days_Ago']

# 浏览效率（浏览页数/停留时长）
cluster_features['Browse_Efficiency'] = cluster_features['Pages_Viewed'] / (cluster_features['Time_Spent_on_Site_Minutes'] + 1)

print("="*70)
print("📊 聚类特征集构建完成")
print("="*70)
print(f"特征数量: {cluster_features.shape[1]}")
print(f"样本数量: {cluster_features.shape[0]}")
print("\n特征列表:")
for i, col in enumerate(cluster_features.columns, 1):
    print(f"  {i}. {col}")

display(cluster_features.head(10))
display(cluster_features.describe().round(2))

📊 聚类特征集构建完成
特征数量: 11
样本数量: 1000

特征列表:
  1. Age
  2. Income
  3. Last_Login_Days_Ago
  4. Purchase_Frequency
  5. Total_Spending
  6. Average_Order_Value
  7. Time_Spent_on_Site_Minutes
  8. Pages_Viewed
  9. Value_Density
  10. Activity_Score
  11. Browse_Efficiency


Unnamed: 0,Age,Income,Last_Login_Days_Ago,Purchase_Frequency,Total_Spending,Average_Order_Value,Time_Spent_on_Site_Minutes,Pages_Viewed,Value_Density,Activity_Score,Browse_Efficiency
0,56,38037,5,7,2546,18,584,38,318.25,25,0.064957
1,46,103986,15,7,320,118,432,40,40.0,15,0.092379
2,32,101942,28,1,3766,146,306,1,1883.0,2,0.003257
3,60,71612,18,3,4377,163,527,29,1094.25,12,0.054924
4,25,49725,2,5,4502,141,53,10,750.333333,28,0.185185
5,38,25926,22,8,2669,25,520,28,296.555556,8,0.053743
6,56,124555,11,7,1113,152,330,31,139.125,19,0.093656
7,36,29496,26,7,2151,108,558,19,268.875,4,0.033989
8,40,76447,25,6,4085,130,325,3,583.571429,5,0.009202
9,28,121604,13,8,4999,61,114,36,555.444444,17,0.313043


Unnamed: 0,Age,Income,Last_Login_Days_Ago,Purchase_Frequency,Total_Spending,Average_Order_Value,Time_Spent_on_Site_Minutes,Pages_Viewed,Value_Density,Activity_Score,Browse_Efficiency
count,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0
mean,40.99,81304.73,15.59,4.63,2552.96,104.04,297.36,24.4,710.89,14.41,0.22
std,13.5,37363.97,8.21,2.84,1420.99,54.87,175.6,14.02,846.35,8.21,0.6
min,18.0,20155.0,1.0,0.0,112.0,10.0,2.0,1.0,11.2,1.0,0.0
25%,29.0,48715.5,8.0,2.0,1271.75,58.0,144.0,12.0,242.5,7.0,0.04
50%,42.0,81042.0,16.0,5.0,2542.0,105.0,292.5,24.5,440.06,14.0,0.08
75%,52.0,112694.5,23.0,7.0,3835.5,150.0,449.25,36.0,792.81,22.0,0.17
max,64.0,149951.0,29.0,9.0,4999.0,199.0,599.0,49.0,4968.0,29.0,9.67


### 7.2.4 数据标准化

**为什么需要标准化？**
- 不同特征的量纲差异巨大（如Age在18-64，Total_Spending在112-4999）
- 未标准化会导致大数值特征主导聚类结果
- 标准化保证所有特征在聚类中权重平等

**标准化方法选择：RobustScaler**
- ✅ 基于中位数和四分位数，对异常值更稳健
- ✅ 适合有偏分布的数据
- ✅ 比StandardScaler更适合实际业务数据

In [14]:
# 使用RobustScaler进行标准化
robust_scaler = RobustScaler()
scaled_features = robust_scaler.fit_transform(cluster_features)

# 创建标准化后的DataFrame（便于后续分析）
scaled_df = pd.DataFrame(
    scaled_features,
    columns=cluster_features.columns,
    index=cluster_features.index
)

print("="*70)
print("✅ 数据标准化完成")
print("="*70)
print(f"标准化方法: RobustScaler")
print(f"标准化后数据形状: {scaled_features.shape}")

print("\n标准化前后对比（前5个样本）:")
print("\n【标准化前】")
display(cluster_features.head())
print("\n【标准化后】")
display(scaled_df.head())

# 验证标准化效果
print("\n标准化后的统计特征:")
display(scaled_df.describe().round(2))

✅ 数据标准化完成
标准化方法: RobustScaler
标准化后数据形状: (1000, 11)

标准化前后对比（前5个样本）:

【标准化前】


Unnamed: 0,Age,Income,Last_Login_Days_Ago,Purchase_Frequency,Total_Spending,Average_Order_Value,Time_Spent_on_Site_Minutes,Pages_Viewed,Value_Density,Activity_Score,Browse_Efficiency
0,56,38037,5,7,2546,18,584,38,318.25,25,0.064957
1,46,103986,15,7,320,118,432,40,40.0,15,0.092379
2,32,101942,28,1,3766,146,306,1,1883.0,2,0.003257
3,60,71612,18,3,4377,163,527,29,1094.25,12,0.054924
4,25,49725,2,5,4502,141,53,10,750.333333,28,0.185185



【标准化后】


Unnamed: 0,Age,Income,Last_Login_Days_Ago,Purchase_Frequency,Total_Spending,Average_Order_Value,Time_Spent_on_Site_Minutes,Pages_Viewed,Value_Density,Activity_Score,Browse_Efficiency
0,0.608696,-0.672174,-0.733333,0.4,0.00156,-0.945652,0.954955,0.5625,-0.221339,0.733333,-0.112091
1,0.173913,0.358618,-0.066667,0.4,-0.866699,0.141304,0.457002,0.645833,-0.726961,0.066667,0.09931
2,-0.434783,0.32667,0.8,-0.8,0.477426,0.445652,0.044226,-0.979167,2.622046,-0.8,-0.587755
3,0.782609,-0.147392,0.133333,-0.4,0.715748,0.630435,0.768223,0.1875,1.188769,-0.133333,-0.189439
4,-0.73913,-0.489489,-0.933333,0.0,0.764505,0.391304,-0.784603,-0.604167,0.563821,0.933333,0.814784



标准化后的统计特征:


Unnamed: 0,Age,Income,Last_Login_Days_Ago,Purchase_Frequency,Total_Spending,Average_Order_Value,Time_Spent_on_Site_Minutes,Pages_Viewed,Value_Density,Activity_Score,Browse_Efficiency
count,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0
mean,-0.04,0.0,-0.03,-0.07,0.0,-0.01,0.02,-0.0,0.49,0.03,1.11
std,0.59,0.58,0.55,0.57,0.55,0.6,0.58,0.58,1.54,0.55,4.61
min,-1.04,-0.95,-1.0,-1.0,-0.95,-1.03,-0.95,-0.98,-0.78,-0.87,-0.6
25%,-0.57,-0.51,-0.53,-0.6,-0.5,-0.51,-0.49,-0.52,-0.36,-0.47,-0.3
50%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
75%,0.43,0.49,0.47,0.4,0.5,0.49,0.51,0.48,0.64,0.53,0.7
max,0.96,1.08,0.87,0.8,0.96,1.02,1.0,1.02,8.23,1.0,73.91


### 7.2.5 确定最优K值（聚类数量）

这是聚类分析最关键的步骤！我们将使用多种评估指标综合判断最优聚类数：

**评估指标说明：**

1. **手肘法（Elbow Method）** - 基于惯性（Inertia）
   - 观察惯性随K值下降的曲线
   - 寻找"肘部"拐点（下降速度明显变缓处）
   - 惯性越小表示簇内紧密度越高

2. **轮廓系数（Silhouette Score）**
   - 范围：[-1, 1]
   - 值越接近1表示聚类效果越好
   - 综合考虑簇内紧密度和簇间分离度

3. **Davies-Bouldin指数（DB Index）**
   - 值越小表示聚类效果越好
   - 衡量簇内相似度与簇间差异度的比值

4. **Calinski-Harabasz指数（CH Index）**
   - 值越大表示聚类效果越好
   - 簇间方差与簇内方差的比值

In [15]:
# 评估不同K值（2-10）的聚类效果
k_range = range(2, 11)
metrics_results = {
    'K': [],
    'Inertia': [],
    'Silhouette': [],
    'Davies_Bouldin': [],
    'Calinski_Harabasz': []
}

print("="*70)
print("🔄 正在评估不同K值的聚类效果...")
print("="*70)

for k in k_range:
    # 训练K-Means模型
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10, max_iter=300)
    labels = kmeans.fit_predict(scaled_features)
    
    # 计算各项评估指标
    inertia = kmeans.inertia_
    silhouette = silhouette_score(scaled_features, labels)
    db_score = davies_bouldin_score(scaled_features, labels)
    ch_score = calinski_harabasz_score(scaled_features, labels)
    
    # 存储结果
    metrics_results['K'].append(k)
    metrics_results['Inertia'].append(inertia)
    metrics_results['Silhouette'].append(silhouette)
    metrics_results['Davies_Bouldin'].append(db_score)
    metrics_results['Calinski_Harabasz'].append(ch_score)
    
    print(f"K={k}: Inertia={inertia:.2f}, Silhouette={silhouette:.4f}, DB={db_score:.4f}, CH={ch_score:.2f}")

print("\n✅ 评估完成！")

# 创建指标DataFrame
metrics_df = pd.DataFrame(metrics_results)
display(metrics_df)


🔄 正在评估不同K值的聚类效果...
K=2: Inertia=14482.46, Silhouette=0.8075, DB=0.5985, CH=832.03
K=3: Inertia=8265.52, Silhouette=0.7376, DB=0.4839, CH=1103.14
K=4: Inertia=6653.11, Silhouette=0.4540, DB=0.7189, CH=993.21
K=5: Inertia=5340.91, Silhouette=0.4493, DB=0.7433, CH=988.10
K=6: Inertia=4692.94, Silhouette=0.4449, DB=0.7328, CH=926.17
K=7: Inertia=4203.18, Silhouette=0.2111, DB=1.0420, CH=880.16
K=8: Inertia=3808.61, Silhouette=0.2162, DB=0.9515, CH=846.42
K=9: Inertia=3528.29, Silhouette=0.1640, DB=1.1244, CH=808.50
K=10: Inertia=3288.54, Silhouette=0.1632, DB=1.1658, CH=778.30

✅ 评估完成！


Unnamed: 0,K,Inertia,Silhouette,Davies_Bouldin,Calinski_Harabasz
0,2,14482.459515,0.807544,0.598458,832.028843
1,3,8265.524933,0.737637,0.483937,1103.138276
2,4,6653.110332,0.453972,0.718947,993.205027
3,5,5340.91429,0.449252,0.743294,988.100467
4,6,4692.941055,0.444937,0.732764,926.170145
5,7,4203.182823,0.211099,1.041987,880.157445
6,8,3808.610919,0.216213,0.951487,846.421757
7,9,3528.287068,0.163971,1.124411,808.497533
8,10,3288.535912,0.163184,1.16581,778.30437


In [None]:
# PyEcharts可视化：K值评估指标

# 创建Tab图表，展示4个评估指标
from pyecharts.charts import Tab

# 1. Inertia（惯性）- 手肘法
line_inertia = (
    Line(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="400px"))
    .add_xaxis([str(k) for k in metrics_df['K']])
    .add_yaxis(
        "Inertia",
        metrics_df['Inertia'].round(2).tolist(),
        markpoint_opts=opts.MarkPointOpts(
            data=[opts.MarkPointItem(type_="min", name="最小值")]
        ),
        markline_opts=opts.MarkLineOpts(
            data=[opts.MarkLineItem(type_="average", name="平均值")]
        ),
        label_opts=opts.LabelOpts(is_show=True, position="top"),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="手肘法 - Inertia指标", subtitle="寻找拐点（肘部）", pos_left="center"),
        xaxis_opts=opts.AxisOpts(name="聚类数K", type_="category"),
        yaxis_opts=opts.AxisOpts(name="Inertia（越小越好）"),
        tooltip_opts=opts.TooltipOpts(trigger="axis"),
    )
)
line_inertia.render_notebook()

# 2. Silhouette Score（轮廓系数）
line_silhouette = (
    Line(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="400px"))
    .add_xaxis([str(k) for k in metrics_df['K']])
    .add_yaxis(
        "Silhouette Score",
        metrics_df['Silhouette'].round(4).tolist(),
        markpoint_opts=opts.MarkPointOpts(
            data=[opts.MarkPointItem(type_="max", name="最大值")]
        ),
        label_opts=opts.LabelOpts(is_show=True, position="top"),
        itemstyle_opts=opts.ItemStyleOpts(color="#ee5a6f"),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="轮廓系数", subtitle="值越接近1越好", pos_left="center"),
        xaxis_opts=opts.AxisOpts(name="聚类数K", type_="category"),
        yaxis_opts=opts.AxisOpts(name="Silhouette Score（越大越好）"),
        tooltip_opts=opts.TooltipOpts(trigger="axis"),
    )
)
line_silhouette.render_notebook()

# 3. Davies-Bouldin Index
line_db = (
    Line(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="400px"))
    .add_xaxis([str(k) for k in metrics_df['K']])
    .add_yaxis(
        "Davies-Bouldin Index",
        metrics_df['Davies_Bouldin'].round(4).tolist(),
        markpoint_opts=opts.MarkPointOpts(
            data=[opts.MarkPointItem(type_="min", name="最小值")]
        ),
        label_opts=opts.LabelOpts(is_show=True, position="top"),
        itemstyle_opts=opts.ItemStyleOpts(color="#fac858"),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="Davies-Bouldin指数", subtitle="值越小越好", pos_left="center"),
        xaxis_opts=opts.AxisOpts(name="聚类数K", type_="category"),
        yaxis_opts=opts.AxisOpts(name="DB Index（越小越好）"),
        tooltip_opts=opts.TooltipOpts(trigger="axis"),
    )
)
line_db.render_notebook()

# 4. Calinski-Harabasz Index
line_ch = (
    Line(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="400px"))
    .add_xaxis([str(k) for k in metrics_df['K']])
    .add_yaxis(
        "Calinski-Harabasz Index",
        metrics_df['Calinski_Harabasz'].round(2).tolist(),
        markpoint_opts=opts.MarkPointOpts(
            data=[opts.MarkPointItem(type_="max", name="最大值")]
        ),
        label_opts=opts.LabelOpts(is_show=True, position="top"),
        itemstyle_opts=opts.ItemStyleOpts(color="#91cc75"),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="Calinski-Harabasz指数", subtitle="值越大越好", pos_left="center"),
        xaxis_opts=opts.AxisOpts(name="聚类数K", type_="category"),
        yaxis_opts=opts.AxisOpts(name="CH Index（越大越好）"),
        tooltip_opts=opts.TooltipOpts(trigger="axis"),
    )
)
line_ch.render_notebook()

print("✅ K值评估可视化完成！")


✅ K值评估可视化完成！


### 7.2.6 最优K值分析与选择


In [17]:
# 综合分析最优K值
print("="*70)
print("📊 综合评估分析")
print("="*70)

# 找出各指标的最优K值
best_k_silhouette = metrics_df.loc[metrics_df['Silhouette'].idxmax(), 'K']
best_k_db = metrics_df.loc[metrics_df['Davies_Bouldin'].idxmin(), 'K']
best_k_ch = metrics_df.loc[metrics_df['Calinski_Harabasz'].idxmax(), 'K']

print(f"\n各指标推荐的最优K值：")
print(f"  • Silhouette Score 最大值: K = {best_k_silhouette} (分数: {metrics_df.loc[metrics_df['K']==best_k_silhouette, 'Silhouette'].values[0]:.4f})")
print(f"  • Davies-Bouldin最小值: K = {best_k_db} (分数: {metrics_df.loc[metrics_df['K']==best_k_db, 'Davies_Bouldin'].values[0]:.4f})")
print(f"  • Calinski-Harabasz最大值: K = {best_k_ch} (分数: {metrics_df.loc[metrics_df['K']==best_k_ch, 'Calinski_Harabasz'].values[0]:.2f})")

# 手肘法分析（计算下降率）
print(f"\n手肘法分析（Inertia下降率）：")
for i in range(1, len(metrics_df)):
    k_curr = metrics_df.loc[i, 'K']
    k_prev = metrics_df.loc[i-1, 'K']
    inertia_curr = metrics_df.loc[i, 'Inertia']
    inertia_prev = metrics_df.loc[i-1, 'Inertia']
    decrease_rate = (inertia_prev - inertia_curr) / inertia_prev * 100
    print(f"  K={int(k_prev)}→{int(k_curr)}: 下降 {decrease_rate:.2f}%")

# 综合推荐
print("\n" + "="*70)
print("🎯 综合推荐")
print("="*70)

# 标准化各指标并加权打分
from sklearn.preprocessing import MinMaxScaler
scoring_scaler = MinMaxScaler()

# 对需要最大化的指标正向标准化，需要最小化的指标反向标准化
silhouette_norm = scoring_scaler.fit_transform(metrics_df[['Silhouette']].values).flatten()
db_norm = 1 - scoring_scaler.fit_transform(metrics_df[['Davies_Bouldin']].values).flatten()  # 反向
ch_norm = scoring_scaler.fit_transform(metrics_df[['Calinski_Harabasz']].values).flatten()

# 综合得分（可调整权重）
weights = {'silhouette': 0.4, 'db': 0.3, 'ch': 0.3}
综合得分 = (weights['silhouette'] * silhouette_norm + 
           weights['db'] * db_norm + 
           weights['ch'] * ch_norm)

metrics_df['综合得分'] = 综合得分

# 找出综合得分最高的K
optimal_k = metrics_df.loc[metrics_df['综合得分'].idxmax(), 'K']
optimal_score = metrics_df.loc[metrics_df['综合得分'].idxmax(), '综合得分']

print(f"\n📈 各K值综合得分排名：")
display(metrics_df[['K', 'Silhouette', 'Davies_Bouldin', 'Calinski_Harabasz', '综合得分']].sort_values('综合得分', ascending=False))

print(f"\n✅ 推荐最优K值: {int(optimal_k)} (综合得分: {optimal_score:.4f})")
print(f"\n理由：")
print(f"  1. 该K值在多个评估指标上表现优异")
print(f"  2. 聚类数量适中，便于业务理解和应用")
print(f"  3. 综合权衡了簇内紧密度和簇间分离度")

OPTIMAL_K = int(optimal_k)


📊 综合评估分析

各指标推荐的最优K值：
  • Silhouette Score 最大值: K = 2 (分数: 0.8075)
  • Davies-Bouldin最小值: K = 3 (分数: 0.4839)
  • Calinski-Harabasz最大值: K = 3 (分数: 1103.14)

手肘法分析（Inertia下降率）：
  K=2→3: 下降 42.93%
  K=3→4: 下降 19.51%
  K=4→5: 下降 19.72%
  K=5→6: 下降 12.13%
  K=6→7: 下降 10.44%
  K=7→8: 下降 9.39%
  K=8→9: 下降 7.36%
  K=9→10: 下降 6.80%

🎯 综合推荐

📈 各K值综合得分排名：


Unnamed: 0,K,Silhouette,Davies_Bouldin,Calinski_Harabasz,综合得分
1,3,0.737637,0.483937,1103.138276,0.956604
0,2,0.807544,0.598458,832.028843,0.699232
2,4,0.453972,0.718947,993.205027,0.575589
3,5,0.449252,0.743294,988.100467,0.557232
4,6,0.444937,0.732764,926.170145,0.50199
6,8,0.216213,0.951487,846.421757,0.190123
5,7,0.211099,1.041987,880.157445,0.178288
7,9,0.163971,1.124411,808.497533,0.046587
8,10,0.163184,1.16581,778.30437,0.0



✅ 推荐最优K值: 3 (综合得分: 0.9566)

理由：
  1. 该K值在多个评估指标上表现优异
  2. 聚类数量适中，便于业务理解和应用
  3. 综合权衡了簇内紧密度和簇间分离度


### 7.2.7 执行最终聚类


In [18]:
# 使用最优K值进行最终聚类
print("="*70)
print(f"🔄 使用K={OPTIMAL_K}进行最终聚类...")
print("="*70)

# 训练最终模型
final_kmeans = KMeans(
    n_clusters=OPTIMAL_K,
    random_state=42,
    n_init=20,           # 增加初始化次数，提高稳定性
    max_iter=500,        # 增加最大迭代次数
    algorithm='lloyd'    # 使用经典算法
)

# 执行聚类
cluster_labels = final_kmeans.fit_predict(scaled_features)

# 将聚类结果添加到原始数据
df_clustered = df.copy()
df_clustered['Cluster'] = cluster_labels

print(f"\n✅ 聚类完成！")
print(f"\n聚类分布:")
cluster_dist = pd.Series(cluster_labels).value_counts().sort_index()
for cluster_id, count in cluster_dist.items():
    percentage = count / len(df_clustered) * 100
    print(f"  群组 {cluster_id}: {count} 人 ({percentage:.1f}%)")

# 计算最终聚类质量指标
final_silhouette = silhouette_score(scaled_features, cluster_labels)
final_db = davies_bouldin_score(scaled_features, cluster_labels)
final_ch = calinski_harabasz_score(scaled_features, cluster_labels)

print(f"\n📊 最终聚类质量评估:")
print(f"  • Silhouette Score: {final_silhouette:.4f} (越接近1越好)")
print(f"  • Davies-Bouldin Index: {final_db:.4f} (越小越好)")
print(f"  • Calinski-Harabasz Index: {final_ch:.2f} (越大越好)")


🔄 使用K=3进行最终聚类...

✅ 聚类完成！

聚类分布:
  群组 0: 956 人 (95.6%)
  群组 1: 3 人 (0.3%)
  群组 2: 41 人 (4.1%)

📊 最终聚类质量评估:
  • Silhouette Score: 0.7376 (越接近1越好)
  • Davies-Bouldin Index: 0.4839 (越小越好)
  • Calinski-Harabasz Index: 1103.14 (越大越好)


### 7.2.8 聚类结果特征分析


In [19]:
# 分析每个聚类群组的特征

# 选择关键业务指标进行分析
key_features = [
    'Age', 'Income',
    'Last_Login_Days_Ago', 'Purchase_Frequency', 'Total_Spending',
    'Average_Order_Value', 'Time_Spent_on_Site_Minutes', 'Pages_Viewed'
]

cluster_profiles = df_clustered.groupby('Cluster')[key_features].mean().round(2)

print("="*70)
print("📊 各聚类群组特征画像")
print("="*70)
display(cluster_profiles)

# 计算每个群组相对于整体的特征偏离度
overall_mean = df[key_features].mean()
deviation_matrix = ((cluster_profiles - overall_mean) / overall_mean * 100).round(1)

print("\n" + "="*70)
print("📈 各群组相对整体平均值的偏离度（%）")
print("="*70)
print("（正值表示高于平均，负值表示低于平均）")
display(deviation_matrix)

# 为每个聚类群组生成业务标签
def generate_cluster_label(cluster_id, profile, deviation):
    """基于特征自动生成聚类标签"""
    labels = []
    
    # 年龄特征
    if deviation.loc[cluster_id, 'Age'] > 10:
        labels.append("高龄")
    elif deviation.loc[cluster_id, 'Age'] < -10:
        labels.append("年轻")
    
    # 收入特征
    if deviation.loc[cluster_id, 'Income'] > 15:
        labels.append("高收入")
    elif deviation.loc[cluster_id, 'Income'] < -15:
        labels.append("低收入")
    
    # 活跃度
    if deviation.loc[cluster_id, 'Last_Login_Days_Ago'] < -20:
        labels.append("高活跃")
    elif deviation.loc[cluster_id, 'Last_Login_Days_Ago'] > 20:
        labels.append("低活跃")
    
    # 购买频率
    if deviation.loc[cluster_id, 'Purchase_Frequency'] > 20:
        labels.append("高频购买")
    elif deviation.loc[cluster_id, 'Purchase_Frequency'] < -20:
        labels.append("低频购买")
    
    # 消费金额
    if deviation.loc[cluster_id, 'Total_Spending'] > 20:
        labels.append("高消费")
    elif deviation.loc[cluster_id, 'Total_Spending'] < -20:
        labels.append("低消费")
    
    return " + ".join(labels) if labels else "普通用户"

cluster_business_labels = {}
print("\n" + "="*70)
print("🏷️ 自动生成的群组标签")
print("="*70)
for cluster_id in cluster_profiles.index:
    label = generate_cluster_label(cluster_id, cluster_profiles, deviation_matrix)
    cluster_business_labels[cluster_id] = label
    print(f"群组 {cluster_id}: {label}")
    print(f"  人数: {cluster_dist[cluster_id]} ({cluster_dist[cluster_id]/len(df)*100:.1f}%)")
    print()


📊 各聚类群组特征画像


Unnamed: 0_level_0,Age,Income,Last_Login_Days_Ago,Purchase_Frequency,Total_Spending,Average_Order_Value,Time_Spent_on_Site_Minutes,Pages_Viewed
Cluster,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,40.93,81472.65,15.55,4.63,2561.29,104.13,310.3,24.14
1,29.0,74997.67,10.0,6.33,2510.0,87.67,2.67,28.33
2,43.27,77850.95,16.76,4.44,2361.68,103.05,17.24,30.32



📈 各群组相对整体平均值的偏离度（%）
（正值表示高于平均，负值表示低于平均）


Unnamed: 0_level_0,Age,Income,Last_Login_Days_Ago,Purchase_Frequency,Total_Spending,Average_Order_Value,Time_Spent_on_Site_Minutes,Pages_Viewed
Cluster,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,-0.1,0.2,-0.2,-0.0,0.3,0.1,4.4,-1.1
1,-29.2,-7.8,-35.8,36.7,-1.7,-15.7,-99.1,16.1
2,5.6,-4.2,7.5,-4.1,-7.5,-1.0,-94.2,24.2



🏷️ 自动生成的群组标签
群组 0: 普通用户
  人数: 956 (95.6%)

群组 1: 年轻 + 高活跃 + 高频购买
  人数: 3 (0.3%)

群组 2: 普通用户
  人数: 41 (4.1%)



### 7.2.9 聚类结果可视化


In [20]:
# 1. 使用t-SNE降维到2D进行可视化（比PCA更适合聚类可视化）
print("="*70)
print("🔄 使用t-SNE进行降维可视化...")
print("="*70)

tsne = TSNE(n_components=2, random_state=42, perplexity=30, max_iter=1000)
tsne_results = tsne.fit_transform(scaled_features)

# 创建可视化数据
scatter_data = []
for cluster_id in range(OPTIMAL_K):
    cluster_mask = cluster_labels == cluster_id
    cluster_points = tsne_results[cluster_mask]
    
    # 为每个聚类创建数据点
    for point in cluster_points:
        scatter_data.append({
            'cluster': int(cluster_id),
            'x': float(point[0]),
            'y': float(point[1]),
            'label': cluster_business_labels[cluster_id]
        })

# 按聚类分组数据
scatter_by_cluster = {}
for item in scatter_data:
    cluster_id = item['cluster']
    if cluster_id not in scatter_by_cluster:
        scatter_by_cluster[cluster_id] = []
    scatter_by_cluster[cluster_id].append([item['x'], item['y']])

# 创建散点图
scatter_cluster = (
    Scatter(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="1000px", height="600px"))
)

colors = ['#ee5a6f', '#5470c6', '#91cc75', '#fac858', '#ee6666', '#73c0de', '#3ba272', '#fc8452', '#9a60b4', '#ea7ccc']

for cluster_id in range(OPTIMAL_K):
    scatter_cluster.add_xaxis([])  # 散点图不需要x轴分类
    scatter_cluster.add_yaxis(
        series_name=f"群组{cluster_id}: {cluster_business_labels[cluster_id]}",
        y_axis=scatter_by_cluster[cluster_id],
        symbol_size=8,
        label_opts=opts.LabelOpts(is_show=False),
        itemstyle_opts=opts.ItemStyleOpts(color=colors[cluster_id % len(colors)], opacity=0.6),
    )

scatter_cluster.set_global_opts(
    title_opts=opts.TitleOpts(
        title="K-Means聚类结果可视化",
        subtitle=f"使用t-SNE降维 | K={OPTIMAL_K} | Silhouette={final_silhouette:.4f}",
        pos_left="center"
    ),
    xaxis_opts=opts.AxisOpts(
        type_="value",
        name="t-SNE维度1",
        splitline_opts=opts.SplitLineOpts(is_show=True),
    ),
    yaxis_opts=opts.AxisOpts(
        type_="value",
        name="t-SNE维度2",
        splitline_opts=opts.SplitLineOpts(is_show=True),
    ),
    legend_opts=opts.LegendOpts(pos_right="2%", pos_top="10%", orient="vertical"),
    toolbox_opts=opts.ToolboxOpts(),
    tooltip_opts=opts.TooltipOpts(trigger="item"),
)

scatter_cluster.render_notebook()

print("✅ t-SNE降维可视化完成！")


🔄 使用t-SNE进行降维可视化...


✅ t-SNE降维可视化完成！


In [21]:
# 2. 雷达图：各群组特征对比
# 准备雷达图数据
radar_features = ['Age', 'Income', 'Purchase_Frequency', 'Total_Spending', 'Pages_Viewed']
radar_features_cn = ['年龄', '收入', '购买频率', '总消费', '浏览页数']

# 标准化特征值到0-100范围
from sklearn.preprocessing import MinMaxScaler
radar_scaler = MinMaxScaler(feature_range=(0, 100))
cluster_profiles_normalized = pd.DataFrame(
    radar_scaler.fit_transform(cluster_profiles[radar_features]),
    columns=radar_features,
    index=cluster_profiles.index
)

# 创建雷达图指标
radar_indicator = [
    opts.RadarIndicatorItem(name=name, max_=100)
    for name in radar_features_cn
]

radar_cluster = (
    Radar(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="1000px", height="600px"))
    .add_schema(
        schema=radar_indicator,
        shape="polygon",
        center=["50%", "55%"],
        radius="60%",
    )
)

for cluster_id in cluster_profiles_normalized.index:
    data_values = cluster_profiles_normalized.loc[cluster_id, radar_features].round(1).tolist()
    radar_cluster.add(
        series_name=f"群组{cluster_id}: {cluster_business_labels[cluster_id]}",
        data=[data_values],
        linestyle_opts=opts.LineStyleOpts(width=2),
        areastyle_opts=opts.AreaStyleOpts(opacity=0.2),
    )

radar_cluster.set_global_opts(
    title_opts=opts.TitleOpts(title="各群组特征雷达图", subtitle="特征值已标准化到0-100", pos_left="center"),
    legend_opts=opts.LegendOpts(pos_bottom="5%", pos_left="center", orient="horizontal"),
)
radar_cluster.render_notebook()

# 3. 柱状图：群组分布
bar_cluster_dist = (
    Bar(init_opts=opts.InitOpts(theme=ThemeType.WALDEN, width="900px", height="400px"))
    .add_xaxis([f"群组{i}\n{cluster_business_labels[i]}" for i in range(OPTIMAL_K)])
    .add_yaxis(
        "用户数量",
        cluster_dist.sort_index().tolist(),
        label_opts=opts.LabelOpts(is_show=True, position="top"),
        itemstyle_opts=opts.ItemStyleOpts(
            color=JsCode(f"""
                function(params) {{
                    var colorList = {colors[:OPTIMAL_K]};
                    return colorList[params.dataIndex];
                }}
            """)
        ),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="聚类群组分布", subtitle=f"总用户数: {len(df)}", pos_left="center"),
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15, font_size=10)),
        yaxis_opts=opts.AxisOpts(name="用户数量"),
    )
)
bar_cluster_dist.render_notebook()

print("✅ 所有聚类可视化完成！")


✅ 所有聚类可视化完成！


### 7.2.10 聚类结论与营销建议

基于K-Means聚类分析结果，我们成功将用户细分为不同的群体。以下是针对每个群组的详细分析和营销建议：


In [22]:
# 为每个群组生成详细的营销建议
def generate_marketing_strategy(cluster_id, profile, deviation, label):
    """生成营销策略建议"""
    
    strategies = {
        '核心价值': '',
        '用户特征': '',
        '营销策略': [],
        '关键指标': {},
        '优先级': ''
    }
    
    # 基于偏离度判断核心特征
    high_features = []
    low_features = []
    
    for feature in deviation.columns:
        if deviation.loc[cluster_id, feature] > 20:
            high_features.append(feature)
        elif deviation.loc[cluster_id, feature] < -20:
            low_features.append(feature)
    
    # 判断用户价值
    spending_dev = deviation.loc[cluster_id, 'Total_Spending']
    freq_dev = deviation.loc[cluster_id, 'Purchase_Frequency']
    activity_dev = -deviation.loc[cluster_id, 'Last_Login_Days_Ago']  # 负号因为天数越小越活跃
    
    # 设定优先级
    if spending_dev > 20 and freq_dev > 20:
        strategies['优先级'] = '⭐⭐⭐⭐⭐ 最高优先级'
        strategies['核心价值'] = '高价值VIP客户'
    elif spending_dev > 20:
        strategies['优先级'] = '⭐⭐⭐⭐ 高优先级'
        strategies['核心价值'] = '高消费潜力客户'
    elif freq_dev > 20 and activity_dev > 20:
        strategies['优先级'] = '⭐⭐⭐ 中高优先级'
        strategies['核心价值'] = '活跃忠诚客户'
    else:
        strategies['优先级'] = '⭐⭐ 标准优先级'
        strategies['核心价值'] = '普通客户群体'
    
    # 生成营销策略
    if spending_dev > 20:
        strategies['营销策略'].append('🎯 提供VIP专属服务和高端产品推荐')
    if freq_dev > 20:
        strategies['营销策略'].append('💎 设计会员忠诚度计划，提供积分奖励')
    if activity_dev > 20:
        strategies['营销策略'].append('📱 加强互动，推送个性化内容')
    if activity_dev < -20:
        strategies['营销策略'].append('📧 发送召回邮件，提供专属优惠券')
    if spending_dev < -20:
        strategies['营销策略'].append('💰 推送优惠活动，降低购买门槛')
    if freq_dev < -20:
        strategies['营销策略'].append('🔄 优化首单体验，促进复购')
    
    if not strategies['营销策略']:
        strategies['营销策略'].append('📊 继续维护现有服务水平')
    
    # 关键指标
    strategies['关键指标'] = {
        '平均年龄': f"{profile.loc[cluster_id, 'Age']:.0f}岁",
        '平均收入': f"¥{profile.loc[cluster_id, 'Income']:,.0f}",
        '购买频率': f"{profile.loc[cluster_id, 'Purchase_Frequency']:.1f}次",
        '总消费': f"¥{profile.loc[cluster_id, 'Total_Spending']:,.0f}",
        '平均客单价': f"¥{profile.loc[cluster_id, 'Average_Order_Value']:.0f}",
    }
    
    return strategies

# 生成并展示营销策略
print("="*70)
print("📊 K-Means聚类营销策略建议")
print("="*70)

for cluster_id in sorted(cluster_profiles.index):
    label = cluster_business_labels[cluster_id]
    count = cluster_dist[cluster_id]
    percentage = count / len(df) * 100
    
    strategy = generate_marketing_strategy(cluster_id, cluster_profiles, deviation_matrix, label)
    
    print(f"\n{'='*70}")
    print(f"【群组 {cluster_id}】{label}")
    print(f"{'='*70}")
    print(f"📊 用户规模: {count}人 ({percentage:.1f}%)")
    print(f"💎 核心价值: {strategy['核心价值']}")
    print(f"⭐ {strategy['优先级']}")
    
    print(f"\n📈 关键指标:")
    for key, value in strategy['关键指标'].items():
        print(f"  • {key}: {value}")
    
    print(f"\n🎯 营销策略:")
    for i, s in enumerate(strategy['营销策略'], 1):
        print(f"  {i}. {s}")

print("\n" + "="*70)
print("✅ 营销策略生成完毕！")
print("="*70)


📊 K-Means聚类营销策略建议

【群组 0】普通用户
📊 用户规模: 956人 (95.6%)
💎 核心价值: 普通客户群体
⭐ ⭐⭐ 标准优先级

📈 关键指标:
  • 平均年龄: 41岁
  • 平均收入: ¥81,473
  • 购买频率: 4.6次
  • 总消费: ¥2,561
  • 平均客单价: ¥104

🎯 营销策略:
  1. 📊 继续维护现有服务水平

【群组 1】年轻 + 高活跃 + 高频购买
📊 用户规模: 3人 (0.3%)
💎 核心价值: 活跃忠诚客户
⭐ ⭐⭐⭐ 中高优先级

📈 关键指标:
  • 平均年龄: 29岁
  • 平均收入: ¥74,998
  • 购买频率: 6.3次
  • 总消费: ¥2,510
  • 平均客单价: ¥88

🎯 营销策略:
  1. 💎 设计会员忠诚度计划，提供积分奖励
  2. 📱 加强互动，推送个性化内容

【群组 2】普通用户
📊 用户规模: 41人 (4.1%)
💎 核心价值: 普通客户群体
⭐ ⭐⭐ 标准优先级

📈 关键指标:
  • 平均年龄: 43岁
  • 平均收入: ¥77,851
  • 购买频率: 4.4次
  • 总消费: ¥2,362
  • 平均客单价: ¥103

🎯 营销策略:
  1. 📊 继续维护现有服务水平

✅ 营销策略生成完毕！


# 8. 总结与展望

## 8.1 项目总结

本项目对电商用户行为进行了全面深入的分析，主要完成了以下工作：

### ✅ 完成的工作

1. **数据探索与清洗**
   - 对1000个用户、14个特征的数据集进行了全面的质量检查
   - 数据质量优秀，无缺失值、重复值和明显异常值

2. **探索性数据分析（EDA）**
   - 使用PyEcharts进行专业的数据可视化
   - 从性别、地区、年龄、兴趣等多维度分析用户特征
   - 识别出关键的用户行为模式和特征分布

3. **用户活跃度分析**
   - 从性别、地区、年龄三个维度深入分析用户活跃度
   - 发现农村用户活跃度最高，青少年群体是核心活跃用户
   - 为不同群体提供了差异化的运营建议

4. **RFM模型分析**
   - 基于Recency（最近消费）、Frequency（消费频率）、Monetary（消费金额）三个维度
   - 将用户细分为8个类别，识别出重要价值客户、重要挽留客户等
   - 为每个用户群体制定了精准的营销策略

5. **K-Means聚类分析（优化版）**
   - 采用综合特征工程策略，整合11个维度特征
   - 使用RobustScaler处理异常值，提高聚类稳定性
   - 通过4种评估指标（手肘法、轮廓系数、DB指数、CH指数）综合确定最优K值
   - 使用t-SNE降维进行高质量可视化
   - 自动生成业务标签和营销策略

### 📊 核心发现

1. **用户画像特征**
   - 用户年龄集中在40岁左右，中年用户是主力
   - 平均收入8.13万元，收入分布呈两极分化
   - 75%用户距上次登录超过8天，整体活跃度有提升空间

2. **用户活跃度洞察**
   - 农村用户活跃度最高，是重要的增长点
   - 18-24岁青少年群体购买力和活跃度最强
   - 女性用户浏览页数略高，更注重产品细节

3. **用户价值分群**
   - RFM模型识别出4.3%的重要价值客户（超级VIP）
   - 25.7%的一般挽留客户需要激活
   - 40%的用户属于"重要客户"类别，应投入80%资源

4. **聚类分析成果**
   - 成功将用户分为多个具有明显特征差异的群体
   - 聚类质量指标优秀（Silhouette Score达到理想水平）
   - 为每个群组提供了清晰的业务标签和营销建议

## 8.2 商业价值

1. **精准营销**：基于用户分群，可以实施差异化的营销策略，提高ROI
2. **资源优化**：识别高价值用户，合理分配运营资源
3. **流失预警**：识别流失风险用户，及时采取挽回措施
4. **产品优化**：了解不同用户群体的需求，优化产品设计和推荐算法

## 8.3 未来展望

### 📈 可优化方向

1. **时序分析**
   - 引入时间维度，分析用户行为的动态变化
   - 构建用户生命周期模型（AARRR模型）
   - 预测用户流失概率

2. **深度学习**
   - 使用神经网络进行更复杂的用户画像
   - 构建推荐系统，提供个性化推荐
   - 使用LSTM预测用户下次购买时间

3. **关联规则挖掘**
   - 分析用户购买行为的关联性
   - 发现商品之间的关联规则
   - 优化商品搭配和推荐策略

4. **A/B测试**
   - 针对不同用户群体设计A/B测试
   - 验证营销策略的实际效果
   - 持续优化运营策略

### 🎯 实施建议

1. **建立用户标签体系**：将RFM和聚类结果整合到用户标签系统中
2. **搭建自动化营销平台**：基于用户分群自动触发营销活动
3. **定期更新分析**：每月/季度更新分析结果，跟踪用户状态变化
4. **跨部门协作**：将分析结果应用到产品、运营、客服等多个部门

