In [None]:
# 导包
# 导包
import time
import numpy as np 
import pandas as pd
from sqlalchemy import create_engine
from pyecharts.charts import Bar3D              # 需要安装下, 即: pip install pyecharts
from pyecharts.commons.utils import JsCode
import pyecharts.options as opts

import os
os.chdir(r'D:\workspace\ai_23_work_bj\pandasProject')

# 1. 加载数据

In [None]:
# 1.1 定义列表, 记录: Excel表名
sheet_names = ['2015', '2016', '2017', '2018', '会员等级']
# 1.2 从excel文件中读取数据, 获取到: 字典形式 -> {'2015': df对象, '2016': df对象, ...}
# 参1: Excel文件名(路径)
# 参2: Excel文件中的 表名
sheet_dict = pd.read_excel('./data/sales.xlsx', sheet_name=sheet_names)
sheet_dict

In [None]:
# 1.3 查看 sheet_dict变量的数据类型
type(sheet_dict)        # <class 'dict'>

# 1.4 查看2015 Excel表的 DataFrame对象.
sheet_dict['2015']

# 1.5 查看2015 Excel表的 DataFrame对象的 基本信息.
sheet_dict['2015'].info()

# 1.6 查看2015 Excel表的 DataFrame对象的 基本统计信息.
sheet_dict['2015'].describe()

In [None]:
# 1.7 查看字典中每个df对象(即: 每张sheet表)的 基本信息 和 统计信息.
# step1: 遍历, 获取到每个sheet表名
for i in sheet_names:
    print(i)        # i -> 每个sheet表名
    # step2: 打印 每个sheet表的 基本信息 和 统计信息
    print(sheet_dict[i].info())
    print(sheet_dict[i].describe())

# 2. 数据的预处理

In [None]:
# 需要处理的动作, 1.删除缺失值.  2.过滤出金额 > 1的订单.  3.固定时间节点, 以每年的最后1天作为当年的 分析节点.
# 1. 遍历, 获取到每张表(除了最后1张):
for i in sheet_names[:-1]:
    # print(i)    # i 就是 2015, 2016, 2017, 2018 四张sheet表名
    # 2. 删除缺失值.
    sheet_dict[i] = sheet_dict[i].dropna()
    # 3. 过滤出金额 > 1的订单.
    sheet_dict[i] = sheet_dict[i][sheet_dict[i]['订单金额'] > 1]
    # 4. 固定时间节点, 以每年的最后1天作为当年的 分析节点.
    sheet_dict[i]['max_year_date'] = sheet_dict[i]['提交日期'].max()
    
# 5. 查看处理后的数据.
for i in sheet_names:
    print(i)    # i 就是 每张sheet表名
    # 打印 每个sheet表的 基本信息 和 统计信息
    print(sheet_dict[i].info())
    print(sheet_dict[i].describe())

In [None]:
# 6. 把上述的 四张表(对应的4个df对象), 合并成一个df对象.
# sheet_dict['2015']
# sheet_dict['2016']
# type(list(sheet_dict.values())[:-1])        # list类型: [df对象, df对象, df对象, df对象] -> 前4张表.
df_merge = pd.concat(list(sheet_dict.values())[:-1], ignore_index=True) # 合并并重置索引.
df_merge

In [None]:
# 7. 为了好区分, 给df对象新增 year列
df_merge['year'] = df_merge['提交日期'].dt.year
df_merge

In [None]:
# 8. 给表新增1列, date_interval 表示本订单购买时间 距 统计节点时间的 差值
df_merge['date_interval'] = df_merge['max_year_date'] - df_merge['提交日期']
df_merge

In [None]:
# 9. 把date_interval列, 转换为int类型
df_merge['date_interval'] = df_merge['date_interval'].dt.days
df_merge

# 3. 数据的统计分析

In [None]:
# 1. 基于year 和 会员ID分组, 统计: RFM三项的基本数据. 
# 回顾: RFM: recency(最近一次购买时间), frequency(购买次数), monetary(购买金额)
rfm_gb = df_merge.groupby(['year', '会员ID'], as_index=False).agg({
    'date_interval': 'min',
    '订单号': 'count',
    '订单金额': 'sum'   
})
rfm_gb

In [None]:
# 2. 修改列名.
rfm_gb.columns = ['year', '会员ID', 'r', 'f', 'm']
rfm_gb

In [None]:
# 3. 分别查看下 r, f, m这三列值的分布情况.
rfm_gb.iloc[:, 2:].describe().T

In [None]:
# 4. 划分区间, 分别给出: RFM的评分, 依据: r: 最近一次购买时间 越小分越高, f: 购买次数 越大分越高, m: 购买金额 越大分越高.
# 思路1: 我们给定区间数, 由系统自动划分区间范围
pd.cut(rfm_gb['r'], bins=3).unique()    # [(-0.365, 121.667], (121.667, 243.333], (243.333, 365.0]], 包右不包左.

# 思路2: 我们手动指定区间范围, 由系统自动划分区间数
r_bins = [-1, 79, 255, 365]
f_bins = [0, 2, 5, 130]
m_bins = [1, 69, 1199, 206252]

pd.cut(rfm_gb['r'], bins=r_bins).unique()

In [None]:
# 思路3: 基于我们手动指定区间范围, 给出每个范围的 评分(三分法, 低中高)
rfm_gb['r_label'] = pd.cut(rfm_gb['r'], bins=r_bins, labels=[3, 2, 1])     # r值(最近购买间隔时间)越小, 分越高.
rfm_gb['f_label'] = pd.cut(rfm_gb['f'], bins=f_bins, labels=[1, 2, 3])     # f值(购买次数)越大, 分越高.
rfm_gb['m_label'] = pd.cut(rfm_gb['m'], bins=m_bins, labels=[1, 2, 3])     # m值(购买金额)越大, 分越高.
rfm_gb

In [None]:
# 实际开发写法, 完整版.
# 思路4: 基于我们手动指定区间范围, 给出每个范围的 评分(三分法, 低中高)
# r值(最近购买间隔时间)越小, 分越高.
rfm_gb['r_label'] = pd.cut(rfm_gb['r'], bins=r_bins, labels=[i for i in range(len(r_bins) - 1, 0, -1)])     
# f值(购买次数)越大, 分越高.
rfm_gb['f_label'] = pd.cut(rfm_gb['f'], bins=f_bins, labels=[i for i in range(1, len(f_bins))])    
# m值(购买金额)越大, 分越高.
rfm_gb['m_label'] = pd.cut(rfm_gb['m'], bins=m_bins, labels=[i for i in range(1, len(m_bins))])    
rfm_gb

In [None]:
# 5. 统计每个会员的 RFM的评分.   猜拳方案 -> 拼接.
# step1: 转换类型. 把 r_label, f_label, m_label, 从Categories分类类型 转换为 字符串类型.
rfm_gb['r_label'] = rfm_gb['r_label'].astype(str)
rfm_gb['f_label'] = rfm_gb['f_label'].astype(str)
rfm_gb['m_label'] = rfm_gb['m_label'].astype(str)

# step2: 拼接评分.
rfm_gb['rfm_group'] = rfm_gb['r_label'] + rfm_gb['f_label'] + rfm_gb['m_label']
rfm_gb

# 4. 导出结果.

- 导出结果到Excel文件中.

In [None]:
# 1. 导出结果到Excel文件中, 忽略索引.
rfm_gb.to_excel('./data/sale_rfm_group.xlsx', index=False)

- 导出结果到MySQL表中.

In [None]:
# 1. 创建引擎对象.
engine = create_engine('mysql+pymysql://root:123456@localhost:3306/rfm_db?charset=utf8')

# 2. 具体的导出数据到MySQL表中.
# 参1: 存储结果的数据表名
# 参2: 引擎对象
# 参3: 忽略索引.
# 参4: 如果表存在, 则替换数据.
rfm_gb.to_sql('rfm_table', engine, index=False, if_exists='replace')

# 3. 查看数据.
pd.read_sql('select * from rfm_table', engine)

# 5. 数据可视化.

In [30]:
# 5.1 准备可视化的数据, 即: rfm_group(分组结果评分), year(统计年份), number(评分个数)
display_data = rfm_gb.groupby(['rfm_group', 'year'], as_index=False).agg({'会员ID': 'count'})
display_data

Unnamed: 0,rfm_group,year,会员ID
0,111,2015,2180
1,111,2016,1498
2,111,2017,3169
3,111,2018,2271
4,112,2015,3811
...,...,...,...
83,332,2018,24
84,333,2015,15
85,333,2016,28
86,333,2017,87


In [None]:
# 5.2 修改列名.
display_data.columns = ['rfm_group', 'year', 'number']
# 细节: 把number列的类型 -> int类型.
display_data['number'] = display_data['number'].astype(int)
display_data

In [None]:
# 5.3 绘制图形
# 颜色池
range_color = ['#313695', '#4575b4', '#74add1', '#abd9e9', '#e0f3f8', '#ffffbf',
               '#fee090', '#fdae61', '#f46d43', '#d73027', '#a50026']

range_max = int(display_data['number'].max())
c = (
    Bar3D()#设置了一个3D柱形图对象
    .add(
        "",#图例
        [d.tolist() for d in display_data.values],#数据
        xaxis3d_opts=opts.Axis3DOpts(type_="category", name='分组名称'),#x轴数据类型，名称，rfm_group
        yaxis3d_opts=opts.Axis3DOpts(type_="category", name='年份'),#y轴数据类型，名称，year
        zaxis3d_opts=opts.Axis3DOpts(type_="value", name='会员数量'),#z轴数据类型，名称，number
    )
    .set_global_opts( # 全局设置
        visualmap_opts=opts.VisualMapOpts(max_=range_max, range_color=range_color), #设置颜色，及不同取值对应的颜色
        title_opts=opts.TitleOpts(title="RFM分组结果"),#设置标题
    )
)
c.render() 		      # 数据保存到本地的网页中.
# c.render_notebook() #在notebook中显示