In [None]:
import time  # 时间库
import numpy as np  # numpy库
import pandas as pd  # pandas库
from pyecharts.charts import Bar3D  # 3D柱形图
import os
# 显示图形
from pyecharts.commons.utils import JsCode
import pyecharts.options as opts
from sqlalchemy import create_engine


os.chdir(r'D:\workspace\ai_20_work_bj\pandasProject')

# 1. 读取数据源文件, 并查看数据格式

In [None]:
# 1.1 定义列表, 记录: excel表名
sheet_names = ['2015', '2016', '2017', '2018', '会员等级']
# 1.2 具体的从数据源文件中读取数据的操作.
sheet_datas = pd.read_excel('data/sales.xlsx', sheet_name=sheet_names)

In [None]:
# 1.3 查看 sheet_datas的数据类型. 发现是: dict(字典), 键: Excel表名, 值: 该表数据的df对象形式.
type(sheet_datas)  # dict字典,  '2015': df对象, '2016': df对象
# 1.4 打印sheet_datas
sheet_datas
# 1.5 具体的查看2015年的数据集.
sheet_datas['2015']  # df对象

In [None]:
# 1.6 查看每张excel表, 具体的统计信息.
for i in sheet_names:
    print('=' * 20)  # 分割线
    print(sheet_datas[i].info())  # 基本信息
    print(sheet_datas[i].describe())  # 统计信息

# 2. 数据的预处理操作

In [None]:
# 需要做的事儿: 去重空值, 筛选出金额大于1的, 新增 max_year_date列, 表示该年统计的最后一天.
# 2.1 筛选出我们要处理的sheet表名
for i in sheet_names[:-1]:
    # 2.2 从上述的四张表中, 删除空值.
    sheet_datas[i] = sheet_datas[i].dropna()
    # 2.2 从上述的四张表中, 筛出订单金额 > 1的值.
    sheet_datas[i] = sheet_datas[i][sheet_datas[i]['订单金额'] > 1]
    # 2.3 新增 max_year_date列, 表示: 统计每年数据的基本时间: 年中最后一天.
    sheet_datas[i]['max_year_date'] = sheet_datas[i]['提交日期'].max()

In [None]:
# 2.2 查看处理后的数据.
for i in sheet_names:
    print('=' * 20)  # 分割线
    print(sheet_datas[i].info())  # 基本信息
    print(sheet_datas[i].describe())  # 统计信息

In [None]:
# 2.3 汇总数据, 把钱四张表结果做汇总
data_merge = pd.concat(list(sheet_datas.values())[:-1])
data_merge

In [120]:
# 2.4 给表新增两列数据, date_interval: 购买间隔时间, year: 订单所属的年费
data_merge['date_interval'] = data_merge['max_year_date'] - data_merge['提交日期']
# 把上述的date_interval列, 转成数值.
# 方式1: apply()函数实现.
# data_merge['date_interval'] = data_merge['date_interval'].apply(lambda x: x.days)
# 方式2: 直接指定(日期属性)即可.
data_merge['date_interval'] = data_merge['date_interval'].dt.days

# 给表新增year列, 表示该条数据所属的年份
data_merge['year'] = data_merge['max_year_date'].dt.year
data_merge

Unnamed: 0,会员ID,订单号,提交日期,订单金额,max_year_date,date_interval,year
0,15278002468,3000304681,2015-01-01,499.0,2015-12-31,364,2015
1,39236378972,3000305791,2015-01-01,2588.0,2015-12-31,364,2015
2,38722039578,3000641787,2015-01-01,498.0,2015-12-31,364,2015
3,11049640063,3000798913,2015-01-01,1572.0,2015-12-31,364,2015
4,35038752292,3000821546,2015-01-01,10.1,2015-12-31,364,2015
...,...,...,...,...,...,...,...
81344,39229485704,4354225182,2018-12-31,249.0,2018-12-31,0,2018
81345,39229021075,4354225188,2018-12-31,89.0,2018-12-31,0,2018
81346,39288976750,4354230034,2018-12-31,48.5,2018-12-31,0,2018
81347,26772630,4354230163,2018-12-31,3196.0,2018-12-31,0,2018


In [None]:
# 2.5 按照 年, 会员ID分组, 统计 每年每个会员的: 最小购买间隔时间, 购买总次数, 支付的总金额.
rfm_gb = data_merge.groupby(['year', '会员ID'], as_index=False).agg({
    'date_interval': 'min',  # 最小购买间隔时间
    '订单号': 'count',  # 总购买次数
    '订单金额': 'sum'  # 总支付金额
})
# 2.6 修改上述的列名.
rfm_gb.columns = ['year', '会员ID', 'r', 'f', 'm']
rfm_gb

# 3. 具体的计算RFM值的操作.

In [None]:
# 3.1 划分区间, 分别指定 r(Recency: 最小购买的间隔时间), f(Frequency: 购买频率), m(money: 购买总金额)的区间. 
# 因为我们用的是 三分法, 即: 3个区间, 所以我们要指定 4个值.
r_bins = [-1, 79, 255, 365]
f_bins = [0, 2, 5, 130]  # 和业务人员沟通 + 你自己的开发经验
m_bins = [1, 69, 1199, 206252]

rfm_gb.iloc[:, 2:].describe().T

In [None]:
# 3.2 pd.cut()函数, 初始.
# 参1: 要处理的数据(即: 要被划分区间的数据)
# 参2: 具体的划分为几个区间, 如果传入固定值, 则做等距划分(类似于: 等差数列)
# 参3: include_lowest 默认是False(即: 不包括左区间), 包右不包左.
pd.cut([0, 79, 255, 365], bins=3)

# 参2: 具体的划分为几个区间, 如果传入列表, 则按照指定规则(列表元素值)划分.
pd.cut([0, 79, 255, 365], bins=[0, 100, 200, 365])  # [NaN, (0.0, 100.0], (200.0, 365.0], (200.0, 365.0]]
pd.cut([0, 79, 255, 365], bins=[0, 100, 200, 365],
       include_lowest=True)  # [(-0.001, 100.0], (-0.001, 100.0], (200.0, 365.0], (200.0, 365.0]]
pd.cut([0, 79, 255, 365], bins=[-1, 100, 200, 365])  # [(-1, 100], (-1, 100], (200, 365], (200, 365]]

In [None]:
# 3.3 具体的计算RFM的过程.
# 参数: labels 表示各个区间结果, 用哪些值填充.
# R: Recency, 最小购买间隔时间, 值越小, 分数越高.
# rfm_gb['r_score'] = pd.cut(rfm_gb['r'], bins=r_bins, labels=[3, 2, 1])
# F: Frequency, 购买频次
# rfm_gb['f_score'] = pd.cut(rfm_gb['f'], bins=f_bins, labels=[1, 2, 3])
# M: Money, 购买总金额.
# rfm_gb['m_score'] = pd.cut(rfm_gb['m'], bins=m_bins, labels=[1, 2, 3])

rfm_gb['r_score'] = pd.cut(rfm_gb['r'], bins=r_bins, labels=[i for i in range(len(r_bins) - 1, 0, -1)])
rfm_gb['f_score'] = pd.cut(rfm_gb['f'], bins=f_bins, labels=[i for i in range(1, len(f_bins))])
rfm_gb['m_score'] = pd.cut(rfm_gb['m'], bins=m_bins, labels=[i + 1 for i in range(len(m_bins) - 1)])
rfm_gb

In [None]:
# 3.4 把上述的结果, r_score, f_score, m_score列的类型转成 字符串类型.
rfm_gb['r_score'] = rfm_gb['r_score'].astype(np.str)
rfm_gb['f_score'] = rfm_gb['f_score'].astype(np.str)
rfm_gb['m_score'] = rfm_gb['m_score'].astype(np.str)

# 3.5 添加 rfm_group列, 表示最终的: 会员等级模型.
rfm_gb['rfm_group'] = rfm_gb['r_score'] + rfm_gb['f_score'] + rfm_gb['m_score'] 
# 3.6 把 rfm_group列的类型转成 int类型.
rfm_gb['rfm_group'] = rfm_gb['rfm_group'].astype(np.int32)

rfm_gb      # 这个就是我们的"最终"分析结果, 一会儿要写到本地的文件 或者 MySQL数据库中. 

# 4. 绘制3D柱状图

In [None]:
# 4.1 绘制3D柱状图的时候, 只要3个值, 分别是: 年份, rfm分组, 用户数量
display_data = rfm_gb.groupby(['rfm_group', 'year'], as_index=False)['会员ID'].count()
# 4.2 修改类名
display_data.columns = ['rfm_group', 'year', 'number']
display_data

In [None]:
# 4.3 display_data就是我们最终要展示的数据, 调用 PyEchart框架绘图即可. 直接复制, 不需要写.
# 如下是具体的绘制动作.
# 颜色池
range_color = ['#313695', '#4575b4', '#74add1', '#abd9e9', '#e0f3f8', '#ffffbf',
               '#fee090', '#fdae61', '#f46d43', '#d73027', '#a50026']
range_max = int(display_data['number'].max())
c = (
    Bar3D()#设置了一个3D柱形图对象
    .add(
        "",#图例
        [d.tolist() for d in display_data.values],#数据
        xaxis3d_opts=opts.Axis3DOpts(type_="category", name='rfm_group'),#x轴数据类型，名称，rfm_group
        yaxis3d_opts=opts.Axis3DOpts(type_="category", name='year'),#y轴数据类型，名称，year
        zaxis3d_opts=opts.Axis3DOpts(type_="value", name='number'),#z轴数据类型，名称，number
    )
    .set_global_opts( # 全局设置
        visualmap_opts=opts.VisualMapOpts(max_=range_max, range_color=range_color), #设置颜色，及不同取值对应的颜色
        title_opts=opts.TitleOpts(title="RFM分组结果"),#设置标题
    )
)
c.render() 		      #数据保存到本地的网页中.
# c.render_notebook() #在notebook中显示


# 5. 导出结果到 本地文件 或者 MySQL数据库

## 5.1 导出结果到本地文件.

In [None]:
rfm_gb.to_excel('sale_rfm_score.xlsx', index=False)     # index=False, 导出结果时, 不要索引列

## 5.2 导出结果到MySQL数据库中

In [None]:
# 1. 导包
# from sqlalchemy import create_engine  写到第1个代码块了.

# 2. 创建引擎对象.
# 格式: 数据库名 + 协议名://账号:密码@ip地址或者主机名:端口号/要导出数据到的数据库?charset=码表名
# 前提: 数据库必须存在. 
engine = create_engine("mysql+pymysql://root:123456@localhost:3306/rfm_db?charset=utf8")

# 3. 具体的导出动作.
rfm_gb.to_sql('rfm_table', engine, index=False, if_exists='append')

In [None]:
# 4. 验证是否导出成功.
pd.read_sql('show tables;', engine)     # 查看表名

In [119]:
pd.read_sql('select count(1) from rfm_table;', engine)     # 查看 总的表数据
pd.read_sql('select * from rfm_table limit 10;', engine)     # 查看 前10条数据

Unnamed: 0,year,会员ID,r,f,m,r_score,f_score,m_score,rfm_group
0,2015,267,197,2,105.0,2,1,2,212
1,2015,282,251,1,29.7,2,1,1,211
2,2015,283,340,1,5398.0,1,1,3,113
3,2015,343,300,1,118.0,1,1,2,112
4,2015,525,37,3,213.0,3,2,2,322
5,2015,540,328,1,110.0,1,1,2,112
6,2015,677,7,1,638.0,3,1,2,312
7,2015,948,67,1,199.0,3,1,2,312
8,2015,1331,232,1,940.0,2,1,2,212
9,2015,1919,266,1,498.0,1,1,2,112
