##############################################################
# BG-NBD ve Gamma-Gamma ile CLTV Prediction
##############################################################


In [None]:
import pandas as pd
# 读取数据
df = pd.read_csv('../data1.csv',encoding='utf-8')
df_ = df.copy()
df_.head()

### 查看以‘C’开头的是否都是数量为负  (说明的确以‘C’开头的都是数量为负) 并且查看除了以“C”开头的数据，还有其他数量小于0的数据，简单看了一下这些数据都是价格为0，没有用户ID，是什么数据无法推断，这些数据要弃去

In [None]:
df_ = df_[['platform_open_id','status','payment','take_at']]
df_=df_[df_['status']==6]
df_=df_[df_['payment']>10]
df_['Invoice']= df_.index
date1 = df_['take_at'].str.split(' ').str[0]
date2 = df_['take_at'].str.split(' ').str[1]
time_1 = date1.str.split('-').str[0]+date1.str.split('-').str[1]+date1.str.split('-').str[2]
time_2 = date2.str.split(':').str[0]+date2.str.split(':').str[1]+date2.str.split(':').str[2]
df_['int_date'] = time_1 + time_2
df_

In [None]:
pd.set_option('mode.chained_assignment', None)
df_["int_date"] = pd.to_numeric(df_["int_date"])
df_.sort_values("int_date",inplace=True)
# 检查缺失值
print(df_.isna().sum())
# 弃去缺失值
df_.dropna(inplace=True)
print(df_.isna().sum())
df_

In [None]:
#数据中包含共?订单，?个用户
df_.rename(columns={'platform_open_id':'Customer ID', 'payment': 'Sales','take_at':'InvoiceDate'}, inplace=True)
df_ = df_[['Invoice','Customer ID','InvoiceDate','Sales']]
# ### 更改用户ID类型
df_['Customer ID'] = df_['Customer ID'].astype('object')
df_['Invoice'] = df_['Invoice'].astype('object')
df_['InvoiceDate']=pd.to_datetime(df_['InvoiceDate'])
# df_.nunique()
df_

In [None]:
# 看订单状态
from collections import Counter
df_1 = df_.groupby('Customer ID')['Customer ID'].count()
Counter(df_1)

In [None]:
df_.info()

### CLV建模探索

In [None]:
#频率为0说明只有一次购买。频率分布情况
from lifetimes.utils import summary_data_from_transaction_data
data = summary_data_from_transaction_data(df_, 'Customer ID', 'InvoiceDate',
                         monetary_value_col='Sales',
                         observation_period_end='2021-07-01')
data.sort_values('monetary_value').head(-5)

In [None]:
data['frequency'].plot(kind='hist', bins=100)

In [None]:
# 说在周期内只消费过一次比例
(data.frequency == 0).value_counts().plot.bar()

In [None]:
print(sum(data['frequency'] == 0))
sum(data['frequency'] == 0)/float(len(data))

### 使用BG / NBD模型进行频率/新近度分析

In [None]:
from lifetimes import BetaGeoFitter
bgf = BetaGeoFitter(penalizer_coef=0.0)
bgf.fit(data['frequency'], data['recency'], data['T'])
print(bgf)

In [None]:
from lifetimes.plotting import plot_frequency_recency_matrix
import matplotlib.pyplot as plt
fig = plt.figure(figsize=(12,8))
plot_frequency_recency_matrix(bgf)

### 右下角的数据80/500，该用户进行了80次购买，并且他最近购买时间大约是500天（她的第一笔交易和她最近的交易之间的时间间隔），那么她属于最有价值客户，依照其消费惯性，将来也会进行多笔交易,右上角黑了的部分可能是已经失去,类似的客户20/500这样的数据，代表客户不经常来，最近没有见过他，所以他可能再次购买,最近购买的顾客应该还“活着”

In [None]:
# 预测哪些客户还在
from lifetimes.plotting import plot_probability_alive_matrix
fig = plt.figure(figsize=(12,8))
plot_probability_alive_matrix(bgf)

### 黄色部分为还在用户，深色部分为丢失用户。我们将客户从“下一期最高预期购买量”排名降至最低。模型公开了一种方法，该方法将使用其历史记录预测下一时期客户的预期购买：

In [None]:
# t是时间 t为1是指接下来1天最后价值客户购买的概率以及其他信息
t = 10
data['predicted_purchases'] = bgf.conditional_expected_number_of_purchases_up_to_time(t, 
                                  data['frequency'], data['recency'], data['T'])
#下面列出的是我们的前五大客户，模型的predict_purchases列给出了购买的概率
data.sort_values(by='predicted_purchases', ascending=False).head()

In [None]:
from lifetimes.plotting import plot_period_transactions
#如果结果相近，模型的预测那就不错
plot_period_transactions(bgf)

### 分数据集进行预测现在将数据集划分为校准周期数据集和保持数据集。这很重要，因为我们想要测试我们的模型如何对尚未看到的数据执行（就像机器学习实践中的交叉验证一样）

In [None]:
from lifetimes.utils import calibration_and_holdout_data
summary_cal_holdout = calibration_and_holdout_data(df_, 'Customer ID', 'InvoiceDate',
                                        calibration_period_end='2021-01-01',
                                        observation_period_end='2021-06-30' )   
summary_cal_holdout.head()

### 客户交易预测:根据客户历史记录，我们现在可以预测个人未来的购买情况：

In [None]:
# 预测't01MBW9zURdD5m6eQ83INBdXZq8qGekDqre2uZnHtcQpY8='用户未来10天内购买商品为概率(最忠诚客户)
t = 10
individual = data.loc['t01MBW9zURdD5m6eQ83INBdXZq8qGekDqre2uZnHtcQpY8=']
bgf.predict(t, individual['frequency'], individual['recency'], individual['T'])

### 客户概率历史根据客户交易历史记录，我们可以根据我们训练的模型计算其存活的历史概率。例如，我们想看看我们最好的客户的交易历史，看看活着的可能性：

In [None]:
from lifetimes.plotting import plot_history_alive
import matplotlib.pyplot as plt
fig = plt.figure(figsize=(12,8))
id = 't01MBW9zURdD5m6eQ83INBdXZq8qGekDqre2uZnHtcQpY8='
days_since_birth = 365
sp_trans = df_.loc[df_['Customer ID'] == id]
plot_history_alive(bgf, days_since_birth, sp_trans, 'InvoiceDate')
#  我们最好的客户't01MBW9zURdD5m6eQ83INBdXZq8qGekDqre2uZnHtcQpY8=' 是否还活着分析

In [None]:
fig = plt.figure(figsize=(12,8))
id = '.01MPyjo2BxsrZa0sIQyVnAOM2DEMds1FAQI7fgfrP3PMg='
days_since_birth = 365
sp_trans = df_.loc[df_['Customer ID'] == id]
plot_history_alive(bgf, days_since_birth, sp_trans, 'InvoiceDate')

### 这位顾客来的频率不是很高但是分布还算均匀，最近也有消费，是‘活着’的用户

### gamma-gamma模型估算客户终生价值我们仅估算至少有一次重复购买的客户。因此，我们估计有2,790位客户：

In [None]:
# frequency>0 购买次数大于1的个数
returning_customers_summary = data[data['frequency']>0]
returning_customers_summary.shape[0]

# 模型训练
from lifetimes import GammaGammaFitter
ggf = GammaGammaFitter(penalizer_coef = 0)
ggf.fit(returning_customers_summary['frequency'],
        returning_customers_summary['monetary_value'])

# 这样我们可以估算每个客户的平均交易价值
df_2= ggf.conditional_expected_average_profit(
        data['frequency'],
        data['monetary_value']
    )
Counter(list(df_2))