# 星巴克毕业项目

### 简介

这个数据集是一些模拟 Starbucks rewards 移动 app 上用户行为的数据。每隔几天，星巴克会向 app 的用户发送一些推送。这个推送可能仅仅是一条饮品的广告或者是折扣券或 BOGO（买一送一）。一些顾客可能一连几周都收不到任何推送。 

顾客收到的推送可能是不同的，这就是这个数据集的挑战所在。

# 你的任务是将交易数据、人口统计数据和推送数据结合起来判断哪一类人群会受到某种推送的影响。这个数据集是从星巴克 app 的真实数据简化而来。因为下面的这个模拟器仅产生了一种饮品， 实际上星巴克的饮品有几十种。

每种推送都有有效期。例如，买一送一（BOGO）优惠券推送的有效期可能只有 5 天。你会发现数据集中即使是一些消息型的推送都有有效期，哪怕这些推送仅仅是饮品的广告，例如，如果一条消息型推送的有效期是 7 天，你可以认为是该顾客在这 7 天都可能受到这条推送的影响。

数据集中还包含 app 上支付的交易信息，交易信息包括购买时间和购买支付的金额。交易信息还包括该顾客收到的推送种类和数量以及看了该推送的时间。顾客做出了购买行为也会产生一条记录。 

同样需要记住有可能顾客购买了商品，但没有收到或者没有看推送。

### 示例

举个例子，一个顾客在周一收到了满 10 美元减 2 美元的优惠券推送。这个推送的有效期从收到日算起一共 10 天。如果该顾客在有效日期内的消费累计达到了 10 美元，该顾客就满足了该推送的要求。

# 然而，这个数据集里有一些地方需要注意。即，这个推送是自动生效的；也就是说，顾客收到推送后，哪怕没有看到，满足了条件，推送的优惠依然能够生效。比如，一个顾客收到了"满10美元减2美元优惠券"的推送，但是该用户在 10 天有效期内从来没有打开看到过它。该顾客在 10 天内累计消费了 15 美元。数据集也会记录他满足了推送的要求，然而，这个顾客并没被受到这个推送的影响，因为他并不知道它的存在。

### 清洗

清洗数据非常重要也非常需要技巧。

你也要考虑到某类人群即使没有收到推送，也会购买的情况。从商业角度出发，如果顾客无论是否收到推送都打算花 10 美元，你并不希望给他发送满 10 美元减 2 美元的优惠券推送。
# 所以你可能需要分析某类人群在没有任何推送的情况下会购买什么。

### 最后一项建议

因为这是一个毕业项目，你可以使用任何你认为合适的方法来分析数据。例如，
# 你可以搭建一个机器学习模型来根据人口统计数据和推送的种类来预测某人会花费多少钱。
# 或者，你也可以搭建一个模型来预测该顾客是否会对推送做出反应。
或者，你也可以完全不用搭建机器学习模型。你可以开发一套启发式算法来决定你会给每个顾客发出什么样的消息（比如75% 的35 岁女性用户会对推送 A 做出反应，对推送 B 则只有 40% 会做出反应，那么应该向她们发送推送 A）。


# 数据集

一共有三个数据文件：

* portfolio.json – 包括推送的 id 和每个推送的元数据（持续时间、种类等等）
* profile.json – 每个顾客的人口统计数据
* transcript.json – 交易、收到的推送、查看的推送和完成的推送的记录

以下是文件中每个变量的类型和解释 ：

**portfolio.json**
* id (string) – 推送的id
* offer_type (string) – 推送的种类，例如 BOGO、打折（discount）、信息（informational）
* difficulty (int) – 满足推送的要求所需的最少花费
* reward (int) – 满足推送的要求后给与的优惠
* duration (int) – 推送持续的时间，单位是天
* channels (字符串列表)

**profile.json**
* age (int) – 顾客的年龄 
* became_member_on (int) – 该顾客第一次注册app的时间
* gender (str) – 顾客的性别（注意除了表示男性的 M 和表示女性的 F 之外，还有表示其他的 O）
* id (str) – 顾客id
* income (float) – 顾客的收入

**transcript.json**
* event (str) – 记录的描述（比如交易记录、推送已收到、推送已阅）
* person (str) – 顾客id
* time (int) – 单位是小时，测试开始时计时。该数据从时间点 t=0 开始
* value - (dict of strings) – 推送的id 或者交易的数额

**注意：**如果你正在使用 Workspace，在读取文件前，你需要打开终端/命令行，运行命令 `conda update pandas` 。因为 Workspace 中的 pandas 版本不能正确读入 transcript.json 文件的内容，所以需要更新到 pandas 的最新版本。你可以单击 notebook 左上角橘黄色的 jupyter 图标来打开终端/命令行。  

下面两张图展示了如何打开终端/命令行以及如何安装更新。首先打开终端/命令行：
<img src="pic1.png"/>

然后运行上面的命令：
<img src="pic2.png"/>

最后回到这个 notebook（还是点击橘黄色的 jupyter 图标），再次运行下面的单元格就不会报错了。

In [126]:
import pandas as pd
import numpy as np
import math
import json
#%matplotlib inline

# read in the json files

portfolio = pd.read_json('data/portfolio.json', orient='frame', lines=True)
profile = pd.read_json('data/profile.json', orient='frame', lines=True)
transcript = pd.read_json('data/transcript.json', orient='frame', lines=True)

In [127]:
#portfolio.rename(columns={'id':'value'},inplace=True)
portfolio
#id (string) – 推送的id
#offer_type (string) – 推送的种类，例如 BOGO、打折（discount）、信息（informational）
#difficulty (int) – 满足推送的要求所需的最少花费
#reward (int) – 满足推送的要求后给与的优惠
#duration (int) – 推送持续的时间，单位是天
#channels (字符串列表)

Unnamed: 0,reward,channels,difficulty,duration,offer_type,id
0,10,"[email, mobile, social]",10,7,bogo,ae264e3637204a6fb9bb56bc8210ddfd
1,10,"[web, email, mobile, social]",10,5,bogo,4d5c57ea9a6940dd891ad53e9dbe8da0
2,0,"[web, email, mobile]",0,4,informational,3f207df678b143eea3cee63160fa8bed
3,5,"[web, email, mobile]",5,7,bogo,9b98b8c7a33c4b65b9aebfe6a799e6d9
4,5,"[web, email]",20,10,discount,0b1e1539f2cc45b7b9fa7c272da2e1d7
5,3,"[web, email, mobile, social]",7,7,discount,2298d6c36e964ae4a3e7e9706d1fb8c2
6,2,"[web, email, mobile, social]",10,10,discount,fafdcd668e3743c1bb461111dcafc2a4
7,0,"[email, mobile, social]",0,3,informational,5a8bc65990b245e5a138643cd4eb9837
8,5,"[web, email, mobile, social]",5,5,bogo,f19421c1d4aa40978ebb69ca19b0e20d
9,2,"[web, email, mobile]",10,7,discount,2906b810c7d4411798c6938adc9daaa5


In [207]:
profile.rename(columns={'id':'person'},inplace=True)
profile
#顾客info

Unnamed: 0,gender,age,person,became_member_on,income
0,,118,68be06ca386d4c31939f3a4f0e3dd783,20170212,
1,F,55,0610b486422d4921ae7d2bf64640c50b,20170715,112000.0
2,,118,38fe809add3b4fcf9315a9694bb96ff5,20180712,
3,F,75,78afa995795e4d85b5d9ceeca43f5fef,20170509,100000.0
4,,118,a03223e636434f42ac4c3df47e8bac43,20170804,
...,...,...,...,...,...
16995,F,45,6d5f3a774f3d4714ab0c092238f3a1d7,20180604,54000.0
16996,M,61,2cb4f97358b841b9a9773a7aa05a9d77,20180713,72000.0
16997,M,49,01d26f638c274aa0b965d24cefe3183f,20170126,73000.0
16998,F,83,9dc1421481194dcd9400aec7c9ae6366,20160307,50000.0


In [6]:
transcript
#event (str) – 记录的描述（比如交易记录、推送已收到、推送已阅）
#person (str) – 顾客id
#time (int) – 单位是小时，测试开始时计时。该数据从时间点 t=0 开始
#value - (dict of strings) – 推送的id 或者交易的数额


Unnamed: 0,person,event,value,time
0,78afa995795e4d85b5d9ceeca43f5fef,offer received,{'offer id': '9b98b8c7a33c4b65b9aebfe6a799e6d9'},0
1,a03223e636434f42ac4c3df47e8bac43,offer received,{'offer id': '0b1e1539f2cc45b7b9fa7c272da2e1d7'},0
2,e2127556f4f64592b11af22de27a7932,offer received,{'offer id': '2906b810c7d4411798c6938adc9daaa5'},0
3,8ec6ce2a7e7949b1bf142def7d0e0586,offer received,{'offer id': 'fafdcd668e3743c1bb461111dcafc2a4'},0
4,68617ca6246f4fbc85e91a2a49552598,offer received,{'offer id': '4d5c57ea9a6940dd891ad53e9dbe8da0'},0
...,...,...,...,...
306529,b3a1272bc9904337b331bf348c3e8c17,transaction,{'amount': 1.5899999999999999},714
306530,68213b08d99a4ae1b0dcb72aebd9aa35,transaction,{'amount': 9.53},714
306531,a00058cf10334a308c68e7631c529907,transaction,{'amount': 3.61},714
306532,76ddbd6576844afe811f1a3c0fbb5bec,transaction,{'amount': 3.5300000000000002},714


In [204]:
#filter the user group: 看了消费劵且在有效期内消费了
viewed_event=transcript[transcript['event']=='offer viewed']
viewed_event['id']=viewed_event[viewed_event['event']=='offer viewed']['value'].apply(lambda x: str(list(x.values())[0]))
viewed_merge=pd.merge(portfolio,viewed_event,how='right',on='id')
viewed_person=viewed_merge[['person']]

buy_event=transcript[transcript['event']=='transaction']
person_view_buy=pd.merge(viewed_merge,buy_event,how='outer',on='person')

person_view_buy=person_view_buy.dropna()

a=np.where(person_view_buy['time_x']<person_view_buy['time_y'],1,np.nan)
person_view_buy['valid_time']=a
#person_view_buy.shape#(493586, 13)
person_view_buy=person_view_buy.dropna()#shape：(207952, 14)
person_view_buy['amount']=person_view_buy['value_y'].apply(lambda x: str(list(x.values())[0]))
person_view_buy=person_view_buy.drop(['value_x','value_y'],axis=1)

#总共看了消息的事件：278,459
person_view_buy.shape[0]
#有效期限内看了消息的事件：92,513
len(np.where(person_view_buy['duration']*24>person_view_buy['time_x'])[0])

#有效期限内看到且产生消费的事件：19,211;这里filter出来了这些事件的表
#len(np.where(person_view_buy['duration']*24>person_view_buy['time_y'])[0])
b=np.where(person_view_buy['duration']*24>person_view_buy['time_y'],1,np.nan)
person_view_buy['see_intime_buy']=b
person_view_buy=person_view_buy.dropna()



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,person,offer_type,amount
1,02c083884c7d45b39cc68e1314fec56c,bogo,1.44
2,02c083884c7d45b39cc68e1314fec56c,bogo,4.5600000000000005
3,02c083884c7d45b39cc68e1314fec56c,bogo,1.53
4,02c083884c7d45b39cc68e1314fec56c,bogo,0.5
5,02c083884c7d45b39cc68e1314fec56c,bogo,9.8
...,...,...,...
494666,b4e06068cce54e3d9c3c55ad6f0e5065,discount,7.24
494667,b4e06068cce54e3d9c3c55ad6f0e5065,discount,1.0
494668,b4e06068cce54e3d9c3c55ad6f0e5065,discount,1.56
494674,93599a777bc34536a4703b63493a0ea6,discount,2.69


In [216]:
#creating training_testing split

df_target_person=person_view_buy[['person','offer_type','amount']]
profile.rename(columns={'id':'person'},inplace=True)
df_training_frame=pd.merge(df_target_person,profile,how='left',on='person')
df_event_distribute=df_training_frame.groupby('offer_type')[['person']].count()
#how many person in training: 6990
#df_training_frame.groupby('person')[['offer_type']].count().shape[0]

df_training_frame


Unnamed: 0,person,offer_type,amount,gender,age,became_member_on,income
0,02c083884c7d45b39cc68e1314fec56c,bogo,1.44,F,20,20160711,30000.0
1,02c083884c7d45b39cc68e1314fec56c,bogo,4.5600000000000005,F,20,20160711,30000.0
2,02c083884c7d45b39cc68e1314fec56c,bogo,1.53,F,20,20160711,30000.0
3,02c083884c7d45b39cc68e1314fec56c,bogo,0.5,F,20,20160711,30000.0
4,02c083884c7d45b39cc68e1314fec56c,bogo,9.8,F,20,20160711,30000.0
...,...,...,...,...,...,...,...
19206,b4e06068cce54e3d9c3c55ad6f0e5065,discount,7.24,M,43,20180516,42000.0
19207,b4e06068cce54e3d9c3c55ad6f0e5065,discount,1.0,M,43,20180516,42000.0
19208,b4e06068cce54e3d9c3c55ad6f0e5065,discount,1.56,M,43,20180516,42000.0
19209,93599a777bc34536a4703b63493a0ea6,discount,2.69,M,58,20180309,33000.0


In [136]:
transcript.event.unique()

array(['offer received', 'offer viewed', 'transaction', 'offer completed'],
      dtype=object)

```python

```