# 项目背景
对于电商平台，中小型商铺对于丰富平台内容发挥着作用。不仅丰富商品（比如农副产品，代购和订制等），还能产生差异化的竞争。通过这一部分商户可以为平台带来高用户粘性、高消费用户以及高利润长尾商品

# 项目目标
提高中小店铺流量

# 项目问题拆解
* 增加搜索曝光
        虽然具有极大的流量，但是搜索对于用户来说是主动性很强的操作，过多的干预可能会引起反感。
* 增加中小店铺直播推荐
        对于店铺来说人工是个问题，而且直播规则较为复杂，无法与热门主播角力。
* 减少中小店铺广告位费用
        可以增加中小店铺的广告投放次数。但是对于竞价类广告效果可能不好。另外修改费用涉及到规则的修改，成本会很高。
* 增加中小店铺推荐位
        通过给用户进行精准的推荐结果，可以减少对比商品的机会，提高商品详情页的点击量，可能会给店铺带来流量。而且相比之下，是一个经济有效的策略


## 流程

![abtest%E6%B5%81%E7%A8%8B%E5%9B%BE.png](attachment:abtest%E6%B5%81%E7%A8%8B%E5%9B%BE.png)

# 指标拆解
## 二级指标确定
目标：提升中小店铺在下单推荐页的下单量30%
由于总量无法作为假设检验统计量，通过总量=人数x人均下单量，将统计量定为人均下单量。

        二类指标：C类店铺人均下单量上升30%（2sigma=33%）
## 一级指标确定
目标：大店铺在下单推荐页的下单量下降小于15%
通过前期观察，下单推荐页占大店铺流量的3%，成单量占比为2%

        一类指标:A类店铺人均下单量下降在两个标准差以内（15%）
## 原假设与备择假设

一类指标：
        
        H0：对照组人均下单量-实验组人均下单量>=15%
        H1：对照组人均下单量-实验组人均下单量<15%
二类指标：
        
        H0：实验组人均下单量-对照组人均下单量<=30%
        H1：实验组人均下单量-对照组人均下单量>30%
## 计算分组样本量
$$n_A=k*n_B\ and\ n_B=(1+\frac{1}{k})(\sigma\frac{z_{1-\alpha/2}+z_{1-\beta}}{\mu_A-\mu_B})^2$$
注：选择两个总体均值之差的计算公式。从假设上看一类二类指标都为单侧检验，但由于现在还没有做抽样，所以不知道实验组的$σ^2$，我们在这里假定AB组$σ^2$相等

In [1]:
# 导包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import pymysql
import warnings
from scipy import stats

warnings.filterwarnings('ignore') 
plt.rcParams['font.family']='SimHei' 
plt.rcParams['axes.unicode_minus']= False

In [2]:
# 读取SQL数据
conn = pymysql.connect(user='root',password='QaQ111.0',host='localhost',port=3306,db='ABTest',charset='utf8',use_unicode=True)
data = pd.read_sql('select * from ABTest', con=conn)
data.head()

Unnamed: 0,id,组,曝光量,点击量,下单量,购买店铺数,店铺类型,date
0,17437864,A,105,16,15,20,A,2020-05-13
1,17402857,A,147,21,13,7,A,2020-05-13
2,17017891,A,59,10,9,4,A,2020-05-13
3,15792190,A,216,39,6,2,C,2020-05-13
4,8726788,A,51,9,6,1,A,2020-05-13


$$n_B=(1+\frac{1}{k})(\sigma\frac{z_{1-\alpha/2}+z_{1-\beta}}{\mu_A-\mu_B})^2$$

In [3]:
# 设置参数
alpha = 0.05
beta = 0.2
k =1

In [4]:
# 求z
z_alpha = stats.norm.ppf(1-alpha/2)
z_beta = stats.norm.ppf(1-beta)
print(z_beta,z_alpha)

0.8416212335729143 1.959963984540054


In [5]:
# 求对照组sigma
df_C = data.loc[(data.组=='D') & (data.店铺类型=='C'), ['date','下单量']]
sigma = df_C.下单量.std()
sigma

0.4560376923365469

In [6]:
# 求二类目标提升值 
mean_2 = df_C.groupby('date')['下单量'].mean().mean()*.3
mean_2

0.031065555555555555

In [7]:
sample_size = (1+1/k)*np.power(sigma*(z_alpha+z_beta)/mean_2,2)
sample_size

3382.835657318574

In [9]:
# 计算一类目标降低值
df_A = data.loc[(data.组=='D') & (data.店铺类型=='A'), ['date', '下单量']]
mean_1 = df_A.groupby('date')['下单量'].mean().std()*2
mean_1

0.19578164968724276

In [10]:
# 求sigma_1
sigma_1 = df_A.下单量.std()
sigma_1

1.90306885529098

In [11]:
sample_size_1 = (1+1/k)*np.power(sigma_1*(z_alpha+z_beta)/mean_1,2)
sample_size_1

1483.2102112443183

# 实验结论分析

In [12]:
data=pd.read_sql("select * from ABTest",con=conn)
data.head()

Unnamed: 0,id,组,曝光量,点击量,下单量,购买店铺数,店铺类型,date
0,17437864,A,105,16,15,20,A,2020-05-13
1,17402857,A,147,21,13,7,A,2020-05-13
2,17017891,A,59,10,9,4,A,2020-05-13
3,15792190,A,216,39,6,2,C,2020-05-13
4,8726788,A,51,9,6,1,A,2020-05-13


## 一类指标假设检验 

In [13]:
# 抽取一天数据
df1 = data.loc[(data.date=='2020-05-14')&(data.店铺类型=='A'),['组','下单量']]
df1

Unnamed: 0,组,下单量
62219,A,18
62220,A,15
62221,A,11
62222,A,10
62223,A,7
...,...,...
123937,D,0
123939,D,0
123941,D,0
123943,D,0


In [14]:
# 查看每组样本量
df1.groupby('组')['下单量'].count()

组
A    10000
B     9468
C     1038
D    10532
Name: 下单量, dtype: int64

In [15]:
df1 = df1[df1.组 != 'C']
df1.组.unique()

array(['A', 'D', 'B'], dtype=object)

In [16]:
df1.groupby('组')['下单量'].mean()

组
A    0.119500
B    0.705957
D    0.805640
Name: 下单量, dtype: float64

In [17]:
# 统计对照组D组的标准差
df1_std = data.loc[data.店铺类型=='A', ['组','date','下单量']]
std = df1_std[df1_std.组=='D'].groupby('date')['下单量'].mean().std()
std

0.09789082484362138

In [18]:
#为让A类店铺无明显感知利润下降，设置A类店铺下降阈值为2个标准差
miu_diff1 = 2*std
miu_diff1

0.19578164968724276

### AD组

In [19]:
alpha = 0.05
# H0: μD - μA >=0.195   H1: μD - μA <0.195

In [28]:
dif_AD = df1[df1.组=='D'].下单量.mean()-df1[df1.组=='A'].下单量.mean()
dif_AD

0.6861399544246107

求$ \frac {s_A ^2}{n_A} + \frac {s_D ^2}{n_D} $

---方差已知，z分布

In [29]:
varsum_AD = df1[df1.组=='A'].下单量.var() / df1[df1.组=='A'].下单量.count() + df1[df1.组=='D'].下单量.var() / df1[df1.组=='D'].下单量.count()
varsum_AD

0.0004817503857263059

$ \bar x_D - \bar x_A$ ~ N(0.195, varsum_AD)

计算dif_AD 在相应的分布的概率p

In [31]:
p_A = stats.norm.cdf(dif_AD,loc=miu_diff1,scale=np.sqrt(varsum_AD)) # norm.dist
p_A

1.0

In [49]:
import statsmodels.stats.weightstats as sw
df_A = df1[df1.组=='A'].下单量
df_D = df1[df1.组=='D'].下单量
z_score, p = sw.ztest(df_D,df_A,value=miu_diff1, alternative = "smaller")
print("检验统计量z：",z_score,"，p值：", p)

检验统计量z： 21.82108421291243 ，p值： 1.0


In [50]:
import statsmodels.stats.weightstats as sw
df_B = df1[df1.组=='B'].下单量
df_D = df1[df1.组=='D'].下单量
z_score, p = sw.ztest(df_D,df_B,value=miu_diff1, alternative = "smaller")
print("检验统计量z：",z_score,"，p值：", p)

检验统计量z： -3.5558794440580153 ，p值： 0.00018835840247599975


### BD组

In [32]:
dif_BD = df1[df1.组=='D'].下单量.mean()-df1[df1.组=='B'].下单量.mean()
varsum_BD = df1[df1.组=='B'].下单量.var() / df1[df1.组=='B'].下单量.count() + df1[df1.组=='D'].下单量.var() / df1[df1.组=='D'].下单量.count()
p_B = stats.norm.cdf(dif_BD,loc=miu_diff1,scale=np.sqrt(varsum_BD)) # norm.dist
p_B

0.00014563245659022025

In [33]:
if  (p_A < alpha) & ( p_B < alpha):
    if dif_AD <dif_BD:
        print("A策略对A类店铺影响小")
    else:
        print("B策略对A类店铺影响小")
elif p_A < alpha:
    print("A策略对A类店铺影响小与阈值"  + str(miu_diff1))
elif p_B < alpha:
    print("B策略对A类店铺影响小与阈值" + str(miu_diff1))
else:
    print("A.B策略对A类店铺影响超过阈值" + str(miu_diff1))

B策略对A类店铺影响小与阈值0.19578164968724276


## 二类指标假设检验

In [51]:
df_2 = data.loc[(data.店铺类型=='C') & (data.date=='2020-05-14'),['组','下单量']]
df_2.head()

Unnamed: 0,组,下单量
62229,A,4
62258,A,2
62260,A,2
62352,A,1
62354,A,1


In [52]:
df_2.groupby('组')['下单量'].count()

组
A    10000
B    10000
C     1183
D    10000
Name: 下单量, dtype: int64

In [53]:
# delete group C
df_2 = df_2[df_2.组!='C']
df_2.组.unique()

array(['A', 'B', 'D'], dtype=object)

In [54]:
df_2.groupby('组').下单量.mean()

组
A    0.0064
B    0.4697
D    0.1318
Name: 下单量, dtype: float64

In [45]:
# 计算提升值
miu_diff2 = data[(data.组=='D') & (data.店铺类型=='C')].groupby('date')['下单量'].mean().mean()*0.3
miu_diff2

0.031065555555555555

In [57]:
df_A = df_2[df_2.组=='B'].下单量
df_D = df_2[df_2.组=='D'].下单量
z_score, p = sw.ztest(df_B,df_D,value=miu_diff2, alternative = "larger")
print("检验统计量z：",z_score,"，p值：", p)

检验统计量z： 33.319331192356394 ，p值： 1.0133756942375123e-243


由于P值小于0.05，所以拒绝原假设。

# 实验结论与后续决策
一类指标评估:B策略的一类指标下降幅度在两个标准差内，符合要求; 

二类指标评估:B策略的二类指标最优，同时上升幅度显著大于30%，符合要求; 

决策:考虑推全B策略。