A/B 测试是指分析两种营销策略，以选择能够有效且高效地将更多流量转化为销售的最佳营销策略。A/B 测试是每个数据科学专业人员都应该知道的有价值的概念之一。在本文中，我将完成使用 Python 进行 A/B 测试的任务。对于使用 Python 进行的 A/B 测试任务，我们需要有一个关于同一目标的两种不同营销策略的数据集。我找到了一个可执行 A/B 测试的数据集。我在这里使用的数据集包含两个关于两个营销活动（控制活动和测试活动）的数据文件,导入必要的 Python 库和两个数据集以开始执行 A/B 测试任务

In [1]:
import pandas as pd
import datetime
from datetime import date, timedelta
import plotly.graph_objects as go
import plotly.express as px
import plotly.io as pio
pio.templates.default = "plotly_white"

control_data = pd.read_csv("control_group.csv", sep = ";")
test_data = pd.read_csv("test_group.csv", sep = ";")

In [2]:
print(control_data.head())

      Campaign Name       Date  Spend [USD]  # of Impressions     Reach  \
0  Control Campaign  1.08.2019         2280           82702.0   56930.0   
1  Control Campaign  2.08.2019         1757          121040.0  102513.0   
2  Control Campaign  3.08.2019         2343          131711.0  110862.0   
3  Control Campaign  4.08.2019         1940           72878.0   61235.0   
4  Control Campaign  5.08.2019         1835               NaN       NaN   

   # of Website Clicks  # of Searches  # of View Content  # of Add to Cart  \
0               7016.0         2290.0             2159.0            1819.0   
1               8110.0         2033.0             1841.0            1219.0   
2               6508.0         1737.0             1549.0            1134.0   
3               3065.0         1042.0              982.0            1183.0   
4                  NaN            NaN                NaN               NaN   

   # of Purchase  
0          618.0  
1          511.0  
2          372.0  
3   

In [3]:
print(test_data.head())

   Campaign Name       Date  Spend [USD]  # of Impressions  Reach  \
0  Test Campaign  1.08.2019         3008             39550  35820   
1  Test Campaign  2.08.2019         2542            100719  91236   
2  Test Campaign  3.08.2019         2365             70263  45198   
3  Test Campaign  4.08.2019         2710             78451  25937   
4  Test Campaign  5.08.2019         2297            114295  95138   

   # of Website Clicks  # of Searches  # of View Content  # of Add to Cart  \
0                 3038           1946               1069               894   
1                 4657           2359               1548               879   
2                 7885           2572               2367              1268   
3                 4216           2216               1437               566   
4                 5863           2106                858               956   

   # of Purchase  
0            255  
1            677  
2            578  
3            340  
4            768  


In [None]:
我给数据集起一个新的列名

In [4]:
control_data.columns = ["活动名称", "日期", "花费金额", 
                        "展示次数", "到达", "网站点击", 
                        "收到搜索", "内容查看", "添加到购物车",
                        "购买"]

test_data.columns = ["活动名称", "日期", "花费金额", 
                        "展示次数", "到达", "网站点击", 
                        "收到搜索", "内容查看", "添加到购物车",
                        "购买"]

In [5]:
print(control_data.head())

               活动名称         日期  花费金额      展示次数        到达    网站点击    收到搜索  \
0  Control Campaign  1.08.2019  2280   82702.0   56930.0  7016.0  2290.0   
1  Control Campaign  2.08.2019  1757  121040.0  102513.0  8110.0  2033.0   
2  Control Campaign  3.08.2019  2343  131711.0  110862.0  6508.0  1737.0   
3  Control Campaign  4.08.2019  1940   72878.0   61235.0  3065.0  1042.0   
4  Control Campaign  5.08.2019  1835       NaN       NaN     NaN     NaN   

     内容查看  添加到购物车     购买  
0  2159.0  1819.0  618.0  
1  1841.0  1219.0  511.0  
2  1549.0  1134.0  372.0  
3   982.0  1183.0  340.0  
4     NaN     NaN    NaN  


In [6]:
print(test_data.head())

            活动名称         日期  花费金额    展示次数     到达  网站点击  收到搜索  内容查看  添加到购物车  \
0  Test Campaign  1.08.2019  3008   39550  35820  3038  1946  1069     894   
1  Test Campaign  2.08.2019  2542  100719  91236  4657  2359  1548     879   
2  Test Campaign  3.08.2019  2365   70263  45198  7885  2572  2367    1268   
3  Test Campaign  4.08.2019  2710   78451  25937  4216  2216  1437     566   
4  Test Campaign  5.08.2019  2297  114295  95138  5863  2106   858     956   

    购买  
0  255  
1  677  
2  578  
3  340  
4  768  


控制组的数据集在一行中有缺失值。让我们用每列的平均值填充这些缺失值：

In [7]:
control_data["展示次数"].fillna(value=control_data["展示次数"].mean(), 
                                             inplace=True)
control_data["到达"].fillna(value=control_data["到达"].mean(), 
                             inplace=True)
control_data["网站点击"].fillna(value=control_data["网站点击"].mean(), 
                                      inplace=True)
control_data["收到搜索"].fillna(value=control_data["收到搜索"].mean(), 
                                         inplace=True)
control_data["内容查看"].fillna(value=control_data["内容查看"].mean(), 
                                      inplace=True)
control_data["添加到购物车"].fillna(value=control_data["添加到购物车"].mean(), 
                                     inplace=True)
control_data["购买"].fillna(value=control_data["购买"].mean(), 
                                 inplace=True)

查看数据集是否有空值

In [8]:
print(control_data.isnull().sum())

活动名称      0
日期        0
花费金额      0
展示次数      0
到达        0
网站点击      0
收到搜索      0
内容查看      0
添加到购物车    0
购买        0
dtype: int64


我将首先分析我们从两个活动中获得的展示次数与在两个活动上花费的金额之间的关系

In [34]:
figure = px.scatter(data_frame =control_data,
                    x="展示次数",
                    y="花费金额", 
                    size="花费金额", 
                    color= "活动名称", 
                    trendline="ols")
figure.show()

In [35]:
figure = px.scatter(data_frame =test_data,
                    x="展示次数",
                    y="花费金额", 
                    size="花费金额", 
                    color= "活动名称", 
                    trendline="ols")
figure.show()

In [None]:
测试活动导致在网站上进行了更多搜索。 现在让我们看看两个活动的网站点击次数

In [11]:
label = ["控制组的总搜索", 
         "实验组的总搜索"]
counts = [sum(control_data["收到搜索"]), 
          sum(test_data["收到搜索"])]
colors = ['gold','lightgreen']
fig = go.Figure(data=[go.Pie(labels=label, values=counts)])
fig.update_layout(title_text='实验组与控制组的对照: 收到搜索')
fig.update_traces(hoverinfo='label+percent', textinfo='value', 
                  textfont_size=30,
                  marker=dict(colors=colors, 
                              line=dict(color='black', width=3)))
fig.show()

测试活动导致在网站上进行了更多搜索。 现在让我们看看两个活动的网站点击次数

In [13]:
label = ["来自控制组的网站点击", 
         "来自实验组的网站点击"]
counts = [sum(control_data["网站点击"]), 
          sum(test_data["网站点击"])]
colors = ['gold','lightgreen']
fig = go.Figure(data=[go.Pie(labels=label, values=counts)])
fig.update_layout(title_text='实验组与控制组的对照: 网站点击')
fig.update_traces(hoverinfo='label+percent', textinfo='value', 
                  textfont_size=30,
                  marker=dict(colors=colors, 
                              line=dict(color='black', width=3)))
fig.show()

测试活动在网站点击次数上较多。现在让我们看看从两个活动到达网站后查看的内容量：

In [14]:
label = ["来自控制组的内容查看", 
         "来自实验组的内容查看"]
counts = [sum(control_data["内容查看"]), 
          sum(test_data["内容查看"])]
colors = ['gold','lightgreen']
fig = go.Figure(data=[go.Pie(labels=label, values=counts)])
fig.update_layout(title_text='实验组与控制组的对照: 内容查看')
fig.update_traces(hoverinfo='label+percent', textinfo='value', 
                  textfont_size=30,
                  marker=dict(colors=colors, 
                              line=dict(color='black', width=3)))
fig.show()

对照活动的观众比测试活动观看了更多内容。虽然差别不大，但由于对照活动的网站点击率较低，因此其在网站上的参与度高于测试活动。
现在让我们看一下两个活动中添加到购物车的产品数量

In [15]:
label = ["控制组添加到购物车的产品数", 
         "实验组添加到购物车的产品数"]
counts = [sum(control_data["添加到购物车"]), 
          sum(test_data["添加到购物车"])]
colors = ['gold','lightgreen']
fig = go.Figure(data=[go.Pie(labels=label, values=counts)])
fig.update_layout(title_text='实验组与控制组的对照: 添加到购物车')
fig.update_traces(hoverinfo='label+percent', textinfo='value', 
                  textfont_size=30,
                  marker=dict(colors=colors, 
                              line=dict(color='black', width=3)))
fig.show()

尽管网站点击率较低，但仍有更多产品从控制活动中添加到购物车。现在让我们看看在这两个活动上花费的金额

In [17]:
label = ["来自控制组的总消费", 
         "来自实验组的总消费"]
counts = [sum(control_data["花费金额"]), 
          sum(test_data["花费金额"])]
colors = ['gold','lightgreen']
fig = go.Figure(data=[go.Pie(labels=label, values=counts)])
fig.update_layout(title_text='实验组与控制组的对照: 消费金额')
fig.update_traces(hoverinfo='label+percent', textinfo='value', 
                  textfont_size=30,
                  marker=dict(colors=colors, 
                              line=dict(color='black', width=3)))
fig.show()

在测试活动上花费的金额高于控制活动。但正如我们所见，对照活动带来了更多的内容浏览量和购物车中的更多产品，对照活动比测试活动更有效。

两个活动的购买情况

In [18]:
label = ["来自控制组的购买数", 
         "来自实验组的购买数"]
counts = [sum(control_data["购买"]), 
          sum(test_data["购买"])]
colors = ['gold','lightgreen']
fig = go.Figure(data=[go.Pie(labels=label, values=counts)])
fig.update_layout(title_text='实验组与控制组的对照: 购买数')
fig.update_traces(hoverinfo='label+percent', textinfo='value', 
                  textfont_size=30,
                  marker=dict(colors=colors, 
                              line=dict(color='black', width=3)))
fig.show()

两个广告系列的购买量仅相差 1% 左右。由于控制活动以较少的营销费用实现了更多的销售额，因此控制活动在这里表现出色！

结论
从上面的 A/B 测试中，我们发现控制活动带来了更多的销售量和访问者的参与度。从控制活动中查看了更多产品，从而导致购物车中有更多产品和更多销售额。但在测试活动中，购物车中产品的对话率更高。根据查看和添加到购物车的产品，测试活动带来了更多的销售额。对照活动会带来更多的整体销售额。因此，测试活动可用于向特定受众推销特定产品，而控制活动可用于向更广泛的受众推销多种产品。