In [56]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import warnings
warnings.filterwarnings("ignore")

## Работа с данными

Считаем данные из двух датасетов и объединим их

In [57]:
control = pd.read_csv('control_group.csv', sep=';')
test = pd.read_csv('test_group.csv', sep=';')

In [58]:
total = pd.concat([control, test], keys = ['control', 'test'])
total

Unnamed: 0,Unnamed: 1,Campaign Name,Date,Spend [USD],# of Impressions,Reach,# of Website Clicks,# of Searches,# of View Content,# of Add to Cart,# of Purchase
control,0,Control Campaign,1.08.2019,2280,82702.0,56930.0,7016.0,2290.0,2159.0,1819.0,618.0
control,1,Control Campaign,2.08.2019,1757,121040.0,102513.0,8110.0,2033.0,1841.0,1219.0,511.0
control,2,Control Campaign,3.08.2019,2343,131711.0,110862.0,6508.0,1737.0,1549.0,1134.0,372.0
control,3,Control Campaign,4.08.2019,1940,72878.0,61235.0,3065.0,1042.0,982.0,1183.0,340.0
control,4,Control Campaign,5.08.2019,1835,,,,,,,
control,5,Control Campaign,6.08.2019,3083,109076.0,87998.0,4028.0,1709.0,1249.0,784.0,764.0
control,6,Control Campaign,7.08.2019,2544,142123.0,127852.0,2640.0,1388.0,1106.0,1166.0,499.0
control,7,Control Campaign,8.08.2019,1900,90939.0,65217.0,7260.0,3047.0,2746.0,930.0,462.0
control,8,Control Campaign,9.08.2019,2813,121332.0,94896.0,6198.0,2487.0,2179.0,645.0,501.0
control,9,Control Campaign,10.08.2019,2149,117624.0,91257.0,2277.0,2475.0,1984.0,1629.0,734.0


Посмотрим на пропущенные значения...

In [59]:
total.isnull().sum()

Campaign Name          0
Date                   0
Spend [USD]            0
# of Impressions       1
Reach                  1
# of Website Clicks    1
# of Searches          1
# of View Content      1
# of Add to Cart       1
# of Purchase          1
dtype: int64

... и заменим их средним значением

In [60]:
for x in ['# of Impressions', 'Reach', '# of Website Clicks', '# of Searches','# of View Content', '# of Add to Cart','# of Purchase']:
    total.loc[total[total[x].isnull()].index, x] = total[total[x].isnull() == False][x].mean()
total

Unnamed: 0,Unnamed: 1,Campaign Name,Date,Spend [USD],# of Impressions,Reach,# of Website Clicks,# of Searches,# of View Content,# of Add to Cart,# of Purchase
control,0,Control Campaign,1.08.2019,2280,82702.0,56930.0,7016.0,2290.0,2159.0,1819.0,618.0
control,1,Control Campaign,2.08.2019,1757,121040.0,102513.0,8110.0,2033.0,1841.0,1219.0,511.0
control,2,Control Campaign,3.08.2019,2343,131711.0,110862.0,6508.0,1737.0,1549.0,1134.0,372.0
control,3,Control Campaign,4.08.2019,1940,72878.0,61235.0,3065.0,1042.0,982.0,1183.0,340.0
control,4,Control Campaign,5.08.2019,1835,91775.881356,70868.644068,5682.59322,2321.813559,1900.169492,1087.220339,522.0
control,5,Control Campaign,6.08.2019,3083,109076.0,87998.0,4028.0,1709.0,1249.0,784.0,764.0
control,6,Control Campaign,7.08.2019,2544,142123.0,127852.0,2640.0,1388.0,1106.0,1166.0,499.0
control,7,Control Campaign,8.08.2019,1900,90939.0,65217.0,7260.0,3047.0,2746.0,930.0,462.0
control,8,Control Campaign,9.08.2019,2813,121332.0,94896.0,6198.0,2487.0,2179.0,645.0,501.0
control,9,Control Campaign,10.08.2019,2149,117624.0,91257.0,2277.0,2475.0,1984.0,1629.0,734.0


Теперь расчитаем некоторые метрики, которые могли бы помочь выдвинуть нам гипотезы, которые впоследствии будут проверены статистическими тестами. Это будут метрики CAC, CPC, CTR, Conversion Rate с целевым действием "Клик на рекламу" и Conversion Rate с целевым действием "Покупка на сайте"

In [130]:
total['CAC'] = total['Spend [USD]'] / total['# of Purchase'] #supposing all purchases were made by new customers
total['CPC'] = total['Spend [USD]'] / total['# of Website Clicks']
total['CTR'] = total['# of Website Clicks'] / total['# of Impressions'] * 100
total['Conversion Rate Web Clicks'] = total['# of Website Clicks'] / total['Reach'] * 100
total['Conversion Rate Purchase'] = total['# of Purchase'] / total['# of Website Clicks'] * 100
total

Unnamed: 0,Unnamed: 1,Campaign Name,Date,Spend [USD],# of Impressions,Reach,# of Website Clicks,# of Searches,# of View Content,# of Add to Cart,# of Purchase,CAC,CPC,CTR,Conversion Rate Web Clicks,Conversion Rate Purchase
control,0,Control Campaign,1.08.2019,2280,82702.0,56930.0,7016.0,2290.0,2159.0,1819.0,618.0,3.68932,0.324971,8.483471,12.323907,8.808438
control,1,Control Campaign,2.08.2019,1757,121040.0,102513.0,8110.0,2033.0,1841.0,1219.0,511.0,3.438356,0.216646,6.700264,7.911192,6.300863
control,2,Control Campaign,3.08.2019,2343,131711.0,110862.0,6508.0,1737.0,1549.0,1134.0,372.0,6.298387,0.360018,4.941121,5.870361,5.716042
control,3,Control Campaign,4.08.2019,1940,72878.0,61235.0,3065.0,1042.0,982.0,1183.0,340.0,5.705882,0.632953,4.205659,5.005307,11.092985
control,4,Control Campaign,5.08.2019,1835,91775.881356,70868.644068,5682.59322,2321.813559,1900.169492,1087.220339,522.0,3.515326,0.322916,6.191815,8.018487,9.185947
control,5,Control Campaign,6.08.2019,3083,109076.0,87998.0,4028.0,1709.0,1249.0,784.0,764.0,4.03534,0.765392,3.692838,4.577377,18.967229
control,6,Control Campaign,7.08.2019,2544,142123.0,127852.0,2640.0,1388.0,1106.0,1166.0,499.0,5.098196,0.963636,1.857546,2.064888,18.901515
control,7,Control Campaign,8.08.2019,1900,90939.0,65217.0,7260.0,3047.0,2746.0,930.0,462.0,4.112554,0.261708,7.983373,11.132067,6.363636
control,8,Control Campaign,9.08.2019,2813,121332.0,94896.0,6198.0,2487.0,2179.0,645.0,501.0,5.61477,0.453856,5.108298,6.531361,8.083253
control,9,Control Campaign,10.08.2019,2149,117624.0,91257.0,2277.0,2475.0,1984.0,1629.0,734.0,2.927793,0.943786,1.935829,2.495151,32.235397


## Проведение статистических тестов

Теперь будем проводить тесты. Выберем t-test для сравнения среднего значения рассчитанных метрик по 2 рекламным кампаниям

### CAC – client acquisition cost

Сначала проверим нормальность распределения, используя критерий Шапиро-Уилка. Нулевая гипотеза: данные в группах распределены нормально, альтернативная гипотеза: данные в группах не распределены нормально

In [131]:
from scipy.stats import shapiro
res = []
n = 0
while n < 500:
    n += 1
    cac = total[total['Campaign Name'] == 'Control Campaign'].sample(15)['CAC'].mean()
    res.append(cac)
shapiro(res)

ShapiroResult(statistic=0.9972400069236755, pvalue=0.5708360075950623)

In [132]:
res = []
n = 0
while n < 500:
    n += 1
    cac = total[total['Campaign Name'] == 'Test Campaign'].sample(15)['CAC'].mean()
    res.append(cac)
shapiro(res)

ShapiroResult(statistic=0.9950408935546875, pvalue=0.10932093858718872)

Так как p-value > 0.05 в обоих случаях, мы не можем отвергнуть нулевую гипотезу. Данные распределены нормально

Теперь проверим данные в группах на равенство дисперсий при помощи критерия Левене. Нулевая гипотеза: дисперсии в выборках не имеют значительных различий, альтернативная гипотеза: дисперсии в выборках значительно различаются

In [135]:
from scipy.stats import levene
cac_control = total[total['Campaign Name'] == 'Control Campaign'].sample(15)['CAC']
cac_test = total[total['Campaign Name'] == 'Test Campaign'].sample(15)['CAC']
levene(cac_control, cac_test)

LeveneResult(statistic=0.7800621420811126, pvalue=0.3846426823232336)

p-value > 0.05 => не можем отвергнуть нулевую гипотезу. Дисперсии в выборках не имеют значительных различий

Теперь можно проводить t-test. Нулевая гипотеза: в значениях CAC на двух группах нет значительных различий

In [139]:
from scipy.stats import ttest_ind
ttest_ind(cac_control, cac_test, equal_var=True)

Ttest_indResult(statistic=-1.0087827116536705, pvalue=0.32171750193229043)

По результатам p-value>0.05, поэтому мы не можем отвергнуть нулевую гипотезу

### CPC – cost per click

Проделаем аналогичные действия, рассматривая метрику CPC. Начнем с нормальности распределений. Нулевая гипотеза: данные распределены нормально

In [143]:
res = []
n = 0
while n < 500:
    n += 1
    cpc = total[total['Campaign Name'] == 'Control Campaign'].sample(15)['CPC'].mean()
    res.append(cpc)
shapiro(res)

ShapiroResult(statistic=0.9956243634223938, pvalue=0.1763729602098465)

In [144]:
res = []
n = 0
while n < 500:
    n += 1
    cpc = total[total['Campaign Name'] == 'Test Campaign'].sample(15)['CPC'].mean()
    res.append(cpc)
shapiro(res)

ShapiroResult(statistic=0.9973397850990295, pvalue=0.605265736579895)

Мы не можем отвергнуть нулевую гипотезу. Теперь к сравнению дисперсий:

In [145]:
cpc_control = total[total['Campaign Name'] == 'Control Campaign'].sample(15)['CPC']
cpc_test = total[total['Campaign Name'] == 'Test Campaign'].sample(15)['CPC']
levene(cpc_control, cpc_test)

LeveneResult(statistic=0.04476609541681262, pvalue=0.8339672300429609)

Дисперсии не имеют значимых различий, поэтому можно переходить к t-тесту. Нулевая гипотеза: значимых различий в средних значениях CPC нет

In [146]:
ttest_ind(cpc_control, cpc_test, equal_var=True)

Ttest_indResult(statistic=0.03731114605561646, pvalue=0.9705016657702299)

И снова мы не можем отвергнуть нулевую гипотезу: значимых различий в CPC нет

### CTR – click-through rate

Переходим к CTR. Проверяем нормальность распределений:

In [152]:
res = []
n = 0
while n < 500:
    n += 1
    ctr = total[total['Campaign Name'] == 'Control Campaign'].sample(15)['CTR'].mean()
    res.append(ctr)
shapiro(res)

ShapiroResult(statistic=0.997113049030304, pvalue=0.5280595421791077)

In [156]:
res = []
n = 0
while n < 500:
    n += 1
    ctr = total[total['Campaign Name'] == 'Test Campaign'].sample(15)['CTR'].mean()
    res.append(ctr)
shapiro(res)

ShapiroResult(statistic=0.9963651299476624, pvalue=0.31440553069114685)

Данные распределены нормально. Посмотрим на разницу дисперсий:

In [166]:
ctr_control = total[total['Campaign Name'] == 'Control Campaign'].sample(15)['CTR']
ctr_test = total[total['Campaign Name'] == 'Test Campaign'].sample(15)['CTR']
levene(ctr_control, ctr_test)

LeveneResult(statistic=5.341722283483085, pvalue=0.02839868509679126)

Мы не можем принять гипотезу о равенстве дисперсий. Отразим это в t-тесте. Нулевая гипотеза: значимых различий между CTR нет

In [168]:
ttest_ind(ctr_control, ctr_test, equal_var=False)

Ttest_indResult(statistic=-2.888173713440709, pvalue=0.009943356574390601)

p-value < 0.05, поэтому мы должны отвергнуть нулевую гипотезу => различия в показателе есть.

In [169]:
print(total[total['Campaign Name'] == 'Control Campaign']['CTR'].mean(), total[total['Campaign Name'] == 'Test Campaign']['CTR'].mean())

5.13240238623555 10.242259642726077


Исходя из средних значений CTR на 2 группах и результата t-теста, можем сделать вывод, что CTR на тестовой группе значительно выше

### Conversion Rate Web Clicks

Перейдем к конверсии с целевым действием "клик на сайт"

In [170]:
res = []
n = 0
while n < 500:
    n += 1
    cr_webclicks = total[total['Campaign Name'] == 'Control Campaign'].sample(15)['Conversion Rate Web Clicks'].mean()
    res.append(cr_webclicks)
shapiro(res)

ShapiroResult(statistic=0.9979416728019714, pvalue=0.8115562200546265)

In [196]:
res = []
n = 0
while n < 500:
    n += 1
    cr_webclicks = total[total['Campaign Name'] == 'Test Campaign'].sample(15)['Conversion Rate Web Clicks'].mean()
    res.append(cr_webclicks)
shapiro(res)

ShapiroResult(statistic=0.9902125597000122, pvalue=0.0020885386038571596)

Видим, что сравнить средние значения по такой конверсии при помощи t-теста не получится, так как данные в тестовой группе не распределены нормально

### Conversion Rate Purchase

Попробуем посмотреть на данные по конверсии с целевым действием "Покупка"

In [193]:
res = []
n = 0
while n < 500:
    n += 1
    cr_purchase = total[total['Campaign Name'] == 'Control Campaign'].sample(15)['Conversion Rate Purchase'].mean()
    res.append(cr_purchase)
shapiro(res)

ShapiroResult(statistic=0.9969278573989868, pvalue=0.46848344802856445)

In [194]:
res = []
n = 0
while n < 500:
    n += 1
    cr_purchase = total[total['Campaign Name'] == 'Test Campaign'].sample(15)['Conversion Rate Purchase'].mean()
    res.append(cr_purchase)
shapiro(res)

ShapiroResult(statistic=0.9964435696601868, pvalue=0.3332498371601105)

Здесь мы можем использовать t-тест, так как данные по тестам распределены нормально. Перейдем к сравнению дисперсий

In [200]:
cr_purchase_control = total[total['Campaign Name'] == 'Control Campaign'].sample(15)['Conversion Rate Purchase']
cr_purchase_test = total[total['Campaign Name'] == 'Test Campaign'].sample(15)['Conversion Rate Purchase']
levene(cr_purchase_control, cr_purchase_test)

LeveneResult(statistic=0.6821004867462536, pvalue=0.41584636008646925)

Дисперсии не различаются значительно. Посмотрим на результаты t-теста: нулевая гипотеза – конверсии с целевым действием "Покупка" не различаются значительно

In [201]:
ttest_ind(ctr_control, ctr_test, equal_var=True)

Ttest_indResult(statistic=-2.888173713440709, pvalue=0.0073933294926752996)

p-value<0.05 => мы должны принять альтернативную гипотезу, то есть что конверсии с целевым действием "Покупка" имеют значительные различия

In [202]:
print(total[total['Campaign Name'] == 'Control Campaign']['Conversion Rate Purchase'].mean(), total[total['Campaign Name'] == 'Test Campaign']['Conversion Rate Purchase'].mean())

11.400828018355812 9.2311817032836


Видим, что по результатам t-теста и средним значениям метрики на контрольной и тестовой группах различаются следующим образом: у контрольной группы среднее значение по контрольной группе значительно превышает среднее значение по тестовой группе

Однако интересно заметить, что среднее количество покупок в первой и второй группе оказалось приблизительно одинаковым:

In [205]:
print(total[total['Campaign Name'] == 'Control Campaign']['# of Purchase'].mean(), total[total['Campaign Name'] == 'Test Campaign']['# of Purchase'].mean())

522.7666666666667 521.2333333333333


Проверим, случайный это результат или нет, при помощи еще одного t-теста

In [206]:
res = []
n = 0
while n < 500:
    n += 1
    purchase = total[total['Campaign Name'] == 'Control Campaign'].sample(15)['# of Purchase'].mean()
    res.append(purchase)
shapiro(res)

ShapiroResult(statistic=0.9950816035270691, pvalue=0.1130741536617279)

In [207]:
res = []
n = 0
while n < 500:
    n += 1
    purchase = total[total['Campaign Name'] == 'Test Campaign'].sample(15)['# of Purchase'].mean()
    res.append(purchase)
shapiro(res)

ShapiroResult(statistic=0.9961179494857788, pvalue=0.26057928800582886)

In [208]:
purchase_control = total[total['Campaign Name'] == 'Control Campaign'].sample(15)['# of Purchase']
purchase_test = total[total['Campaign Name'] == 'Test Campaign'].sample(15)['# of Purchase']
levene(purchase_control, purchase_test)

LeveneResult(statistic=0.05457647395079816, pvalue=0.8169826404804246)

Нулевая гипотеза: среднее значение покупок в день не различается значительно между группами

In [209]:
ttest_ind(purchase_control, purchase_test, equal_var=True)

Ttest_indResult(statistic=0.09972429546875311, pvalue=0.9212738023575912)

Действительно, среднее значение покупок в день не различается значительно между группами, хотя средние значения конверсии с целевым действием "Покупка" значительно выше в контрольной группе

## Итоги

Теперь мы можем сравнить эффективность двух рекламных кампаний, исходя из результатов проведенных статистических тестов и сравнения по различным метрикам.\
\
Получилось, что контрольная рекламная кампания показала более высокое значение конверсии с целевым действием покупки, то есть те пользователи, которые переходили по рекламному баннеру на наш сайт, в среднем чаще совершали покупки по сравнению с пользователями, которые переходили по рекламному баннеру второй рекламной кампании. Тем не менее мы проверили, что среднее количество покупок в день практически одинаково по группам: иными словами, вторая рекламная кампания привлекает больше клиентов на сайт (среднее значение ctr в тестовой группе значительно выше), и несмотря на то что средняя конверсия с целевым действием "Покупка" в тестовой группе ниже, за счет большего числа клиентов на сайт среднее значение покупок не отличается значительно от среднего значения покупок в контрольной группе\
\
Исходя из этих результатов, можно сделать вывод, что вторая рекламная кампания была успешнее, поскольку среднее количество заказов не отличается значительно, однако по результатам второй кампании больше пользователей переходит на сайт, из-за чего больше людей узнают о наших продуктах