Для сравнения эффективности баннеров используем Z-test, т.е. считаем, что можно применить ЦПТ и считать нормальным распределение средних величин конверсий по кликам и установкам.

H0 - гипотеза: конверсия одинакова для обоих баннеров

H1 - гипотеза: конверсия для второго баннера выше

In [1]:
from scipy.stats import norm
import numpy as np

In [2]:
#Средние значения и стандартные отклонения для конверсии в клики для двух баннеров 
R1 = 0.01
R2 = 0.015
S1 = ((R1*(1-R1))**0.5)/1000
S2 = ((R2*(1-R2))**0.5)/1000

In [3]:
#Средние значения и стандартные отклонения для конверсии в установки для двух баннеров 
r1 = 440/1e+6
r2 = 5e-4
s1 = ((r1*(1-r1))**0.5)/1000
s2 = ((r2*(1-r2))**0.5)/1000

In [11]:
#фиксируем вероятности ошибок 1-го и 2-го рода
alpha = 0.05
beta = 0.2

In [25]:
def get_size(theta_c, theta_t, alpha, beta):
    # вычисляем квантили нормального распределения
    t_alpha = norm.ppf(1 - alpha, loc=0, scale=1)
    t_beta = norm.ppf(beta, loc=0, scale=1)
    # решаем уравнение относительно n
    n = t_alpha*np.sqrt(theta_t*(1 - theta_t))
    n -= t_beta*np.sqrt(theta_c*(1 - theta_c))
    n /= theta_c - theta_t
    return int(np.ceil(n*n))

n = get_size(R1, R2, alpha, beta)
print('Необходимое число показов:',n)
print('Порог, выше которого отклоняется H_0 R =',round(R1 + norm.ppf(1 - alpha, loc=0, scale=1)*np.sqrt(R1*(1 - R1)/n_max),4))

n = get_size(r1, r2, alpha, beta)
print('Необходимое число показов:',n)
print('Порог, выше которого отклоняется H_0 r =',round(r1 + norm.ppf(1 - alpha, loc=0, scale=1)*np.sqrt(r1*(1 - r1)/n_max),5))

Необходимое число показов: 3219
Порог, выше которого отклоняется H_0 R = 0.0102
Необходимое число показов: 822679
Порог, выше которого отклоняется H_0 r = 0.00048


При выбранных выше вероятностях ошибок 1-го и 2-го рода мы можем отвергнуть нулевую гипотезу и принять альтернативную. Таким образом, можно сказать, что баннер 2 имеет более высокую конверсию в загрузки и в клики, чем первый.