In [1]:
# !pip3 install mathjax

В модулях по статистике вы уже изучали Z-тест и даже применяли его на практике для проверки средних значений при известной дисперсии генеральной совокупности. Сегодня мы изучим, как применять Z-тест для проверки равенства двух долей.

Мы научимся сравнивать, например, долю пользователей, которая совершила покупку на сайте, от всех пользователей этой группы A/B-теста, зашедших на сайт. Одна из самых популярных задач сравнения долей — сравнение показателя конверсии сайта для группы A и B. 

Чтобы объяснения были понятнее, мы будем разбирать тему на примере конверсии сайта, но это не значит, что данный тест можно применять только к конверсии. Например, так же можно оценивать долю больных людей, долю просроченных кредитов и т. д.

По конверсии выборки мы так же, как и в случае со средним, можем сделать вывод о конверсии генеральной совокупности: выборочные доли будут нормально распределены вокруг настоящей доли генеральной совокупности.

Ниже представлена формула для расчёта Z-теста со стандартным нормальным распределением: со средним, равным нулю, и стандартным отклонением, равным единице. 


$$Z\approx\frac{(P_1-P_2)-(\pi_1-\pi_2)}{\sqrt{P(1-P)(\frac{1}{n_1}+\frac{1}{n_2})}}\sim N(0,1)$$ 

где $n$ — размер каждой выборки, $P_1, P_2$ — пропорции в выборках, $P$ — совокупная пропорция в обеих выборках, $\pi_1, \pi_2$ — реальная пропорция в генеральной совокупности.


Мы уже знаем, что нулевая гипотеза всегда предполагает, что средние исследуемых генеральных совокупностей равны, то есть
$$H_0: \pi_1 = \pi_2$$
$$H_1: \pi_1 \neq \pi_2$$

В таком случае, если нулевая гипотеза верна, то выражение $\pi_1 - \pi_2$ из формулы выше будет равняться нулю, а критерий будет рассчитываться по известным нам выборочным данным.

Прежде чем мы приступим к анализу в Python, рассмотрим формулу на примере.

#### ПРАКТИКА
В группе А и B — 400 посетителей сайта; трафик распределился равномерно — 50/50.<br>
В группе А было совершено 64 конверсии, а в группе B — 92;<br>
Принятый уровень статистической значимости — 5%.<br>

Дано:<br>
$n_1 = 200$<br>
$n_2 = 200$
<br><br>
$X_1 = 64$<br>
$X_2 = 92$
<br><br>
$P_1 = \frac{64}{200}$<br><br>
$P_2 = \frac{92}{200}$<br><br>
$P = \frac{X_1+X_2}{n_1+n_2} = \frac{64+92}{200+200}$



In [3]:
from scipy import stats as st
import numpy as np
import math


In [4]:
n1 = 200
n2 = 200
x1 = 64
x2 = 92
p1 = x1/n1
p2 = x2/n2
p = (x1+x2) / (n1+n2)
z = (p1-p2) / math.sqrt(p*(1-p)*(1/n1+1/n2))
print(z)

-2.870323288366554


Зададим критический уровень статистической значимости:

In [5]:
a = .05

Запишем в переменные значения из условия: 

In [6]:
x1 = 64
x2 = 92

n1 = 200
n2 = 200

p1 = x1 / n1
p2 = x2 / n2

p = (x1 + x2) / (n1 + n2)

Посчитаем разницу в пропорциях: 

In [7]:
diff = p1 - p2

Рассчитаем Z-статистику:

In [9]:
z = diff / math.sqrt(p * (1 - p) * (1/n1 + 1/n2))
print(z)

-2.870323288366554


Теперь из полученной Z-статистики рассчитаем p-value при нормальном стандартном распределении.

Зададим нормальное стандартное распределение со средним, равным нулю, и стандартным отклонением, равным единице:

In [10]:
distr = st.norm(0, 1)

In [11]:
p_val = (1 - distr.cdf(abs(z))) * 2
p_val

0.004100523215951446

Значение P меньше принятого уровня значимости: 

In [12]:
p_val < a

True

Отвергаем нулевую гипотезу, так как между долями есть значимая разница.