# ○	Вы работаете с рассылкой предложений перед “черной пятницей”, доля открываемых писем, исходя из заголовка письма в рассылках, обычно составляет 15% (конверсия). Вам хочется увеличить конверсию открываемых писем до 25% с помощью смайликов. Рассчитайте необходимый размер выборки. Сделай вывод. (В вашей базе рассылок около 40000 человек)


Онлайн калькулятор

![Описание изображения](1.jpg)

Для расчета необходимого размера выборки, чтобы увидеть различия в конверсии, можно использовать формулу для расчета размера выборки в A/B тестировании. В данном случае, это двусторонний тест для доли.

Формула размера выборки для каждой группы 
$n$ в A/B тестировании выглядит следующим образом:

$$n = \left(\frac{{Z \sqrt{{2p(1 - p)}}}}{E}\right)^2$$

где:

- $Z$ - Z-значение, которое зависит от уровня значимости (α). Для α=0.05, Z=1.96.
- p - средняя вероятность успеха для обеих групп ($\frac{{p_1 + p_2}}{2}$), где $p_1$ и $p_2$ - вероятности успеха для контрольной и тестовой групп соответственно.
- E - желаемый уровень точности (разница между конверсиями).

In [2]:
import math

# заданные значения
p1 = 0.15  # конверсия в контрольной группе
p2 = 0.25  # конверсия в тестовой группе
E = p2 - p1  # желаемый уровень точности
Z = 1.96  # Z-значение для alpha = 0.05

# средняя вероятность успеха для обеих групп
p = (p1 + p2) / 2

# расчет размера выборки для каждой группы
n = ((Z * math.sqrt(2 * p * (1 - p))) / E) ** 2
n

122.93120000000003

Необходимый размер выборки для каждой группы (как контрольной, так и тестовой) составляет примерно 123 человека.

Таким образом, для того чтобы узнать, увеличит ли использование смайликов конверсию открываемых писем до 25%, необходимо провести эксперимент на выборке размером примерно 123 человека для каждой группы. Это значительно меньше, чем общее количество людей в базе рассылок (40000 человек), что делает эксперимент достаточно экономичным и выполнимым.

# ○	И вот вы теперь тестируете две версии рассылок. И заметили, что в одной версии конверсия 19%, а в другой 24%. Всего у вас 100 человек в рассылке. Является ли результат статистически значимым? Если нет, то сколько должно было человек, чтобы результат был уже статистически значим?

Онлайн калькулятор

![Описание изображения 2](2.jpg)

Для проверки, является ли различие в конверсии между двумя группами статистически значимым, можно использовать z-тест для двух долей.

Пусть:

- $p_1$ и $p_2$ — конверсии в первой и второй группах соответственно (0.19 и 0.24)
- $n_1$ и $n_2$ — размеры выборок в первой и второй группах (по 50, так как общий размер выборки 100, и мы предполагаем, что выборка разделена пополам)
- p — общая конверсия
- q — 1−p

Формула для z-статистики:
$$z = \frac{{p_1 - p_2}}{{\sqrt{p(1 - p)\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}}$$

Если $∣z∣$ > $Z$ (где Z — критическое значение z, например, 1.96 для уровня значимости 0.05), то различие считается статистически значимым.

In [6]:
from scipy.stats import norm

# Конверсия в каждой группе
p1, p2 = 0.19, 0.24

# Размер каждой группы (предполагаем, что группы равны)
n1, n2 = 50, 50

# Общая доля успеха
p = (p1 * n1 + p2 * n2) / (n1 + n2)

# Расчет z-значения
z = (p1 - p2) / math.sqrt(p * (1 - p) * (1 / n1 + 1 / n2))

# Расчет p-значения (двусторонний тест)
p_value = 2 * (1 - norm.cdf(abs(z)))

# Критическое значение для alpha = 0.05
z_critical = norm.ppf(1 - 0.05 / 2)

z, p_value, z_critical

(-0.6085355444125748, 0.5428323390292968, 1.959963984540054)

Рассчитанное z-значение составляет примерно −0.61, а p-значение — примерно 0.54. Поскольку p-значение больше обычно используемого порогового значения 0.05 (и ∣z∣<1.96, критическое значение для α=0.05), мы не можем отвергнуть нулевую гипотезу. Это означает, что различие в конверсии между двумя группами не является статистически значимым при текущем размере выборки.

Теперь рассчитаем необходимый размер выборки для обеспечения статистической значимости, используя ту же формулу для z, но задав z равным z-критическому значению.

In [7]:
# Функция для расчета необходимого размера выборки
def required_sample_size(p1, p2, z_critical):
    p = (p1 + p2) / 2
    delta = abs(p1 - p2)
    return math.ceil((z_critical ** 2 * p * (1 - p)) / (delta ** 2))

# Расчет необходимого размера выборки для каждой группы
required_n = required_sample_size(p1, p2, z_critical)
required_n

260

Для того чтобы результаты были статистически значимыми (с уровнем значимости α=0.05), необходимо, чтобы в каждой группе было по крайней мере 260 человек, то есть общий объем выборки должен составлять 520 человек.

## ○	Вас повысили до старшего аналитика. Ваша первая задача на новой позиции, определить какой поставщик товаров (A или B) позволяет вам получить наибольшую оценку качества. У вас две группы оценок для A и B. Среднее группы A = 45, дисперсия группы A = 4, средние группы B = 40, дисперсия группы B = 3. Является ли группа А лучшей, если опираться на статистическую значимость? А если бы обе дисперсии были равны 1 ?

Онлайн калькулятора под эту задачу не нашел, но можно проверить еще таким методом:

In [10]:
from scipy.stats import ttest_ind_from_stats
import math

# Первый случай: дисперсия группы A = 4, дисперсия группы B = 3
mean1, std1, nobs1 = 45, math.sqrt(4), 30  # среднее, стандартное отклонение и размер выборки для группы A
mean2, std2, nobs2 = 40, math.sqrt(3), 30  # среднее, стандартное отклонение и размер выборки для группы B

# Выполнение t-теста для первого случая
t_stat_case1, p_value_case1 = ttest_ind_from_stats(mean1, std1, nobs1, mean2, std2, nobs2)

# Второй случай: обе дисперсии равны 1
std1_new, std2_new = math.sqrt(1), math.sqrt(1)  # новые стандартные отклонения для групп A и B

# Выполнение t-теста для второго случая
t_stat_case2, p_value_case2 = ttest_ind_from_stats(mean1, std1_new, nobs1, mean2, std2_new, nobs2)

t_stat_case1, p_value_case1, t_stat_case2, p_value_case2

(10.350983390135314,
 8.510275054656527e-15,
 19.364916731037088,
 5.367013303069472e-27)

Для сравнения средних двух групп мы можем использовать t-критерий Стьюдента для независимых выборок. Формула для t-статистики выглядит следующим образом:
$$t = \frac{{(\bar{x}_1 - \bar{x}_2)}}{{\sqrt{\left(\frac{{s_1^2}}{{n_1}}\right) + \left(\frac{{s_2^2}}{{n_2}}\right)}}}$$
где:
- $\bar{x}_1, \bar{x}_2$ — средние значения выборок
- $s_1^2, s_2^2$ — дисперсии выборок
- $n_1, n_2$ — размеры выборок

Предположим, что размеры выборок равны ($n_1 = n_2$). Если абсолютное значение t больше критического значения 
t (например, t=1.96 для уровня значимости α=0.05 и степеней свободы df>30), то различие считается статистически значимым.

Рассчитаем t для данных значений:

- Среднее группы A ($\bar{x}_1$) = 45
- Дисперсия группы A ($s_1^2$) = 4
- Среднее группы B ($\bar{x}_2$) = 40
- Дисперсия группы B ($s_2^2$) = 3
- Размеры выборок ($n_1, n_2$) предположим равными, например, 30.

После этого  рассчитаем t снова, если обе дисперсии равны 1.

In [4]:
# Заданные значения
x1 = 45  # среднее группы A
s1_sq = 4  # дисперсия группы A
x2 = 40  # среднее группы B
s2_sq = 3  # дисперсия группы B
n1 = n2 = 30  # предположим, что размеры выборок равны

# Расчет t-статистики
t1 = (x1 - x2) / math.sqrt((s1_sq / n1) + (s2_sq / n2))

# Теперь, если обе дисперсии равны 1
s1_sq_new = s2_sq_new = 1  # новые дисперсии
t2 = (x1 - x2) / math.sqrt((s1_sq_new / n1) + (s2_sq_new / n2))

t1, t2

(10.350983390135314, 19.364916731037088)

Рассчитанные значения t равны:

$t_1$ ≈ 10.35 (когда дисперсии равны $s_1^2$ = 4 и $s_2^2$ = 3)
$t_2$ ≈ 19.36 (когда дисперсии равны $s_1^2$ = 1 и $s_2^2$ = 1)
Оба эти значения значительно больше критического значения t (например, t=1.96 для  α=0.05 и степеней свободы df>30), следовательно, различие между двумя группами является статистически значимым в обоих случаях.

Вывод:
В первом случае, с дисперсиями 4 и 3, группа A статистически значимо лучше группы B.
Во втором случае, когда обе дисперсии равны 1, различие между группами A и B также статистически значимо, и группа A по-прежнему лучше группы B.

## ○	Вы планируете эксперимент по способам расстановки продуктов на полке. Вы предполагаете, что некоторые пары продуктов надо класть вместе. В качестве метрики у вас средний чек покупок. Вы проводите эксперимент в 1000 магазинах. Средний чек в группе A = 870 рублей, дисперсия этого чека - 80 рублей. Какое минимальное значение метрики надо получить для группы B, чтобы после всей 1000 экспериментов с каждым магазином мы могли с уверенностью сказать, что тестируемая гипотеза в группе B верна?

![Описание изображения 4](4.jpg)

Для определения минимального значения метрики для группы B, при котором мы сможем утверждать, что различия статистически значимы, мы можем использовать t-критерий для сравнения средних двух групп.

Используя ту же формулу, что и ранее:
$$t = \frac{{(\bar{x}_1 - \bar{x}_2)}}{{\sqrt{\left(\frac{{s_1^2}}{{n_1}}\right) + \left(\frac{{s_2^2}}{{n_2}}\right)}}}$$
где:
- $\bar{x}_1$ = 870 рублей — средний чек в группе A
- $s_1^2$ = 80 рублей — дисперсия чека в группе A
- $n_1=n_2$ = 1000 — размеры выборок

Решим уравнение относительно $\bar{x}_2$

In [5]:
from sympy import symbols, Eq, solve, sqrt

# Заданные значения
x1_new = 870  # средний чек в группе A
s1_sq_new = 80  # дисперсия чека в группе A
n1_new = n2_new = 1000  # размеры выборок
t_critical = 1.96  # критическое значение t

# Обозначим x2 как неизвестное
x2 = symbols('x2')

# Уравнение для нахождения x2
equation = Eq((x1_new - x2) / sqrt((s1_sq_new / n1_new) + (s1_sq_new / n2_new)), t_critical)

# Решение уравнения
x2_value = solve(equation, x2)
x2_value

[869.216000000000]

Минимальное значение метрики для группы B, при котором мы сможем с уверенностью сказать, что тестируемая гипотеза в группе B верна, равно примерно 869.22 рублей. Это означает, что средний чек в группе B должен быть хотя бы на 0.78 рубля меньше, чем в группе A, чтобы различие было статистически значимым.

Вывод:
Хотя различие в 0.78 рубля кажется малым, статистический тест показывает, что даже такое малое различие может быть значимым при большом размере выборки (1000 магазинов в каждой группе). Однако стоит также учесть практическую значимость этого различия для бизнеса.