<p style="align: center;"><img align=center src="https://mailfit.com/wp-content/uploads/2019/11/lego-5.png"  width=900></p>
<h1 style="text-align: center;"><b>«Сроки тестирования»</b></h3>


In [10]:
import numpy as np
import pandas as pd
from scipy import stats
import seaborn as sns
import matplotlib.pyplot as plt

# Определение размера выборки

<div class="alert alert-info">
    
Мы уже разбирали онлайн калькуляторы, которые работают как черные ящики.

Давайте реализуем свою функцию для подсчета необходимого количества наблюдений и проверкой статистической значимости в эффекте.

Результаты сравним с уже известным нам онлайн-калькулятором - https://www.evanmiller.org/ab-testing/

<div class="alert alert-info">
    
<b>Реализация: </b>  

$$
n = \left( \frac{\sqrt{p_0 \cdot (1 - p_0) } \cdot z_{1 - \alpha} + \sqrt{p_a \cdot (1 - p_a) } \cdot z_{1 - \beta} }{p_a - p_0}  \right)^2
$$

Напишем функцию, которая по конкретным $p_a$, $\alpha$ и $\beta$ говорит нам сколько наблюдений нужно собрать.

где $ p_a = BCR $ - базовая конверсия, $ p = MDE $ - абсолютный эффект 

In [11]:
alpha = 0.05
beta = 80

def find_n(p0, pa, alpha=0.05, beta=0.05):
    za = stats.norm().ppf(1 - alpha)
    zb = stats.norm().ppf(1 - beta)
    sn = (np.sqrt(p0*(1 - p0))* za + np.sqrt(pa*(1 - pa))* zb)/(pa - p0)
    return sn**2

In [19]:
BCR = 84 / 100 # базовая конверсия в процентах
MDE = 94 / 100  # желанный эффект

find_n(BCR, MDE, alpha=0.05, beta=0.2)

64.46279665832425

In [13]:
find_n(0.5, 0.6, alpha=0.05, beta=0.05)

265.11564803989296

In [14]:
find_n(0.5, 0.6, alpha=0.01, beta=0.01)

530.3104250795232

In [15]:
find_n(0.5, 0.51, alpha=0.01, beta=0.01)

54108.11998038348

- Чем меньше ошибки 1-го и 2-го рода, тем больше наблюдений нам нужно
- Чем ниже размер эффекта, который мы хотим детектировать $MDE - BCR$, тем больше наблюдений нам нужно

<div class="alert alert-info">
    
<b>Онлайн-калькулятор: </b>  

Сравним с результатом https://www.evanmiller.org/ab-testing/sample-size.html

<div class="alert alert-info">
    
<b>Пример: </b>    
    
Менеджер Алеше планирует проверить правда ли Джеймс Бонд отличает взболтанный мартини от смешанного. Алеша полагает, что если Бонд правда умеет различать напитки, то размер эффекта должен быть как минимум $0.2$. Алексей хотел бы получить ошибки первого и второго рода равные 1%. Сколько наблюдений ему нужно? 

In [16]:
find_n(0.5, 0.7, alpha=0.01, beta=0.01)

124.23782566566618

# Определение статистической значимости


<div class="alert alert-info">
<b>Пример: </b>
    
Например, вы хотите проверить нет ли дискриминации 
по половому признаку в сфере Data Science.
Вы узнали, что в какой-то компании после серии собеседований 
**107 мужчин** взяли на работу, а отказали **93-м мужчинам**. 
А среди **женщин 74** взяли, а отказали **45-ти**.
Относится ли руководство компании 
предвзято к мужчинам или к женщинам?
    
</div>

In [17]:
table = [[107, 93], [74, 45]]


ch2, pvalue, dof, expected= stats.chi2_contingency(table)

if pvalue < 0.05:
    print('Да, правда!')
else:
    print('Сексизма нет!')

Сексизма нет!


<div class="alert alert-info">
    
<b>Онлайн-калькулятор: </b>  

Сравним с https://www.evanmiller.org/ab-testing/chi-squared.html

# Сроки проведения эксперимента

Что ж, теперь зная сколько данных вам надо собрать, вы можете оценить сколько времени на это потребуется. Тут все зависит от компании и ее потока клиентов. В любом случае формула такая:

$$t = \frac{N}{v_n}$$


In [18]:
N = 5000 # Объем выборки
V_n = 400 # скорость сбора данных за день

t = N/V_n
t  # Столько дней нам понадобиться для проведения тестирования

12.5

# Итоги и выводы


* Разобрали, как использовать python для определения объема выборок
* Изучили, как можно проверять онлайн калькуляторы с помощью Python. 
