## Формула расчёта выборки по генеральной совокупности.

### Формула позволяет рассчитать количество клиентов в выборке из общего числа клиентов сегмента так, чтобы:
- полученные результаты попадали в заданный доверительный интервал,
- полученные результаты учитывали необходимый уровень значимости.

**В формуле участвуют следующие элементы:**

*Генеральная совокупность (pop)* - это общее количество клиентов в исследуемом сегменте.

*Выборка (sample)* - это минимально необходимое количество клиентов для проведения теста с заданными критериями.

*Доверительный интервал (confidence interval)* - это такой интервал, в котором с определённой долей вероятности лежит истинное (генеральное) значение нужной нам характеристики (чаще всего используется вероятность 95%, то есть - полученный результат при переносе теста на весь сегмент будет лежать в диапазоне от +5% до -5% от исходного значения на выборке).

*Нулевая и альтернативная гипотезы* - так как численное значение, которое суммирует интересующие нас различия называется эффектом, для того, чтобы определить, есть он или нет выдвигают 2 гипотезы - нулевую и альтернативную.  Обычно нулевая гипотеза гласит, что эффекта нет (клиенты, на которых воздействовали реагируют также, как и те, на которых воздействия не было). Альтернативная наоборот, признаёт наличие определённого эффекта, хотя о полном доказательстве альтернативной гипотезы по результатам выборки речи не идёт. 

*Доверительная вероятность (р-оценка)* - это вероятность наблюдения в исследовании такого же или более сильного эффекта при условии справедливости нулевой гипотезы. Обычно выражается как пропорция. Значение доверительной оценки тесно связано с уровнем значимости.

*Уровень значимости (confidence level)* - это пороговое значение для р-оценки, ниже которого нулевая гипотеза должна быть отвергнута и сделано заключение о том, что имеются доказательства эффекта. Обычно уровень значимости устанавливается на значении 5%. Уровень значимости, несмотря на прямую связь с р-оценкой выражается в процентах: 5% уровень значимости эквивалентен р=0.05).

In [2]:
import math

In [5]:
def sample_count(confInt, confLevel, pop):
    
    if confLevel == 1:
        Z = 2.58    # Z-значение при уровне значимости 1%
    else:
        Z = 1.96    # Z-значение при уровне значимости 5%
        
    sample = ((Z*Z)*0.25) / ((confInt/100)*(confInt/100))
    corrected_sample = round(sample / (1 + ((sample-1)/pop) ))
    
    print('Генеральная совокупность: {}.'.format(pop))
    print('Уровень значимости: {}%.'.format(100 - confLevel))
    print('Доверительный интервал: {}%.'.format(confInt))
    print('Выборка: {}.'.format(corrected_sample))

### Пример использования формулы:
**Задача:** необходимо рассчитать выборку для сегмента клиентов в 20 000 человек с целью провести на ней тестирование и узнать, как будет реагировать весь сегмент на данный тест при условии, что результаты теста с вероятностью 95% будут описывать реакцию всего сегмента, а отсекать гипотезу о том, что эффект значим будем по значению 5%.

Задаём параметры для расчёта данной выборки:
- **confInt - это доверительный интервал,** так как он равен 95%, следует указать остаток, то есть 5 (для 99% доверительного интервала это значение было бы соответственно 1).
- **confLevel - это уровень значимости:** допустимые для формулы значения 1 и 5, по ним рассчитывается статистический критерий Z. При необходимости можно расширить диапазон рассчитываемых значений для критерия Z, но как правило уровень значимости оставляют равным либо 1 либо 5.
- **pop - это наша генеральная совокупность,** задаётся целым числом, то есть 20000.

Параметры для расчёта передаются в словарь. Сразу после этого запускаем формулу с нашим словарём параметров, чтобы увидеть результат:

In [6]:
sample_params = {
    'confInt': 5,
    'confLevel': 5,
    'pop': 20000       
}

sample_count(**sample_params)

Генеральная совокупность: 20000.
Уровень значимости: 95%.
Доверительный интервал: 5%.
Выборка: 377.


**Результат:** для нашей задачи необходимо отобрать 377 человек.

-------

## Формула для расчёта доверительного интервала конверсии на всём сегменте по результатам выборки.

### Формула позволяет рассчитать доверительный интервал по полученным результатам теста на выборке так, чтобы:
- сразу увидеть диапазон значений доверительного интервала для всего сегмента,
- полученный доверительный интервал учитывал необходимый уровень значимости.

**В формуле участвуют следующие элементы:**

*Генеральная совокупность (pop)* - это общее количество клиентов в исследуемом сегменте.

*Выборка (sample)* - это минимально необходимое количество клиентов для проведения теста с заданными критериями.

*Доверительный интервал (confidence interval)* - это такой интервал, в котором с определённой долей вероятности лежит истинное (генеральное) значение нужной нам характеристики (чаще всего используется вероятность 95%, то есть - полученный результат при переносе теста на весь сегмент будет лежать в диапазоне от +5% до -5% от исходного значения на выборке).

*Нулевая и альтернативная гипотезы* - так как численное значение, которое суммирует интересующие нас различия называется эффектом, для того, чтобы определить, есть он или нет выдвигают 2 гипотезы - нулевую и альтернативную.  Обычно нулевая гипотеза гласит, что эффекта нет (клиенты, на которых воздействовали реагируют также, как и те, на которых воздействия не было). Альтернативная наоборот, признаёт наличие определённого эффекта, хотя о полном доказательстве альтернативной гипотезы по результатам выборки речи не идёт. 

*Доверительная вероятность (р-оценка)* - это вероятность наблюдения в исследовании такого же или более сильного эффекта при условии справедливости нулевой гипотезы. Обычно выражается как пропорция. Значение доверительной оценки тесно связано с уровнем значимости.

*Уровень значимости (confidence level)* - это пороговое значение для р-оценки, ниже которого нулевая гипотеза должна быть отвергнута и сделано заключение о том, что имеются доказательства эффекта. Обычно уровень значимости устанавливается на значении 5%. Уровень значимости, несмотря на прямую связь с р-оценкой выражается в процентах: 5% уровень значимости эквивалентен р=0.05).

In [7]:
def confInt_count(sample, confLevel, rate, pop):
    if confLevel == 1:
        Z = 6.6564    # Z-значение при уровне значимости 1%
    else:
        Z = 3.8416    # Z-значение при уровне значимости 5%
    
    pf = (pop-sample)/(pop-1)
    confInt = math.sqrt(Z*(rate/100)*(1-rate/100)/ sample*pf)*100
    corrected_confInt = pf+round((confInt-pf)*100)/100
    
    print('Генеральная совокупность: {}.'.format(pop))
    print('Выборка: {}.'.format(sample))
    print('Уровень значимости: {}%.'.format(100 - confLevel))
    print('Процент полученной конверсии с выборки: {}%.'.format(rate))
    print('Доверительный интервал: от {}% до {}%.'.format(round(rate - corrected_confInt, 2),
                                                          round(rate + corrected_confInt, 2)))

### Пример использования формулы:
**Задача:** после получения результатов теста в 15% на репрезентативной выборке из 278 человек в сегменте на 1000 человек необходимо рассчитать более точный доверительный интервал значений конверсии для всего сегмента, из которого эта выборка и была взята, при условии, что отсекать гипотезу об отсутствии эффекта будем по значению 1%.

Задаём параметры для расчёта данного интервала:
- **sample - это наша выборка,** задаётся целым числом, то есть 278.
- **confLevel - это уровень значимости:** допустимые для формулы значения 1 и 5, по ним рассчитывается статистический критерий Z. При необходимости можно расширить диапазон рассчитываемых значений для критерия Z, но как правило уровень значимости оставляют равным либо 1 либо 5.
- **rate - это полученная на выборке конверсия,** задаётся в виде целого числа процентов - 15.
- **pop - это наша генеральная совокупность,** задаётся также целым числом, то есть 20000.

Параметры для расчёта передаются в словарь. Сразу после этого запускаем формулу с нашим словарём параметров, чтобы увидеть результат:

In [8]:
confInt_params = {
    'sample': 278,
    'confLevel': 1,
    'rate': 15,
    'pop': 1000      
}

confInt_count(**confInt_params)

Генеральная совокупность: 1000.
Выборка: 278.
Уровень значимости: 99%.
Процент полученной конверсии с выборки: 15%.
Доверительный интервал: от 10.31% до 19.69%.


**Результат:** Доверительный интервал для всего сегмента по результатам теста на нашей выборке будет составлять от 10.31% до 19.69% конверсии.