# Доверительные интервалы для доли

## Генерация данных 

In [2]:
import numpy as np
from functools import partial

In [3]:
np.random.seed(1)

In [12]:
# генеральная совокупность, состоящая из бинарных событий {0, 1} (успех, не успех)
# например, доля кликов по баннеру CTR
statistical_population = np.random.randint(2, size=100000)

In [6]:
statistical_population[:5]

array([1, 1, 0, 0, 1])

In [7]:
random_sample = np.random.choice(statistical_population, size=1000)

In [8]:
# мат ожидание г.с.
statistical_population.mean()

0.49771

## Точечная оценка доли
Оценка доли успехов по предварительным данным

In [9]:
random_sample.mean()

0.502

## Доверительный интервал для доли

In [10]:
from statsmodels.stats.proportion import proportion_confint

### Доверительный интервал на основе нормального распределения
Используя ЦПТ

$$\hat{p}\pm z_{1-\frac{\alpha}{2}} \sqrt{\frac{\hat{p}\left(1-\hat{p}\right)}{n}}$$

In [13]:
normal_interval = proportion_confint(count=sum(random_sample),
                                     nobs=len(random_sample),
                                     method='normal'
                                    )

In [18]:
print(
    f"normal_interval [{normal_interval[0]:.5f}, {normal_interval[1]:.5f}] "
    f"with width {normal_interval[1] - normal_interval[0]:.3f}"
)

normal_interval [0.47101, 0.53299] with width 0.062


### Доверительный интервал Уилсона
Улучшение предыдущего метода. Позваоляет получать качественные оценки в крайних случаях, т.е. когда доля близка к 0 или к 1. И когда выборка довольно мала.      


$$\frac1{ 1 + \frac{z^2}{n} } \left( \hat{p} + \frac{z^2}{2n} \pm z \sqrt{ \frac{ \hat{p}\left(1-\hat{p}\right)}{n} + \frac{z^2}{4n^2} } \right), \;\; z \equiv z_{1-\frac{\alpha}{2}}$$

In [19]:
wilson_interval = proportion_confint(count=sum(random_sample),
                                     nobs=len(random_sample),
                                     method='wilson'
                                    )

In [20]:
print(
    f"wilson_interval [{wilson_interval[0]:.5f}, {wilson_interval[1]:.5f}] "
    f"with width {wilson_interval[1] - wilson_interval[0]:.3f}"
)

wilson_interval [0.47106, 0.53292] with width 0.062


## Размер выборки для интервала заданной ширины
Сколько событий нам надо знать, чтобы оценить долю с достаточной точностью?

In [22]:
from statsmodels.stats.proportion import samplesize_confint_proportion

In [25]:
# хотим получить интервал шириной 0.2
# для этого нужно указать половину ширины интервала 0.1

n_samples = int(samplesize_confint_proportion(random_sample.mean(), 0.01))
n_samples

9603

In [27]:
# перегенерируем выборку с заданным количеством событий
np.random.seed(1)
random_sample = np.random.choice(statistical_population, size=n_samples)

In [28]:
normal_interval = proportion_confint(count=sum(random_sample),
                                     nobs=len(random_sample),
                                     method='normal'
                                    )

In [29]:
print(
    f"normal_interval [{normal_interval[0]:.5f}, {normal_interval[1]:.5f}] "
    f"with width {normal_interval[1] - normal_interval[0]:.3f}"
)

normal_interval [0.49359, 0.51359] with width 0.020


In [None]:
# а чо делать с уровнем доверия?