# Доверительные интервалы для доли 

## Генерация данных

In [1]:
import numpy as np

In [2]:
np.random.seed(1)

# 2 значения (0 и 1) и выборка размером 100000 - это наша геральна совокупность
statistical_population = np.random.randint(2, size = 100000) 

# выборка из генеральной совокупности размером 1000, по этой выборке будет оценивать долю успешных (значение 1)
random_sample = np.random.choice(statistical_population, size = 1000)

In [3]:
type(random_sample)

numpy.ndarray

In [4]:
#истинное значение доли
statistical_population.mean()

0.49771

## Точечная оценка доли

In [5]:
random_sample.mean()

0.502

## Доверительный интервал для доли

In [6]:
from statsmodels.stats.proportion import proportion_confint

### Доверительный интервал на основе нормального распределения

$$\hat{p}\pm z_{1-\frac{\alpha}{2}} \sqrt{\frac{\hat{p}\left(1-\hat{p}\right)}{n}}$$

In [7]:
normal_interval = proportion_confint(sum(random_sample), len(random_sample), method = 'normal')

In [8]:
print('normal_interval [%f, %f] with width %f' % (normal_interval[0],
                                                  normal_interval[1], 
                                                  normal_interval[1] - normal_interval[0]))

normal_interval [0.471010, 0.532990] with width 0.061979


### Доверительный интервал Уилсона

$$\frac1{ 1 + \frac{z^2}{n} } \left( \hat{p} + \frac{z^2}{2n} \pm z \sqrt{ \frac{ \hat{p}\left(1-\hat{p}\right)}{n} + \frac{
z^2}{4n^2} } \right), \;\; z \equiv z_{1-\frac{\alpha}{2}}$$ 

In [9]:
wilson_interval = proportion_confint(sum(random_sample), len(random_sample), method = 'wilson')

In [10]:
print('wilson_interval [%f, %f] with width %f' % (wilson_interval[0],
                                                  wilson_interval[1],
                                                  wilson_interval[1] - wilson_interval[0]))

wilson_interval [0.471062, 0.532922] with width 0.061860


### Связь между проверкой гипотез и доверительными интервалами - 60 успешных из 100

In [23]:
normal_interval = proportion_confint(60, 100, alpha=0.05, method = 'normal')
print('wilson_interval [%f, %f] with width %f' % (normal_interval[0],
                                                  normal_interval[1],
                                                  normal_interval[1] - normal_interval[0]))

wilson_interval [0.503982, 0.696018] with width 0.192036


### Выборка мала, поэтому стоит использовать классификатор Уилсона

In [22]:
wilson_interval = proportion_confint(60, 100, alpha=0.05, method = 'wilson')
print('wilson_interval [%f, %f] with width %f' % (wilson_interval[0],
                                                  wilson_interval[1],
                                                  wilson_interval[1] - wilson_interval[0]))

wilson_interval [0.502003, 0.690599] with width 0.188596


### То есть классификатор, который угадывает 60 из 100 значимо лучше генератор случайных чисел, который будет угадывать 50 из 100, потому что 50 не входит в доверительный интервал для 60 - [0.502003, 0.690599]

In [28]:
import scipy

z = scipy.stats.norm.ppf(1 - 0.05 / 2.)   
p1 = 60 / 100
p2 = 75 / 100
    
left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ 100 + p2 * (1 - p2)/ 100)
right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ 100 + p2 * (1 - p2)/ 100)
    
print(left_boundary)
print(right_boundary)

-0.27814927412384116
-0.021850725876158883


## Размер выборки для интервала заданной ширины

### Определение размера выборки для заданной ширины интервала и точности

In [16]:
from statsmodels.stats.proportion import samplesize_confint_proportion

In [17]:
n_samples = int(np.ceil(samplesize_confint_proportion(random_sample.mean(), 0.01))) # ширина интервала 0.02, но указываем половину - 0.01
n_samples

9602

In [18]:
np.random.seed(1)
random_sample = np.random.choice(statistical_population, size = n_samples)

In [19]:
normal_interval = proportion_confint(sum(random_sample), len(random_sample), method = 'normal')

In [20]:
print('normal_interval [%f, %f] with width %f' % (normal_interval[0],
                                                  normal_interval[1],
                                                  normal_interval[1] - normal_interval[0]))

normal_interval [0.481877, 0.501876] with width 0.019999
