# Доверительные интервалы для доли 

## Генерация данных

In [1]:
import numpy as np

In [2]:
np.random.seed(1)

# 2 значения (0 и 1) и выборка размером 100000 - это наша геральна совокупность
statistical_population = np.random.randint(2, size = 100000) 

# выборка из генеральной совокупности размером 1000, по этой выборке будет оценивать долю успешных (значение 1)
random_sample = np.random.choice(statistical_population, size = 1000)

In [3]:
type(random_sample)

numpy.ndarray

In [4]:
#истинное значение доли
statistical_population.mean()

0.49771

## Точечная оценка доли

In [5]:
random_sample.mean()

0.502

## Доверительный интервал для доли

In [4]:
from statsmodels.stats.proportion import proportion_confint

### Доверительный интервал на основе нормального распределения

$$\hat{p}\pm z_{1-\frac{\alpha}{2}} \sqrt{\frac{\hat{p}\left(1-\hat{p}\right)}{n}}$$

In [7]:
normal_interval = proportion_confint(sum(random_sample), len(random_sample), method = 'normal')

In [8]:
print('normal_interval [%f, %f] with width %f' % (normal_interval[0],
                                                  normal_interval[1], 
                                                  normal_interval[1] - normal_interval[0]))

normal_interval [0.471010, 0.532990] with width 0.061979


### Доверительный интервал Уилсона

$$\frac1{ 1 + \frac{z^2}{n} } \left( \hat{p} + \frac{z^2}{2n} \pm z \sqrt{ \frac{ \hat{p}\left(1-\hat{p}\right)}{n} + \frac{
z^2}{4n^2} } \right), \;\; z \equiv z_{1-\frac{\alpha}{2}}$$ 

In [9]:
wilson_interval = proportion_confint(sum(random_sample), len(random_sample), method = 'wilson')

In [10]:
print('wilson_interval [%f, %f] with width %f' % (wilson_interval[0],
                                                  wilson_interval[1],
                                                  wilson_interval[1] - wilson_interval[0]))

wilson_interval [0.471062, 0.532922] with width 0.061860


## Размер выборки для интервала заданной ширины

### Определение размера выборки для заданной ширины интервала и точности

In [16]:
from statsmodels.stats.proportion import samplesize_confint_proportion

In [17]:
n_samples = int(np.ceil(samplesize_confint_proportion(random_sample.mean(), 0.01))) # ширина интервала 0.02, но указываем половину - 0.01
n_samples

9602

In [18]:
np.random.seed(1)
random_sample = np.random.choice(statistical_population, size = n_samples)

In [19]:
normal_interval = proportion_confint(sum(random_sample), len(random_sample), method = 'normal')

In [20]:
print('normal_interval [%f, %f] with width %f' % (normal_interval[0],
                                                  normal_interval[1],
                                                  normal_interval[1] - normal_interval[0]))

normal_interval [0.481877, 0.501876] with width 0.019999


## Связь между проверкой гипотез и доверительными интервалами

Пусть требуется оценить качество предсказаний бинарного классификатора на тестовой выборке из 100 объектов. Этот классификатор верно предсказывает метку класса на 60 из 100 объектов. С одной стороны кажется, что 60 из 100 — это не очень много. С другой стороны, может быть, эта задача достаточно сложная, и предсказать лучше нельзя. Чтобы определить качество работы классификатора, его нужно сравнить с самым бесполезным классификатором — генератором случайных чисел. Если классы в задаче сбалансированы, то
генератор случайных чисел в среднем будет угадывать метку у 50 объектов из 100, и вероятность угадать
составит 0.5. Можно ли считать, что классификатор, который угадывает классы 60 из 100 объектов, лучше,
чем генератор случайных чисел?

In [5]:
normal_interval = proportion_confint(60, 100, alpha=0.05, method = 'normal')
print('wilson_interval [%f, %f] with width %f' % (normal_interval[0],
                                                  normal_interval[1],
                                                  normal_interval[1] - normal_interval[0]))

wilson_interval [0.503982, 0.696018] with width 0.192036


### Выборка мала, поэтому стоит использовать классификатор Уилсона

In [7]:
wilson_interval = proportion_confint(60, 100, alpha=0.05, method = 'wilson')
print('wilson_interval [%f, %f] with width %f' % (wilson_interval[0],
                                                  wilson_interval[1],
                                                  wilson_interval[1] - wilson_interval[0]))

wilson_interval [0.502003, 0.690599] with width 0.188596


### То есть классификатор, который угадывает 60 из 100 значимо лучше генератор случайных чисел, который будет угадывать 50 из 100, потому что 50 не входит в доверительный интервал для 60 - [0.502003, 0.690599]

## Проверка гипотез и построение доверительных интервалов при сравнении двух классификаторов

Пусть теперь помимо описанного ранее бинарного классификатора имеется второй классификатор, который на той же самой тестовой выборке верно предсказывает метки для 75 объектов из 100. Требуется определить, какой из двух классификаторов лучше. С одной стороны, 75 больше, чем 60. Но с другой стороны, выборка из 100 объектов не очень большая, и такая разница может возникнуть и случайно.

In [12]:
wilson_interval = proportion_confint(60, 100, alpha=0.05, method = 'wilson')
print('wilson_interval [%f, %f] with width %f' % (wilson_interval[0],
                                                  wilson_interval[1],
                                                  wilson_interval[1] - wilson_interval[0]))

wilson_interval [0.502003, 0.690599] with width 0.188596


In [13]:
wilson_interval = proportion_confint(75, 100, alpha=0.05, method = 'wilson')
print('wilson_interval [%f, %f] with width %f' % (wilson_interval[0],
                                                  wilson_interval[1],
                                                  wilson_interval[1] - wilson_interval[0]))

wilson_interval [0.656955, 0.824548] with width 0.167593


Эти доверительные интервалы пересекаются по отрезку [0.657; 0.691]. Но пересечение доверительных интервалов не означает, что классификаторы нельзя различить по качеству. В данном случае выдвинута точечная нулевая гипотеза относительно двух параметров и необходимо проверить её против двусторонней альтернативы.

In [28]:
import scipy

# z = scipy.stats.norm.ppf(1 - 0.05 / 2.)   
# p1 = 60 / 100
# p2 = 75 / 100
    
# left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ 100 + p2 * (1 - p2)/ 100)
# right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ 100 + p2 * (1 - p2)/ 100)
    
# print(left_boundary)
# print(right_boundary)

In [16]:
def proportions_confint_diff_ind(sample1, sample2, alpha = 0.05):    
    z = scipy.stats.norm.ppf(1 - alpha / 2.)   
    p1 = float(sum(sample1)) / len(sample1)
    p2 = float(sum(sample2)) / len(sample2)
    
    left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    
    return (left_boundary, right_boundary)

In [23]:
sample1 = np.array([1 if x < 60 else 0 for x in range(100)])
sample2 = np.array([1 if x < 75 else 0 for x in range(100)])

In [27]:
print("confidence interval: [%f, %f]" % proportions_confint_diff_ind(sample1, sample2))

confidence interval: [-0.278149, -0.021851]


### Этот доверительный интервал не содержит ноль, значит, можно утверждать, что второй классификатор значимо лучше.

Ранее не было учтено, что качество классификаторов определяется на одной и той же обучающей выборке,
а значит, выборки в этой задаче — связанные. В такой ситуации доверительный интервал правильнее строить
другим методом.

In [29]:
def proportions_confint_diff_rel(sample1, sample2, alpha = 0.05):
    z = scipy.stats.norm.ppf(1 - alpha / 2.)
    sample = zip(sample1, sample2)
    sample = list(sample)
    n = len(sample)
        
    f = sum([1 if (x[0] == 1 and x[1] == 0) else 0 for x in sample])
    g = sum([1 if (x[0] == 0 and x[1] == 1) else 0 for x in sample])
    
    left_boundary = float(f - g) / n  - z * np.sqrt(float((f + g)) / n**2 - float((f - g)**2) / n**3)
    right_boundary = float(f - g) / n  + z * np.sqrt(float((f + g)) / n**2 - float((f - g)**2) / n**3)
    return (left_boundary, right_boundary)

In [30]:
print("confidence interval: [%f, %f]" % proportions_confint_diff_rel(sample1, sample2))

confidence interval: [-0.219985, -0.080015]


### Этот доверительный интервал не содержит ноль, значит, можно утверждать, что второй классификатор значимо лучше.

## Анализ таблиц сопряженности

In [38]:
# observed = ([50, 50], [60, 40])
observed = ([60, 40], [75, 25])
# scipy.stats.contingency.expected_freq(observed)
scipy.stats.chi2_contingency(observed)

(4.467236467236467, 0.03455083095094911, 1, array([[67.5, 32.5],
        [67.5, 32.5]]))