# Доверительные интервалы для двух долей 

In [1]:
import numpy as np
import pandas as pd

import scipy
from statsmodels.stats.weightstats import *
from statsmodels.stats.proportion import proportion_confint

## Загрузка данных

In [2]:
data = pd.read_csv('banner_click_stat.txt', header = None, sep = '\t')
data.columns = ['banner_a', 'banner_b']

In [3]:
data.head()

Unnamed: 0,banner_a,banner_b
0,0,0
1,1,1
2,0,0
3,0,0
4,0,0


In [4]:
data.describe()

Unnamed: 0,banner_a,banner_b
count,1000.0,1000.0
mean,0.037,0.053
std,0.188856,0.224146
min,0.0,0.0
25%,0.0,0.0
50%,0.0,0.0
75%,0.0,0.0
max,1.0,1.0


## Интервальные оценки долей

$$\frac1{ 1 + \frac{z^2}{n} } \left( \hat{p} + \frac{z^2}{2n} \pm z \sqrt{ \frac{ \hat{p}\left(1-\hat{p}\right)}{n} + \frac{z^2}{4n^2} } \right), \;\; z \equiv z_{1-\frac{\alpha}{2}}$$ 

In [5]:
conf_interval_banner_a = proportion_confint(104, 
                                            11037,
                                            method = 'wilson')
conf_interval_banner_b = proportion_confint(189, 
                                            11034,
                                            method = 'wilson')

In [6]:
print 'interval for banner a [%f, %f]' % conf_interval_banner_a
print 'interval for banner b [%f, %f]' % conf_interval_banner_b

interval for banner a [0.007783, 0.011404]
interval for banner b [0.014871, 0.019723]


### Как их сравнить?

## Доверительный интервал для разности долей (независимые выборки)

   | $X_1$ | $X_2$  
  ------------- | -------------|
  1  | a | b 
  0  | c | d 
  $\sum$ | $n_1$| $n_2$
  
$$ \hat{p}_1 = \frac{a}{n_1}$$

$$ \hat{p}_2 = \frac{b}{n_2}$$


$$\text{Доверительный интервал для }p_1 - p_2\colon \;\; \hat{p}_1 - \hat{p}_2 \pm z_{1-\frac{\alpha}{2}}\sqrt{\frac{\hat{p}_1(1 - \hat{p}_1)}{n_1} + \frac{\hat{p}_2(1 - \hat{p}_2)}{n_2}}$$

In [7]:
def proportions_confint_diff_ind(sample1, sample2, a,b, alpha = 0.05):    
    z = scipy.stats.norm.ppf(1 - alpha / 2.)   
    p1 = float(a) / sample1
    p2 = float(b) / sample2
    
    left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ sample1 + p2 * (1 - p2)/ sample2)
    right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ sample1 + p2 * (1 - p2)/ sample2)
    
    return (left_boundary, right_boundary)

In [8]:
print "confidence interval: [%f, %f]" % proportions_confint_diff_ind(11034, 11037, 189, 104)

confidence interval: [0.004688, 0.010724]


## Доверительный интервал для разности долей (связанные выборки)

  $X_1$ \ $X_2$ | 1| 0 | $\sum$
  ------------- | -------------|
  1  | e | f | e + f
  0  | g | h | g + h
  $\sum$ | e + g| f + h | n  
  
$$ \hat{p}_1 = \frac{e + f}{n}$$

$$ \hat{p}_2 = \frac{e + g}{n}$$

$$ \hat{p}_1 - \hat{p}_2 = \frac{f - g}{n}$$


$$\text{Доверительный интервал для }p_1 - p_2\colon \;\;  \frac{f - g}{n} \pm z_{1-\frac{\alpha}{2}}\sqrt{\frac{f + g}{n^2} - \frac{(f - g)^2}{n^3}}$$

In [9]:
def proportions_confint_diff_rel(sample1, sample2, alpha = 0.05):
    z = scipy.stats.norm.ppf(1 - alpha / 2.)
    sample = zip(sample1, sample2)
    n = len(sample)
        
    f = sum([1 if (x[0] == 1 and x[1] == 0) else 0 for x in sample])
    g = sum([1 if (x[0] == 0 and x[1] == 1) else 0 for x in sample])
    
    left_boundary = float(f - g) / n  - z * np.sqrt(float((f + g)) / n**2 - float((f - g)**2) / n**3)
    right_boundary = float(f - g) / n  + z * np.sqrt(float((f + g)) / n**2 - float((f - g)**2) / n**3)
    return (left_boundary, right_boundary)

In [10]:
print "confidence interval: [%f, %f]" % proportions_confint_diff_rel(data.banner_a, data.banner_b)

confidence interval: [-0.026689, -0.005311]


In [11]:
(104.0/11037)-(189.0/11034)

-0.0077060239760047815

In [12]:
a = (104.0/11037)/(1-104.0/11037)

In [13]:
b = (189.0/11034)/(1-189.0/11034)

In [14]:
b/a

1.8320539419087138

Давайте уточним правило трёх сигм. Утверждение: 99.7% вероятностной массы случайной величины X\sim N\left(\mu,\sigma^2\right)X∼N(μ,σ 
2
 ) лежит в интервале \mu\pm c \cdot \sigmaμ±c⋅σ. Чему равно точное значение константы cc? Округлите ответ до четырёх знаков после десятичной точки.

3.0000 - не верно
2.9680 - не верно
2.9677 - не проверялб, расчет здесь  - (https://planetcalc.ru/4987/)



2. Вопрос 2

N(0,1) - не верно
χ n−12 - не верно

St(n−1) - верно
	

Вопрос 3
3. Вопрос 3
Выберите все распределения с несимметричной функцией плотности
только 2 ответа верно:
Фишера верно
хи-квадрат верно

4. Вопрос 4
Какое из выражений задаёт доверительный интервал для разности долей в связанных выборках?
\frac{f - g}{n} \pm z_{1-\frac{\alpha}{2}}\sqrt{\frac{f + g}{n^2} - \frac{(f - g)^2}{n^3}} - верно

5. Вопрос 5
В пятилетнем рандомизированном исследовании Гарвардской медицинской школы 11037 испытуемых через день принимали аспирин, а ещё 11034 — плацебо. Исследование было слепым, то есть, испытуемые не знали, что именно они принимают.

За 5 лет инфаркт случился у 104 испытуемых, принимавших аспирин, и у 189 принимавших плацебо.

Оцените, насколько вероятность инфаркта снижается при приёме аспирина. Округлите ответ до четырёх знаков после десятичной точки.


0.4499 - не верно
0.0077 - верно


6. Вопрос 6
Постройте теперь 95% доверительный интервал для снижения вероятности инфаркта при приёме аспирина. Чему равна его верхняя граница? Округлите ответ до четырёх знаков после десятичной точки.


-0.0046 не верно
0.0107 верно


7. Вопрос 7
Продолжим анализировать данные эксперимента Гарвардской медицинской школы.

Оцените, во сколько раз понижаются шансы инфаркта при регулярном приёме аспирина. Округлите ответ до четырёх знаков после десятичной точки.


1.8320 не верно
1.8321 верно

8. Вопрос 8
Величина, которую вы оценили в предыдущем вопросе, называется отношением шансов. Постройте для отношения шансов 95% доверительный интервал с помощью бутстрепа. Чему равна его нижняя граница? Округлите ответ до 4 знаков после десятичной точки.

Чтобы получить в точности такой же доверительный интервал, как у нас:

составьте векторы исходов в контрольной и тестовой выборках так, чтобы в начале шли все единицы, а потом все нули;
установите random seed=0;
сделайте по 1000 псевдовыборок из каждой группы пациентов с помощью функции get_bootstrap_samples.
