Давайте уточним правило трёх сигм. Утверждение: 99.7% вероятностной массы случайной величины $X\sim N\left(μ,σ^{2}\right)$ лежит в интервале $μ±c⋅σ$. Чему равно точное значение константы c? Округлите ответ до четырёх знаков после десятичной точки. 

In [9]:
import numpy as np
from scipy import stats

In [10]:
stats.norm.ppf(0.9985)

2.9677379253417944

В пятилетнем рандомизированном исследовании Гарвардской медицинской школы 11037 испытуемых через день принимали аспирин, а ещё 11034 — плацебо. Исследование было слепым, то есть, испытуемые не знали, что именно они принимают.

За 5 лет инфаркт случился у 104 испытуемых, принимавших аспирин, и у 189 принимавших плацебо. 

Оцените, насколько вероятность инфаркта снижается при приёме аспирина. Округлите ответ до четырёх знаков после десятичной точки.

In [11]:
n1 = 11037
n2 = 11034
c1 = 104
c2 = 189
p1 = float(c1) / n1
p2 = float(c2) / n2
print p2 - p1

0.007706023976


Постройте теперь 95% доверительный интервал для снижения вероятности инфаркта при приёме аспирина. Чему равна его верхняя граница? Округлите ответ до четырёх знаков после десятичной точки.  

In [17]:
def proportions_confint_diff_ind(p1, p2, n1, n2, alpha=0.05):    
    z = scipy.stats.norm.ppf(1 - alpha / 2.)
    
    left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1) / n1 + p2 * (1 - p2) / n2)
    right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1) / n1 + p2 * (1 - p2) / n2)
    
    return (left_boundary, right_boundary)

In [18]:
proportions_confint_diff_ind(p1, p2, n1, n2)

(-0.010724297276960124, -0.004687750675049439)

Продолжим анализировать данные эксперимента Гарвардской медицинской школы. 

Для бернуллиевских случайных величин $X∼Ber(p)$ часто вычисляют величину $\frac{p}{1-p}$, которая называется шансами (odds). Чтобы оценить шансы по выборке, вместо $p$ нужно подставить \hat{p}. Например, шансы инфаркта в контрольной группе, принимавшей плацебо, можно оценить как 

$\frac{\frac{189}{11034}}{1-\frac{189}{11034}}=\frac{189}{11034-189}\approx0.0174$

Оцените, во сколько раз понижаются шансы инфаркта при регулярном приёме аспирина. Округлите ответ до четырёх знаков после десятичной точки. 

In [19]:
p_1 = float(c1) / (n1 - c1)
p_2 = float(c2) / (n2 - c2)
print p_2 / p_1

1.83205394191


Величина, которую вы оценили в предыдущем вопросе, называется отношением шансов. Постройте для отношения шансов 95% доверительный интервал с помощью бутстрепа. Чему равна его нижняя граница? Округлите ответ до 4 знаков после десятичной точки.

Чтобы получить в точности такой же доверительный интервал, как у нас:

* составьте векторы исходов в контрольной и тестовой выборках так, чтобы в начале шли все единицы, а потом все нули;
* установите random seed=0;
* сделайте по 1000 псевдовыборок из каждой группы пациентов с помощью функции get_bootstrap_samples.

In [20]:
X1 = np.zeros((1, n1))[0]
X1[:c1] = 1
X2 = np.zeros((1, n2))[0]
X2[:c2] = 1

In [15]:
def get_bootstrap_samples(data, n_samples):
    indices = np.random.randint(0, len(data), (n_samples, len(data)))
    samples = data[indices]
    return samples

def stat_intervals(stat, alpha):
    boundaries = np.percentile(stat, [100 * alpha / 2., 100 * (1 - alpha / 2.)])
    return boundaries

In [16]:
np.random.seed(0)
X1_bs = get_bootstrap_samples(X1, 1000)
X2_bs = get_bootstrap_samples(X2, 1000)

In [17]:
X1_bs_sum = np.sum(X1_bs, axis=1)
X1_bs_odds = X1_bs_sum / (len(X1_bs[0]) - X1_bs_sum)
X2_bs_sum = np.sum(X2_bs, axis=1)
X2_bs_odds = X2_bs_sum / (len(X2_bs[0]) - X2_bs_sum)

In [18]:
X2_X1_div = X2_bs_oddss / X1_bs_odds

In [19]:
stat_intervals(X2_X1_div, 0.05)

array([1.44419465, 2.34321168])