# Доверительные интервалы

In [1]:
import scipy.stats as st
import numpy as np

## Task 1
Утверждение: 99.7% вероятностной массы случайной величины $X\sim N\left(\mu,\sigma^2\right)$ лежит в интервале $\mu\pm c \cdot \sigma$. Чему равно точное значение константы $c ?$ Округлите ответ до четырёх знаков после десятичной точки.

In [2]:
alpha = 0.003
left, right = st.norm.ppf([alpha/2, 1 - alpha/2])
print('c =', round(right, 4))

c = 2.9677


## Task 2

В пятилетнем рандомизированном исследовании Гарвардской медицинской школы 11037 испытуемых через день принимали аспирин, а ещё 11034 — плацебо. Исследование было слепым, то есть, испытуемые не знали, что именно они принимают.

За 5 лет инфаркт случился у 104 испытуемых, принимавших аспирин, и у 189 принимавших плацебо.

Оцените, насколько вероятность инфаркта снижается при приёме аспирина. Округлите ответ до четырёх знаков после десятичной точки.

In [3]:
p1 = 104 / 11037
p2 = 189 / 11034
round(p2 - p1, 4)

0.0077

## Task 3
Постройте теперь 95% доверительный интервал для снижения вероятности инфаркта при приёме аспирина. Чему равна его верхняя граница? Округлите ответ до четырёх знаков после десятичной точки.

In [4]:
alpha = 0.05
p = p2 - p1
z = st.norm.ppf(1 - alpha/2)
std = ((p1 * (1-p1) / 11037) + (p2 * (1-p2) / 11034))**0.5
left, right = round(p - z*std, 4), round(p + z*std, 4)
left, right

(0.0047, 0.0107)

## Task 4
Для бернуллиевских случайных величин $X\sim Ber(p)$ часто вычисляют величину $\frac{p}{1-p}$, которая называется шансами (odds). Чтобы оценить шансы по выборке, вместо $p$ нужно подставить $\hat{p}$. Например, шансы инфаркта в контрольной группе, принимавшей плацебо, можно оценить как

$$\frac{\frac{189}{11034}}{1-\frac{189}{11034}} = \frac{189}{11034-189}\approx 0.0174 $$

Оцените, во сколько раз понижаются шансы инфаркта при регулярном приёме аспирина. Округлите ответ до четырёх знаков после десятичной точки.

In [5]:
odds1 = p1 / (1 - p1)
odds2 = p2 / (1 - p2)
round(odds2 / odds1, 4)

1.8321

## Task 5
Величина, которую вы оценили в предыдущем вопросе, называется отношением шансов. Постройте для отношения шансов 95% доверительный интервал с помощью бутстрепа. Чему равна его нижняя граница? Округлите ответ до 4 знаков после десятичной точки.

Чтобы получить в точности такой же доверительный интервал, как у нас:

* составьте векторы исходов в контрольной и тестовой выборках так, чтобы в начале шли все единицы, а потом все нули;
* установите random seed=0;
* сделайте по 1000 псевдовыборок из каждой группы пациентов с помощью функции get_bootstrap_samples.

In [6]:
def get_bootstrap_samples(data, n_samples):
    indices = np.random.randint(0, len(data), (n_samples, len(data)))
    samples = data[indices]
    return samples

In [7]:
def stat_intervals(stat, alpha):
    boundaries = np.percentile(stat, [100 * alpha / 2., 100 * (1 - alpha / 2.)])
    return boundaries

In [8]:
def get_odds(data):
    p = np.mean(data)
    return p / (1-p)

In [9]:
aspirin_gen_population = np.array([1]*104 + [0]*(11037 - 104))
placebo_gen_population = np.array([1]*189 + [0]*(11034 - 189))

In [10]:
np.random.seed(0)
aspirin_samples = get_bootstrap_samples(aspirin_gen_population, 1000)
placebo_samples = get_bootstrap_samples(placebo_gen_population, 1000)

In [11]:
aspirin_odds = list(map(get_odds, aspirin_samples))
placebo_odds = list(map(get_odds, placebo_samples))

In [12]:
odds_ratios = [odds2 / odds1 for odds1, odds2 in zip(aspirin_odds, placebo_odds)]

In [13]:
left, right = stat_intervals(odds_ratios, 0.05)
left, right

(1.444194647870839, 2.3432116762633215)

In [14]:
round(left, 4)

1.4442