## Тест: Доверительные интервалы
### Вопрос 1.
Давайте уточним правило трёх сигм. Утверждение: $99.7\%$ вероятностной массы случайной величины $X\sim N(\mu,\sigma^2)$ лежит в интервале $\mu\pm c\cdot\sigma$. Чему равно точное значение константы $c$? Округлите ответ до четырёх знаков после десятичной точки.

In [1]:
2.9677

2.9677

### Вопрос 2.
Пусть $X\sim N(\mu,\sigma^2)$. Какое распределение имеет величина $\frac{\bar X_n−\mu}{\frac{S_n} {\sqrt{n}}}$?
- $St(n-1)$

### Вопрос 3.
Выберите все распределения с несимметричной функцией плотности
- $\chi^2$
- Фишера

### Вопрос 4.
Какое из выражений задаёт доверительный интервал для разности долей в связанных выборках?
- $\frac {f-g}{n}\pm z_{1-\frac{\alpha}{2}} \sqrt{\frac{f+g}{n^2} - \frac{(f-g)^2}{n^3}}$

### Вопрос 5.
В пятилетнем рандомизированном исследовании Гарвардской медицинской школы 11037 испытуемых через день принимали аспирин, а ещё 11034 — плацебо. Исследование было слепым, то есть, испытуемые не знали, что именно они принимают.

За 5 лет инфаркт случился у 104 испытуемых, принимавших аспирин, и у 189 принимавших плацебо.

Оцените, насколько вероятность инфаркта снижается при приёме аспирина. Округлите ответ до четырёх знаков после десятичной точки.

In [2]:
0.0077

0.0077

### Вопрос 6.
Постройте теперь 95% доверительный интервал для снижения вероятности инфаркта при приёме аспирина. Чему равна его верхняя граница? Округлите ответ до четырёх знаков после десятичной точки.

In [3]:
from scipy.stats import norm
import numpy as np
alpha = 0.05    
z = norm.ppf(1 - alpha / 2.)   
p2 = 104. / 11037
p1 = 189. / 11034
    
left_boundary  = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ 11037 + p2 * (1 - p2)/ 11034)
right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ 11037 + p2 * (1 - p2)/ 11034)
    
print (left_boundary, right_boundary)

(0.0046878682721335392, 0.010724179679876024)


### Вопрос 7.
Продолжим анализировать данные эксперимента Гарвардской медицинской школы.

Для бернуллиевских случайных величин $X\sim Ber(p)$ часто вычисляют величину $\frac{p}{1−p}$, которая называется шансами (`odds`). Чтобы оценить шансы по выборке, вместо $p$ нужно подставить $\hat p$. Например, шансы инфаркта в контрольной группе, принимавшей плацебо, можно оценить как

$$\frac{\frac{189}{11034}}{1−\frac{189}{11034}}=\frac{189}{11034−189}\approx 0.0174$$
Оцените, во сколько раз понижаются шансы инфаркта при регулярном приёме аспирина. Округлите ответ до четырёх знаков после десятичной точки.

In [4]:
def shans(data):
    len2 = len(data)
    len1 = len(data[data[:] == 1.])
    
    return float(len1)/len2 / (1.-float(len1)/len2)

In [5]:
mas1 = np.hstack((np.ones(104), np.zeros(10933)))
mas2 = np.hstack((np.ones(189), np.zeros(10845)))
shans(mas2)/shans(mas1)

1.8320539419087138

### Вопрос 8.
Величина, которую вы оценили в предыдущем вопросе, называется отношением шансов. Постройте для отношения шансов 95% доверительный интервал с помощью бутстрепа. Чему равна его нижняя граница? Округлите ответ до 4 знаков после десятичной точки.

Чтобы получить в точности такой же доверительный интервал, как у нас:

- составьте векторы исходов в контрольной и тестовой выборках так, чтобы в начале шли все единицы, а потом все нули;
- установите random `seed=0`;
- сделайте по 1000 псевдовыборок из каждой группы пациентов с помощью функции `get_bootstrap_samples`.

In [6]:
def get_bootstrap_samples(data, n_samples):
    indices = np.random.randint(0, len(data), (n_samples, len(data)))
    samples = data[indices]
    return samples

def stat_intervals(stat, alpha):
    boundaries = np.percentile(stat, [100 * alpha / 2., 100 * (1 - alpha / 2.)])
    return boundaries

In [7]:
np.random.seed(0)
ilec_median_scores = map(shans, get_bootstrap_samples(mas1, 1000))
clec_median_scores = map(shans, get_bootstrap_samples(mas2, 1000))

print "95% confidence interval for the ILEC median repair time:",  stat_intervals(ilec_median_scores, 0.05)/stat_intervals(clec_median_scores, 0.05)
print "95% confidence interval for the CLEC median repair time:",  stat_intervals(clec_median_scores, 0.05)

95% confidence interval for the ILEC median repair time: [ 0.50534416  0.56907664]
95% confidence interval for the CLEC median repair time: [ 0.01499402  0.01996672]


In [8]:
clec_median_scores

[0.01686480508708875,
 0.017615051185096375,
 0.017427385892116183,
 0.018272425249169433,
 0.017052262881371554,
 0.01752120988565105,
 0.016583747927031506,
 0.016583747927031506,
 0.017427385892116183,
 0.01799058953778024,
 0.015367626759915341,
 0.016396462785556374,
 0.016396462785556374,
 0.018272425249169433,
 0.01780278572087446,
 0.01649009672961769,
 0.018272425249169433,
 0.01799058953778024,
 0.016396462785556374,
 0.0161156644258219,
 0.015835021174737618,
 0.01695852534562212,
 0.017239789803632343,
 0.01733357919970496,
 0.017146017699115043,
 0.016022099447513812,
 0.017146017699115043,
 0.01695852534562212,
 0.01752120988565105,
 0.01770890979524073,
 0.01490066225165563,
 0.019683947879123927,
 0.0156480117820324,
 0.01977818853974122,
 0.017146017699115043,
 0.016302846090080134,
 0.01902475064647211,
 0.01695852534562212,
 0.01874249838426738,
 0.01620924663842328,
 0.019589724635002772,
 0.017239789803632343,
 0.0161156644258219,
 0.017427385892116183,
 0.01780278

**Тест: Доверительные интервалы**

1. 2.9677
2. st(n-1)
3. $\chi^2$, фишера
4. $\frac {f-g}{n}$
5. 0.0077
6. 0.0107
7. 1.8321
8. 0.0076 - 0.4291 - 0.5053 -- неверно