In [1]:
import numpy as np

from statsmodels.stats.weightstats import *
from statsmodels.stats.proportion import proportion_confint

from scipy import stats

### Вопрос 1

Давайте уточним правило трёх сигм. Утверждение: 99.7% вероятностной массы случайной величины $X\sim N\left(\mu,\sigma^2\right)$
 ) лежит в интервале $\mu\pm c \cdot \sigma$. Чему равно точное значение константы c? Округлите ответ до четырёх знаков после десятичной точки.

In [2]:
print('Answer: %.4f' % stats.norm.ppf(1-0.003/2))

Answer: 2.9677


### Вопрос 5

В пятилетнем рандомизированном исследовании Гарвардской медицинской школы 11037 испытуемых через день принимали аспирин, а ещё 11034 — плацебо. Исследование было слепым, то есть, испытуемые не знали, что именно они принимают. За 5 лет инфаркт случился у 104 испытуемых, принимавших аспирин, и у 189 принимавших плацебо. 

Оцените, насколько вероятность инфаркта снижается при приёме аспирина. Округлите ответ до четырёх знаков после десятичной точки.

In [3]:
# conf_interval_aspirin = proportion_confint(104, 11037, method = 'wilson')
# conf_interval_placebo = proportion_confint(189, 11034, method = 'wilson')
# print('interval for aspirin [%f, %f]' % conf_interval_aspirin)
# print('interval for placebo [%f, %f]' % conf_interval_placebo)

In [5]:
prob_placebo = 104/11037
prob_aspirin = 189/11034

In [6]:
print('Probability of a heart attack (aspirin): %.4f' % prob_placebo)
print('Probability of a heart attack (placebo): %.4f' % prob_aspirin)
print('Probability of a heart attack decrease: %.4f' % (prob_placebo - prob_aspirin))

Probability of a heart attack (aspirin): 0.0094
Probability of a heart attack (placebo): 0.0171
Probability of a heart attack decrease: -0.0077


### Вопрос 6

Постройте теперь 95% доверительный интервал для снижения вероятности инфаркта при приёме аспирина. Чему равна его верхняя граница? Округлите ответ до четырёх знаков после десятичной точки.

In [8]:
def proportions_confint_diff_ind(sample1, sample2, alpha=0.05):    
    z = stats.norm.ppf(1 - alpha / 2.)   
    p1 = float(sum(sample1)) / len(sample1)
    p2 = float(sum(sample2)) / len(sample2)
    
    left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    
    return (left_boundary, right_boundary)

In [9]:
data_aspirin = np.array( [1 if i<104 else 0 for i in range(11037)] )
data_placebo = np.array( [1 if i<189 else 0 for i in range(11034)] )

In [11]:
print('Confidence interval: [%.4f, %.4f]' % proportions_confint_diff_ind(data_placebo, data_aspirin))

Confidence interval: [0.0047, 0.0107]


### Вопрос 7

Продолжим анализировать данные эксперимента Гарвардской медицинской школы.

Для бернуллиевских случайных величин $X\sim Ber(p)$ часто вычисляют величину $\frac{p}{1-p}$, которая называется шансами (odds). Чтобы оценить шансы по выборке, вместо $p$ нужно подставить $\hat{p}$. Например, шансы инфаркта в контрольной группе, принимавшей плацебо, можно оценить как

$\frac{\frac{189}{11034}}{1-\frac{189}{11034}} = \frac{189}{11034-189}\approx 0.0174$ 

Оцените, во сколько раз понижаются шансы инфаркта при регулярном приёме аспирина. Округлите ответ до четырёх знаков после десятичной точки.

In [14]:
def odds(data):
    p = data.sum() / data.shape[0]
    return p / (1 - p)

In [15]:
odds_aspirin = odds(data_aspirin)
print('Odds aspirin: %.4f' % odds_aspirin)
odds_placebo = odds(data_placebo)
print('Odds aspirin: %.4f' % odds_placebo)

Odds aspirin: 0.0095
Odds aspirin: 0.0174


In [17]:
print('Times decrease of heart attack: %.4f' % (odds_placebo / odds_aspirin))

Times decrease of heart attack: 1.8321


### Вопрос 8

Величина, которую вы оценили в предыдущем вопросе, называется отношением шансов. Постройте для отношения шансов 95% доверительный интервал с помощью бутстрепа. Чему равна его нижняя граница? Округлите ответ до 4 знаков после десятичной точки.

Чтобы получить в точности такой же доверительный интервал, как у нас:

- составьте векторы исходов в контрольной и тестовой выборках так, чтобы в начале шли все единицы, а потом все нули;
- установите random seed=0;
- сделайте по 1000 псевдовыборок из каждой группы пациентов с помощью функции get_bootstrap_samples.

In [19]:
def get_bootstrap_samples(data, n_samples):
    indices = np.random.randint(0, len(data), (n_samples, len(data)))
    samples = data[indices]
    return samples

In [20]:
def stat_intervals(stat, alpha):
    boundaries = np.percentile(stat, [100 * alpha / 2., 100 * (1 - alpha / 2.)])
    return boundaries

In [27]:
np.random.seed(0)
odds_aspirin_data = np.array(list(map(odds, get_bootstrap_samples(data_aspirin, 1000))))
odds_placebo_data = np.array(list(map(odds, get_bootstrap_samples(data_placebo, 1000))))

In [28]:
print('95%% confidence interval for times decrease of heart attack: %s' % 
      str(stat_intervals(odds_placebo_data / odds_aspirin_data, 0.05)))

95% confidence interval for times decrease of heart attack: [1.44419465 2.34321168]
