Большая часть млекопитающих неспособны во взрослом возрасте переваривать лактозу, содержащуюся в молоке. У людей за расщепление лактозы отвечает фермент лактаза, кодируемый геном LCT. У людей с вариантом 13910T этого гена лактаза продолжает функционировать на протяжении всей жизни. Распределение этого варианта гена сильно варьируется в различных генетических популяциях.

Из 50 исследованных представителей народа майя вариант 13910T был обнаружен у одного. Постройте нормальный 95% доверительный интервал для доли носителей варианта 13910T в популяции майя. Чему равна его нижняя граница? Округлите ответ до 4 знаков после десятичной точки.

In [4]:
p1 = float(1) / 50

$$\hat{p}\pm z_{1-\frac{\alpha}{2}} \sqrt{\frac{\hat{p}\left(1-\hat{p}\right)}{n}}$$

In [5]:
from statsmodels.compat.python import lzip, range
import numpy as np
from scipy import stats, optimize
from sys import float_info

from statsmodels.stats.base import AllPairsResults
from statsmodels.tools.sm_exceptions import HypothesisTestWarning


def proportion_confint(count, nobs, alpha=0.05, method='normal'):
    pd_index = getattr(count, 'index', None)
    if pd_index is not None and hasattr(pd_index, '__call__'):
        # this rules out lists, lists have an index method
        pd_index = None
    count = np.asarray(count)
    nobs = np.asarray(nobs)

    q_ = count * 1. / nobs
    alpha_2 = 0.5 * alpha

    if method == 'normal':
        std_ = np.sqrt(q_ * (1 - q_) / nobs)
        dist = stats.norm.isf(alpha / 2.) * std_
        ci_low = q_ - dist
        ci_upp = q_ + dist
    elif method == 'wilson':
        crit = stats.norm.isf(alpha / 2.)
        crit2 = crit**2
        denom = 1 + crit2 / nobs
        center = (q_ + crit2 / (2 * nobs)) / denom
        dist = crit * np.sqrt(q_ * (1. - q_) / nobs + crit2 / (4. * nobs**2))
        dist /= denom
        ci_low = center - dist
        ci_upp = center + dist
    return ci_low , ci_upp

In [12]:
proportion_confint(1, 50, 0.05,'wilson')

(0.003539259271646236, 0.10495443589637815)

In [10]:
mean_s = 1/50.

In [11]:
mean_s

0.02

Пусть в популяции майя действительно 2% носителей варианта 13910T, как в выборке, которую мы исследовали. Какой объём выборки нужен, чтобы с помощью нормального интервала оценить долю носителей гена 13910T с точностью ±0.01 на уровне доверия 95%?


In [16]:
data = np.zeros(50)

In [17]:
data[0] = 1

In [18]:
print data.mean()

0.02


In [41]:
m_std = data.std()

In [42]:
m_std

0.13999999999999999

In [54]:
data = np.zeros(50)
data[0] = 1
count= ((m_std * 1.96)**2) / (0.01)**2
print count

752.9535999999999


In [50]:
z =z*z

In [51]:
z/(0.01*0.01)

56.69391237529598

count

In [3]:
from statsmodels.stats.proportion import samplesize_confint_proportion
#n_samples = int(np.ceil(samplesize_confint_proportion(random_sample.mean(), 0.01)))

Постройте график зависимости объёма выборки, необходимого для оценки для доли носителей гена 13910T с точностью ±0.01 на уровне доверия 95%, от неизвестного параметра p. Посмотрите, при каком значении p нужно больше всего испытуемых. Как вы думаете, насколько вероятно, что выборка, которую мы анализируем, взята из случайной величины с этим значением параметра?

Как бы вы не ответили на последний вопрос, рассмотреть объём выборки, необходимый при таком p, всё равно полезно — это даёт максимально пессимистичную оценку необходимого объёма выборки.

Какой объём выборки нужен в худшем случае, чтобы с помощью нормального интервала оценить долю носителей гена 13910T с точностью ±0.01 на уровне доверия 95%?

In [6]:
from statsmodels.stats.proportion import samplesize_confint_proportion
for i in xrange(10):
    p = (i+1)/10.
    print samplesize_confint_proportion(p,0.01), p
    
    

3457.3129386247147 0.1
6146.334113110604 0.2
8067.063523457667 0.3
9219.501169665904 0.4
9603.647051735317 0.5
9219.501169665904 0.6
8067.0635234576675 0.7
6146.334113110603 0.8
3457.3129386247138 0.9
0.0 1.0


Давайте уточним правило трёх сигм. Утверждение: 99.7% вероятностной массы случайной величины X∼N(μ,σ2) лежит в интервале μ±c⋅σ. Чему равно точное значение константы c? Округлите ответ до четырёх знаков после десятичной точки.

In [9]:
from scipy.stats import norm
vals = norm.ppf([1 - 0.003/2,0.975])

In [10]:
vals

array([2.96773793, 1.95996398])

В пятилетнем рандомизированном исследовании Гарвардской медицинской школы 11037 испытуемых через день принимали аспирин, а ещё 11034 — плацебо. Исследование было слепым, то есть, испытуемые не знали, что именно они принимают.

За 5 лет инфаркт случился у 104 испытуемых, принимавших аспирин, и у 189 принимавших плацебо.

Оцените, насколько вероятность инфаркта снижается при приёме аспирина. Округлите ответ до четырёх знаков после десятичной точки.

In [None]:
p1 = 104/11037.
p2 = 189/11034.
print p2-p1

In [None]:
print p2-p1

Постройте теперь 95% доверительный интервал для снижения вероятности инфаркта при приёме аспирина. Чему равна его верхняя граница? Округлите ответ до четырёх знаков после десятичной точки.

In [2]:
import numpy as np

import scipy
from statsmodels.stats.weightstats import *
from statsmodels.stats.proportion import proportion_confint

In [4]:
data_asp = np.zeros(11037)
data_asp[0:104]=1
data_plac = np.zeros(11034)
data_plac[0:189]=1

In [5]:
import numpy as np, scipy.stats as st

st.t.interval(0.95, len(data_asp)-1, loc=np.mean(data_asp), scale=st.sem(data_asp))

(0.007620143268725458, 0.011225557555773952)

In [68]:
p1 = 104/11037.
p2 = 189/11034.

In [70]:
print p1,p2
print p2-p1

0.00942285041225 0.0171288743883
0.007706023976


Постройте теперь 95% доверительный интервал для снижения вероятности инфаркта при приёме аспирина. Чему равна его верхняя граница? Округлите ответ до четырёх знаков после десятичной точки.

In [4]:
data_asp = np.zeros(11037)
data_asp[0:104]=1
data_plac = np.zeros(11034)
data_plac[0:189]=1

def proportions_confint_diff_ind(sample1, sample2, alpha = 0.05):    
    z = scipy.stats.norm.ppf(1 - alpha / 2.)   
    p1 = float(sum(sample1)) / len(sample1)
    p2 = float(sum(sample2)) / len(sample2)
    
    left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    
    return (left_boundary, right_boundary)
proportions_confint_diff_ind(data_plac,data_asp)

(0.004687750675049439, 0.010724297276960124)

(0.004687750675049439, 0.010724297276960124)

#альтернативное решение:
p1 = 189/11034, p2 = 104/11037, n1 = 11034, n2 = 11037

UBound  = p1-p2 + 1.96 * (p1(1-p1)/n1 + p2(1-p2)/n2)^(1/2)

Продолжим анализировать данные эксперимента Гарвардской медицинской школы.

Для бернуллиевских случайных величин X∼Ber(p) часто вычисляют величину p1−p, которая называется шансами (odds). Чтобы оценить шансы по выборке, вместо p нужно подставить p^. Например, шансы инфаркта в контрольной группе, принимавшей плацебо, можно оценить как

189110341−18911034=18911034−189≈0.0174

Оцените, во сколько раз понижаются шансы инфаркта при регулярном приёме аспирина. Округлите ответ до четырёх знаков после десятичной точки.

In [21]:
asp = 104./11037/(1-104./11037)
plac = 189./11034/(1-189./11034)

In [22]:
print plac/asp

1.83205394191


Величина, которую вы оценили в предыдущем вопросе, называется отношением шансов. Постройте для отношения шансов 95% доверительный интервал с помощью бутстрепа. Чему равна его нижняя граница? Округлите ответ до 4 знаков после десятичной точки.

Чтобы получить в точности такой же доверительный интервал, как у нас:

составьте векторы исходов в контрольной и тестовой выборках так, чтобы в начале шли все единицы, а потом все нули;
установите random seed=0;
сделайте по 1000 псевдовыборок из каждой группы пациентов с помощью функции get_bootstrap_samples.

In [80]:
import numpy as np

data_asp = np.zeros(11037)
data_asp[0:104]=1
data_plac = np.zeros(11034)
data_plac[0:189]=1

#вычисляем шансы для каждой из полученных выборок
def get_odd(data):
    heart_attack_count  = np.count_nonzero(data == 1)
    
    return float(heart_attack_count)/len(data)/(1-heart_attack_count/float(len(data)))

def get_bootstrap_samples(data, n_samples):
    indices = np.random.randint(0, len(data), (n_samples, len(data)))
    samples = data[indices]
    return samples

np.random.seed(0)
asp_odd = list(map(get_odd, get_bootstrap_samples(data_asp, 1000)))
np.random.seed(0)
plac_odd = list(map(get_odd, get_bootstrap_samples(data_plac, 1000)))

def stat_intervals(stat, alpha):
    boundaries = np.percentile(stat, [100 * alpha / 2., 100 * (1 - alpha / 2.)])
    return boundaries

delta_scores = map(lambda x: x[0]/x[1], zip(plac_odd, asp_odd))
delta_scores
print stat_intervals(delta_scores, 0.05)

[1.63035462 2.10397776]
