# Доверительные интервалы

1. Уточнение правила трёх сигм

In [1]:
from scipy.stats import norm
a = norm(0,1).ppf(1 - (1-0.997)/2)
round(a, 4)

2.9677

2. Пусть X∼N(μ,σ2). Какое распределение имеет величина X¯n−μSn/n√?

Стьюдента

3. Распределения с несимметричной функцией плотности: Фишера и кси2

4. Доверительный интервал для разности долей в связанных выборках


$$\text{Доверительный интервал для }p_1 - p_2\colon \;\;  \frac{f - g}{n} \pm z_{1-\frac{\alpha}{2}}\sqrt{\frac{f + g}{n^2} - \frac{(f - g)^2}{n^3}}$$

5. Снижение вероятности инфаркта при приёме аспирина

In [2]:
#вероятность инфаркта при приеме плацебо - ...аспирина
round(189.0/11034 - 104.0/11037, 4)

0.0077

6. Доверительный интервал для снижения вероятности инфаркта при приёме аспирина

In [3]:
all1 = 11034.0
dead1 = 189.0
all2 = 11037.0
dead2 = 104.0

In [4]:
import numpy as np
p1 = float(dead1/all1)
p2 = float(dead2/all2)
z = norm.ppf(1 - 0.05 / 2.)   

left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ all1 + p2 * (1 - p2)/ all2)
right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ all1 + p2 * (1 - p2)/ all2)
    
print(left_boundary, right_boundary)

0.004687750675049439 0.010724297276960124


In [44]:
round(right_boundary, 4)

0.0047

7. Продолжим анализировать данные эксперимента Гарвардской медицинской школы.
Отношение шансов инфаркта при приёме аспирина и плацебо

In [5]:
def chance(all, positive):
    chance = (positive/all) / (1-(positive/all))
    return chance

In [6]:
round(chance(all1, dead1)/chance(all2, dead2), 4)

1.8321

8. Доверительный интервал с помощью бутстрепа

In [7]:
random_seed = 18
P_plac = np.append(np.repeat(1.0, 189), np.repeat(0.0, 11034-189))
P_asp = np.append(np.repeat(1.0, 104), np.repeat(0.0, 11037-104))

In [8]:
def get_bootstrap_samples(data, n_samples):
    indices = np.random.randint(0, len(data), (n_samples, len(data)))
    samples = data[indices]
    return samples

In [9]:
plac_sample = get_bootstrap_samples(P_plac, 1000)

In [10]:
asp_sample = get_bootstrap_samples(P_asp, 1000)

In [11]:
placebo = map(lambda x: chance(sum(asp_sample), len(asp_sample)), plac_sample)
aspirin = map(lambda x: chance(sum(plac_sample), len(plac_sample)), asp_sample)

In [12]:
gg = map(lambda x, y: y/x, zip(placebo, aspirin))

In [13]:
def stat_intervals(stat, alpha):
    boundaries = np.percentile(stat, [100 * alpha / 2., 100 * (1 - alpha / 2.)])
    return boundaries

In [14]:
stat_intervals(gg, 0.05)

TypeError: unsupported operand type(s) for *: 'map' and 'float'

# Доверительные интервалы для долей

2. Из 50 исследованных представителей народа майя вариант 13910T был обнаружен у одного. Постройте нормальный 95% доверительный интервал для доли носителей варианта 13910T в популяции майя. Чему равна его нижняя граница? Округлите ответ до 4 знаков после десятичной точки.

In [15]:
from statsmodels.stats.proportion import proportion_confint
normal_interval = proportion_confint(1, 50, method = 'normal')
normal_interval

(0.0, 0.05880530708179099)

In [16]:
from scipy.stats import norm
a = norm(0,1).ppf(1 - (1-0.95)/2)
round(0.02-a*np.sqrt(0.02*0.98/50), 4)

-0.0188

3. В условиях предыдущей задачи постройте 95% доверительный интервал Уилсона для доли носителей варианта 13910T в популяции майя. Чему равна его нижняя граница? Округлите ответ до 4 знаков после десятичной точки.

In [17]:
wilson_interval = proportion_confint(1, 50, method = 'wilson')
round(wilson_interval[0], 4)

0.0035

5. Пусть в популяции майя действительно 2% носителей варианта 13910T, как в выборке, которую мы исследовали. Какой объём выборки нужен, чтобы с помощью нормального интервала оценить долю носителей гена 13910T с точностью \pm0.01±0.01 на уровне доверия 95%?

In [18]:
np.random.seed(0)

from statsmodels.stats.proportion import samplesize_confint_proportion

n_samples = int(np.ceil(samplesize_confint_proportion(0.02, 0.01, method = 'normal')))
n_samples

753

In [19]:
normal_interval = proportion_confint(15, 753, method = 'normal')

In [20]:
print('normal_interval [%f, %f] with width %f' % (normal_interval[0],
                                                  normal_interval[1],
                                                  normal_interval[1] - normal_interval[0]))

normal_interval [0.009940, 0.029900] with width 0.019960


# Практика проверки гипотез

1. По данным опроса, 75% работников ресторанов утверждают, что испытывают на работе существенный стресс, оказывающий негативное влияние на их личную жизнь. Крупная ресторанная сеть опрашивает 100 своих работников, чтобы выяснить, отличается ли уровень стресса работников в их ресторанах от среднего. 67 из 100 работников отметили высокий уровень стресса.

In [21]:
from scipy import stats
n = 100
F_0 = stats.binom(n, 0.67)

Уровень значимости гипотезы о том, что в ресторанах сети стресс как везде:

In [22]:
round(stats.binom_test(75, 100, 0.67, alternative = 'greater'), 4)

0.0529

Уровень значимости гипотезы о том, что в ресторанах сети отличается от среднего:

In [23]:
round(stats.binom_test(67, 100, 0.75, alternative = 'greater'), 4)

0.9724

Среднее количество сосен в каждом квадрате

In [24]:
import pandas as pd
dataset=pd.read_csv("pines.txt",delimiter="\t")

In [25]:
from scipy.stats import binned_statistic_2d
bins = [0.0, 40.0, 80.0, 120.0, 160.0, 200.0]
result = binned_statistic_2d(dataset['sn'], dataset['we'], None, 'count', bins=[bins,bins])

  result = result[core]


In [26]:
average = result.statistic.mean()
average

23.36

Сравнить распределение сосен с равномерным через значение статистики хи-квадрат 

In [27]:
array_norm = result.statistic.reshape(25)
array_expected = [average]*25

In [28]:
stats.chisquare(array_norm, array_expected)

Power_divergenceResult(statistic=150.58904109589042, pvalue=2.574669774967279e-20)

In [30]:
round(stats.chisquare(array_norm, array_expected).statistic, 2)

150.59

In [39]:
stats.chisquare(array_norm, array_expected, ddof = 0).pvalue

2.574669774967279e-20