### Проверка гипотезы о значении доли

В соответсвии с принятым нами протоколом, будем считать, что исследование проведено и перед нами стоит задача тестирования гипотезы об истинном значении доли в генеральной совокупности.

In [4]:
import numpy as np
import pandas as pd
import scipy.stats as stats

In [5]:
data = pd.read_csv('drunkwalks.txt', sep='\t')

In [6]:
data.describe()

Unnamed: 0,CASE,DRINKS,SEX,DOMINANT_SIDE,FIRST_STUMBLE,END_POSITION,MATCH
count,151.0,151.0,151.0,151.0,151.0,151.0,151.0
mean,76.0,7.251656,0.450331,0.496689,0.496689,0.556291,0.708609
std,43.734045,2.735492,0.499183,0.501653,0.501653,0.498474,0.455915
min,1.0,2.0,0.0,0.0,0.0,0.0,0.0
25%,38.5,5.0,0.0,0.0,0.0,0.0,0.0
50%,76.0,7.0,0.0,0.0,0.0,1.0,1.0
75%,113.5,9.0,1.0,1.0,1.0,1.0,1.0
max,151.0,14.0,1.0,1.0,1.0,1.0,1.0


### Подход на основе критических регионов

Тестовая статистика нам уже известна (вспомним пример о нахождении доверительного интервала для доли):
$$ z_{obs} = \frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}.$$

In [7]:
p_hat = data['MATCH'].mean()

In [8]:
p_hat

0.70860927152317876

$$ H_0: p = 0.5,$$
$$ H_1: p > 0.5,$$

In [9]:
z_obs = (p_hat-0.5)/np.sqrt(0.25/data['MATCH'].count())

In [10]:
z_obs

5.1268672902583035

In [11]:
z_critical = stats.norm.ppf(0.95)

In [12]:
z_critical

1.6448536269514722

### Подход на основе p-values

Тестовая статистика нам уже известна (вспомним пример о нахождении доверительного интервала для доли):
$$ z_{obs} = \frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}.$$

$$ H_0: p = 0.5,$$
$$ H_1: p > 0.5,$$

In [13]:
stats.norm.sf(z_obs)

1.4730151130651579e-07

С таким p-value гипотезу придется отклонить!

### Биномиальный тест

Решим эту же задачу при помощи биномиального теста

In [16]:
data["MATCH"].sum()

107

In [18]:
binom_p_value = stats.binom_test(107, 155, 0.5, alternative='greater')

In [19]:
binom_p_value

1.2183589931837736e-06

In [20]:
stats.norm.sf(z_obs)-binom_p_value

-1.0710574818772579e-06