### Иллюстративный пример проверки статистических гипотез

In [1]:
import numpy as np
import pandas as pd
import scipy.stats as stats

In [2]:
data = pd.read_excel('shoesize.xls', index_col=0)

In [3]:
data.describe()

Unnamed: 0,Size,Height
count,408.0,408.0
mean,9.908088,68.421127
std,2.066346,4.211939
min,5.0,60.0
25%,8.0,65.0
50%,10.0,68.0
75%,11.0,72.0
max,15.0,81.0


Допустим, мы хотим проверить гипотезу о значении параметра генеральной совокупности на основе выборочных данных.

### Подход на основе критических значений

Последовательно рассмотрим три гипотезы:

#### Правосторонняя:

$$H_0: \mu = \mu_0,$$
$$H_1: \mu > \mu_0.$$

Статистика нам уже известна:
$$ t_{obs} = \frac{\bar{X}-\mu_0}{s/\sqrt{n}}.$$

Здесь и далее будем полагать, что уровень значимости $\alpha = 0.05.$ Так как гипотеза у нас правосторонняя, то мы найдем такое значение статистики $t_{cr}$, что вероятность наблюдать значение большее, чем $t_{cr}$, равна $\alpha$ (то есть 0.95 квантиль).

In [4]:
stats.t.ppf(0.95, data['Height'].count()-1)

1.6486061196553312

Нулевую гипотезу следует отклонить в пользу альтернативной, если значение $t_{obs}$ будет больше, чем теоретическое значение $t_{cr}.$

In [17]:
t_obs = (data['Height'].mean() - 65)/(data['Height'].std()/np.sqrt(data['Height'].count()))

In [18]:
t_obs

16.406550743190564

#### Левосторонняя:

$$H_0: \mu = \mu_0,$$
$$H_1: \mu < \mu_0.$$

Статистика нам уже известна:
$$ t_{obs} = \frac{\bar{X}-\mu}{s/\sqrt{n}}.$$

Теперь мы изменим квантиль на противоположный - 0.05, нас теперь будет интересовать регион, вероятность попадания в который при верной $H_0$ составит 0.05.

In [19]:
stats.t.ppf(0.05, data['Height'].count()-1)

-1.6486061196553319

Нулевая гипотеза отклоняется в пользу альтернативной, если рассчитанное значение $t_{obs}$ меньше теоретического.

In [20]:
t_obs = (data['Height'].mean() - 70)/(data['Height'].std()/np.sqrt(data['Height'].count()))

In [21]:
t_obs

-7.5717297772982848

#### Двусторонняя:

$$H_0: \mu = \mu_0,$$
$$H_1: \mu \ne \mu_0.$$

Статистика нам уже известна:
$$ t_{obs} = \frac{\bar{X}-\mu}{s/\sqrt{n}}.$$

В отличие от предыдущих случаев, нам теперь потребуется учесть как левосторонние значения, так и правосторонние. Так как уровень значимости остается фиксированным, с каждой стороны мы теперь "отрежем" по 0.025 (разумеется, актуально для $\alpha = 0.05.$)

In [22]:
stats.t.ppf(0.025, data['Height'].count()-1)

-1.9658097377813779

In [23]:
stats.t.ppf(0.975, data['Height'].count()-1)

1.9658097377813775

Теперь просто остается сравнить рассчитанную статистику с границами интервала, и отвергнуть нулевую гипотезу, если она выходит за его границы.

In [24]:
t_obs = (data['Height'].mean() - 68.1)/(data['Height'].std()/np.sqrt(data['Height'].count()))

In [25]:
t_obs

1.5400168204875055

**Сравним с доверительным интервалом для среднего**:

In [26]:
data['Height'].mean()+stats.t.ppf(0.975, data['Height'].count()-1)\
*(data['Height'].std()/np.sqrt(data['Height'].count()))

68.831042110228296

In [27]:
data['Height'].mean()-stats.t.ppf(0.975, data['Height'].count()-1)\
*(data['Height'].std()/np.sqrt(data['Height'].count()))

68.01121279173249

### Подход на основе p-values

#### Правосторонняя:

$$H_0: \mu = \mu_0,$$
$$H_1: \mu > \mu_0.$$

Статистика нам уже известна:
$$ t_{obs} = \frac{\bar{X}-\mu}{s/\sqrt{n}}.$$

Рассчитываем наблюдаемое значение:

In [28]:
t_obs = (data['Height'].mean() - 65)/(data['Height'].std()/np.sqrt(data['Height'].count()))

In [29]:
t_obs

16.406550743190564

Так как нас интересует вероятность события, определенного в $H_1$, то для этого нам нужно вычислить $1-F(x)$.

In [30]:
stats.t.sf(t_obs, data['Height'].count())

4.0341719131569348e-47

#### Левосторонняя:

$$H_0: \mu = \mu_0,$$
$$H_1: \mu > \mu_0.$$

Статистика нам уже известна:
$$ t_{obs} = \frac{\bar{X}-\mu}{s/\sqrt{n}}.$$

Рассчитываем наблюдаемое значение:

In [31]:
t_obs = (data['Height'].mean() - 70)/(data['Height'].std()/np.sqrt(data['Height'].count()))

In [32]:
t_obs

-7.5717297772982848

In [33]:
stats.t.cdf(t_obs, data['Height'].count()-1)

1.2469221582032016e-13

In [34]:
stats.t.sf(np.abs(t_obs), data['Height'].count()-1)

1.2469221582032016e-13

#### Двусторонняя:

$$H_0: \mu = \mu_0,$$
$$H_1: \mu \ne \mu_0.$$

По прямой аналогии, в данном случае нам нужно рассмотреть две области - площадь каждой из них должна быть равна 0.025.

In [35]:
t_obs = (data['Height'].mean() - 68.1)/(data['Height'].std()/np.sqrt(data['Height'].count()))

In [36]:
stats.t.sf(np.abs(t_obs), data['Height'].count()-1)*2

0.12433333772457229