# Урок 5

### Проверка статистических гипотез. P-значения. Доверительные интервалы

### Домашнее задание

__Задача 1__

Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм. Используя уровень значимости 0.025 и правостороннюю критическую область, проверить данную гипотезу при условии, что в выборке из 100 шариков средний диаметр оказался равным 17.5 мм, а дисперсия известна и равна 4.

__Решение__

Диаметр изготовленного шарика подшипника — нормально распределённая случайная величина. Нам дано, что дисперсия равна $4$, т.е. что параметр $\sigma = 2$. Нулевая гипотеза $H_0$ заключается в том, что средний диаметр равен $17$, т.е. что параметр $\mu = 17$. В задаче требуется использовать правостороннюю область, т.е. альтернативная гипотеза $H_1$ в нашем случае заключается в том, что $\mu > 17$.

Поскольку дисперсия распределения нам известна, для проверки гипотезы будем использовать статистику
$$T(X) = \dfrac{\overline{X} - \mu}{\sigma / \sqrt{n}},$$
т.е. в нашем случае:
$$T(X) = \dfrac{\overline{X} - 17}{2 / 10} = 5 \cdot (\overline{X} - 17).$$

В задаче требуется использовать правостороннюю область, т.е.
$$\Omega_\alpha = (t_{1 - \alpha}, \infty),$$
где по условию $\alpha = 0.025$. Квантиль $t_{1 - \alpha}$ стандартного распределения можно найти по таблице, либо с помощью `scipy`:

In [1]:
from scipy import stats

In [2]:
t = stats.norm.ppf(1 - 0.025)
t

1.959963984540054

Итак, посчитаем значение статистики $T$:

In [3]:
T = 5 * (17.5 - 17)
T

2.5

Получившееся значение $T$ попало в критическую область, следовательно, гипотезу следует отвергнуть.

__Задача 2__

Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти доверительный интервал для оценки математического ожидания `mu` с надёжностью 0.95, если выборочное среднее равно 80, а объём равен 256.

__Решение__

Требуется построить доверительный интервал для математического ожидания нормально распределённой случайной величины $X$ с известным средним квадратическим отклонением. Воспользуемся готовой формулой:
$$
P \left(
    \overline{X} - t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
    \leq \mu \leq 
    \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
\right) = p,
$$
где $p = 1 - \alpha$, $t_{1 - \alpha / 2}$ — квантиль стандартного распределения. В нашем случае $\sigma = 16$, $\sqrt{n} = 16$. Квантиль:

In [4]:
p = 0.95
alpha = 1 - p

t = stats.norm.ppf(1 - alpha / 2)
t

1.959963984540054

Итак, доверительный интервал:

In [5]:
(80 - t, 80 + t)

(78.04003601545995, 81.95996398454005)

__Задача 3__

Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:
```
202, 203, 199, 197, 195, 201, 200, 204, 194, 190
```
Известно, что их веса распределены нормально. Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%?

__Решение__

В данной задаче дисперсия неизвестна, поэтому гипотезу будем проверять, используя t-распределение и t-статистику Стьюдента:
$$T(X) = \dfrac{\overline{X} - \mu}{\sigma_X / \sqrt{n}}.$$
Нулевая гипотеза $H_0$ заключается в том, что математическое ожидание рассматриваемой случайной величины $X$ равно $200$. Соответственно, альтернативная гипотеза утверждает, что $M(X) \neq 200$. В предположении, что нулевая гипотеза верна, статистика
$$T = \dfrac{\overline{X} - 200}{\sigma_X / \sqrt{10}}$$
имеет t-распределение с $9$ степенями свободы.

Уровень значимости в нашем случае равен $\alpha = 0.01$, поэтому нас интересует квантиль $t_{1 - 0.01/2, \: 9}$. Его можно найти в [таблице](https://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D0%B8_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0), а можно посчитать с помощью `scipy`:

In [6]:
alpha = 0.01

t = stats.t.ppf(1 - alpha / 2, df=9)
t

3.2498355440153697


Итак, критическая область:

$$\Omega_\alpha = ( -\infty, - 3.2498) \cup (3.2498, \infty ).$$

Наконец, посчитаем значение статистики $T$ на нашей выборке и сделаем заключение:

In [7]:
import numpy as np

In [8]:
samples = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])

mean = samples.mean()
std = samples.std(ddof=1)
n = samples.shape[0]

n, mean, std

(10, 198.5, 4.453463071962462)

In [9]:
T = (mean - 200) / (std / np.sqrt(n))
T

-1.0651074037450896

Значение не попало в критическую область, поэтому гипотеза $H_0$ не опровергнута.

Отметим, что данную задачу (как в общем-то и предыдущие) можно было также решить с помощью доверительных интервалов. 

На самом деле, как вы уже могли заметить, доверительные интервалы и критические области представляют собой в общем-то одно и то же, просто с разных сторон. Рассматривая критические области, мы отталкиваемся от гипотетического значения рассматриваемого параметра и строим критическую область вокруг этого значения. Затем вывод делается на основании того, лежит ли эмпирическое (т.е. полученное опытным путём) значение этого параметра в данной области.

Рассматривая доверительные интервалы, мы наоборот строим интервал вокруг эмпирического значения, а затем утверждаем: с заданной вероятностью реальное (гипотетическое) значение параметра лежит в данном интервале.

Имея критическую область, получить из неё доверительный интервал довольно просто:

$$P \left( T < - t_{1 - \alpha / 2} \mid T > t_{1 - \alpha / 2} \right) = \alpha$$

$$P \left( - t_{1 - \alpha / 2} \leq T \leq t_{1 - \alpha / 2} \right) = 1 - \alpha$$

$$P \left( - t_{1 - \alpha / 2} \leq \dfrac{\overline{X} - \mu}{\sigma_X / \sqrt{n}} \leq t_{1 - \alpha / 2} \right) = 1 - \alpha$$

$$P \left( - t_{1 - \alpha / 2} \cdot \dfrac{\sigma_X}{\sqrt{n}} \leq \overline{X} - \mu \leq t_{1 - \alpha / 2} \cdot \dfrac{\sigma_X}{\sqrt{n}} \right) = 1 - \alpha$$

$$P \left( \overline{X} - t_{1 - \alpha / 2} \cdot \dfrac{\sigma_X}{\sqrt{n}} \leq  \mu \leq \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma_X}{\sqrt{n}} \right) = 1 - \alpha$$

В нашем случае доверительный интервал:

In [10]:
(mean - t * std / np.sqrt(n), mean + t * std / np.sqrt(n))

(193.92322840036354, 203.07677159963646)

Поскольку число $200$ лежит в нашем доверительном интервале, заключаем, что с заданным уровнем доверия утверждению продавца верить можно.