# Урок 5
Проверка статистических гипотез. Доверительные интервалы. A/B-тестирование
Домашнее задание

Задача 1

Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм. Используя уровень значимости 0.025 и правостороннюю критическую область, проверить данную гипотезу при условии, что в выборке из 100 шариков средний диаметр оказался равным 17.5 мм, а дисперсия известна и равна 4 мм.

Поскольку мы проверяем гипотезу относительно математического ожидания нормально распределённой случайной величины с известной дисперсией, будем использовать статистику 
$$T(X) = \dfrac{\overline{X} - a}{\sigma / \sqrt{n}}$$
При условии верности гипотезы H0, статистика T имеет стандартное нормальное распределение.
В нашем случае статистика имеет вид: 
$$T(X) = \dfrac{\overline{X} - 17}{2 / 10} = 5 \cdot (\overline{X} - 17).$$

In [1]:
import numpy as np
from scipy import stats

In [2]:
mean = 17.5
alpha = 0.025

# Правосторонняя критическая область: Ωα=(t1−α,∞).
t = stats.norm.ppf(1 - alpha)
t

1.959963984540054

In [3]:
T = 5*(mean - 17)
T

2.5

Значение статистики T попало в критическую область, поэтому гипотезу, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм, отвергаем.

Задача 2

Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти доверительный интервал для оценки математического ожидания a с надёжностью 0.95, если выборочное среднее равно 80, а объём равен 256.

Если рассматриваемая случайная величина имеет нормальное распределение, то доверительный интервал для математического ожидания можно построить с помощью квантилей стандартного распределения (если дисперсия известна).

$$T(X) = \dfrac{\overline{X} - a}{\sigma / \sqrt{n}},$$
где $\sigma$ — известный параметр среднего квадратического отклонения. Статистика $T$ имеет стандартное распределение. Допустим, нас интересует симметричный доверительный интервал с уровнем доверия $p = 1 - \alpha$. Тогда доверительный интервал для $T$ можно получить с помощью соответствующих квантилей:
$$P(- t_{1 - \alpha / 2} \leq T \leq t_{1 - \alpha / 2}) = p.$$

Преобразуем выражения в скобках и получим доверительный интервал для параметра $a$:
$$
P \left(
    \overline{X} - t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
    \leq a \leq 
    \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
\right) = p.
$$

In [4]:
mean = 80
n = 256
p = 0.95
scale = 16
p = 0.95
alpha = 1 - p

t = stats.norm.ppf(1 - alpha/2)
t

1.959963984540054

In [5]:
# Итак, доверительный интервал:
(mean - t * scale / np.sqrt(n), mean + t * scale / np.sqrt(n))

(78.04003601545995, 81.95996398454005)

Задача 3

Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:

202, 203, 199, 197, 195, 201, 200, 204, 194, 190

Известно, что их веса распределены нормально. Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%?

In [6]:
weights = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])
n = 10

mean = weights.mean()
std = weights.std(ddof=1)

mean, std

(198.5, 4.453463071962462)

Поскольку мы проверяем гипотезу относительно математического ожидания нормально распределённой случайной величины
с неизвестной дисперсией, будем использовать статистику:
    $$T(X) = \dfrac{\overline{X} - a}{\sigma_X / \sqrt{n}},$$
где $\sigma_X$ — несмещённая оценка среднего квадратического отклонения.

В предположении вероности гипотезы $H_0$ такая статистика имеет __распределение Стьюдента__ или __t-распределение__ с параметром $df = n - 1$.

При условии верности гипотезы H0 статистика T имеет стандартное нормальное распределение.
В нашем случае статистика имеет вид: 
$$T(X) = \dfrac{\overline{X} - 200}{std / \sqrt{n}}.$$

In [7]:
alpha = 0.01

t1 = stats.t.ppf(alpha / 2, df=n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)

t1, t2

(-3.24983554401537, 3.2498355440153697)

Итак, критическая область:
$$\Omega_\alpha = (-\infty, -3.249835544) \cup (3.249835544, \infty).$$

In [8]:
T = (mean-200)/(std/np.sqrt(n))
T

-1.0651074037450896

Значение T не попадает в критическую область, таким образом, утверждение продавца остается в силе.