### Урок 5. Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование


In [1]:
import numpy as np

#### 1. Известно, что генеральная совокупность распределена нормально со средним квадратическим отклонением, равным 16. Найти доверительный интервал для оценки математического ожидания с надежностью 0.95, если выборочная средняя M = 80, а объем выборки n = 256.

Для определения граничных точек доверительного интервала, при условии что известно среднеквадратическое отклонение генеральной совокупности данных, используется следующая формула.
$$ L = \overline{X} - Z_{\alpha/2} \frac{\sigma}{\sqrt{n}} $$
$$ U = \overline{X} + Z_{\alpha/2} \frac{\sigma}{\sqrt{n}} $$

где X – математическое ожидание выборки, α – уровень статистической значимости, Zα/2 – Z-оценка для уровня статистической значимости α/2, σ – среднеквадратическое отклонение генеральной совокупности, n – количество наблюдений в выборке. При этом, σ/√n является стандартной ошибкой.

Таким образом, доверительный интервал для уровня статистической значимости α можно записать в виде
$$ \overline{X} \pm Z_{\alpha/2} \frac{\sigma}{\sqrt{n}} $$

Расчеты:

In [2]:
std = 16
X = 80
n = 256
Z = 1.96

In [3]:
L = X - Z * std / n**0.5
U = X + Z * std / n**0.5
print(f'Ответ: [{L}; {U}]')

Ответ: [78.04; 81.96]


#### 2. В результате 10 независимых измерений некоторой величины X, выполненных с одинаковой точностью, получены опытные данные: 6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1 Предполагая, что результаты измерений подчинены нормальному закону распределения вероятностей, оценить истинное значение величины X при помощи доверительного интервала, покрывающего это значение с доверительной вероятностью 0,95.

In [4]:
data = np.array([6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1])
n = len(data)
t = 2.262
std = np.std(data, ddof=1)
mu = data.mean()

In [5]:
L = mu - t * std / n**0.5
U = mu + t * std / n**0.5
print(f'Ответ: [{L}; {U}]')

Ответ: [6.267538255912426; 6.912461744087575]


#### 3. Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм. Используя односторонний критерий с α=0,05, проверить эту гипотезу, если в выборке из n=100 шариков средний диаметр оказался равным 17.5 мм, а дисперсия известна и равна 4 кв.мм.

Н0: диаметр = 17 мм, µ =µ0

Н1: диаметр = 17,5 мм, µ >µ0

Критерий Z–тест применяется для статистической проверки гипотез, основанных на нормальном распределении.
$$ Z_H = \frac{\overline{X} - \mu_0}{\sigma / \sqrt{n}} $$

In [6]:
n = 100
mu0 = 17
mu = 17.5
variance = 4
std0 = variance**0.5
Zt = 1.645

In [7]:
Zr = (mu - mu0) / (std0 / n**0.5)
Zr

2.5

Ответ: поскольку Z-расчетное больше Z-табличного, то верна альтернативная гипотеза. Утверждение не верное.

#### 4. Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет: 202, 203, 199, 197, 195, 201, 200, 204, 194, 190. Известно, что их веса распределены нормально. Верно ли утверждение продавца, если учитывать, что доверительная вероятность равна 99%?

Поскольку не известна сигма генеральной совокупности, будем использовать критерий Стьюдента (t-критерий).

In [8]:
data = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])

In [9]:
n = len(data)
mu0 = 200
mu = data.mean()
std = np.std(data, ddof=1)
tt = 3.24984

Применяем формулу
$$ t_H = \frac{\overline{X} - \mu_0}{\sigma / \sqrt{n}} $$

In [10]:
tr = (mu - mu0) / (std / n**0.5)
tr

-1.0651074037450896

In [11]:
-tt < tr < tt

True

Поскольку t-расчетное находится в диапазоне t-табличного (-3.25 < -1.065 < 3.25), то подтверждается нулевая гипотеза. 

Утверждение продавца верное.