# Урок 5. Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование
## Домашнее задание

### Задача 1

Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр $17$ мм. Используя уровень значимости $0.025$ и правостороннюю критическую область, проверить данную гипотезу при условии, что в выборке из $100$ шариков средний диаметр оказался равным $17.5$ мм, а дисперсия известна и равна $4$ мм.

**Решение**

Подготовим выборку

In [1]:
import numpy as np
from scipy import stats

In [15]:
n = 100
samples = np.random.normal(17, 4, size=n)

Чтобы проверить гипотизу зададим функцию от выборки $T$:
$$T(X) = \frac{\overline{X} - a}{\sigma\sqrt{n}} = \frac{\overline{X} - 17.5}{1/10} = 10 \cdot (\overline{X} - 17.5)$$

Найдём квадратическое отклонение:
$$\sigma = \sqrt{D(X)} = \sqrt{4} = 2$$

Уровень значимости $\alpha=0.025$. По правилу трёх сигм определим критическую область:
$$\Omega_\alpha = (-\infty, -3\sigma) \cup (3\sigma, +\infty) = (-\infty, -3\cdot2) \cup (3\cdot2, +\infty) = (-\infty, -6) \cup (6, +\infty)$$


In [16]:
mean = samples.mean()
print('X_avg = ', mean)

X_avg =  17.396248379188357


In [17]:
T = 10 * (mean - 17.5)
print('T(X) =', T)

T(X) = -1.037516208116429


In [18]:
-6 < T < 6

True

Значение не превышает пределы критической области, следовательно гипотезу $H_0$ принимаем.

### Задача 2

Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением $16$. Найти доверительный интервал для оценки математического ожидания a с надёжностью $0.95$, если выборочное среднее равно $80$, а объём равен $256$.

In [27]:
sigma = 16
mean = 80
p = 0.95
n = 256

alpha = 1 - p
t = stats.t.ppf(1 - alpha / 2, df=n-1)
print('t =', ppf)

P = (mean - t * sigma / np.sqrt(n), mean + t * sigma / np.sqrt(n))
print('P =', P)

t = 1.6448536269514722
P = (78.0306894301508, 81.9693105698492)


### Задача 3

Продавец утверждает, что средний вес пачки печенья составляет $200$ г. Из партии извлечена выборка из $10$ пачек. Вес каждой пачки составляет:

`202, 203, 199, 197, 195, 201, 200, 204, 194, 190`

Известно, что их веса распределены нормально. Верно ли утверждение продавца, если учитывать, что уровень значимости равен $1%$?

In [3]:
samples = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])
n = len(samples)
print('n =', n)

mean = samples.mean()
print('X_avg =', mean)

std = samples.std(ddof=1)
print('std =', std)

n = 10
X_avg = 198.5
std = 4.453463071962462


По таблице квантилей для $\alpha=0.1$ и $k=n-1=9$ найдём $t_{\alpha,k} = 1.8331$. Либо воспользуемся библиотекой scipy:

In [4]:
alpha = 0.1
t = stats.t.ppf(1 - alpha / 2, df=n-1)
print('t =', t)

t = 1.8331129326536335


Доверительный интервал:

In [28]:
P = (mean - t * std / np.sqrt(n), mean + t * std / np.sqrt(n))
print('P =', P)

P = (79.45185925624695, 80.54814074375305)


Можно согласиться с продавцом, что средний вес пачки печения составляет $200$ г, так как это значение входит в доверительный интервал $P$.