In [1]:
import numpy as np
import scipy.stats as st

# Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование

### Задание 1

*Известно, что генеральная совокупность распределена нормально со средним квадратическим отклонением, равным 16.*

*Найти доверительный интервал для оценки математического ожидания с надежностью 0.95,
если выборочная средняя M = 80, а объем выборки n = 256.*

Известна $\sigma$ генеральной совокупности, поэтому доверительный интервал строится по формуле

$$M \pm Z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}},$$

где $Z_{\frac{\alpha}{2}}$ определяется по таблице Z-значений.

Требуемая надежность 0.95, т.е. $\alpha = 0.05$. Тогда по таблице Z-значений найдем $Z_{\frac{\alpha}{2}}$ для значения 0.975:

$$Z_{\frac{\alpha}{2}} = 1.96.$$

По условию задачи $M = 80$, $\sigma = 16$, $n = 256$. Тогда доверительный интервал равен

$$M \pm Z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} = 80 \pm 1.96 \frac{16}{\sqrt{256}} = 80 \pm 1.96.$$

**Ответ: [78.04; 81.96] - 95% доверительный интервал.**

In [2]:
M = 80
Z = 1.96
sigma = 16
n = 256

print(f'Z_table = {Z}')
print(f'Z_scipy = {st.norm.ppf(0.975)}\n')

print(f'Левая граница = {M - Z * sigma / np.sqrt(n)}')
print(f'Правая граница = {M + Z * sigma / np.sqrt(n)}')

Z_table = 1.96
Z_scipy = 1.959963984540054

Левая граница = 78.04
Правая граница = 81.96


### Задание 2

*В результате 10 независимых измерений некоторой величины X, выполненных с одинаковой точностью, получены опытные данные:*

*6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1*

*Предполагая, что результаты измерений подчинены нормальному закону распределения вероятностей, оценить истинное значение величины X при помощи доверительного интервала, покрывающего это значение с доверительной вероятностью 0.95.*

Неизвестна $\sigma$ генеральной совокупности, поэтому доверительный интервал строится по формуле

$$\overline {X} \pm t_{\frac{\alpha}{2}} \frac{\sigma_{\text{н}}}{\sqrt{n}},$$

где $t_{\frac{\alpha}{2}}$ определяется по таблице Стьюдента.

По условию задачи $n = 10$.

Вычислим выборочное среднее и несмещенную оценку стандартного отклонения, рассчитанного по выборке, по формулам:

$$\overline{X} = \frac{1}{n} \sum_{i = 1}^n x_i \approx 6.59,$$

$$\sigma_{\text{н}} = \sqrt{\frac{\sum_{i = 1}^n \left(x_i - \overline{X} \right)^2}{n - 1}} \approx 0.45.$$

Требуемая надежность 0.95, т.е. $\alpha = 0.05$. Тогда по таблице Стьюдента найдем $t_{\frac{\alpha}{2}}$ для значения $\frac{\alpha}{2} = 0.025$ и для числа степеней свободы $k = n - 1 = 9$:

$$t_{\frac{\alpha}{2}} = 2.262.$$

Используя полученные значения, построим доверительный интервал

$$\overline {X} \pm t_{\frac{\alpha}{2}} \frac{\sigma_{\text{н}}}{\sqrt{n}} = 6.59 \pm 2.262 \frac{0.45}{\sqrt{10}}.$$

**Ответ: [6.267; 6.912] - 95% доверительный интервал.**

In [3]:
a = np.array([6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1])
M = np.mean(a)
sigma = np.std(a, ddof=1)
n = len(a)
t = 2.262

print(f'M = {M}')
print(f'sigma = {sigma}\n')

print(f't_table = {2.262}')
print(f't_scipy = {st.t.ppf(0.975, n - 1)}\n')

print(f'Левая граница = {M - t * sigma / np.sqrt(n)}')
print(f'Правая граница = {M + t * sigma / np.sqrt(n)}')

M = 6.590000000000001
sigma = 0.4508017549014448

t_table = 2.262
t_scipy = 2.2621571627409915

Левая граница = 6.267538255912426
Правая граница = 6.912461744087575


### Задание 3

*Проведите тест гипотезы. Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм.*

*Используя односторонний критерий с α=0,05, проверить эту гипотезу, если в выборке из n=100 шариков средний диаметр оказался равным 17.5 мм, а дисперсия известна и равна 4 кв. мм.*

Сформулируем гипотезы

$H_0: \mu_1 = \mu_0$ - шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм,

$H_1: \mu_1 > \mu_0$ - средний диаметр шариков для подшипников больше 17 мм.

Известна $\sigma$ генеральной совокупности, поэтому будем использовать Z-критерий. Тогда наблюдаемый критерий вычисляется по формуле

$$Z_{\text{н}} = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}}.$$

По условию задачи $\overline{X} = 17.5$, $\mu = 17$, $n = 100$, $\sigma = \sqrt{D} = \sqrt{4} = 2$. Тогда наблюдаемый критерий равен

$$Z_{\text{н}} = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} = \frac{17.5 - 17}{2 / 10} = 2.5.$$

Требуемый уровень значимости $\alpha = 0.05$. По таблице Z-значений найдем $Z_{\alpha}$ для значения 0.95:

$$Z_{\alpha} = 1.645.$$

Получили

$$Z_{\text{н}} = 2.5 > Z_{\alpha} = 1.645,$$

т.е. гипотеза $H_0$ неверна при $\alpha = 0.05$.

**Ответ: гипотеза о том, что шарики для подшипников имеют средний диаметр 17 мм, неверна при $\alpha = 0.05$.**

In [4]:
M = 17.5
mu = 17
n = 100
sigma = np.sqrt(4)

print(f'Z_table = {1.645}')
print(f'Z_scipy = {st.norm.ppf(0.95)}\n')

print(f'Zн = {(M - mu) / (sigma / np.sqrt(n))}')

Z_table = 1.645
Z_scipy = 1.6448536269514722

Zн = 2.5


### Задание 4

*Проведите тест гипотезы. Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:*

*202, 203, 199, 197, 195, 201, 200, 204, 194, 190.*

*Известно, что их веса распределены нормально.*

*Верно ли утверждение продавца, если учитывать, что доверительная вероятность равна 99%? (Провести двусторонний тест.)*

Сформулируем гипотезы

$H_0: \mu_1 = \mu_0$ - средний вес пачки печенья составляет 200 г,

$H_1: \mu_1 \neq \mu_0$ - средний вес пачки печенья не равен 200 г.

Неизвестна $\sigma$ генеральной совокупности, поэтому будем использовать t-критерий. Тогда наблюдаемый критерий вычисляется по формуле

$$t_{\text{н}} = \frac{\overline{X} - \mu}{\sigma_{\text{н}} / \sqrt{n}}.$$

По условию задачи $n = 10$.

Вычислим выборочное среднее и несмещенную оценку стандартного отклонения, рассчитанного по выборке, по формулам:

$$\overline{X} = \frac{1}{n} \sum_{i = 1}^n x_i = 198.5,$$

$$\sigma_{\text{н}} = \sqrt{\frac{\sum_{i = 1}^n \left(x_i - \overline{X} \right)^2}{n - 1}} \approx 4.453.$$

Используя полученые значения, вычислим наблюдаемый критерий: 

$$t_{\text{н}} = \frac{\overline{X} - \mu}{\sigma_{\text{н}} / \sqrt{n}} = \frac{198.5 - 200}{4.453 / \sqrt{10}} \approx -1.065.$$

Требуемый уровень значимости $\alpha = 0.01$. Т.к. проводится двусторонний тест, то по таблице Стьюдента найдем $t_{\frac{\alpha}{2}}$ для значения $\frac{\alpha}{2} = 0.005$ и для числа степеней свободы $k = n - 1 = 9$:

$$t_{\frac{\alpha}{2}} = 3.25.$$

Получили

$$-t_{\frac{\alpha}{2}} = -3.25 < t_{\text{н}} = -1.065 < t_{\frac{\alpha}{2}} = 3.25,$$

т.е. гипотеза $H_0$ верна при $\alpha = 0.01$.

**Ответ: гипотеза о том, что средний вес пачки печенья составляет 200 г, верна при $\alpha = 0.01$.**

In [5]:
a = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])
M = np.mean(a)
sigma = np.std(a, ddof=1)
mu = 200
n = len(a)
t = 2.262

print(f'M = {M}')
print(f'sigma = {sigma}\n')

print(f't_table = {3.25}')
print(f't_scipy = {st.t.ppf(0.995, n - 1)}\n')

print(f'tн = {(M - mu) / (sigma / np.sqrt(n))}')

M = 198.5
sigma = 4.453463071962462

t_table = 3.25
t_scipy = 3.2498355440153697

tн = -1.0651074037450896
