# Оглавление
1. [Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование](#stat_hyp)
    * [Задание 1](#stat_hyp_1)
    * [Задание 2](#stat_hyp_2)
    * [Задание 3](#stat_hyp_3)
    * [Задание 4](#stat_hyp_4)

# Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование <a class='anchor' id='stat_hyp'>

In [1]:
import numpy as np
from scipy.stats import norm, t

### Задание 1 <a class='anchor' id='stat_hyp_1'>
    
Известно, что генеральная совокупность распределена нормально со средним квадратическим отклонением, равным $\sigma = 16$. 

*Найти доверительный интервал для оценки математического ожидания a с надежностью 0.95, если выборочная средняя $M = 80$, а объем выборки $n = 256$.*

По условию задачи СКО генеральной совокупности $\sigma$ известно, значит доверительный интервал вычисляется по формуле:

$$M \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}},$$

где $Z_{\alpha/2}$ определяется по таблице $Z$-значений для $95\%$ доверительного интервала.

Так как $\alpha = 5\%$, то для $Z_{\alpha/2}$ соответствует значение $97.5\%$, тогда по таблице получаем:

$$Z_{\alpha/2} = 1.96.$$

Подставляя в формулу, получаем выражение для интервала:

$$80 \pm \left( 1.96 \cdot \frac{16}{\sqrt{256}} \right).$$

После подсчета получаем границы 95%-доверительного интервала:

$$[78.04; 81.96].$$

In [2]:
# Расчет границ доверительного интервала
v = 1.96 * 16 / np.sqrt(256)
a = 80 - v 
b = 80 + v
print(f'[{a}; {b}]')

[78.04; 81.96]


In [3]:
# Проверка найденного значения z через scipy
z = norm.ppf(0.975)
print(f'z = {z}')

z = 1.959963984540054


**Ответ (задание 1):** $[78.04; 81.96]$ - 95%-доверительный интервал.

### Задание 2 <a class='anchor' id='stat_hyp_2'>
    
В результате 10 независимых измерений некоторой величины $X$, выполненных с одинаковой точностью, получены опытные данные:

6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1

*Предполагая, что результаты измерений подчинены нормальному закону распределения вероятностей, оценить истинное значение величины $X$ при помощи доверительного интервала, покрывающего это значение с доверительной вероятностью 0.95.*

По условию задачи СКО генеральной совокупности $\sigma$ неизвестно, значит доверительный интервал вычисляется по формуле:

$$\overline{X} \pm t_{\alpha/2} \cdot \frac{\sigma_н}{\sqrt{n}},$$

где $t_{\alpha/2}$ определяется по таблице Стьюдента для $95\%$ доверительного интервала.

Вычислим среднее по выборке:

$$\overline{X} = \frac{1}{n}\sum_{i = 1}^n x_i = 6.59.$$

Вычислим несмещенное стандартной отклонение, рассчитанное по выборке:

$$\sigma_н = \sqrt{\frac{\sum_{i = 1}^n (x_i - \overline{X})^2}{n - 1}} \approx 0.45.$$

Число степеней свободы:

$$\text{df} = n - 1 = 9.$$

Так как $\alpha = 5\%$, то для $\frac{\alpha}{2} = 2.5\%$ при $\text{df} = 9$ по таблице Стьюдента получаем:

$$t_{\alpha/2} = 2.262.$$

Подставляя в формулу, получаем выражение для интервала:

$$6.59 \pm \left( 2.262 \cdot \frac{0.45}{\sqrt{10}} \right).$$

После подсчета получаем границы 95%-доверительного интервала:

$$[6.267; 6.912].$$

In [4]:
# Расчет статистических параметров выборки
arr = np.array([6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1])

mean = np.mean(arr)
std_ddof = np.std(arr, ddof=1)
df = arr.size - 1

print(f'mean = {mean}\nstd_ddof = {std_ddof}\ndf = {df}')

mean = 6.590000000000001
std_ddof = 0.4508017549014448
df = 9


In [5]:
# Расчет границ доверительного интервала
v = 2.262 * std_ddof / np.sqrt(10)
a = mean - v
b = mean + v
print(f'[{a}; {b}]')

[6.267538255912426; 6.912461744087575]


In [6]:
# Проверка найденного значения z через scipy
z = t.ppf(0.975, df)
print(f'z = {z}')

z = 2.2621571627409915


**Ответ (задание 2):** $[6.267; 6.912]$ - 95%-доверительный интервал.

### Задание 3 <a class='anchor' id='stat_hyp_3'>
    
Проведтите тест гипотезы. 
    
Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм.

*Используя односторонний критерий с $\alpha=0.05$, проверить эту гипотезу, если в выборке из $n=100$ шариков средний диаметр
оказался равным 17.5 мм, а дисперсия известна и равна 4 кв. мм.*

Сформулируем гипотезы:

$$H_0: \mu_1 = \mu_0,$$

$$H_1: \mu_1 > \mu_0.$$

Нулевая гипотеза $H_0$: шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм.

Альтернативная гипотеза $H_1$: средний диаметр для подшипников, изготовленные автоматическим станком, больше 17 мм.

Так как СКО генеральной совокупности $\sigma$ известно, для проверки гипотезы будет использован $Z$-критерий, тогда наблюдаемое значение вычисляется по формуле:

$$Z_н = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}}.$$

По условию задачи, известно, что $\overline{X} = 17.5$, $\mu = 17$, $n = 100$, $D = 4$, и СКО:

$$\sigma = \sqrt{D} = 2,$$

тогда наблюдаемый критерий:

$$Z_н = \frac{17.5 - 17}{2 / \sqrt{100}} = 2.5.$$

Так как требуемый уровень статистической значимости $\alpha = 5\%$, то для $Z_{\alpha}$ соответствует значение $95\%$, тогда по таблице получаем:

$$Z_{\alpha} = 1.645.$$

Таким образом, получили, что

$$Z_н (2.5) > Z_{\alpha} (1.645),$$

то есть гипотеза $H_0$ **неверна** при $\alpha = 5\%$.

In [7]:
# Расчет значения наблюдаемого критерия
z = (17.5 - 17) / (2 / 10)
z

2.5

In [8]:
# Проверка найденного значения z через scipy
z = norm.ppf(0.95)
print(f'z = {z}')

z = 1.6448536269514722


**Ответ (задание 3):** гипотеза о том, что шарики для подшипников имеют средний диаметр 17 мм, неверна при $\alpha = 5\%$.

### Задание 4 <a class='anchor' id='stat_hyp_4'>
    
Проведите тест гипотезы. 
    
Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:

202, 203, 199, 197, 195, 201, 200, 204, 194, 190.

Известно, что их веса распределены нормально.

*Верно ли утверждение продавца, если учитывать, что доверительная вероятность равна 99%? (Провести двусторонний тест.)*

Сформулируем гипотезы:

$$H_0: \mu_1 = \mu_0,$$

$$H_1: \mu_1 \neq \mu_0.$$

Нулевая гипотеза $H_0$: средний вес пачки печенья 200 грамм. 

Альтернативная гипотеза $H_1$: средний вес пачки печенья не равно 200 грамм. 

Так как СКО генеральной совокупности $\sigma$ неизвестно, для проверки гипотезы будет использован критерий Стьюдента, тогда наблюдаемое значение вычисляется по формуле:

$$t_н = \frac{\overline{X} - \mu}{\sigma_н / \sqrt{n}}.$$

где $\sigma_н$ - стандартное отклонение, рассчитанное по выборке (несмещенная оценка).

Вычислим среднее по выборке:

$$\overline{X} = \frac{1}{n}\sum_{i = 1}^n x_i = 198.5.$$

Вычислим несмещенное стандартной отклонение, рассчитанное по выборке:

$$\sigma_н = \sqrt{\frac{\sum_{i = 1}^n (x_i - \overline{X})^2}{n - 1}} \approx 4.45.$$

По условию задачи известно, что $\mu = 200$, $n = 10$, тогда наблюдаемый критерий:

$$t_н = \frac{198.5 - 200}{4.45 / \sqrt{10}} \approx -1.065.$$

Число степеней свободы:

$$\text{df} = n - 1 = 9.$$

Требуемый уровень статистической значимости $\alpha = 1\%$, так как проводится двусторонний тест, то по таблице Стьюдента найдем значение, соотвествующие $\frac{\alpha}{2} = 0.5\%$ при $\text{df} = 9$:

$$t_{\alpha/2} = 3.25.$$

Таким образом, получили, что

$$-t_{\alpha/2} (-3.25) < t_н (-1.065) < t_{\alpha/2} (3.25),$$

то есть гипотеза $H_0$ **верна** при $\alpha = 1\%$.

In [9]:
# Расчет статистических параметров выборки
arr = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190], dtype=np.float32)

mean = np.mean(arr)
std_ddof = np.std(arr, ddof=1)
df = arr.size - 1

print(f'mean = {mean}\nstd_ddof = {std_ddof}\ndf = {df}')

mean = 198.5
std_ddof = 4.453463077545166
df = 9


In [10]:
# Расчет значения наблюдаемого критерия
z = (mean - 200) / (std_ddof / np.sqrt(10))
z

-1.0651074024099085

In [11]:
# Проверка найденного значения z через scipy
z = t.ppf(0.995, df)
print(f'z = {z}')

z = 3.2498355440153697


**Ответ (задание 4):** гипотеза о том, что средний вес пачки печенья равен 200 грамм, верна при $\alpha = 1\%$.