# Теория вероятностей и математическая статистика

### Урок 5. Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование

Урок 5.

1. Известно, что генеральная совокупность распределена нормально
   со средним квадратическим отклонением, равным 16.
   Найти доверительный интервал для оценки математического ожидания с надежностью 0.95,
   если выборочная средняя M = 80, а объем выборки n = 256.
2. В результате 10 независимых измерений некоторой величины X, выполненных с одинаковой точностью,
   получены опытные данные:
   
   6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1
   
   Предполагая, что результаты измерений подчинены нормальному закону распределения вероятностей,
   оценить истинное значение величины X при помощи доверительного интервала,
   покрывающего это значение с доверительной вероятностью 0,95.

3,4 задачи решать через тестирование гипотезы

3. Утверждается, что шарики для подшипников, изготовленные автоматическим станком,
   имеют средний диаметр 17 мм.
   Используя односторонний критерий с ?=0,05, проверить эту гипотезу,
   если в выборке из n=100 шариков средний диаметр оказался равным 17.5 мм,
   а дисперсия известна и равна 4 кв.мм.

4. Продавец утверждает, что средний вес пачки печенья составляет 200 г.
   Из партии извлечена выборка из 10 пачек.
   Вес каждой пачки составляет: 202, 203, 199, 197, 195, 201, 200, 204, 194, 190.
   Известно, что их веса распределены нормально.
   Верно ли утверждение продавца, если учитывать, что доверительная вероятность равна 99%?

In [1]:
import numpy as np
from statsmodels.stats.weightstats import _tconfint_generic as t_stat  # Доверительный интервал

## Задача 1

Известно, что генеральная совокупность распределена нормально со средним квадратическим отклонением, равным 16.

Найти доверительный интервал для оценки математического ожидания с надежностью 0.95, если выборочная средняя M = 80, а объем выборки n = 256.

$\sigma = 16$ - используем z-критерий

In [2]:
M = 80  # выборочная средняя 
n = 256  # объем выборки
sigma=16  # средним квадратическим отклонением
alpha=0.05  # статистический уровень значимости 𝛼=0.05

z табличное для $\alpha/2=0.025$

$$z_{\alpha/2} = 1.96$$

In [3]:
z_alpfa_2=1.96  # z табличное для  𝛼/2

Доверительный интервал $[ 78.04; 81.96 ]$ с вероятностью $95\%$

$$\overline{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} = 80 \pm 1.96 \cdot \frac{16}{\sqrt{256}} = 80 \pm 1.96$$


In [4]:
se=sigma/np.sqrt(n)
se

1.0

In [5]:
# Доверительный интервал  [78.04;81.96] с вероятностью  95%
t_stat(M, se, n, alpha, 'two-sided')

(78.03072611034499, 81.96927388965501)

**Ответ**: Доверительный интервал  [ 78.04 ; 81.96 ]  с вероятностью  95% 

## Задача 2

В результате 10 независимых измерений некоторой величины X, выполненных с одинаковой точностью, получены опытные данные:

6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1
    
Предполагая, что результаты измерений подчинены нормальному закону распределения вероятностей, оценить истинное значение величины X при помощи доверительного интервала, покрывающего это значение с доверительной вероятностью 0,95.

$\sigma$ неизвестно. Используем t-критерий.

In [6]:
X = np.array([6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1])
n = len(X)  # Объём выборки
# X_cp = np.sum(X)/n  # Среднее арифмитическое для данной выборки
X_cp = X.mean()  # Среднее арифмитическое для данной выборки
alpha = 0.05  # Статистический уровень значимости
nu = n-1  # Число степеней свободы
t_975_9 = 2.262  # Коэффициент Стьюдента табличный t(p=0.975, nu=9)
# sigma = X.var(ddof=1)**(1/2)  # Несмещённое среднеквадратичное отклонение
sigma = X.std(ddof=1)  # Несмещённое среднеквадратичное отклонение
print(f'Объём выборки n = {n}')
print(f'Число степеней свободы nu = {nu}')
print(f'Среднее выборочное X_cp = {X_cp}')
print(f'Статистический уровень значимости alpha = {alpha}')
print(f'Коэффициент Стьюдента табличный t(p=0.975, nu=9) = {t_975_9}')
print(f'Несмещённое среднеквадратичное отклонение sigma = {sigma}')
X

Объём выборки n = 10
Число степеней свободы nu = 9
Среднее выборочное X_cp = 6.590000000000001
Статистический уровень значимости alpha = 0.05
Коэффициент Стьюдента табличный t(p=0.975, nu=9) = 2.262
Несмещённое среднеквадратичное отклонение sigma = 0.4508017549014448


array([6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1])

Доверительный интервал $[ 6.2675; 6.9124 ]$ с вероятностью $95\%$

$$\overline{X} \pm t_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} = 6.59 \pm 2.262 \cdot \frac{0.451}{\sqrt{10}} = 6.59 \pm 0.3225$$

In [7]:
t_975_9*sigma/np.sqrt(10)

0.32246174408757394

In [8]:
X_cp + t_975_9*sigma/np.sqrt(10)

6.912461744087575

In [9]:
X_cp - t_975_9*sigma/np.sqrt(10)

6.267538255912426

**Ответ**: Доверительный интервал  [ 6.27 ; 6.91 ]  с вероятностью  95% 

## Задача 3

Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм.

Используя односторонний критерий $\alpha$=0,05, проверить эту гипотезу, если в выборке из n=100 шариков средний диаметр оказался равным 17.5 мм, а дисперсия известна и равна 4 кв.мм.

𝜎  известно. Используем z-критерий.

In [10]:
n = 100  # Объём выборки
X_0 = 17  # Среднее арифмитическое генеральной совокупности
X_cp = 17.5  # Среднее арифмитическое для данной выборки
alpha = 0.05  # Статистический уровень значимости
z_t = 1.645  # z табличное
# sigma = X.var(ddof=1)**(1/2)  # Несмещённое среднеквадратичное отклонение
D = 4  # Дисперсия
sigma = np.sqrt(D)  # Среднеквадратичное отклонение
z_n = (X_cp - X_0)/(sigma/np.sqrt(n))
print(f'Объём выборки n = {n}')
print(f'Степень свободы nu = {nu}')
print(f'Среднее выборочное X_cp = {X_cp}')
print(f'Статистический уровень значимости alpha = {alpha}')
print(f'Дисперсия D = {D}')
print(f'Cреднеквадратичное отклонение sigma = {sigma}')
print(f'z табличное при alpha=5% z_t = {z_t}')
print(f'z расчётное при alpha=5% z_n = {z_n}')

Объём выборки n = 100
Степень свободы nu = 9
Среднее выборочное X_cp = 17.5
Статистический уровень значимости alpha = 0.05
Дисперсия D = 4
Cреднеквадратичное отклонение sigma = 2.0
z табличное при alpha=5% z_t = 1.645
z расчётное при alpha=5% z_n = 2.5


**Ответ:** Так как $z_n > z_t$ (z расчётное > z табличное), следовательно верна альтернативная гипотиза H1 ($\mu \neq \mu_0$) на уровне значимости $\alpha =$ 5%

$\approx$ - https://www.stevesque.com/symbols/ (Symbols in LaTeX and HTML)

## Задача 4

Продавец утверждает, что средний вес пачки печенья составляет 200 г.
Из партии извлечена выборка из 10 пачек.

Вес каждой пачки составляет: 202, 203, 199, 197, 195, 201, 200, 204, 194, 190.

Известно, что их веса распределены нормально. Верно ли утверждение продавца, если учитывать, что доверительная вероятность равна 99%?

$\sigma$ неизвестно. Используем t-критерий.

In [11]:
X = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])
n = len(X)  # Объём выборки
X_0 = 200  # Среднее арифмитическое генеральной совокупности
# X_cp = np.sum(X)/n  # Среднее арифмитическое для данной выборки
X_cp = X.mean()  # Среднее арифмитическое для данной выборки
alpha = 0.01  # Статистический уровень значимости
nu = n-1  # Число степеней свободы
t_t = 3.25  # Коэффициент Стьюдента табличный t(p=0.995, nu=9)
# sigma = X.var(ddof=1)**(1/2)  # Несмещённое среднеквадратичное отклонение
sigma = X.std(ddof=1)  # Несмещённое среднеквадратичное отклонение
t_n = (X_cp - X_0)/(sigma/np.sqrt(n))
print(f'Объём выборки n = {n}')
print(f'Число степеней свободы nu = {nu}')
print(f'Среднее арифмитическое генеральной совокупности X_0 = {X_0}')
print(f'Среднее выборочное X_cp = {X_cp}')
print(f'Статистический уровень значимости alpha = {alpha}')
# print(f'Коэффициент Стьюдента табличный t(p=0.995, nu=9) = {t_995_9}')
print(f'Несмещённое среднеквадратичное отклонение sigma = {sigma}')
print(f't табличное при alpha=5% t_t = {t_t}')
print(f't расчётное при alpha=5% t_n = {t_n}')
X

Объём выборки n = 10
Число степеней свободы nu = 9
Среднее арифмитическое генеральной совокупности X_0 = 200
Среднее выборочное X_cp = 198.5
Статистический уровень значимости alpha = 0.01
Несмещённое среднеквадратичное отклонение sigma = 4.453463071962462
t табличное при alpha=5% t_t = 3.25
t расчётное при alpha=5% t_n = -1.0651074037450896


array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])

**Ответ:** Так как $t_n < t_t$ (t расчётное < t табличное), следовательно верна нулевая гипотиза H0 ( $\mu = \mu_0$ ) на уровне значимости  $\alpha =$  1%