## Урок 5. Тестирование гипотез

In [2]:
import numpy as np
import scipy.stats as stats

### 1. Когда используется критерий Стьюдента, а когда Z –критерий?

**Критерий Стьюдента используется:**  
*Когда стандартное отклонение популяции неизвестно и должно быть оценено по образец данные.  
*Для сравнения средних значений двух групп.  
*Для сравнения средних значений двух выборок, если данные для двух групп распределены нормально.  
  
**Z-критерий используется:**  
*Когда известны среднее значение совокупности и стандартное отклонение, предполагается, что население распределено нормально  
*Для проверки гипотезы о равенстве среднего значения генеральной совокупности с известным значением.  
*Для проверки гипотезы о когда известны среднее значение совокупности и стандартное отклонение, что позволит оценить точность среднего значения измерения в генеральной совокупности, а также понять, насколько данные в выборке представляют собой нормальное распределение.  

### 2. Проведите тест гипотезы. Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм.
Используя односторонний критерий с α=0,05, проверить эту гипотезу, если в выборке из n=100 шариков средний диаметр оказался равным 17.5 мм, а дисперсия известна и равна 4 кв. мм.

**Определяем гипотезу**

Основаная гипотеза $H_0: M(X)=17, \mu=\mu_0$  
Альтернативная гипотеза $H_1: M(X)=17.5, \mu>\mu_0$  
$ ПКО: \Omega_\alpha=(t_{1-\alpha}, \infty)$  

**Определяем наблюдаемое критерий**

Нам известны и среднее и дисперсия генеральной совокупности, соответственно для проверки гипотезы будем использовать $z$-критерий.  
$z_н=\frac{\bar X-\mu_0}{\sigma/\sqrt n}$:  
  
Дисперсия: $D(X)=4$  
Среднее квадратическое отклонение генеральной совокупности: $\sigma=\sqrt{D(X)}=\sqrt 4=2$  
Размер выборки: $n=100$  
$ \bar X=17.5$  
$ \mu=17$  

In [2]:
mu = 17.5
mu0 = 17
sigma = 2
n = 100

zn = (mu - mu0) / (sigma / np.sqrt(n))
print(f'Наблюдаемое значение z-критерия: {round(zn, 4)}')

Наблюдаемое значение z-критерия: 2.5


**Определяем уровень значимости**

$\alpha=0.05$  

**Определяем табличный критерий**

In [3]:
alpha = 0.05

zt = stats.norm.ppf(1 - alpha)
print(f'Табличное значение z-критерия: {round(zt, 4)}')

Табличное значение z-критерия: 1.6449


In [4]:
zn < zt

False

**Так как $z_н>z_t$, то нулевая гипотеза $H_0$ отвергается.**

### 3.Проведите тест гипотезы. Продавец утверждает, что средний вес пачки печенья составляет 200 г.  
Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:  
202, 203, 199, 197, 195, 201, 200, 204, 194, 190.  
Известно, что их веса распределены нормально.  
Верно ли утверждение продавца, если учитывать, что доверительная вероятность равна 99%? (Провести двусторонний тест.)  

**Определяем гипотезу**
  
Основаная гипотеза $H_0: M(X)=200, \mu=\mu_0$  
Альтернативная гипотеза $H_1: M(X)=200, \mu\neq\mu_0$  
$ ДКО: \Omega_\alpha=(- \infty, t_{\alpha/2},) \cup (t_{1-\alpha/2}, \infty)$  

**Определяем наблюдаемое критерий**
  
Нам неизвестна дисперсия и мы проверяем гипотезу относительно математического ожидания нормально распределённой случайной величины будем использовать $t$-критерий.  
$t=\dfrac{\overline{X}-\mu}{\sigma_X/\sqrt{n}}$  
  
Размер выборки: $n=10$  
$ \mu=200$  

In [5]:
arr_w = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])

In [6]:
n_w = 10
mu_w = 200
tn_w = (np.mean(arr_w) - mu_w) / (np.std(arr_w, ddof = 1) / n_w**0.5)
print(f'Наблюдаемое значение t-критерия: {round(tn_w, 4)}')

Наблюдаемое значение t-критерия: -1.0651


**Определяем уровень значимости**

In [7]:
alpha_w = 0.005

tt = stats.t.ppf(1 - alpha_w, n_w - 1)
print(f'Табличное значение t-критерия: {round(tt, 4)}')

Табличное значение t-критерия: 3.2498


In [8]:
np.abs(tn_w) < tt

True

**Так как $|t_н|<t_t$, то нулевая гипотеза $H_0$ не отвергается**

### 4.Есть ли статистически значимые различия в росте дочерей?  
Рост матерей 172, 177, 158, 170, 178,175, 164, 160, 169, 165  
Рост взрослых дочерей: 173, 175, 162, 174, 175, 168, 155, 170, 160  

In [9]:
arr1 = [172, 177, 158, 170, 178, 175, 164, 160, 169, 165]
arr2 = [173, 175, 162, 174, 175, 168, 155, 170, 160, 163]

stats.ttest_rel(arr1, arr2)

TtestResult(statistic=0.6648478531431979, pvalue=0.5228168632983574, df=9)

Так как $p-value > \alpha (0,05)$, то нулевая гипотеза $H_0$ не отвергается на уровне значимости $\alpha (0,05)$  
Статистически заничмых различий в среднем росте матерей и дочерей нет