# Урок 5. Тестирование гипотез

In [1]:
from scipy import stats
import numpy as np

***
## Задание 1.

### Когда используется критерий Стьюдента, а когда Z –критерий?

**Z-критерий**, если распределение:
* нормальное
* известна $\sigma$ генеральной совокупности

**t-критерий** (критерий Стьюдента), если распределение:
* нормальное
* $\sigma$ генеральной совокупности неизвестна
* наблюдается равенство дисперсий в сравниваемых группах

***
## Задание 2.

### Проведите тест гипотезы. Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм. Используя односторонний критерий с α=0,05, проверить эту гипотезу, если в выборке из n=100 шариков средний диаметр оказался равным 17.5 мм, а дисперсия известна и равна 4 кв. мм.

$H_0: a = a_0$ \
$H_1: a > a_0$ - правосторонняя критическая область

Поскольку нам известны и среднее и дисперсия генеральной совокупности, то для проверки гипотезы будем использовать Z-критерий:\
$\displaystyle Z = \frac{(\bar{x}-a_0)\sqrt{n}}{\sigma}$

Для правосторонней критической области: если $z_н < z_к$, то гипотеза $H_0$ принимается, в случае $z_н > z_к$ – отвергается.
<br><br>

$z_к = 1.645 \\
z_н = 2.5$
Т.к. $z_н > z_к$ **отвергаем** нулевую гипотезу на уровне значимост $\alpha=0.05$.

In [4]:
a0, alpha, n, a1, d = 17, 0.05, 100, 17.5, 4

Zn = round(((a1 - a0)*np.sqrt(n))/np.sqrt(d),3)
print(f'Zн = {Zn}')

print(f'H0: a = 17 is {Zn<1.645}')

Zн = 2.5
H0: a = 17 is False


***
## Задание 3.

### Проведите тест гипотезы. Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет: 202, 203, 199, 197, 195, 201, 200, 204, 194, 190. Известно, что их веса распределены нормально. Верно ли утверждение продавца, если учитывать, что доверительная вероятность равна 99%? (Провести двусторонний тест.)

$H_0: a = a_0$ \
$H_1: a \not= a_0$ - двусторонняя критическая область

Поскольку нам не известны ни среднее, ни дисперсия генеральной совокупности, то для проверки гипотезы будем использовать 
t-критерий: \
$\displaystyle T = \frac{(\bar{x}-a_0)\sqrt{n}}{S}$

Для двусторонней критической области: если $|t_н| < t_к$, то гипотеза $H_0$ принимается, в противном случае – отвергается.
<br><br>

$t_к = 3.25 \\
t_н = -1.07$
Т.к. $|t_н| < t_к$ **принимаем** нулевую гипотезу на уровне значимост $\alpha=0.01$.

In [6]:
a0, n, alpha = 200, 10, 0.01
X = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])

a1 = round(np.mean(X),1)
sd = round(np.std(X, ddof=1),2)

Tn = round(((a1-a0)*np.sqrt(n))/sd,2)
print(f'{Tn = }')

print(f'H0: a = 200 is {abs(Tn)<3.25}')

Tn = -1.07
H0: a = 200 is True


***
## Задание 4.

### Есть ли статистически значимые различия в росте дочерей? Рост матерей: 172, 177, 158, 170, 178,175, 164, 160, 169, 165. Рост взрослых дочерей: 173, 175, 162, 174, 175, 168, 155, 170, 160.

> В условии задачи ошибочно даны выборки с различным количеством элементов. Уберем из Роста матерей один элемент близкий к среднему и расмотрим выборки как зависимые.

$H_0: \bar{X} = \bar{Y}$

$H_1: \bar{X} \not= \bar{Y}$ – двусторонняя критическая область

Поскольку нам не известны ни среднее, ни дисперсия генеральной совокупности, то для проверки гипотезы будем использовать 
t-критерий:
$\displaystyle T = \frac{\bar{x}-\bar{y}}{\displaystyle \sqrt{\frac{S_x^2}{n}+\frac{S_y^2}{m}}}$

Если $|t_н| < t_к$, то гипотеза $H_0$ принимается, в противном случае – отвергается.

In [7]:
X = np.array([172, 177, 158, 170, 178, 175, 164, 160, 165])
Y = np.array([173, 175, 162, 174, 175, 168, 155, 170, 160])

In [8]:
alpha = 0.05
n, m = X.shape[0], Y.shape[0]
k = n + m - 2

x, y = round(np.mean(X),2), round(np.mean(Y),2)
s_x, s_y = np.var(X, ddof=1), np.var(Y, ddof=1)

Tk = round(stats.t.ppf(1 - alpha/2, k),3)
print(f'{Tk = }')

Tn = round((x - y)/np.sqrt(s_x/n + s_y/m),3)
print(f'{Tn = }')

print(f'H0: M(X) = M(Y) is {abs(Tn)<Tk}')

Tk = 2.12
Tn = 0.225
H0: M(X) = M(Y) is True


Т.к. $|t_н| < t_к$ **принимаем** нулевую гипотезу на уровне значимост $\alpha=0.05$.

In [9]:
stats.ttest_ind(X,Y)

Ttest_indResult(statistic=0.224323258405974, pvalue=0.8253452927287228)

Т.к. $p-value > 0.05$, то нулевую гипотезу о равенстве среднего роста матерей и дочерей на уровне значимости $0.05$ **принимаем**. Статистически значимых различий в росте матерей и дочерей не обнаружено.