# Семинар 5 ДЗ

## Задача 1. 
Когда используется критерий Стьюдента, а когда $Z$ –критерий?

## Решение

Для проверки гипотез относительно математического ожидания нормально
распределенной случайной величины с известной дисперсией используется Z-статистика:

$Z_{наблюдаемое}=\dfrac{\overline X - \mu}{\dfrac{\sigma}{\sqrt{n}}}$

В предположении верности нулевой гипотезы $z$-статистика имеет стандартное нормальное распределение $(0, 1)$

Если дисперсия не известна, используется t-статистика<br>
В предположении верности нулевой гипотезы t-статистика имеет
распределение Стьюдента

$t_{наблюдаемое} = \dfrac{\overline{X_1}−\mu}{\dfrac{\sigma_x}{\sqrt{𝑛}}}$


## Задача 2.

Проведите тест гипотезы. <br>
Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр $17$ мм.

Используя односторонний критерий с $α=0,05$, проверить эту гипотезу, если в выборке из $n=100$ шариков средний диаметр оказался равным $17.5$ мм, а дисперсия известна и равна $4$ кв. мм.

### Решение

1. Сформулируем нулевую и альтернативную гипотезы:<br>
$H_0: \mu_x = 17$<br>
$H_1: \mu_x > 17$

2. Уровень значимости $\alpha = 0.05$

3. Так как в этой задаче определена дисперсия и мы можем найти $\sigma (СКО)$ генеральной совокупности используем формулу:<br>
 <br>
$Z_н=\dfrac{\bar X - \mu}{\dfrac{\sigma}{\sqrt{n}}}$<br>
 <br>
$\sigma = \sqrt{D(X)} = \sqrt{4} = 2$<br>
 <br>
$Z_{наблюдаемое}=\dfrac{17.5 - 17}{\dfrac{2}{\sqrt{100}}} = \dfrac{5}{2} = 2.5$

4. Определим критическую область:<br>
При помощи таблицы $Z$ значений получаем $\approx 1.645$<br>
И посчитаем при помощи python<br>
$Z_{критическое} \approx 1.6449$

In [3]:
import numpy as np
import scipy.stats as stats

In [6]:
alpha = 0.05
n = 100

Z = stats.norm.ppf(1- alpha)  # ПКО - правосторонняя критическая область

print(round(Z, 4))
Z

1.6449


1.6448536269514722

5. Сравним наблюдаемое и критическое значения и увидим, что:<br>
$Z_{наблюдаемое} > Z_{критическое}$,<br>
$2.5 > 1.6449$,<br>
следовательно оно попадает в критическую область и $H_0$ (нулевая гипотеза) отвергается!

## Задача 3

Проведите тест гипотезы. Продавец утверждает, что средний вес пачки печенья составляет $200$ г.

Из партии извлечена выборка из $10$ пачек. Вес каждой пачки составляет:

$202, 203, 199, 197, 195, 201, 200, 204, 194, 190.$

Известно, что их веса распределены нормально.

Верно ли утверждение продавца, если учитывать, что доверительная вероятность равна $99\%$? (Провести двусторонний тест.)

## Решение

1. Сформулируем нулевую и альтернативную гипотезы:<br>
$H_0: \mu_x = 200$<br>
$H_1: \mu_x \neq 200$

2. Уровень значимости $\alpha = 0.01$

3. Так как в этой задаче мы не знаем СКО генеральной совокупности, то мы будем использовать t-статистику, которая имеет распределение Стьюдента.<br>
 <br>
$t_{наблюдаемое} = \dfrac{\overline{X_1}−\mu}{\dfrac{\sigma_x}{\sqrt{𝑛}}}$

Рассчитаем необходимые данные при помощи python

In [7]:
alpha = 0.01
n = 10
mu = 200

x = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])

In [8]:
sigma = x.std(ddof=1)
x_mean = x.mean()
sigma, x_mean

(4.453463071962462, 198.5)

4. Определим критические области:<br>

In [9]:
t1 = stats.t.ppf(alpha/2, df=n-1)
t2 = stats.t.ppf(1 - alpha/2, df=n-1)

t1, t2

(-3.2498355440153697, 3.2498355440153697)

5. Расчитаем $t_{наблюдаемое}$

In [11]:
t_emp = (x_mean - mu)/ (sigma / n ** 0.5)
t_emp

-1.0651074037450896

$t_{наблюдаемое}$ не принадлежит критической области:

$-3.25 \leq -1.065 \leq 3.25 $, 

следовательно гипотеза $H_0$ не отвергается!

## Задача 4. 
Есть ли статистически значимые различия между средним ростом
дочерей и матерей?

Рост матерей $172, 177, 158, 170, 178, 175, 164, 160, 169, 165$

Рост взрослых дочерей: $173, 175, 162, 174, 175, 168, 155, 170, 160, 163$

In [25]:
x = np.array([172, 177, 158, 170, 178, 175, 164, 160, 169, 165])
y = np.array([173, 175, 162, 174, 175, 168, 155, 170, 160, 163])

In [26]:
x_mean = np.mean(x) # Считаем среднее по x
y_mean = np.mean(y) # Считаем среднее по y
x_v = np.var(x, ddof=1) # Считаем несмещенную дисперсию по x
y_v = np.var(y, ddof=1) # Считаем несмещенную дисперсию по y
n_x = len(x) # количество элементов выборки x
n_y = len(y) # количество элементов выборки Y
print(x_mean, y_mean, x_v, y_v, n_x, n_y)
result = [round(k, 4) for k in (x_mean, y_mean, x_v, y_v, n_x, n_y)]
result

168.8 167.5 48.17777777777778 50.5 10 10


[168.8, 167.5, 48.1778, 50.5, 10, 10]

In [27]:
t_emp = (x_mean - y_mean) / np.sqrt(x_v / n_x + y_v / n_y)
t_emp

0.41384114976800535

In [28]:
alpha = 0.05
n = n_x

t1 = stats.t.ppf(alpha / 2, df=2 * (n - 1))
t2 = stats.t.ppf(1 - alpha / 2, df= 2 * (n - 1))
t1, t2 # находим критические значения

(-2.10092204024096, 2.10092204024096)

Из приведенных вычислений можем сделать вывод: <br>
$t_{наблюдаемое}$ не принадлежит критической области:

$-3.25 \leq -1.065 \leq 3.25 $, 

следовательно гипотеза $H_0$ не отвергается!

In [30]:
stats.ttest_ind(x, y)

Ttest_indResult(statistic=0.4138411497680053, pvalue=0.68387966499013)

При использовании встроенного теста, результат аналогичный :<br> 
$pvalue \approx 0.52$, что существенно выше любого стандартного $a$, следовательно гипотеза $H_0$ не отвергается!