## Урок 5. Тестирование гипотез

In [1]:
import numpy as np
from scipy.stats import norm, t as t_stat, ttest_rel

### Задача 1.

Когда используется критерий Стьюдента, а когда Z –критерий?

Критерий Стьюдента используется для сравнения средних в группах, когда стандартное отклонение совокупности неизвестно, или размер выборки слишком мал (пусть будет n < 30). 

Z-критерий используются, когда известно стандартное отклонение совокупности и размер выборки n > 30.

### Задача 2.

Проведите тест гипотезы. Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм. Используя односторонний критерий с α=0,05, проверить эту гипотезу, если в выборке из n=100 шариков средний диаметр оказался равным 17.5 мм, а дисперсия известна и равна 4 кв. мм.

Раз дисперсия известна и выборка достаточно велика, будем использовать Z-тест. Нам дано:

In [2]:
d1 = 17        # мм - средний диаметр всех изготовленных шариков
d2 = 17.5      # мм - средний диаметр шариков в выборке
D = 4          # мм^2 - дисперсия всех изготовленных шариков
n = 100        # шт - размер выборки
alpha = 0.05   # уровень значимости

Сначала определимся с нулевой и альтернативной гипотезами.

- $H_0: d_1 = d_2$
- $H_1: d_1 < d_2$ (выбрал одностороннюю гипотезу, как написано в условии)

Теперь вычислим критическое значение z для распределения $d_1$:

In [3]:
critical = norm.ppf(1-alpha)
critical

1.6448536269514722

Теперь рассчитаем z-критерий для наших показателей:

$\displaystyle z = \frac{d_2 - d_1}{\sqrt{D} / \sqrt{n}} = \frac{17.5 - 17}{\sqrt{4} / \sqrt{100}} = 2.5$

In [4]:
z = (d2 - d1) / (np.sqrt(D) / np.sqrt(n))
z

2.5

Полученное значение превышает критическую отметку, а это значит, что у нас есть основания отклонить $H_0$.

Проверим себя:

In [5]:
p_value = 1 - norm.cdf(z)
p_value

0.006209665325776159

p_value значительно меньше уровня значимости $\alpha$, а значит, есть все основания отклонить $H_0$<br>
**Вывод:** Автомат сбоит и средний диаметр шариков превышает 17 мм

### Задача 3.

Проведите тест гипотезы. Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет: 202, 203, 199, 197, 195, 201, 200, 204, 194, 190.

Известно, что их веса распределены нормально. Верно ли утверждение продавца, если учитывать, что доверительная вероятность равна 99%? (Провести двусторонний тест.)

Раз в выборке не так много значений, выберем для решения t-test (да и про дисперсию в тексте ничего не написано 🙂). Нам дано:

In [6]:
selection = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])    # веса выбранных пачек
alpha = 0.01                                                                # т.к. доверительная вероятность 0.99
mu = 200                                                                    # по утверждению продавца
n = 10                                                                      # количество выбранных пачек

Формулируем нулевую и альтернативную гипотезы:

- $H_0: \mu = 200$
- $H_1: \mu \neq 200$

Теперь посчитаем среднее и выборочную несмещенную дисперсию:

$\displaystyle \overline{x} = \frac{\sum_{i=1}^n x}{n}$

$\displaystyle D = \frac{\sum_{i=1}^n(x - \overline{x})}{n - 1}$

In [7]:
avg_x = selection.mean()
D = selection.var(ddof=1)

avg_x, D

(198.5, 19.833333333333332)

Определим критические значение t-распределения (построим доверительный интервал):

In [8]:
critical_1 = t_stat.ppf(alpha/2, 9)  # alpha/2 т.к. - двусторонняя гипотеза
critical_2 = t_stat.ppf(1 - alpha/2, 9)
critical_1, critical_2

(-3.24983554401537, 3.2498355440153697)

И проведем тест

$\displaystyle t = \frac{\overline{x} - \mu}{\sqrt{D} / \sqrt{n}} = \frac{198.5 - 200}{\sqrt{19.83} / \sqrt{10}} = -1.065$

In [9]:
t = (avg_x - mu) / (np.sqrt(D) / np.sqrt(n))
t

-1.0651074037450896

Отклонение в весе не превышает критического значения, а значит оснований отклонить $H_0$ у нас нет. Но - проверим себя:

In [10]:
t_stat.cdf(t, 9)

0.15728330176236427

p_value значительно выше уровня $\alpha / 2$. Следовательно нет оснований отвергать $H_0$.<br>
**Вывод:** продавец не врет, и средний вес пачки - действительно 200 грамм

### Задача 4.

Есть ли статистически значимые различия в росте дочерей?<br>
Рост матерей 172, 177, 158, 170, 178,175, 164, 160, 169, 165<br>
Рост взрослых дочерей: 173, 175, 162, 174, 175, 168, 155, 170, 160, 163

Прежде чем начать формулировать гипотезы, я хочу определиться с уровнем значимости.<br> 
Пусть $\alpha = 0.05$  

In [11]:
m_height = np.array([172, 177, 158, 170, 178, 175, 164, 160, 169, 165])
d_height = np.array([173, 175, 162, 174, 175, 168, 155, 170, 160, 163])

alpha = 0.05

Так как нам неизвестно, в какую сторону может отклоняться рост, то сформулируем двустороннюю альтернативную гипотезу:

- $H_0: m\_height = d\_height$
- $H_1: m\_height \neq d\_height$

А раз выборки зависимые (ну - я надеюсь 🙂), то воспользуемся ttest_rel()

In [12]:
ttest_rel(m_height, d_height)

TtestResult(statistic=0.6648478531431979, pvalue=0.5228168632983574, df=9)

p_value гораздо больше $\alpha/2$, следовательно, отклонять $H_0$ оснований нет.<br>
**Вывод:** значимых различий в росте матерей и дочерей нет.