In [2]:
import numpy as np
import pandas as pd
from scipy import stats

### Тестирование гипотез

# Задача 1.
Когда используется критерий Стьюдента, а когда Z –критерий? 

# Ответ

Критерий Стьюдента используется при сравнении средних значений между двумя группами, а Z-критерий - для проверки гипотез об одном среднем значении.

*Задачи 2,3 решать вручную*

# Задача 2
Проведите тест гипотезы. Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм. Используя односторонний критерий с α=0,05, проверить эту гипотезу, если в выборке из n=100 шариков средний диаметр оказался равным 17.5 мм, а дисперсия известна и равна 4 кв. мм.

# Решение

Сформулируем нулевую гипотезу:  
$H0: \mu=\mu_0=17$, где $\mu$ и $\mu_0$ средние выборки и генеральной совокупности и выборки, соответственно.  
Альтернативная гипотеза:  
$H1: \mu>\mu_0$  
Поскольку нам известны и среднее и дисперсия генеральной совокупности, то для проверки гипотезы будем использовать $z$-критерий.  
$z_н=\frac{\bar X-\mu_0}{\sigma/\sqrt n}$, где  
$\bar X=\mu=17.5$ среднее по выборке,  
$\sigma=\sqrt 4=2$ среднее квадратическое отклонение генеральной совокупности,  
$n=100$ размер выборки.  

In [None]:
z=(17.5-17)/0.2
print(f'Наблюдаемое значение z-критерия: {z: .4f}')

Наблюдаемое значение z-критерия:  2.5000

Сравним полученные значения:

In [None]:
z<zt

False

Поскольку $z_н>z_t$, отвергаем нулевую гипотезу на уровне значимости $\alpha=0.05$

# Ответ:

Нулевая гипотеза не подтверждена

# Задача 3
Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет: 202, 203, 199, 197, 195, 201, 200, 204, 194, 190. Известно, что их веса распределены нормально. Верно ли утверждение продавца, если учитывать, что доверительная вероятность равна 99%? (Провести двусторонний тест.)

# Решение:

$
P \left( 
\overline{X} - t_{1 - \alpha/2, \: n - 1} \cdot \dfrac{S}{\sqrt{n}} 
\leq M(X) \leq
\overline{X} + t_{1 - \alpha/2, \: n - 1} \cdot \dfrac{S}{\sqrt{n}} 
\right) = 1 - \alpha.
$

In [43]:
n = 10
alpha = 0.01

samples = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])

In [44]:
m = samples.mean()
m

198.5

In [45]:
s = samples.std(ddof=1)
s

4.453463071962462

In [46]:
# n-1
t_obj = stats.t(n - 1)

In [47]:
# 1 - alpha / 2
t = t_obj.ppf(1 - alpha / 2)
t

3.2498355440153697

In [48]:
(m - t * s / np.sqrt(n), m + t * s / np.sqrt(n))

(193.92322840036354, 203.07677159963646)

# Ответ:

Утверждение продавца верно, т.к. оно попадает в доверительный интервал.

# Задача 4

Есть ли статистически значимые различия в росте дочерей?
Рост матерей 172, 177, 158, 170, 178,175, 164, 160, 169, 165
Рост взрослых дочерей: 173, 175, 162, 174, 175, 168, 155, 170, 160

*Задачу 4 решать с помощью функции*

# Решение

# функция вычисляет статистику критеря для проверки гипотезы равенства
# средних двух парных выборок
# x, y - выборки одинакового объема

In [None]:
def equalmean(x,y):
    # вычисляем разность выборок
    dif=mothers-daughters
    n=len(dif)
    # вычисляем среднее разности
    mean_dif=dif.mean()
    # вычисляем несмещенную дисперсию разности
    var_dif=dif.var()*n/(n-1)
    # вычисляем t-статистику
    t=mean_dif/math.sqrt(var_dif)*math.sqrt(n)
    # вычисляем р-уровень
    p = 1 - math.fabs(stats.t.cdf(t,n-1) - stats.t.cdf(-t,n-1))
    return t,p
    

mothers=np.array([172,177,158,170,178,175,164,160,169,165])
daughters=np.array([173,175,162,174,175,168,155,170,160])
t,p=equalmean(mothers,daughters)
print("t-статистика критерия = ",t)
print("p-уровень = ",p)
alpha=float(input("Введите уровень значимости "))
if p>alpha:
    print("статистически значимых различий в росте матерей и дочерей нет")
else:
    print("есть статистически значимые различия в росте матерей и дочерей")
print("\n Проверка с помощью встроенной функции")
res=stats.ttest_rel (a=mothers, b=daughters)
print("t-статистика критерия = ",res.statistic)
print("p-уровень = ",res.pvalue)