In [1]:
import numpy as np
from scipy import stats

# Задача 1

Из партии батареек с номинальным напряжением 12 В наугад выбрано семь штук. Согласно показаниям высокоточного вольтметра, фактически выдаваемое ими напряжение составило: 12,9; 11,6; 13,5; 13,9; 12,1; 11,9; 13,0 В соответственно. Можно ли считать, что среднее напряжение действительно равно 12 В?

В данной задаче необходимо проверить следующую гипотезу о среднем:

$H_0$: $μ = 12$ \\
$H_a$: $μ \neq 12$

где $μ$ - мат. ожидание случайной величины, которая описывает распределение наблюдений в выборке.

In [2]:
sample = np.array([12.9, 11.6, 13.5, 13.9, 12.1, 11.9, 13.0])
mu0 = 12

Проверим имеющиеся данные на нормальность с помощью критерия Шапиро-Уилка:

In [3]:
stats.shapiro(sample)

ShapiroResult(statistic=0.9461528332649155, pvalue=0.694601251101445)

На уровне значимости 0.05 гипотеза о нормальности распределения имеющихся данных не отвергается (p-value$ = 0.69 > 0.05$) $⇒$ для проверки гипотезы воспользуемся **одновыборочным критерием Стьюдента**:

In [4]:
stats.ttest_1samp(sample, mu0)

TtestResult(statistic=2.1578017974978794, pvalue=0.07430190210562304, df=6)

Зафиксируем уровень значимости $\alpha = 0.05$ $⇒$ имеем: p-value $= 0.074 > \alpha$.

Значит, на уровне значимости $0.05$ гипотеза $H_0$ не отвергается $⇒$ **можно считать, что на уровне значимости 0.05 среднее напряжение равно 12 В**.

# Задача 2

Есть два различных метода определения процентного содержания жира в мясе. Доля жира для 10 образцов мяса была определена каждым из двух методов. Позволяют ли полученные результаты сделать вывод о том, что один метод даёт в среднем более высокие показания, чем другой?

Оговорюсь, что в данном задании фразу "один метод дает в среднем более высокие показания, чем другой" я понимаю, как любой из методов может давать более высокие показания (т.е. показания в среднем не равны), т.к. не уточняется какой именно метод - первый или второй, более того, у нас нет предпосылок считать, что один из методов должен давать более высокие показания.

In [5]:
x = np.array([23.1, 23.2, 26.5, 26.6, 27.1, 48.3, 40.5, 25.0, 38.4, 23.5])
y = np.array([22.7, 23.6, 27.1, 27.4, 27.4, 46.8, 40.4, 24.9, 38.1, 23.8])
z = x - y

По условию в двух выборках одни и те же образцы мяса $⇒$ работаем с зависимыми выборками $⇒$ будем проверять гипотезу о равенстве средних для парных наблюдений. Для проверки гипотезы воспользуемся **критерием Стьюдента для парных выборок**.

Пусть $Z_i = X_i - Y_i$

$H_0$: $μ_z = 0$ \\
$H_a$: $μ_z \neq 0$

где $μ_z$ - мат. ожидание случайной величины, которая описывает распределение наблюдений в выборке Z.



Не забываем проверить имеющиеся данные на нормальность с помощью критерия Шапиро-Уилка:

In [6]:
stats.shapiro(z)

ShapiroResult(statistic=0.8998483579792755, pvalue=0.21825780478589868)

На уровне значимости 0.05 гипотеза о нормальности распределения имеющихся данных не отвергается (p-value$ = 0.22 > 0.05$).

In [7]:
stats.ttest_1samp(z, 0)

TtestResult(statistic=1.7154884978678027e-15, pvalue=0.9999999999999987, df=9)

Зафиксируем уровень значимости $\alpha = 0.05$ $⇒$ имеем: p-value $= 0.99 > \alpha$.

Значит, на уровне значимости $0.05$ гипотеза $H_0$ не отвергается, т.е. оба метода дают в среднем одинаковые показания $⇒$ **на уровне значимости 0.05 не можем сделать вывод о том, что один метод дает в среднем более высокие показания, чем другой**.

# Задача 3

Для проверки гипотезы о том, что жители городов имеют в среднем более высокое систолическое артериальное давление, чем жители сельской местности, было проведено обследование 10 горожан и 9 жителей села примерно одного возраста. Получены следующие данные об уровне давления для горожан: 132, 111, 119, 138, 200, 131, 138, 170, 159, 140; для селян: 115, 190, 127, 155, 148, 121, 116, 121, 197. Можно ли считать верной выдвинутую гипотезу на уровне значимости 0,05?

In [8]:
x = np.array([132, 111, 119, 138, 200, 131, 138, 170, 159, 140])
y = np.array([115, 190, 127, 155, 148, 121, 116, 121, 197])

Проверим имеющиеся данные на нормальность с помощью критерия Шапиро-Уилка:

In [9]:
stats.shapiro(x), stats.shapiro(y)

(ShapiroResult(statistic=0.9100654196723891, pvalue=0.281440686937816),
 ShapiroResult(statistic=0.8286640993349573, pvalue=0.04313951145476069))

На уровне значимости 0.05 гипотеза о нормальности распределения имеющихся давлений горожан не отвергается (p-value$ = 0.28 > 0.05$), а нормальности давлений селян - отвергается (p-value$ = 0.043 < 0.05$). Всё равно будем использовать критерий Стьюдента (как сказал Александр на лекции, если есть хочется, то и без приборов поешь - также и здесь с необходимостью решить задачу).

В данной задаче необходимо проверить гипотезу о равенстве средних для независимых выборок (здесь у нас горожане и жители села - разные люди):

$H_0$: $μ_x = μ_x$ \\
$H_a$: $μ_x > μ_y$

где $μ_x$ и $μ_y$ - мат. ожидания случайных величин, описывающих распределение наблюдений в выборке X и Y соответственно.

Для проверки гипотезы воспользуемся **критерием Стьюдента для независимых выборок**:

In [10]:
m = len(x)
n = len(y)
s2x = x.var()
s2y = y.var()

T = (x.mean() - y.mean())/(s2x/m + s2y/n)**0.5

df = round( (s2x/m + s2y/n)**2 / ( (s2x/m)**2/(m-1) + (s2y/n)**2/(n-1) ))
St = stats.t(df)

P = 1 - St.cdf(T)
print("p-value: ",P)

p-value:  0.48554266145506586


In [11]:
stats.ttest_ind(x, y).pvalue / 2 # в готовой реализации делается предположение о равенстве дисперсий, но даже так мы получили p-value > 0.05

0.486178812200461

Имеем уровень значимости $\alpha = 0.05$ $⇒$ p-value $= 0.49 > \alpha$.

Значит, на уровне значимости $0.05$ гипотеза $H_0$ не отвергается $⇒$ **на уровне значимости 0.05 нельзя считать верной гипотезу о том, что горожане имеют в среднем более высокое давление, чем сельские жители**.

# Задача 4

Известно, что 52% новорождённых детей — мальчики, а 48% — девочки. В случайной выборке из 5 000 человек в возрасте от 30 до 60 лет мужчин оказалось 2 500. Можно ли на уровне значимости 0,05 считать, основываясь на этих данных, что смертность среди мужчин и женщин одинакова?

Работаем с бинарными наблюдениями: 1 $\Leftrightarrow$ мужчина, 0 $\Leftrightarrow$ женщина. Будем проверять гипотезу о доле:



$H_0$: $p = 0.52$ \\
$H_a$: $p \neq 0.52$

где $p$ - доля успешных опытов (вероятность успеха).

Для проверки гипотезы воспользуемся **биномиальным критерием**:

In [12]:
stats.binomtest(2500, 5000, 0.52).pvalue

0.0048495021595452836

Имеем уровень значимости $\alpha = 0.05$ $⇒$ p-value $= 0.0048 < \alpha$.

Значит, на уровне значимости $0.05$ гипотеза $H_0$ отвергается, т.е. доли мужчин и женщин относительно долей с рождения уже другие $⇒$ **на уровне значимости 0.05 не можем считать, что смертность среди мужчин и женщин одинакова**.

# Задача 5

В первом эксперименте для сравнения двух средних X1=17, X2=16 применялся t-критерий Стьюдента, и эти различия оказались значимы (p = 0, 001).

Во втором исследовании, также при помощи t - критерия, сравнивались два средних X1=17, X2=36, и эти различия не значимы при p = 0,8. В чем может быть причина таких результатов, при условии, что нулевая и альтернативная гипотезы в обоих случаях одинаковы?

Статистика критерия: $$T = \frac{\overline{X_1} - \overline{X_2}}{\sqrt{\frac{S_{X_1}^2}{m} + \frac{S_{X_2}^2}{n}}}$$ где m, n - объем первой и второй выборок соответственно.

Исходя из этой формулы можем понять, что на ее значение влияют объемы выборок и выборочные дисперсии.

В 1 эксперименте со стат. значимыми различиями (p-value = 0.01 < 0.05) и близкими средними ($X_1$ = 17 и $X_2 = 16$) мог быть большой объем выборок, и при нем мы смогли выловить небольшие различия между средними значениями. Также могла быть дисперсия малой $⇒$ данные находятся вокруг среднего значения, значит, более вероятно обнаружим стат. значимые различия.

Во 2 эксперименте, в котором различия стат. не значимы (p-value = 0.8 > 0.05),  мог быть малый объем выборок, при которых мы не смогли выявить различия. Дисперсия могла быть большой $⇒$ данные сильно отклоняются от среднего $⇒$ сложнее обнаружить стат. значимые различия между выборками, даже существенные.