In [1]:
import numpy as np
from scipy import stats

# Задача 1

Пусть sample это наша выборка:

In [7]:
sample = np.array([12.9, 11.6, 13.5, 13.9, 12.1, 11.9, 13.0])

Итак, для проверки воспользуемся одновыборочном критерием Стьюдента. Следует учесть, что данным критерием можно пользоваться, когда выборочное среднее имеет нормальное распределение. Так как для использования центральной предельной теоремы недостаточно наблюдений, то проверим имеют ли сами наблюдения нормальное распределение через критерий Шапиро-Уилка(где нулевая гипотеза состоит в том, что переменная распределена нормально):

In [8]:
stats.shapiro(sample)

ShapiroResult(statistic=0.9461530447006226, pvalue=0.6946031451225281)

Получили p-value=0.69, что больше 0.05, а следовательно, мы не можем отвергнуть нулевую гипотезу и напряжения батареек распределены нормально.

Теперь сформулируем нулевую и альтернативную гипотезы для критерия Стьюдента:

* H0: Cреднее напряжение равно 12В (mu = 12)
* H1: Среднее напряжение не равно 12В (mu ≠ 12)

То есть:

In [6]:
mu0 = 12

Далее воспользуемся одновыборочным критерием Стьюдента для двухсторонней критической области:

In [9]:
stats.ttest_1samp(sample, mu0, alternative='two-sided')

TtestResult(statistic=2.1578017974978794, pvalue=0.07430190210562304, df=6)

Получили p-value=0.07, что больше 0.05, а следовательно, на уровне значимости 0.05 мы не можем отвергнуть нулевую гипотезу, то есть **среднее напряжение батареек действительно равно 12В**.

# Задача 2

Итак, в задаче представлены парные наблюдения, обозначим их sample2_1 и sample2_2:

In [6]:
sample2_1 = np.array([23.1, 23.2, 26.5, 26.6, 27.1, 48.3, 40.5, 25.0, 38.4, 23.5])

In [7]:
sample2_2 = np.array([22.7, 23.6, 27.1, 27.4, 27.4, 46.8, 40.4, 24.9, 38.1, 23.8])

Чтобы узнать, даёт ли один метод в среднем более высокие показания, чем другой, найдем попарно разницу между показаниями первого и второго метода:

In [8]:
sample2_diff = sample2_2 - sample2_1
sample2_diff

array([-0.4,  0.4,  0.6,  0.8,  0.3, -1.5, -0.1, -0.1, -0.3,  0.3])

Итак, если методы в среднем дают одинаковые результаты, то в среднем разница в показаниях равна нулю.

Для проверки воспользуемся одновыборочном критерием Стьюдента. Для начала по критерию Шапиро-Уилка проверим, имеет ли наблюдение нормальное распределение:

In [12]:
stats.shapiro(sample2_diff)

ShapiroResult(statistic=0.899848461151123, pvalue=0.21825818717479706)

p-value=0.22 > 0.05, следовательно, на уровне значимости 0.05 мы не можем отвергнуть нулевую гипотезу, то есть наблюдение имеет нормальное распределение.

Сформулируем нулевую и альтернативную гипотезы для критерия Стьюдента:

* H0: Разница в показаниях равна 0 (mu_z = 0)
* H1: Разница в показания не равна 0 (mu_z ≠ 0) 

In [11]:
mu0_2 = 0

Далее снова воспользуемся одновыборочным критерием Стьюдента для двухсторонней критической области:

In [13]:
stats.ttest_1samp(sample2_diff, mu0_2, alternative='two-sided')

TtestResult(statistic=-1.7154884978678027e-15, pvalue=0.9999999999999987, df=9)

Получили p-value=1, что больше 0.05, а следовательно, на уровне значимости 0.05 мы не можем отвергнуть нулевую гипотезу, то есть разница в показаниях двух методов равна 0 или, другими словами, **методы в среднем дают одинаковые показания**.

# Задача 3

В задаче представлены независимые наблюдения уровня систолического артериального давления горожан и жителей села, обзначим их city_pressure и village_pressure соответственно:

In [2]:
city_pressure = np.array([132, 111, 119, 138, 200, 131, 138, 170, 159, 140])
village_pressure = np.array([115, 190, 127, 155, 148, 121, 116, 121, 197])

Чтобы воспользоваться критерием Стьюдента, проверим, имеют ли дисперсии в двух выборках значимые различия по критерию Левене (нулевая гипотеза состоит в том, что дисперсии не имеют значимых различий):

In [3]:
stats.levene(city_pressure, village_pressure)

LeveneResult(statistic=0.3974576250414972, pvalue=0.5367886818028731)

Итак, p-value=0.54, что больше 0.05, значит на уровне значимости 0.05 мы не можем отвергнуть нулевую гипотезу и считаем, что дисперсии в двух выборках не имеют значимых различий.

Далее, проверим, имеют ли сами наблюдения нормальное распределение через критерий Шапиро-Уилка(где нулевая гипотеза состоит в том, что переменная распределена нормально):

In [19]:
stats.shapiro(city_pressure)

ShapiroResult(statistic=0.9100654125213623, pvalue=0.2814405560493469)

p-value=0.28 > 0.05, значит считаем, что давление горожан распределено нормально.

In [20]:
stats.shapiro(village_pressure)

ShapiroResult(statistic=0.828664243221283, pvalue=0.043139804154634476)

p-value=0.04 < 0.05, значит на уровне значимости 0.05 отвергаем нулевую гипотезу и считаем, что давление жителей села не имеет нормального распределения.

Так как один из наборов данных не имеет нормального распределения, то нельзя воспользоваться критерием Стьюдента для независимых групп. Поэтому воспользуемся критерием Манна-Уитни, для которого не нужно нормальное распределение.

Чтобы узнать, можно ли считать на уровне значимости 0.05 верной гипотезу о том, что жители городов имеют в среднем более высокое систолическое артериальное давление, чем жители сельской местности, сформулируем соответствующие нулевую и альтернативную гипотезы:

* H0: жители городов имеют в среднем такое же систолическое артериальное давление, как и жители сельской местности 
* H1: жители городов имеют в среднем более высокое систолическое артериальное давление, чем жители сельской местности 

In [7]:
stats.mannwhitneyu(city_pressure, village_pressure, alternative='greater')


MannwhitneyuResult(statistic=50.0, pvalue=0.3565312487796153)

Получили p-value=0.36 > 0.05, а значит, что на уровне значимости 0.05 мы не можем отвергнуть нулевую гипотезу, то есть **жители городов имеют в среднем такое же систолическое артериальное давление, как и жители сельской местности**.

# Задача 4

Чтобы понять, можно ли на уровне значимости 0,05 считать, что смертность среди мужчин и женщин одинакова, воспользуемся биноминальным тестом: если смертность между мужчинами и женщинами одинакова, то нет разницы между долей новорожденных мальчиков и долей мужчин в представленной выборке.

Сформулируем нулевую и альтернативную гипотезы:

* H0: нет разницы между долей новорожденных мальчиков и долей мужчин в представленной выборке 
* H1: есть разница между долей новорожденных мальчиков и долей мужчин в представленной выборке

Итак, воспользуемся биноминальным тестом с ожидаемой вероятностью события 0.52 (=52%):

In [6]:
stats.binomtest(2500, 5000, 0.52).pvalue

0.0048495021595452836

p-value=0.005, что меньше 0.05, следовательно, на уровне значимости 0.05 нулевая гипотеза отвергается в пользу альтернативной, то есть имеется разница между долей новорожденных мальчиков и долей мужчин в представленной выборке, другими словами, **смертность между мужчинами и женщинами неодинакова**.

# Задача 5

Причина таких результатов, при условии, что нулевая и альтернативная гипотезы в обоих случаях одинаковы, может быть в том, что:
* в первом случае дисперсия могла быть маленькой, то есть даже небольшая разница между средними стала бы значимой, а во втором случае дисперсия могла быть, наоборот, очень высокой.
* в первом случае размеры выборок могли быть очень большими, что также бы сделало небольшую разницу в средних статистически значимой, так как большие выборки дают узкие доверительные интервалы, а во втором случае, напротив, размеры выборок сильно меньше, что снизило бы мощность теста и привело к отсутствию значимости, даже при большой разнице средних.