In [None]:
!pip install statsmodels --quiet

# Z-test

In [1]:
import numpy as np
from statsmodels.stats.weightstats import ztest

## На одній вибірці

Згенеруємо випадковий масив із 50 чисел, що мають середнє значення 110 і стандартне відхилення 15, аналогічно до даних IQ, які ми припускаємо в задачі.

In [23]:
mean_iq = 110
sd_iq = 15
alpha = 0.05
null_mean_iq = 100
sample_size = 50

In [33]:
# генеруємо дані
data = np.random.randn(sample_size) * sd_iq + mean_iq

In [None]:
# альтернативно можна згенерувати дані
# data = np.random.normal(mean_iq, sd_iq, sample_size)

In [34]:
# перевірка результатів

print("Середнє вибірки: {:.2f}".format(np.mean(data)))
print("Стандартне відхилення вибірки: {:.2f}".format(np.std(data)))

Середнє вибірки: 107.99
Стандартне відхилення вибірки: 17.46


In [35]:
data

array([ 99.10587161,  88.96397539,  96.80889499, 100.5341728 ,
       104.33490886,  94.50249722,  96.36199938,  73.69463344,
       109.55717223,  91.34130998, 125.41639678, 118.94427766,
       114.08896444,  98.98751278,  93.83498105,  92.55816951,
        93.5012093 , 130.35615043, 110.44967246, 103.4420898 ,
       102.45817406,  84.02735294, 101.37993537, 106.71785488,
       111.08912214, 105.94477279, 139.15456221, 122.21336054,
        70.25753009,  94.93900283, 154.13786192, 135.07063153,
        80.09756764, 106.30628527, 121.29272584,  97.7414799 ,
        93.22195428,  97.11490675, 112.69298145, 127.01251931,
       131.05980591, 132.77250566, 120.40232605, 124.84218055,
       109.62986481, 134.46385693, 105.8526114 ,  95.20644006,
       131.56491426, 113.93865131])

Тепер проводимо тест. У цій функції ми передали дані, у параметрі значення ми передали середнє значення в нульовій гіпотезі, в альтернативній гіпотезі ми перевіряємо, чи більше середнє значення

In [36]:
# дані, середнє ген сукупності (Н0), умова альтернативи
ztest_Score, p_value = ztest(data, value=null_mean_iq, alternative='larger')

In [37]:
ztest_Score, p_value

(3.2016551072068484, 0.0006832024491998074)

Функція виводить p_value і z-score, що відповідають цьому значенню, ми порівнюємо p-значення з альфа, якщо воно більше альфа, то ми не приймаємо нульову гіпотезу, інакше ми її відхиляємо.

In [38]:
if(p_value < alpha):
    print('Відхилити H0')
else: 
    print('H0 не може бути відхилена')

Відхилити H0


## На двох вибірках

Порівняємо рівні IQ у двох різних містах.

In [39]:
# IQ в двох містах
cityA = [82, 84, 85, 89, 91, 91, 92, 94, 99, 99,
         105, 109, 109, 109, 110, 112, 112, 113, 114, 114]

cityB = [90, 91, 91, 91, 95, 95, 99, 99, 108, 109,
         109, 114, 115, 116, 117, 117, 128, 129, 130, 133]

In [40]:
np.mean(cityA), np.mean(cityB)

(100.65, 108.8)

Виконуємо тест.

Важливий параметр методу ztest:
- value : float  
    In the one sample case, value is the mean of x1 under the Null
    hypothesis.
    In the two sample case, value is the difference between mean of x1 and
    mean of x2 under the Null hypothesis. The test statistic is
    `x1_mean - x2_mean - value`.
    
Метод z-test вертає

- tstat : float,
    test statistic
- pvalue : float,
    pvalue of the t-test

In [41]:
ztest(cityA, cityB, value=0)

(-1.9953236073282115, 0.046007596761332065)

Статистика для двох вибірок z-критерію становить -1.9953, а відповідне p-value дорівнює 0.0460.

Оскільки p-value < 0.05, у нас є достатньо доказів, щоб відкинути нульову гіпотезу. Іншими словами, середній рівень IQ значно різниться між двома містами.