В цьому ДЗ потренуємось виконувати Z-тести для тестування гіпотез в різних задачах. Для коректної імплементації та інтерпретації тестів рекоемндую переглянути спершу документацію:

https://www.statsmodels.org/dev/generated/statsmodels.stats.weightstats.ztest.html

### Завдання 1: Z-тест для однієї вибірки

**Мета**: Перевірити, чи середнє значення вибірки відрізняється від гіпотетичного середнього.

**Припущення**: Середній ріст студентів університету вважається 170 см. Ми хочемо перевірити, чи середній ріст випадкової вибірки студентів істотно більший. Вибірка задана в змінній `heights`.

Для виконання завдання імпортуйте метод для проведення `ztest`, виконайте Z-тест з Python, виведіть p-value і зробіть заключення, чи справдилось припущення про середній зріст студентів на рівні значущості 0.05?

Використовуємо тут Z-тест, оскільки вибірка достатньо велика (більше 30 екземплярів) і можемо вважати, що її стандартне відхилення близьке до ст. відхилення генеральної сукупності, а значить - відоме.

In [3]:
heights = [174, 171, 175, 179, 170, 170, 179, 175, 169, 174, 169, 169, 173, 162, 163, 169, 166,
           173, 167, 164, 179, 170, 172, 164, 169, 175, 169, 174, 169, 169, 173, 162, 177]

In [14]:
import numpy as np
from statsmodels.stats.weightstats import ztest

null_mean: int = 170  # Нульова гіпотеза
alpha = 0.05  # рівень значущості

sample_mean = np.mean(heights)
stdv = np.std(heights)
print(f'Середнє значення вибірки: {sample_mean}')
print(f'Стандартне відхилення вибірки: {stdv}')

# Виконання Z-тесту
# alternative='larger' - Перевіряє, чи середнє значення вибірки більше за гіпотетичне середнє.
z_stat, p_value = ztest(heights, value=null_mean, alternative='larger')

print(f'Z-статистика: {z_stat}')
print(f'p-value: {p_value}')

# Інтерпретація результатів

if p_value < alpha:
    print("Відхиляємо Н0 (нульову гіпотезу): середній ріст студентів статистично відрізняється від 170 см.")
else:
    print("Н0 (нульова гіпотеза) не може бути відхилена")

Середнє значення вибірки: 170.6969696969697
Стандартне відхилення вибірки: 4.648133209409457
Z-статистика: 0.8482235371587619
p-value: 0.19815674571091751
Н0 (нульова гіпотеза) не може бути відхилена


**Висновок**: Оскільки p-value > 0.05, то у нас немає достатньо, що середній ріст студентів статистично відрізняється від 170 см.

### Завдання 2: Z-тест для двох незалежних вибірок

**Завдання 2.1.**

**Мета**: Перевірити, чи існує статистична різниця між середніми оцінками двох груп студентів.

**Припущення**: Група A отримала новий навчальний курс, а група B продовжувала зі стандартним курсом. Ми перевіряємо, чи є новий курс ефективнішим.

Виконайте Z-тест з Python, виведіть p-value і зробіть заключення, чи справдилось припущення щодо студентів на рівні значущості 0.05?

In [7]:
group_a_scores = [78.55, 72.25, 79.88, 75.  , 76.54, 74.99, 87.26, 77.93, 72.71,
       82.11, 71.9 , 79.04, 68.2 , 71.36, 78.98, 81.69, 78.86, 77.42,
       76.49, 70.61, 74.4 , 75.7 , 83.29, 79.72, 69.18, 79.62, 76.07,
       74.62, 81.06, 83.15, 82.66, 73.8 , 76.45, 79.66, 82.88, 75.6 ,
       77.07, 72.47, 72.02, 82.06]

group_b_scores = [81.78, 74.64, 80.02, 76.81, 71.77, 76.81, 82.69, 74.82, 82.82,
       61.9 , 79.11, 75.44, 73.5 , 75.46, 65.06, 73.9 , 76.79, 82.39,
       72.41, 70.96, 72.49, 79.58, 76.64, 72.35, 77.57, 75.49, 79.84,
       71.49, 73.36, 73.04, 67.68, 76.48, 76.31, 75.03, 73.83, 67.92,
       72.9 , 73.29, 70.99, 74.19]

In [12]:
# Обчислимо середні значення вибірок
group_a_scores_mean, group_b_scores_mean = np.mean(group_a_scores), np.mean(group_b_scores)

print(f"Середній бал групи A: {group_a_scores_mean:.2f}")
print(f"Середній бал групи B: {group_b_scores_mean:.2f}")

alpha = 0.05  # рівень значущості

# Виконання Z-тесту
z_stat, p_value = ztest(group_a_scores, group_b_scores, value=0, alternative='two-sided')

# Виведення результатів
print(f"Z-статистика: {z_stat:.2f}")
print(f"P-значення: {p_value:.4f}")

# Інтерпретація результатів
if p_value < alpha:
    print("Відхиляємо H0: середні оцінки груп статистично відрізняються.")
else:
    print("H0 не може бути відхилена: середні оцінки груп не відрізняються.")

Середній бал групи A: 77.08
Середній бал групи B: 74.74
Z-статистика: 2.36
P-значення: 0.0184
Відхиляємо H0: середні оцінки груп статистично відрізняються.


**Висновок**: Оскільки p-value < 0.05, то ми можемо відхилити нульову гіпотезу про те, що середні оцінки груп студентів не відрізняються. Тобто іншими словами кажучи, є статистично значуща різниця між середніми оцінками груп A та B і це свідчить у свою чергу, що новий курс є ефективнішим (це група А).

**Завдання 2.2.**


**Мета**: Побачити, як впливає розмір вибірок на результат тесту.

**Завдання**: Уявіть, що з групи А ми маємо тільки перші 5 записів, а з групи В - усі. Таке могло статись, якщо ми вже маємо результати тестів учнів за попередньою програмою, а тести за новою програмою здали наразі лише 5 учнів і ми вирішили не чекати довше.
Виберіть перші 5 записів для групи А і проведіть t-test (для цього використовуємо наступний [метод](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html)). Виведіть значення p-value. Зробіть висновок, який результат ви бачите щодо стат. значущості на рівні 0.05 для цього експерименту?

Тут проводимо t-test оскільки одна з вибірок - дуже мала.

In [20]:
from statsmodels.stats.weightstats import ttest_ind

first_5_group_a_scores = group_a_scores[:5]
alpha = 0.05  # рівень стат. значущості

mean_1, mean_2 = np.mean(first_5_group_a_scores), np.mean(group_b_scores)
print(f"Середній бал перших 5 студентів групи A: {mean_1:.2f}")
print(f"Середній бал групи B: {mean_2:.2f}")

t_stat, p_value, _ = ttest_ind(first_5_group_a_scores, group_b_scores, alternative='two-sided')

print(f"t-статистика: {t_stat:.2f}")
print(f"p-значення: {p_value:.4f}")

if p_value < alpha:
    print("Відхиляємо H0: середні оцінки груп статистично відрізняються.")
else:
    print("H0 не може бути відхилена: середні оцінки груп не відрізняються.")

Середній бал перших 5 студентів групи A: 76.44
Середній бал групи B: 74.74
t-статистика: 0.82
p-значення: 0.4185
H0 не може бути відхилена: середні оцінки груп не відрізняються.


**Висновок**: Оскільки p-value > 0.05, то ми не можемо відхилити нульову гіпотезу про те, що середні оцінки груп студентів не відрізняються. Тобто іншими словами кажучи, немає статистично значущої різниці між середніми оцінками груп A та B.
Але так як ми тут взяли лише 5 перших записів з групи А, то можливо, що якби ми взяли більше записів, то результати могли б відрізнятися (що ми і побачили у верхньому домашньому завданні)


### Завдання 3: Z-тест для двох **пов'язаних** вибірок

**Мета**: Перевірити, чи вплинув тренінг на продуктивність працівників, коли всі справробітники проходили тренінг.

**Припущення**: Наші працівники проходять однаковий тренінг, і ми хочемо з'ясувати, чи покращилися їхні показники після тренінгу на рівні значущості 0.05. Виконайте Z-тест з Python, виведіть p-value і зробіть заключення, чи поліпшились показники працівників на рівні значущості 0.05?

Зверніть увагу, ці вибірки повʼязані між собою, значить не буде коректно виконати z-test між ними, натомість, ми можемо порівняти, чи різниця в результатах (продуктивності співробітників) є стат значущою.

In [21]:
before_training = [57.82, 37.63, 36.8 , 55.22, 52.97, 52.5 , 53.46, 43.2 , 52.32,
       52.93, 42.86, 68.66, 54.74, 38.09, 56.57, 40.25, 57.87, 61.59,
       41.79, 59.63, 54.13, 58.22, 68.97, 47.55, 42.46, 41.1 , 41.84,
       49.23, 53.41, 52.77]

after_training = [62.47, 40.66, 42.7 , 57.69, 61.41, 56.76, 54.75, 44.06, 56.29,
       55.48, 47.28, 72.6 , 57.59, 39.39, 56.54, 42.36, 62.58, 65.01,
       42.3 , 62.98, 57.9 , 59.45, 72.28, 50.66, 43.18, 44.82, 45.96,
       54.4 , 58.52, 53.01]

Так як z-test порівнює **незалежні вибірки**, то ми не можемо використати z-test для двох вибірок у данному випадку.

In [26]:
# Підготуємо одну вибірку із різницею
differences = np.array(after_training) - np.array(before_training)

alpha = 0.05  # рівень значущості
# Виконання Z-тесту
mean = np.mean(differences)
stdv = np.std(differences)
z_stat, p_value = ztest(differences, value=0, alternative='two-sided')

# Виведення результатів
print(f"Список різниць: {differences}")
print(f"Середнє значення різниці: {mean:.2f}")
print(f"Стандартне відхилення різниці: {stdv:.2f}")
print(f"Z-статистика: {z_stat:.2f}")
print(f"P-значення: {p_value:.20f}")

# Інтерпретація результатів
if p_value < alpha:
    print("Відхиляємо H0: показники працівників покращилися.")
else:
    print("H0 не може бути відхилена: показники працівників не покращилися.")

Список різниць: [ 4.65  3.03  5.9   2.47  8.44  4.26  1.29  0.86  3.97  2.55  4.42  3.94
  2.85  1.3  -0.03  2.11  4.71  3.42  0.51  3.35  3.77  1.23  3.31  3.11
  0.72  3.72  4.12  5.17  5.11  0.24]
Середнє значення різниці: 3.15
Стандартне відхилення різниці: 1.86
Z-статистика: 9.14
P-значення: 0.00000000000000000006
Відхиляємо H0: показники працівників покращилися.


**Висновок**: Оскільки p-value < 0.05, то ми можемо відхилити нульову гіпотезу про те, що показники працівників не покращилися. Тобто іншими словами кажучи, є статистично значуща різниця між показниками працівників до та після тренінгу і тобто їх продуктивність покращилась.

 **Open question**: Але я тут додатково пошукав як вирішувати і знайшов paired t-test із модуля scipy - scipy.stats.ttest_rel. Чи можна було використати його для цього завдання? Буду дуже вдячний на відповідь на це запитання. Дякую, шановні куратори :)


In [27]:
from scipy.stats import ttest_rel

t_stat, p_value = ttest_rel(before_training, after_training)

print(f"t-статистика: {t_stat:.2f}")
print(f"p-значення: {p_value:.20f}")

if p_value < alpha:
    print("Відхиляємо H0: показники працівників покращилися.")
else:
    print("H0 не може бути відхилена: показники працівників не покращилися.")

t-статистика: -9.14
p-значення: 0.00000000048858736255
Відхиляємо H0: показники працівників покращилися.
