# Перевірка статистичних гіпотез (Hypothesis testing)

## 1. Вступ до перевірки гіпотез
Перевірка гіпотез — це фундаментальний статистичний метод, який використовується в науці про дані для формування висновків або узагальнень про популяцію на основі вибіркових даних. Він допомагає нам визначити, чи є спостережуваний ефект у наборі даних статистично значущим, чи він міг виникнути випадково.

У науці про дані перевірка гіпотез використовується в різних сферах, зокрема в A/B-тестуванні, регресійному аналізі та оцінці моделей машинного навчання.



## 2. Ключові поняття в тестуванні гіпотез
Нульова гіпотеза ($H_0$): Нульова гіпотеза — це твердження про відсутність ефекту або різниці. Вона слугує базовим або вихідним припущенням. Наприклад, в A/B-тесті нульова гіпотеза може стверджувати, що дві групи мають однакову середню продуктивність.

Альтернативна гіпотеза ($H_1$): Альтернативна гіпотеза є протилежною нульовій гіпотезі. Вона передбачає, що існує статистично значущий ефект або різниця. Наприклад, альтернативна гіпотеза може стверджувати, що група A має вищий середній показник, ніж група B.

Тестова статистика: Тестова статистика — це стандартизоване значення, обчислене на основі вибіркових даних, яке використовується для оцінки сили доказів проти нульової гіпотези. До поширених тестових статистик належать t-оцінки та z-оцінки.

P-значення: P-значення представляє ймовірність отримання тестової статистики, що є принаймні такою ж екстремальною, як і спостережувана, припускаючи, що нульова гіпотеза є правдивою. Мале P-значення (зазвичай менше 0,05) вказує на сильні докази проти нульової гіпотези.

Рівень значущості (α): Рівень значущості (часто позначається як α) — це поріг, обраний аналітиком для прийняття рішення про відхилення нульової гіпотези. Зазвичай α встановлюється на рівні 0,05, що означає 5% ймовірність відхилення нульової гіпотези, коли вона є справжньою (помилка I типу).

Помилки типу I та типу II:

Помилка типу I: Неправильне відхилення нульової гіпотези, коли вона є істинною (хибнопозитивний результат).
Помилка типу II: Невідхилення нульової гіпотези, коли вона є хибною (хибнонегативний результат).
Потужність тесту: Потужність тесту — це ймовірність правильного відхилення нульової гіпотези, коли вона є хибною. Висока потужність означає менший ризик помилки типу II.



**Приклад**: У нас є ігровий кубик (гральна кістка).
Ми підозрюємо, що він “підкручений” — тобто шістка випадає частіше, ніж мала б.

Ми кидаємо кубик 60 разів, і отримуємо:

кількість шісток: 15

- Нульова гіпотеза $H_0$: кубик чесний
  $$
  p = \frac{1}{6} \approx 0.1667
  $$

- Альтернативна гіпотеза $H_1$: кубик “підкручений на шістку”
  $$
  p > \frac{1}{6}
  $$

(Тобто — односторонній тест.)

Випадкова величина -  Позначимо:
$$
X = \text{кількість шісток у 60 кидках}
$$
Тоді:
$$
X \sim \text{Binomial}(n = 60, p = 1/6)
$$

Очікуване значення та дисперсія:

$$
\mathbb{E}[X] = n p = 60 \times \frac{1}{6} = 10
$$
$$
\mathrm{Var}(X) = n p (1 - p) = 60 \times \frac{1}{6} \times \frac{5}{6} \approx 8.33
$$
$$
\sigma = \sqrt{8.33} \approx 2.89
$$

Наближено нормальний тест - для (n=60) можна використати нормальне наближення:
$$
Z = \frac{X - \mathbb{E}[X]}{\sigma} = \frac{15 - 10}{2.89} \approx 1.73
$$

Рівень значущості - візьмемо рівень $\alpha = 0.05$.
Критичне значення для одностороннього тесту:
$$
Z_{кр} = 1.645
$$

Прийняття рішення - оскільки $Z = 1.73 > 1.645$:

Відхиляємо (H_0) на рівні значущості 0.05.

Отже, є статистичні підстави вважати, що кубик дійсно “підкручений” на шістку.

Це одновибірковий біноміальний тест.



## 3. Перевірка гіпотез у машинному навчанні
У машинному навчанні перевірка гіпотез відіграє важливу роль в оцінці моделей. Наприклад, при порівнянні двох моделей (наприклад, дерева рішень і випадкового лісу) можна використовувати перевірку гіпотез, щоб оцінити, чи є різниця в продуктивності (наприклад, точність, прецизійність) статистично значущою.

Типовим сценарієм є використання перехресного валідації для навчання моделей на різних підмножинах даних, а потім виконання статистичного тесту (наприклад, парного t-тесту) для визначення, чи одна модель постійно перевершує іншу.



## 4. Практичний приклад: A/B-тестування з перевіркою гіпотез
Уявіть ситуацію, коли компанія, що займається електронною комерцією, хоче перевірити, чи новий дизайн веб-сайту (B) приносить більше покупок, ніж поточний дизайн (A). Компанія проводить A/B-тестування і збирає дані про кількість покупок, зроблених користувачами, які відвідують кожну версію сайту.

Етапи:

- Нульова гіпотеза ($H_0$): новий дизайн не впливає на рівень покупок (тобто немає різниці між A і B).
- Альтернативна гіпотеза ($H_1$): новий дизайн збільшує рівень покупок.
- Рівень значущості: Встановіть α = 0,05.
- Збір даних: Припустимо, ви зібрали такі дані:
- Версія A: 500 відвідувачів, 50 покупок.
- Версія B: 600 відвідувачів, 80 покупок.
- Проведення тесту: Використовуйте z-тест для порівняння частоти покупок між двома групами.
- Висновок: На основі p-значення відхиліть або не відхиліть нульову гіпотезу.

## Example: one-sample t-test

In [1]:
# import packages 
import scipy.stats as stats 
import numpy as np
  
data = [182, 180, 190, 184]
  
# perform one sample t-test 
t_statistic, p_value = stats.ttest_1samp(a=data, popmean=183) 
print(t_statistic , p_value)

# data_average = [0, 1, 0, 1, 0, 1, 0, 1, 0, 1]
# t_statistic, p_value = stats.ttest_1samp(a=data_average, popmean=0.5) 
# print(t_statistic , p_value)

0.46291004988627577 0.6749411569291093


## One-way ANOVA

In [None]:
# Sample data from three independent groups
group1 = [2.9, 3.0, 2.5, 2.6, 3.2, 2.8]
group2 = [3.8, 2.7, 4.0, 3.9, 3.2, 3.1]
group3 = [3.1, 3.4, 3.7, 3.0, 3.1, 3.6]

# Perform one-way ANOVA
f_statistic, p_value = stats.f_oneway(group1, group2, group3)

# Output the results
print(f"F-statistic: {f_statistic}")
print(f"P-value: {p_value}")

## One-sample Chi-Squered

In [2]:
# Observed frequencies (from your sample)
observed = np.array([30, 10, 5, 5, 5, 5])  

avg = observed.sum()

expected = np.array([avg/6, avg/6, avg/6, avg/6, avg/6, avg/6])

# Perform the one-sample Chi-Square goodness of fit test
chi2_stat, p_value = stats.chisquare(f_obs=observed, f_exp=expected)

# Output the results
print(f"Chi-Square Statistic: {chi2_stat}")
print(f"P-value: {p_value}")

Chi-Square Statistic: 50.0
P-value: 1.3857973367009573e-09


## Chi-Square Test of Independence

In [None]:
# Sample data: A contingency table of observed frequencies
# For example, this could be data on customer preferences between two brands across age groups.
observed = np.array([[1,2,2,5],
                     [1, 3, 2, 1]])

# Perform the Chi-Square Test of Independence
chi2_stat, p_value, dof, expected = stats.chi2_contingency(observed)

# Output the results
print(f"Chi-Square Statistic: {chi2_stat}")
print(f"P-value: {p_value}")
print(f"Degrees of Freedom: {dof}")
print(f"Expected Frequencies:\n{expected}")

|      **Data Type / Groups**      | **1 Group**                                          | **2 Groups**                                                  | **2+ Groups**                |
| :------------------------------: | :--------------------------------------------------- | :------------------------------------------------------------ | :--------------------------- |
|       **Categorical Data**       | Proportion Test (Z-test approx.)<br>Chi-squared Test | Proportion Test (Z-test approx.)<br>Chi-squared Test          | Chi-squared Test             |
|        **Continuous Data**       | Z-test & Variants<br>T-test & Variants               | Z-test & Variants<br>T-test & Variants                        | ANOVA (F-test, 1-way, 2-way) |
| **Classic Assumptions Violated** | Sign Test<br>Signed Rank Test                        | Wilcoxon–Mann–Whitney Test<br>Paired T-test<br>McNemar’s Test | Kruskal–Wallis Test          |
