# Тести для малих вибірок та пропорцій



**Завдання 1**. E-commerce компанія після редизайну сайту підозрює, що **середній час до покупки (time-to-purchase)** користувачів **збільшився**.
Історично середній час від першого заходу на сайт до покупки становив $\mu_0 = 123.7$ хвилин.

Команда аналітиків випадково обрала дані **7 покупців після редизайну**:
`128, 135, 121, 142, 126, 151, 123`

З допомогою наявних даних зʼясуйте, чи збільшився середній час покупки після редизайну.

Для цього виконайте наступні 6 кроків. Правильне виконання кожного з кроків оцінюється в 1 бал.

1. Запишіть нульову та альтернативну гіпотези і визначте тип тесту.
2. Обчисліть вибіркові статистики: $\bar x$, $s$, $n$.
3. Оберіть тип тесту та виконайте його (знайдіть критичне значення тесту, статистику тесту та р-значення) будь-яким пасуючим способом, щоб перевірити гіпотезу на рівні значущості $\alpha = 0.10$.
4. Прийміть рішення, чи відхиляєте ви гіпотезу $H_0$ використовуючи p-value.
5. Напишіть висновок: чи справді редизайн сайту подовжив час до покупки?
6. Чи зміниться ваше рішення при зміні рівня значущості на $\alpha = 0.05$.


In [1]:
import numpy as np
from scipy import stats

# Дані з умови
data = np.array([128, 135, 121, 142, 126, 151, 123])
mu0 = 123.7     # історичне середнє
alpha = 0.10

###Гіпотези і тип тесту

H₀: μ = 123.7

H₁: μ > 123.7 (підозрюємо збільшення часу)

Тип тесту: правосторонній (one-tailed)  

In [2]:
#Крок 1. Обчислимо вибіркову статистику
x_bar = np.mean(data)
s = np.std(data, ddof=1)
n = len(data)

print("ВИБІРКОВІ СТАТИСТИКИ")
print(f"x̄ = {x_bar:.3f}")
print(f"s = {s:.3f}")
print(f"n = {n}")

# Крок 2. Обчислимо t-статистику
t_stat = (x_bar - mu0) / (s / np.sqrt(n))

# 3. Критичне значення та p-value (правосторонній тест)
df = n - 1
t_crit = stats.t.ppf(1 - alpha, df)
p_value = 1 - stats.t.cdf(t_stat, df)

print("\nРЕЗУЛЬТАТИ ТЕСТУ")
print(f"t-статистика = {t_stat:.3f}")
print(f"Критичне t (α=0.10) = {t_crit:.3f}")
print(f"p-value = {p_value:.4f}")

if p_value < alpha:
    print("\n✅ Відхиляємо H₀ → середній час до покупки зріс після редизайну")
else:
    print("\n❌ Не відхиляємо H₀ → немає доказів, що час до покупки зріс")

ВИБІРКОВІ СТАТИСТИКИ
x̄ = 132.286
s = 10.981
n = 7

РЕЗУЛЬТАТИ ТЕСТУ
t-статистика = 2.069
Критичне t (α=0.10) = 1.440
p-value = 0.0420

✅ Відхиляємо H₀ → середній час до покупки зріс після редизайну


In [3]:
# Перевірка для α=0.05
alpha2 = 0.05
t_crit2 = stats.t.ppf(1 - alpha2, df)
p_value2 = 1 - stats.t.cdf(t_stat, df)

print("ПЕРЕВІРКА ДЛЯ α=0.05:")
print(f"Критичне t = {t_crit2:.3f}, p-value = {p_value2:.4f}")
if p_value2 < alpha2:
    print("\n✅ Відхиляємо H₀ і при α=0.05")
else:
    print("\n❌ Не відхиляємо H₀ при α=0.05")

ПЕРЕВІРКА ДЛЯ α=0.05:
Критичне t = 1.943, p-value = 0.0420

✅ Відхиляємо H₀ і при α=0.05


**Завдання 2.**

До спеціальної рекламної кампанії **23%** дорослих упізнавали логотип компанії. Після завершення кампанії відділ маркетингу провів опитування: з **1200** випадково відібраних дорослих **311** упізнали логотип.

Перевірте на рівні значущості **3%** ($\alpha=0.03$), чи дають ці дані достатні підстави стверджувати, що **тепер більше ніж 23%** дорослих упізнають логотип компанії. Для розвʼязку використовуйте бібліотеку `statsmodels`.

Зробіть висновок, чи зросла впізнаваність логотипу.

Додатково, обчисліть довірчий інтревал на заданому рівні значущості і проінтерпретуйте текстом - як він додатково пояснює прийняте нами рішення?

In [14]:
import statsmodels.api as sm
from statsmodels.stats.proportion import proportions_ztest, proportion_confint

# Вхідні дані
p0 = 0.23          # гіпотетична пропорція
n = 1200           # обсяг вибірки
x = 311            # кількість "успіхів"
alpha = 0.03

# 1. Пропорційний z-тест
test_stat, p_value = sm.stats.proportions_ztest(count=x, nobs=n, value=p0, alternative='larger')

print("РЕЗУЛЬТАТИ Z-ТЕСТУ ДЛЯ ПРОПОРЦІЙ")
print(f"z-статистика = {test_stat:.3f}")
print(f"p-value = {p_value:.5f}")

# 2. Довірчий інтервал для пропорції
confint_low, confint_high = sm.stats.proportion_confint(count=x, nobs=n, alpha=alpha, method='normal')

print("\nДОВІРЧИЙ ІНТЕРВАЛ ДЛЯ ПРОПОРЦІЇ (97%)")
print(f"({confint_low:.5f}, {confint_high:.5f})")

РЕЗУЛЬТАТИ Z-ТЕСТУ ДЛЯ ПРОПОРЦІЙ
z-статистика = 2.306
p-value = 0.01056

ДОВІРЧИЙ ІНТЕРВАЛ ДЛЯ ПРОПОРЦІЇ (97%)
(0.23172, 0.28662)


###Інтерпретація результатів

1. **Односторонній тест**

   * $H_0: p = 0.23$
   * $H_1: p > 0.23$
  
   Оскільки p-value = 0.01056 < 0.03, ми **відхиляємо $H_0$**. Є статистично значущі докази, що після рекламної кампанії частка тих, хто впізнає логотип, **зросла понад 23%**.

2. **97% довірчий інтервал**

   * Приблизний інтервал: (0.23172, 0.28662).
   * Це означає, що з імовірністю 97% справжня частка лежить у цих межах.
   * Оскільки нижня межа інтервалу вища за 0.23, ми маємо **додаткове підтвердження**, що впізнаваність логотипу зросла.