# Тести для малих вибірок та пропорцій



**Завдання 1**. E-commerce компанія після редизайну сайту підозрює, що **середній час до покупки (time-to-purchase)** користувачів **збільшився**.
Історично середній час від першого заходу на сайт до покупки становив $\mu_0 = 123.7$ хвилин.

Команда аналітиків випадково обрала дані **7 покупців після редизайну**:
`128, 135, 121, 142, 126, 151, 123`

З допомогою наявних даних зʼясуйте, чи збільшився середній час покупки після редизайну.

Для цього виконайте наступні 6 кроків. Правильне виконання кожного з кроків оцінюється в 1 бал.

1. Запишіть нульову та альтернативну гіпотези і визначте тип тесту.
2. Обчисліть вибіркові статистики: $\bar x$, $s$, $n$.
3. Оберіть тип тесту та виконайте його (знайдіть критичне значення тесту, статистику тесту та р-значення) будь-яким пасуючим способом, щоб перевірити гіпотезу на рівні значущості $\alpha = 0.10$.
4. Прийміть рішення, чи відхиляєте ви гіпотезу $H_0$ використовуючи p-value.
5. Напишіть висновок: чи справді редизайн сайту подовжив час до покупки?
6. Чи зміниться ваше рішення при зміні рівня значущості на $\alpha = 0.05$.


In [1]:
import numpy as np
from scipy import stats

*#1. Гіпотези*   

H₀: μ = 123.7  
H₁: μ > 123.7 (оскільки перевіряємо чи збільшився час до покупки)  
Тип тесту: правосторонній (one-tailed)  

In [2]:
# Задаємо параметри задачі у змінні
time_sample = np.array([128, 135, 121, 142, 126, 151, 123])
mu0 = 123.7
alpha = 0.10

# 2. Обчислення вибіркових статистик: x̄, s, n
x_bar = np.mean(time_sample)                  # середнє x̄
s = np.std(time_sample, ddof=1)               # стандартне відхилення з n-1
n = len(time_sample)                          # довжина вибірки  

# 3.1. Обчислимо t-статистику вручну
t_stat = (x_bar - mu0) / (s / np.sqrt(n))     # Формула: t = (x̄ - μ₀) / (s / √n)

# 3.2. Критичне значення для правостороннього тесту
df = n - 1                      
t_crit = stats.t.ppf(1 - alpha, df)

# 3.3. p-value
p_value = 1 - stats.t.cdf(t_stat, df)


print('=' * 60)
print('РЕЗУЛЬТАТИ:')
print('=' * 60)
print(f'Розмір вибірки n = {n}')
print(f'Рівень значущості α = {alpha}')
print(f"Вибіркове середнє: {x_bar:.2f}")
print(f"Вибіркове стандартне відхилення: {s:.2f}")
print(f"t-статистика: {t_stat:.3f}")
print(f"Критичне значення (df={df}): {t_crit:.3f}")
print(f"p-value: {p_value:.4f}")

РЕЗУЛЬТАТИ:
Розмір вибірки n = 7
Рівень значущості α = 0.1
Вибіркове середнє: 132.29
Вибіркове стандартне відхилення: 10.98
t-статистика: 2.069
Критичне значення (df=6): 1.440
p-value: 0.0420


In [3]:
# 4-5. Прийняття рішення та висновок
if p_value < alpha:
    print(f"Відхиляємо гіпотезу H0.\nВисновок: редизайн сайту справді подовжив час до покупки.\nСередній час до покупки більший за {mu0} на рівні значущості {alpha}")
else:
    print("Не відхиляємо H0. Висновок: доказів недостатньо, щоб стверджувати, що редизайн сайту справді подовжив час до покупки.\nСередній час до покупки не більший за {mu0} на рівні значущості {alpha}")

Відхиляємо гіпотезу H0.
Висновок: редизайн сайту справді подовжив час до покупки.
Середній час до покупки більший за 123.7 на рівні значущості 0.1


In [4]:
# Другий спосіб розрахунку пунктів 2-3: scipy тест замість ручних обчислень
res = stats.ttest_1samp(time_sample, popmean=mu0, alternative="greater")
print(f"scipy: t = {res.statistic:.3f}, p-value = {res.pvalue:.5f}")

scipy: t = 2.069, p-value = 0.04202


In [6]:
# 6. Рішення при зміні рівня значущості на alpha = 0.05
alpha_new = 0.05
t_crit_new = stats.t.ppf(1 - alpha_new, df)
res_new = stats.ttest_1samp(time_sample, popmean=mu0, alternative="greater")

print('=' * 60)
print('РЕЗУЛЬТАТИ:')
print('=' * 60)
print(f'Рівень значущості α = {alpha_new}')
print(f"t-статистика: {res_new.statistic:.3f}")
print(f"Критичне значення (df={df}): {t_crit_new:.3f}")
print(f"p-value: {res_new.pvalue:.5f}")
print()
if res_new.pvalue < alpha_new:
    print(f"Відхиляємо гіпотезу H0.\nВисновок: редизайн сайту справді подовжив час до покупки.\nСередній час до покупки більший за {mu0} на рівні значущості {alpha_new}")
else:
    print(f"Не відхиляємо H0. Висновок: доказів недостатньо, щоб стверджувати, що редизайн сайту справді подовжив час до покупки.\nСередній час до покупки не більший за {mu0} на рівні значущості {alpha_new}")

РЕЗУЛЬТАТИ:
Рівень значущості α = 0.05
t-статистика: 2.069
Критичне значення (df=6): 1.943
p-value: 0.04202

Відхиляємо гіпотезу H0.
Висновок: редизайн сайту справді подовжив час до покупки.
Середній час до покупки більший за 123.7 на рівні значущості 0.05


**Висновок до завдання 1:**  
Значення рівня значущості α не впливає на розрахунок p-value.  
При зміні значення α зміниться тільки значення t критичне.  
Тому все-одно відхиляємо гіпотезу H0 на основі p-значення.

**Завдання 2.**

До спеціальної рекламної кампанії **23%** дорослих упізнавали логотип компанії. Після завершення кампанії відділ маркетингу провів опитування: з **1200** випадково відібраних дорослих **311** упізнали логотип.

Перевірте на рівні значущості **3%** ($\alpha=0.03$), чи дають ці дані достатні підстави стверджувати, що **тепер більше ніж 23%** дорослих упізнають логотип компанії. Для розвʼязку використовуйте бібліотеку `statsmodels`.

Зробіть висновок, чи зросла впізнаваність логотипу.

Додатково, обчисліть довірчий інтревал на заданому рівні значущості і проінтерпретуйте текстом - як він додатково пояснює прийняте нами рішення?

*# Гіпотези*   

H₀: μ = 0.23  
H₁: μ > 0.23 (оскільки очікуємо збільшення відсотку)  
Тип тесту: правосторонній (one-tailed) 

In [37]:
# Тести для однієї пропорції у популяції
import statsmodels.api as sm
from statsmodels.stats.proportion import proportions_ztest, proportion_confint

# Дані
count = 311   # кількість "успіхів"
nobs = 1200    # обсяг вибірки
p0 = 0.23      # гіпотетична пропорція (H0)
alpha = 0.03

# z-тест для пропорції
stat, pval = proportions_ztest(count, nobs, p0, alternative='larger')
ci_low, ci_upp = proportion_confint(count, nobs, alpha, method='normal')

print('=' * 60)
print('РЕЗУЛЬТАТИ:')
print('=' * 60)
print(f"Z-статистика = {stat:.3f}")
print(f"{100-alpha*100}% довірчий інтервал: ({ci_low:.4f}, {ci_upp:.4f})")
print()
if pval < alpha:
    print(f" p-value ({pval:.4f}) < α ({alpha})")
    print(f" ВІДХИЛЯЄМО H₀")
    print(f" Висновок: є статистично значущі докази, що частка тих, хто впізнає логотип, більша за {p0*100}%")
else:
    print(f" p-value ({pval:.4f}) ≥ α ({alpha})")
    print(f" НЕ ВІДХИЛЯЄМО H₀")
    print("  Висновок: Немає достатніх доказів про вищий відсоток впізнаваності")


РЕЗУЛЬТАТИ:
Z-статистика = 2.306
97.0% довірчий інтервал: (0.2317, 0.2866)

 p-value (0.0106) < α (0.03)
 ВІДХИЛЯЄМО H₀
 Висновок: є статистично значущі докази, що частка тих, хто впізнає логотип, більша за 23.0%


**Інтерпретація довірчого інтервалу:**  
97% довірчий інтервал (0.2317, 0.2866)  
- це означає, що з ймовірністю 97% справжня частка лежить у межах від 23.17% до 28.66%.
- нижня межа трохи більша за 0.23, тому це додаткове підтвердження, що справжня частка перевищує історичну.