# Тести для малих вибірок та пропорцій



**Завдання 1**. E-commerce компанія після редизайну сайту підозрює, що **середній час до покупки (time-to-purchase)** користувачів **збільшився**.
Історично середній час від першого заходу на сайт до покупки становив $\mu_0 = 123.7$ хвилин.

Команда аналітиків випадково обрала дані **7 покупців після редизайну**:
`128, 135, 121, 142, 126, 151, 123`

З допомогою наявних даних зʼясуйте, чи збільшився середній час покупки після редизайну.

Для цього виконайте наступні 6 кроків. Правильне виконання кожного з кроків оцінюється в 1 бал.

1. Запишіть нульову та альтернативну гіпотези і визначте тип тесту.
2. Обчисліть вибіркові статистики: $\bar x$, $s$, $n$.
3. Оберіть тип тесту та виконайте його (знайдіть критичне значення тесту, статистику тесту та р-значення) будь-яким пасуючим способом, щоб перевірити гіпотезу на рівні значущості $\alpha = 0.10$.
4. Прийміть рішення, чи відхиляєте ви гіпотезу $H_0$ використовуючи p-value.
5. Напишіть висновок: чи справді редизайн сайту подовжив час до покупки?
6. Чи зміниться ваше рішення при зміні рівня значущості на $\alpha = 0.05$.


Historical average time: μo=123.7 minutes

Null Hypothesis (Ho): the average time did not change after redesign
Ho: μ=123.7

Alternative hypothesis (Ha): the average time increased after redesign
Ha: μ>123.7

This is a right-tailed test (>)

In [1]:
import numpy as np
from scipy import stats

In [2]:
data = np.array([128, 135, 121, 142, 126, 151, 123])
mu0 = 123.7 
alpha1 = 0.10
alpha2 = 0.05   

In [3]:
x_bar = np.mean(data)
s = np.std(data, ddof=1)  
n = len(data)

In [4]:
print(f"Sample mean: {x_bar:.2f}")
print(f"Sample standard deviation: {s:.2f}")
print(f"Sample size: {n}")

Sample mean: 132.29
Sample standard deviation: 10.98
Sample size: 7


In [5]:
t_stat = (x_bar - mu0) / (s / np.sqrt(n))
df = n - 1
print(f"t-statistic: {t_stat:.2f}")

t-statistic: 2.07


In [6]:
t_crit1 = stats.t.ppf(1 - alpha1, df)
p_value1 = 1 - stats.t.cdf(t_stat, df)
print("Task 3: Critical value and p-value at alpha = 0.10")
print(f"Critical t-value: {t_crit1:.3f}")
print(f"p-value: {p_value1:.3f}")

Task 3: Critical value and p-value at alpha = 0.10
Critical t-value: 1.440
p-value: 0.042


In [7]:
if t_stat > t_crit1 and p_value1 < alpha1:
 print("Decision: Reject Ho as time-to-purchase has increased")
else:
 print("Decision: Fail to reject Ho as not enough evidence")

Decision: Reject Ho as time-to-purchase has increased


Yes, the website redesign significantly increased the average time-to-purchase. Since the t_stat > t_crit1 and p-value < 0.10, we have rejected the Ho. The results obtained indicate that there is a statistically significant evidence that the average time-to-purchase increased after changes.

In [8]:
t_crit2 = stats.t.ppf(1 - alpha2, df)
p_value2 = p_value1
print("Task 6: Critical value and p-value at alpha = 0.05")
print(f"Critical t-value: {t_crit2:.3f}")
print(f"p-value: {p_value2:.3f}")

Task 6: Critical value and p-value at alpha = 0.05
Critical t-value: 1.943
p-value: 0.042


In [9]:
if t_stat > t_crit2:
 print("Decision: Reject Ho as time-to-purchase has increased")
else:
 print("Decision: Fail to reject Ho as not enough evidence")

Decision: Reject Ho as time-to-purchase has increased


Step 6: The decision has not changed - the null hypothesis is rejected.

**Завдання 2.**

До спеціальної рекламної кампанії **23%** дорослих упізнавали логотип компанії. Після завершення кампанії відділ маркетингу провів опитування: з **1200** випадково відібраних дорослих **311** упізнали логотип.

Перевірте на рівні значущості **3%** ($\alpha=0.03$), чи дають ці дані достатні підстави стверджувати, що **тепер більше ніж 23%** дорослих упізнають логотип компанії. Для розвʼязку використовуйте бібліотеку `statsmodels`.

Зробіть висновок, чи зросла впізнаваність логотипу.

Додатково, обчисліть довірчий інтревал на заданому рівні значущості і проінтерпретуйте текстом - як він додатково пояснює прийняте нами рішення?

We test whether the proportion of adults who recongnize the logo have incresed after the campaign.

p = 0.23 (before campaign),
nobs = 1200,
count = 311 (after campaign),
alpha = 0.03

Ho:p=0.23 vs Ha:p>0.23. This is a right-tailed test (>).

In [10]:
import statsmodels.api as sm

nobs = 1200
count = 311
p = 0.23
alpha = 0.03

stat, pval = sm.stats.proportions_ztest(count, nobs, p, alternative='larger')
print(f"z-statistic ={stat: .4f}")
print(f"p‑value = {pval: .4f}")

conf_int = sm.stats.proportion_confint(count, nobs, alpha, method='normal')
print(f"Confidence interval (97%): {conf_int}")


z-statistic = 2.3058
p‑value =  0.0106
Confidence interval (97%): (0.23171700302179205, 0.28661633031154127)


In [11]:
if pval < alpha:
 print("Decision: Reject Ho as there is significant evidence that the logo recognition has increased beyond 23%")
else:
 print("Decision: Fail to reject Ho as the logo recongnition has not increased")

Decision: Reject Ho as there is significant evidence that the logo recognition has increased beyond 23%


The confidence interval provides additional evidence that the logo recognition increased. We are 97% confident that the proportion of adults who recognize the logo after the campaign lies between 23.2% and 28.7%.