# Тести для малих вибірок та пропорцій



**Завдання 1**. E-commerce компанія після редизайну сайту підозрює, що **середній час до покупки (time-to-purchase)** користувачів **збільшився**.
Історично середній час від першого заходу на сайт до покупки становив $\mu_0 = 123.7$ хвилин.

Команда аналітиків випадково обрала дані **7 покупців після редизайну**:
`128, 135, 121, 142, 126, 151, 123`

З допомогою наявних даних зʼясуйте, чи збільшився середній час покупки після редизайну.

Для цього виконайте наступні 6 кроків. Правильне виконання кожного з кроків оцінюється в 1 бал.

1. Запишіть нульову та альтернативну гіпотези і визначте тип тесту.
2. Обчисліть вибіркові статистики: $\bar x$, $s$, $n$.
3. Оберіть тип тесту та виконайте його (знайдіть критичне значення тесту, статистику тесту та р-значення) будь-яким пасуючим способом, щоб перевірити гіпотезу на рівні значущості $\alpha = 0.10$.
4. Прийміть рішення, чи відхиляєте ви гіпотезу $H_0$ використовуючи p-value.
5. Напишіть висновок: чи справді редизайн сайту подовжив час до покупки?
6. Чи зміниться ваше рішення при зміні рівня значущості на $\alpha = 0.05$.


*Крок 1. Формулюємо гіпотези і тип тесту*

H₀ (нульова гіпотеза): середній час = 123.7 хв.

Hₐ (альтернативна гіпотеза): середній час > 123.7 хв.

Тип тесту: правосторонній (бо перевіряємо, чи збільшився час).

*Крок 2. Обчислюємо вибіркові статистики*

In [7]:
sample = [128, 135, 121, 142, 126, 151, 123]

In [11]:
import numpy as np

sample = np.array([128, 135, 121, 142, 126, 151, 123])

sample_mean = np.mean(sample)
sample_std = np.std(sample, ddof=1)
sample_size = len(sample)

print("Середнє вибірки:", sample_mean)
print("Стандартне відхилення:", sample_std)
print("Розмір вибірки:", sample_size)


Середнє вибірки: 132.28571428571428
Стандартне відхилення: 10.980502200328935
Розмір вибірки: 7


In [9]:
from scipy import stats

mu0 = 123.7
alpha = 0.10

SE = sample_std / np.sqrt(sample_size)
t_stat = (sample_mean - mu0) / SE
df = sample_size - 1

# Критичне t-значення (правосторонній тест)
t_critical = stats.t.ppf(1 - alpha, df)

# P-value
p_value = 1 - stats.t.cdf(t_stat, df)

print("t-статистика:", t_stat)
print("Критичне t-значення:", t_critical)
print("P-value:", p_value)


t-статистика: 2.0687273144186475
Критичне t-значення: 1.4397557472577693
P-value: 0.042017654253682646


*Крок 3. Вибір тесту та обчислення t-статистики*

Оскільки 𝑛=7 (мала вибірка, невідоме σ), використовуємо t-тест (не z-тест).
Рівень значущості: 𝛼=0.10.

*Крок 4. Рішення за p-value*

𝑝=0.042<0.10→ Відхиляємо H₀ на рівні 0.10.

*Крок 5. Висновок:*
Отримані дані свідчать про те, що після редизайну час до покупки статистично значуще збільшився. 
Є статистично значущі докази на рівні α = 0.10, що редизайн збільшив час до покупки.

*Крок 6. Що при α = 0.05?*

𝑝=0.04<0.05 → Все одно відхиляємо H₀.
Висновок не змінюється -  навіть на більш суворому рівні значущості 5% результат залишається значущим.

**Розв'язок за допомогою методу  scipy**

In [16]:
import numpy as np
from scipy import stats
# Вхідні дані
data = np.array([128, 135, 121, 142, 126, 151, 123])
mu0 = 123.7  # історичне середнє
alpha1 = 0.10
alpha2 = 0.05

# 1. Гіпотези:
# H0: μ = 123.7
# H1: μ > 123.7 (тест односторонній, правосторонній)

# 2. Вибіркові статистики
x_bar = np.mean(data)
s = np.std(data, ddof=1)
n = len(data)

print("Вибіркове середнє:", round(x_bar, 3))
print("Стандартне відхилення:", round(s, 3))
print("Розмір вибірки:", n)

# 3. Виконуємо t-тест (односторонній)
res = stats.ttest_1samp(data, popmean=mu0, alternative='greater')

# Ступені свободи
df = n - 1

# Обчислюємо критичні значення
t_crit_alpha1 = stats.t.ppf(1 - alpha1, df)
t_crit_alpha2 = stats.t.ppf(1 - alpha2, df)

# 4. Результати тесту
print(f"\nСтатистика t: {res.statistic:.4f}")
print(f"p-value: {res.pvalue:.6f}")
print(f"Критичне t (α=0.10): {t_crit_alpha1:.4f}")
print(f"Критичне t (α=0.05): {t_crit_alpha2:.4f}")

# 5. Висновок для α=0.10
if res.pvalue < alpha1:
    print(f"\nПри α={alpha1}: Відхиляємо H0 — середній час збільшився.")
else:
    print(f"\nПри α={alpha1}: Не відхиляємо H0 — доказів недостатньо.")

# 6. Висновок для α=0.05
if res.pvalue < alpha2:
    print(f"При α={alpha2}: Відхиляємо H0 — середній час збільшився.")
else:
    print(f"При α={alpha2}: Не відхиляємо H0 — доказів недостатньо.")


Вибіркове середнє: 132.286
Стандартне відхилення: 10.981
Розмір вибірки: 7

Статистика t: 2.0687
p-value: 0.042018
Критичне t (α=0.10): 1.4398
Критичне t (α=0.05): 1.9432

При α=0.1: Відхиляємо H0 — середній час збільшився.
При α=0.05: Відхиляємо H0 — середній час збільшився.


**Завдання 2.**

До спеціальної рекламної кампанії **23%** дорослих упізнавали логотип компанії. Після завершення кампанії відділ маркетингу провів опитування: з **1200** випадково відібраних дорослих **311** упізнали логотип.

Перевірте на рівні значущості **3%** ($\alpha=0.03$), чи дають ці дані достатні підстави стверджувати, що **тепер більше ніж 23%** дорослих упізнають логотип компанії. Для розвʼязку використовуйте бібліотеку `statsmodels`.

Зробіть висновок, чи зросла впізнаваність логотипу.

Додатково, обчисліть довірчий інтревал на заданому рівні значущості і проінтерпретуйте текстом - як він додатково пояснює прийняте нами рішення?

In [17]:
import statsmodels.api as sm
from statsmodels.stats.proportion import proportions_ztest, proportion_confint

# Вхідні дані
count = 311   # кількість, хто впізнав логотип
nobs = 1200   # розмір вибірки
p0 = 0.23     # історична частка
alpha = 0.03

# 1. Z-тест для пропорції
stat, p_value = proportions_ztest(count, nobs, value=p0, alternative='larger')

# 2. Довірчий інтервал на рівні 97% (двосторонній CI)
conf_int = proportion_confint(count, nobs, alpha=alpha, method='normal')

# 3. Результати
print(f"Z-статистика: {stat:.4f}")
print(f"p-value: {p_value:.6f}")
print(f"Довірчий інтервал на рівні {100*(1-alpha):.1f}%: {conf_int}")

# 4. Висновок
if p_value < alpha:
    print(f"\nВідхиляємо H₀: частка впізнаваності зросла (p-value={p_value:.6f} < {alpha}).")
else:
    print(f"\nНе відхиляємо H₀: доказів недостатньо (p-value={p_value:.6f} ≥ {alpha}).")

# Інтерпретація CI
print("\nІнтерпретація:")
print(f"Справжня частка впізнаваності з імовірністю {(1-alpha)*100:.1f}% лежить у межах {conf_int}.")
print("Оскільки нижня межа CI вища за 0.23, це додатково підтверджує, що впізнаваність зросла.")


Z-статистика: 2.3058
p-value: 0.010560
Довірчий інтервал на рівні 97.0%: (0.23171700302179205, 0.28661633031154127)

Відхиляємо H₀: частка впізнаваності зросла (p-value=0.010560 < 0.03).

Інтерпретація:
Справжня частка впізнаваності з імовірністю 97.0% лежить у межах (0.23171700302179205, 0.28661633031154127).
Оскільки нижня межа CI вища за 0.23, це додатково підтверджує, що впізнаваність зросла.
