# Тести для малих вибірок та пропорцій



**Завдання 1**. E-commerce компанія після редизайну сайту підозрює, що **середній час до покупки (time-to-purchase)** користувачів **збільшився**.
Історично середній час від першого заходу на сайт до покупки становив $\mu_0 = 123.7$ хвилин.

Команда аналітиків випадково обрала дані **7 покупців після редизайну**:
`128, 135, 121, 142, 126, 151, 123`

З допомогою наявних даних зʼясуйте, чи збільшився середній час покупки після редизайну.

Для цього виконайте наступні 6 кроків. Правильне виконання кожного з кроків оцінюється в 1 бал.

1. Запишіть нульову та альтернативну гіпотези і визначте тип тесту.
2. Обчисліть вибіркові статистики: $\bar x$, $s$, $n$.
3. Оберіть тип тесту та виконайте його (знайдіть критичне значення тесту, статистику тесту та р-значення) будь-яким пасуючим способом, щоб перевірити гіпотезу на рівні значущості $\alpha = 0.10$.
4. Прийміть рішення, чи відхиляєте ви гіпотезу $H_0$ використовуючи p-value.
5. Напишіть висновок: чи справді редизайн сайту подовжив час до покупки?
6. Чи зміниться ваше рішення при зміні рівня значущості на $\alpha = 0.05$.


 **Гіпотеза**   

H₀: μ = 123,7  

H₁: μ > 123,7   

Тип тесту: правосторонній (one-tailed)

In [1]:
import numpy as np
from scipy import stats

# Дані з умови
time_data = np.array([128, 135, 121, 142, 126, 151, 123])
mu0 = 123.7  
alpha = 0.10

# Крок 1. Обчислимо вибіркову статистику
x_bar = np.mean(time_data)
s = np.std(time_data, ddof=1)   # стандартне відхилення з n-1
n = len(time_data)

# Крок 2. Обчислимо t-статистику вручну
t_stat = (x_bar - mu0) / (s / np.sqrt(n))

# Крок 3. Критичне значення для одностороннього тесту
df = n - 1
t_crit = stats.t.ppf(alpha, df)

# Крок 4. p-value
p_value = stats.t.cdf(t_stat, df)

In [3]:
print(f"Вибіркове середнє: {x_bar:.2f}")
print(f"Вибіркове стандартне відхилення: {s:.2f}")
print(f"t-статистика: {t_stat:.3f}")
print(f"Критичне значення (df={df}): {t_crit:.3f}")
print(f"p-value: {p_value:.4f}")

# Крок 5. Висновок
if t_stat < t_crit:
    print(f"Відхиляємо H0: середня ціна на аукціоні менша за 179$ на рівні значущості {alpha}")
else:
    print("Не відхиляємо H0: доказів недостатньо")

Вибіркове середнє: 132.29
Вибіркове стандартне відхилення: 10.98
t-статистика: 2.069
Критичне значення (df=6): -1.440
p-value: 0.9580
Не відхиляємо H0: доказів недостатньо


In [4]:
# Дані з умови
time_data = np.array([128, 135, 121, 142, 126, 151, 123])
mu0 = 123.7  
alpha = 0.05

# Крок 1. Обчислимо вибіркову статистику
x_bar = np.mean(time_data)
s = np.std(time_data, ddof=1)   # стандартне відхилення з n-1
n = len(time_data)

# Крок 2. Обчислимо t-статистику вручну
t_stat = (x_bar - mu0) / (s / np.sqrt(n))

# Крок 3. Критичне значення для одностороннього тесту
df = n - 1
t_crit = stats.t.ppf(alpha, df)

# Крок 4. p-value
p_value = stats.t.cdf(t_stat, df)


print(f"Вибіркове середнє: {x_bar:.2f}")
print(f"Вибіркове стандартне відхилення: {s:.2f}")
print(f"t-статистика: {t_stat:.3f}")
print(f"Критичне значення (df={df}): {t_crit:.3f}")
print(f"p-value: {p_value:.4f}")

# Крок 5. Висновок
if t_stat < t_crit:
    print(f"Відхиляємо H0: середня ціна на аукціоні менша за 179$ на рівні значущості {alpha}")
else:
    print("Не відхиляємо H0: доказів недостатньо")

Вибіркове середнє: 132.29
Вибіркове стандартне відхилення: 10.98
t-статистика: 2.069
Критичне значення (df=6): -1.943
p-value: 0.9580
Не відхиляємо H0: доказів недостатньо


#### Зміна значущості на більш точну тобто з 0,1 до 0,05 , не змінює результату тесту, а навпаки визначає більш точне критичне значеня, що лежить ще далі від показників нульової гіпотези чим дає нам більше впевненості , що нульова гіпотеза не відхиляється.

**Завдання 2.**

До спеціальної рекламної кампанії **23%** дорослих упізнавали логотип компанії. Після завершення кампанії відділ маркетингу провів опитування: з **1200** випадково відібраних дорослих **311** упізнали логотип.

Перевірте на рівні значущості **3%** ($\alpha=0.03$), чи дають ці дані достатні підстави стверджувати, що **тепер більше ніж 23%** дорослих упізнають логотип компанії. Для розвʼязку використовуйте бібліотеку `statsmodels`.

Зробіть висновок, чи зросла впізнаваність логотипу.

Додатково, обчисліть довірчий інтревал на заданому рівні значущості і проінтерпретуйте текстом - як він додатково пояснює прийняте нами рішення?

In [9]:
import statsmodels.api as sm
from statsmodels.stats.proportion import proportions_ztest, proportion_confint

count = 311  
nobs = 1200   
p0 = 0.23     

# z-тест для пропорції
stat, pval = proportions_ztest(count, nobs, p0, alternative='larger')
confint = proportion_confint(count, nobs, alpha=0.03, method='normal')

print("🔹 Тест для однієї пропорції")
print(f"Z-статистика = {stat:.3f}")
print(f"p-value = {pval:.4f}")
print(f"95% довірчий інтервал: {confint}")

🔹 Тест для однієї пропорції
Z-статистика = 2.306
p-value = 0.0106
95% довірчий інтервал: (0.23171700302179205, 0.28661633031154127)



1. Односторонній тест

   * $H_0: p = 0.23$
   * $H_1: p > 0.23$
   * Оскільки $p\text{-value} = 0.0106 < 0.03$, відхиляємо $H_0$.
     👉 Є статистично значущі докази, що частка тих, хто  впізнає логотип, **більша за 23%**.

2. 97% довірчий інтервал (0.2317, 0.2866)

   * Це означає, що з імовірністю 97% справжня частка лежить у межах **від 23,2% до 28,6%**.
   * Значення 0.23 майже на межі, але трохи нижче інтервалу.
   * При **альфа 0,01** ми б не відхилили $H_0$.
3. Висновок : упізнаваність зросла і становить 311/1200=0.259, тобто 25.9%