<a href="https://colab.research.google.com/github/olesia-za/python_for_ds_tasks/blob/main/OZ_Done_M14_HW_3_Tests_for_small_dataset.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Тести для малих вибірок та пропорцій



**Завдання 1**. E-commerce компанія після редизайну сайту підозрює, що **середній час до покупки (time-to-purchase)** користувачів **збільшився**.
Історично середній час від першого заходу на сайт до покупки становив $\mu_0 = 123.7$ хвилин.

Команда аналітиків випадково обрала дані **7 покупців після редизайну**:
`128, 135, 121, 142, 126, 151, 123`

З допомогою наявних даних зʼясуйте, чи збільшився середній час покупки після редизайну.

Для цього виконайте наступні 6 кроків. Правильне виконання кожного з кроків оцінюється в 1 бал.

1. Запишіть нульову та альтернативну гіпотези і визначте тип тесту.
2. Обчисліть вибіркові статистики: $\bar x$, $s$, $n$.
3. Оберіть тип тесту та виконайте його (знайдіть критичне значення тесту, статистику тесту та р-значення) будь-яким пасуючим способом, щоб перевірити гіпотезу на рівні значущості $\alpha = 0.10$.
4. Прийміть рішення, чи відхиляєте ви гіпотезу $H_0$ використовуючи p-value.
5. Напишіть висновок: чи справді редизайн сайту подовжив час до покупки?
6. Чи зміниться ваше рішення при зміні рівня значущості на $\alpha = 0.05$.


In [25]:
import numpy as np
import pandas as pd
from scipy import stats

# # Гіпотези:
# H0 - mu=123.7 (середній час до покупки на сайті)
# Ha - mu>123.7 (середній час збільшився)
# це правосторонній тест

sample_data = np.array([[128, 135, 121, 142, 126, 151, 123]]).T
sample_mean = np.mean(sample_data)
sample_std = np.std(sample_data, ddof=1)
n = len(sample_data)
population_mean = 123.7
alpha = 0.10


In [26]:
# Крок 2. Обчислимо t-статистику вручну
t_stat = (sample_mean - population_mean) / (sample_std / np.sqrt(n))

# Крок 3. Критичне значення для правостороннього тесту
df = n - 1
t_crit = stats.t.ppf(1- alpha, df)

# Крок 4. p-value
p_value = 1 - stats.t.cdf(t_stat, df)

In [29]:
print(f"Вибіркове середнє: {sample_mean:.2f}")
print(f"Вибіркове стандартне відхилення: {sample_std:.2f}")
print(f"t-статистика: {t_stat:.3f}")
print(f"Критичне значення (df={df}): {t_crit:.3f}")
print(f"p-value: {p_value:.4f}")

# Крок 5. Висновок
if t_stat > t_crit:
    print(f"Відхиляємо H0: і приймаємо альтернативу, що середній час до покупки на сайті перевищує 123.7хв на рівні значущості {alpha}")
else:
    print("Не відхиляємо H0: доказів недостатньо")

if p_value < alpha:
    print(f"Відхиляємо H0: і приймаємо альтернативу, що середній час до покупки на сайті перевищує 123.7хв на рівні значущості {alpha}")
else:
    print("Не відхиляємо H0: доказів недостатньо")

Вибіркове середнє: 132.29
Вибіркове стандартне відхилення: 10.98
t-статистика: 2.069
Критичне значення (df=6): 1.440
p-value: 0.0420
Відхиляємо H0: і приймаємо альтернативу, що середній час до покупки на сайті перевищує 123.7хв на рівні значущості 0.1
Відхиляємо H0: і приймаємо альтернативу, що середній час до покупки на сайті перевищує 123.7хв на рівні значущості 0.1


In [None]:
# scipy тест alpha=0.10
res = stats.ttest_1samp(sample_data, popmean=population_mean, alternative="greater")
print(f"scipy: t = {res.statistic}, p-value = {res.pvalue}")

# висновок на основі р-значення
if res.pvalue < alpha:
    print(f"Відхиляємо H0: і приймаємо альтернативу, що середній час до покупки на сайті перевищує 123.7хв на рівні значущості {alpha}")
else:
    print("Не відхиляємо H0: доказів недостатньо")

    t_crit = stats.t.ppf(alpha, res.df)

if t_stat > t_crit:
    print(f"Відхиляємо H0: і приймаємо альтернативу, що середній час до покупки на сайті перевищує 123.7хв на рівні значущості {alpha}")
else:
    print("Не відхиляємо H0: доказів недостатньо")

# при alpha=0.05 висновок той самий p-value 0.04201765 < 0.1 та < 0.05, тому приймаємо альтернативу середній час до покупки збільшився

scipy: t = [2.06872731], p-value = [0.04201765]
Відхиляємо H0: і приймаємо альтернативу, що середній час до покупки на сайті перевищує 123.7хв на рівні значущості 0.1
Відхиляємо H0: і приймаємо альтернативу, що середній час до покупки на сайті перевищує 123.7хв на рівні значущості 0.1


**Завдання 2.**

До спеціальної рекламної кампанії **23%** дорослих упізнавали логотип компанії. Після завершення кампанії відділ маркетингу провів опитування: з **1200** випадково відібраних дорослих **311** упізнали логотип.

Перевірте на рівні значущості **3%** ($\alpha=0.03$), чи дають ці дані достатні підстави стверджувати, що **тепер більше ніж 23%** дорослих упізнають логотип компанії. Для розвʼязку використовуйте бібліотеку `statsmodels`.

Зробіть висновок, чи зросла впізнаваність логотипу.

Додатково, обчисліть довірчий інтревал на заданому рівні значущості і проінтерпретуйте текстом - як він додатково пояснює прийняте нами рішення?

In [None]:
import statsmodels.api as sm
from statsmodels.stats.proportion import proportions_ztest, proportion_confint

# # Гіпотези:
# H0 - p=0.23 (конверсія на сайті)
# Ha - p>0.23 (конверсія збільшилась)
# це правосторонній тест

count_before = 1200*0.23 
count_before
сount = 311
nobs = 1200
p0 = 0.23
alpha = 0.03    

# z-тест для пропорції
stat, pval = proportions_ztest(сount, nobs, p0, alternative='larger')
confint = proportion_confint(сount, nobs, alpha=alpha, method='normal')

print("🔹 Тест для однієї пропорції")
print(f"Z-статистика = {stat:.3f}")
print(f"p-value = {pval:.4f}")
print(f"97% довірчий інтервал: {confint}") 
t_crit = stats.norm.ppf(1 - alpha)
print(f"Z-критичне = {t_crit:.3f}")

# висновок на основі р-значення
if pval < alpha:
    print(f"Відхиляємо H0: конверсія на сайті 0.23 на рівні значущості {alpha}")
else:
    print("Не відхиляємо H0: доказів недостатньо")

# висновок на основі t-статистики
if t_stat > t_crit:
    print(f"Відхиляємо H0: конверсія на сайті 0.23 на рівні значущості {alpha}, тобо конверсія на сайті збільшилася і зросла впізнаваність логотипу")
else:
    print("Не відхиляємо H0: доказів недостатньо")

# довірчий інтервал у проміжку від 0 до 1, тому це додаткове підтвердження, що застосування Z-тесту коректне, також  0.23 не входить до довірчого інтервалу, 
# отже ми достатньо впевнено можемо відхиліти H0 і приймаємо альтернативу


🔹 Тест для однієї пропорції
Z-статистика = 2.306
p-value = 0.0106
97% довірчий інтервал: (0.23171700302179205, 0.28661633031154127)
Z-критичне = 1.881
Відхиляємо H0: конверсія на сайті 0.23 на рівні значущості 0.03
Відхиляємо H0: конверсія на сайті 0.23 на рівні значущості 0.03, тобо конверсія на сайті збільшилася і зросла впізнаваність логотипу
