# Урок 5. Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование

# Задача 1

Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти доверительный интервал для оценки математического ожидания mu с надёжностью 0.95, если выборочное среднее равно 80, а объём равен 256.


Средне квадратичное отклонение генеральной совокупности $\sigma = 16$

Величина выборки $n = 256$

Выборочное среднее $\overline{X} = 80$

Доверительная вероятность $0,95$, откуда $\alpha = 0,05$

Поскольку распределение нормальное с известиным среднем квадратическим отклонением, то доверительный интервал считаем по следущей формуле

<center>
    <div style="width: 350px;border:1px solid black;">
        $P \left( \overline{X} + t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \right) = p$
    </div>
</center>

In [3]:
import numpy as np
from scipy import stats

In [4]:
n= 256 
mean = 80 
std  = 16
alpha = 1 - 0.95

In [9]:
t1 = stats.norm.ppf(alpha / 2)
t2 = stats.norm.ppf(1 - alpha / 2)

t1, t2

(-1.959963984540054, 1.959963984540054)

Доверительный интервал

In [13]:
mean + t1 * std/np.sqrt(n),  mean + t2 * std/np.sqrt(n)

(78.04003601545995, 81.95996398454005)

# Задача 2

Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:

202, 203, 199, 197, 195, 201, 200, 204, 194, 190

Известно, что их веса распределены нормально.

Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%? Найдите P-значение для данного теста.

Нулевая гипотеза H:0 заключается в том что Mат. ожидание равно 200. 
Поскольку распределние нормальное а дисперсия не известна  то мы воспольземся статистикой из распределение Стюдена

формула T-student Statistics где  𝜎𝑋  — несмещённая оценка среднего квадратического отклонения.

$$t = \dfrac{\overline{X} - 200}{\sigma_X / \sqrt{n}}$$

In [34]:
samples = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])

* H_0: средний вес равен 200г
* H_1: средний вес не равен 200г

In [36]:
n = samples.size
mean = samples.mean()
std = samples.std(ddof=1)

n, mean, std, f

(10, 198.5, 4.453463071962462, 10)

Уровень значимости $\alpha = 0,01$ для двухсторонней критической области, подситаем квантили.

Так как сигма не известна мы будем использовать распределение Стьюдента t-распределение с параметром __df = n − 1.__

In [41]:
alpha = 0.01

t1 = stats.t.ppf(alpha/2, df = n-1)         #df = n − 1
t2 = stats.t.ppf(1 - alpha / 2, df= n-1)    #df = n − 1

t1, t2

(-3.24983554401537, 3.2498355440153697)

Посчитаем статистику

In [38]:
t = (mean - 200) / (std/np.sqrt(n))
t


-1.0651074037450896

Значение не папало в критическую область, так что продавец был прав

P-значение будет двухстороние и представляет собой граници распределение __t-cтатистики__

In [48]:
p_left = stats.t.cdf(t, df=n-1)
p_right = 1 - stats.t.cdf(t, df=n-1)

pvalue = 2 * min(p_left, p_right)

print(f"pvalue:\t{pvalue} \nalpha:\t{alpha}")

pvalue:	0.31456660352472854 
alpha:	0.01


P-значение больше чем alpha значит можно принять теорию H_0

# Задача 3

Дана выборка диаметров подшипников из примера 1 с занятия 5:
```
samples = [0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
           1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02  ]
```
Предполагая, что диаметры подшипников распределены нормально, проверьте гипотезу о том, что дисперсия случайной величины равна `0.0625` при уровне значимости `alpha = 0.05`. Что для этого нужно знать:
1. Альтернативная гипотеза двухсторонняя.
2. Статистика для теста: `H = (n - 1) * sample_variance / variance`, где `n` - число элементов в выборке, `sample_variance` - несмещённая оценка дисперсии, `variance` - утверждаемая нулевой гипотезой дисперсия.
3. Эта статистика в предположении верности нулевой гипотезы имеет распределение хи-квадрат с параметром `df = n - 1`. Её квантили можно найти с помощью функции `scipy.stats.chi2.ppf`.

Итак, проверим что H:0 гипотезу о том что смещенная дисперсия равна ${\sigma^2} $ = 0.0625

Для этого расмотрим статистку  $$ H = (n-1) * \dfrac{\sigma_X}{\sigma}$$

Данная статистика имеет распределение хи квадрват $\chi^2$ с параметром __df = n-1__

In [54]:
samples = np.array([0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
           1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02  ])

In [53]:
n = samples.shape[0]
sample_variance = samples.var(ddof=1)

n, sample_variance

(24, 0.07804495041666669)

Для значение альфа = 0.05 найдем квантили критичной области по распределнию хи квадрват  𝜒2 , tfr  

In [57]:
alpha = 0.05
t1 = stats.chi2.ppf(alpha/2, df = n-1)
t2 = stats.chi2.ppf(1- alpha/2, df = n-1)

t1,t2

(11.688551922452438, 38.0756272503558)

Посчитаем статистику

In [59]:
variance = 0.0625

H = (n-1) * sample_variance / variance
H

28.720541753333343

Значение Н в критичную область не попадает, гипотезу H0 принимаем.