# Урок 5

## Проверка статистических гипотез. P-значения. Доверительные интервалы

### Задача 1

#### Условие:
Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением `16`. Найти доверительный интервал для оценки математического ожидания $\mu$ с надёжностью `0.95`, если выборочное среднее равно `80`, а объём равен 256.

#### Решение:

По условию:

$\sigma = 16$

$\overline{X} = 80$

$n = 256$

$P \left( \overline{X} + t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \right) = p = 0.95$

In [1]:
sigma = 16
mean = 80
n = 256
p = 0.95

Тогда:

$\alpha = 1 - p = 1 - 0.95 = 0.05$


In [2]:
alpha = 1 - p


Найдем значение квантилей:

In [3]:
from scipy import stats

t_1 = stats.norm.ppf(alpha / 2)
t_2 = stats.norm.ppf(1 - alpha / 2)

t_1, t_2

(-1.959963984540054, 1.959963984540054)

Найдем доверительынй интервал:

$ \left( \overline{X} + t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \right)$

In [4]:
import numpy as np

(mean + t_1 * sigma / np.sqrt(n), mean + t_2 * sigma / np.sqrt(n))

(78.04003601545995, 81.95996398454005)

### Задача 2

#### Условие:

Продавец утверждает, что средний вес пачки печенья составляет `200` г. Из партии извлечена выборка из `10` пачек. Вес каждой пачки составляет:

`202, 203, 199, 197, 195, 201, 200, 204, 194, 190`

Известно, что их веса распределены нормально.
1. Верно ли утверждение продавца, если учитывать, что уровень значимости равен `1%`?
2. Найдите `P`-значение для данного теста.

#### Решение:
$H_0$ - математическое ожидание $\mu = 200$

Т.к. дисперсия неизвестна, то будем использовать данную формулу:

$t = \dfrac { \overline{X} - \mu } {\sigma_X / \sqrt{n}} $

In [5]:
data = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])

mu = 200
n = data.size
mean = data.mean()
sigma_x = data.std(ddof=1)

Найдем значение $t$:

In [6]:
t = (mean - mu) / (sigma_x / np.sqrt(n))
t

-1.0651074037450896

Пусть $H_0$ верна, тогда статистика имеет распределние Стьюдента, сл-но $df = n - 1$

##### Пункт 1:

По условию:

$\alpha = 0.01 $ 

In [7]:
alpha = 0.01

Найдем значение квантилей:

In [8]:
t_1 = stats.t.ppf(alpha / 2, df=n - 1)
t_2 = stats.t.ppf(1 - alpha / 2, df=n - 1)

t_1, t_2 

(-3.24983554401537, 3.2498355440153697)

Получаем критическую область:
$\Omega_\alpha = (-\infty, -3.2498) \cup (3.2498, + \infty)$

Проверим, попадает ли полученное значение $t$ в критическую область:

In [9]:
t < t_1 or t > t_2

False

Противоречия не найдено, сл-но утверждение верно

##### Пункт 2:

Т.к. область двухсторонняя, то используем формулу:

$P = 2 \cdot \min (P_l, P_r)$

In [10]:
p_l = stats.t.cdf(t, df=n - 1)
p_r = 1 - stats.t.cdf(t, df=n - 1)

P = 2 * min(p_l, p_r)
P

0.31456660352472854

### Задача 3

#### Условие: 
Дана выборка диаметров подшипников из примера 1 с занятия 5:

```
samples = [0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
           1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02 ]
```

Предполагая, что диаметры подшипников распределены нормально, проверьте гипотезу о том, что дисперсия случайной величины равна `0.0625` при уровне значимости `alpha = 0.05`. Что для этого нужно знать:
1. Альтернативная гипотеза двухсторонняя.
2. Статистика для теста: `H = (n - 1) * sample_variance / variance`, где `n` - число элементов в выборке, `sample_variance` - несмещённая оценка дисперсии, `variance` - утверждаемая нулевой гипотезой дисперсия.
3. Эта статистика в предположении верности нулевой гипотезы имеет распределение хи-квадрат с параметром `df = n - 1`. Её квантили можно найти с помощью функции `scipy.stats.chi2.ppf`.

#### Решение:
Статистика для теста:
$H = \dfrac {(n - 1) * \sigma_X^2}{\sigma^2}$

Если нулевая гипотеза верна, то эта статистика имеет распределние $\chi^2$ с параметром $df = n - 1$

In [11]:
samples = np.array([0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
                    1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
                    0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02 ])

n = samples.size
sigma_x = samples.var(ddof=1)
alpha = 0.05

Найдем значение квантилей:

In [12]:
t_1 = stats.chi2.ppf(alpha / 2, df=n - 1)
t_2 = stats.chi2.ppf(1 - alpha / 2, df= n - 1)

t_1, t_2 

(11.688551922452438, 38.0756272503558)

Получаем критическую область:
$\Omega_\alpha = (-\infty, 11.6886) \cup (38.0756, + \infty)$

In [13]:
sigma = 0.0625

H = (n - 1) * sigma_x / sigma
H

28.720541753333343

Проверим, попадает ли полученное значение $H$ в критическую область:

In [14]:
H < t_1 or H > t_2

False

Противоречия не найдено, сл-но гипотеза верна