## Проверка статистических гипотез. P-значения. Доверительные интервалы

### Домашнее задание

В поле ответа впишите одно число. Нецелые числа следует округлить до 8 знаков после запятой.

__Задача 1__

Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти ширину доверительного интервала для оценки математического ожидания `mu` с надёжностью 0.95, если выборочное среднее равно 80, а объём выборки равен 256.

In [6]:
from scipy import stats

In [1]:
std = 16   #среднее квадратичное отклонение

In [3]:
p = 0.95   #доверительная вероятность

In [4]:
Xm = 80   #выборочное среднее

In [5]:
n = 256   #объём выборки

In [7]:
alpha = 1 - p
alpha   #уровень значимости

0.050000000000000044

In [8]:
t1 = stats.norm.ppf(alpha/2)
t2 = stats.norm.ppf(1 - alpha/2)
t1, t2

(-1.959963984540054, 1.959963984540054)

In [10]:
conf_interval = (Xm + t1 * std / (n ** (1 / 2)), Xm + t2 * std / (n ** (1 / 2)))
conf_interval   # доверительный интервал

(78.04003601545995, 81.95996398454005)

In [14]:
left, right = conf_interval
f"Ответ: ширина доверительного интервала: {round(right - left, 8)}"

'Ответ: ширина доверительного интервала: 3.91992797'

__Задача 2__

Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:
```
202, 203, 199, 197, 195, 201, 200, 204, 194, 190
```
Известно, что их веса распределены нормально. Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%? Найдите P-значение для данного теста и укажите его в качестве ответа.

In [23]:
import numpy as np

In [38]:
samples = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])

In [39]:
n = 10   #размер выборки

In [81]:
M = 200   #утверждаемое нулевой гипотезой математическое ожидание

In [54]:
S = (samples.mean() - M) / (samples.std(ddof=1) / np.sqrt(samples.shape[0]))
S   #статистика для оценки мат. ожидания нормального распределения

-1.0651074037450896

In [62]:
print('alpha\tresult')
print('--------------')

for alpha in np.linspace(0, 0.50, 25):
    t1 = stats.t.ppf(alpha/2, df = n - 1)
    t2 = stats.t.ppf(1 - alpha/2, df = n - 1)
    print(round(alpha, 4), '\t', t1 <= S <= t2)

alpha	result
--------------
0.0 	 True
0.0208 	 True
0.0417 	 True
0.0625 	 True
0.0833 	 True
0.1042 	 True
0.125 	 True
0.1458 	 True
0.1667 	 True
0.1875 	 True
0.2083 	 True
0.2292 	 True
0.25 	 True
0.2708 	 True
0.2917 	 True
0.3125 	 True
0.3333 	 False
0.3542 	 False
0.375 	 False
0.3958 	 False
0.4167 	 False
0.4375 	 False
0.4583 	 False
0.4792 	 False
0.5 	 False


In [35]:
stats.ttest_1samp(samples, popmean=200)

Ttest_1sampResult(statistic=-1.0651074037450896, pvalue=0.31456660352472854)

In [67]:
f'Ответ: pvalue = {round(0.31456660352472854, 8)}'

'Ответ: pvalue = 0.3145666'

__Задача 3__

Дана выборка диаметров подшипников из примера 1 с занятия 5:
```
samples = [0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
           1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02  ]
```
Предполагая, что диаметры подшипников распределены нормально, проверьте гипотезу о том, что дисперсия случайной величины равна `0.0625` при уровне значимости `alpha = 0.05`. Что для этого нужно знать:
1. Альтернативная гипотеза двухсторонняя.
2. Статистика для теста: `H = (n - 1) * sample_variance / variance`, где `n` - число элементов в выборке, `sample_variance` - несмещённая оценка дисперсии, `variance` - утверждаемая нулевой гипотезой дисперсия.
3. Эта статистика в предположении верности нулевой гипотезы имеет распределение хи-квадрат с параметром `df = n - 1`. Её квантили можно найти с помощью функции `scipy.stats.chi2.ppf`.

В качестве ответа запишите 1, если нулевая гипотеза верна, и 0 иначе.

In [64]:
samples = np.array([0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
           1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02 ])

In [65]:
alpha = 0.05

In [71]:
n = len(samples)
n   #число элементов в выборке

24

In [69]:
variance = 0.0625   #утверждаемая нулевой гипотезой дисперсия

In [68]:
sample_variance = samples.var(ddof=1)
sample_variance   #несмещённая оценка дисперсии

0.07804495041666669

In [76]:
H = (n - 1) * sample_variance / variance
H   #Статистика для оценки дисперсии

28.720541753333343

In [75]:
t1 = stats.chi2.ppf(alpha/2, df = n - 1)
t2 = stats.chi2.ppf(1 - alpha/2, df = n - 1)
round(t1, 8), round(t2, 8)

(11.68855192, 38.07562725)

Критическая область: $$\Omega_\alpha = (-\infty, 11.68855192) \cup (38.07562725, \infty)$$

In [79]:
t1 < H < t2

True

Статистика не входит в критическую область, значит нулевая гипотеза верна.

__Ответ__: 1