# Теория вероятностей и математическая статистика

## Урок 5

## Проверка статистических гипотез. P-значения. Доверительные интервалы

### Домашнее задание

В поле ответа впишите одно число. Нецелые числа следует округлить до 8 знаков после запятой.


### Задача 1

Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти ширину доверительного интервала для оценки математического ожидания `mu` с надёжностью 0.95, если выборочное среднее равно 80, а объём выборки равен 256.

In [1]:
from scipy import stats
import numpy as np

In [2]:
p = 0.95
a = 1 - p
std = 16
n = 256
mean = 80

In [3]:
t1 = stats.norm.ppf(a / 2)
t2 = stats.norm.ppf(1 - a / 2)

t1, t2

(-1.959963984540054, 1.959963984540054)

In [4]:
round((mean + t2 * std / np.sqrt(n)) - (mean + t1 * std / np.sqrt(n)), 8)

3.91992797


__Ответ: 3.91992797__


### Задача 2

Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:
```
202, 203, 199, 197, 195, 201, 200, 204, 194, 190
```
Известно, что их веса распределены нормально. Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%? Найдите P-значение для данного теста и укажите его в качестве ответа.

In [90]:
samples = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])

In [91]:
n = len(samples)
a = 0.01
m = 200
mean = np.mean(samples)

mean, n

(198.5, 10)

In [92]:
t1 = stats.t.ppf(a / 2, df=n - 1)
t2 = stats.t.ppf(1 - a/2, df=n - 1)

t1, t2

(-3.2498355440153697, 3.2498355440153697)

In [93]:
std = samples.std(ddof=1)
std

4.453463071962462

In [94]:
def statistic(samples: np.ndarray) -> float:
    return (samples.mean() - 200) / (samples.std(ddof=1) / np.sqrt(samples.shape[0]))

In [95]:
s = statistic(samples)
s

-1.0651074037450896

In [96]:
p_left = stats.t.cdf(s, df=n - 1)
p_left

0.15728330176236424

In [97]:
p_right = 1 - stats.t.cdf(s, df=n - 1)
p_right

0.8427166982376357

In [98]:
pvalue = 2 * min(p_left, p_right)

In [99]:
round(pvalue, 8)

0.3145666

In [100]:
a < pvalue

True

Утверждение продавца верное, так как уровень значимости 1% меньше, чем pvalue = 0.3145666

__Ответ: P-значение = 0.3145666__

### Задача 3

Дана выборка диаметров подшипников из примера 1 с занятия 5:
```
samples = [0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
           1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02  ]
```
Предполагая, что диаметры подшипников распределены нормально, проверьте гипотезу о том, что дисперсия случайной величины равна `0.0625` при уровне значимости `alpha = 0.05`. Что для этого нужно знать:
1. Альтернативная гипотеза двухсторонняя.
2. Статистика для теста: `H = (n - 1) * sample_variance / variance`, где `n` - число элементов в выборке, `sample_variance` - несмещённая оценка дисперсии, `variance` - утверждаемая нулевой гипотезой дисперсия.
3. Эта статистика в предположении верности нулевой гипотезы имеет распределение хи-квадрат с параметром `df = n - 1`. Её квантили можно найти с помощью функции `scipy.stats.chi2.ppf`.

В качестве ответа запишите 1, если нулевая гипотеза верна, и 0 иначе.

In [101]:
samples = np.array([0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
           1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02  ])

In [102]:
a = 0.05
variance = 0.0625
mean = samples.mean()
n = len(samples)

mean, n

(1.1084541666666665, 24)

In [103]:
t1 = stats.chi2.ppf(a / 2, df=n - 1)
t2 = stats.chi2.ppf(1 - a / 2, df=n - 1)

t1, t2

(11.688551922452438, 38.0756272503558)

In [104]:
sample_variance = samples.var(ddof=1)

In [105]:
H = (n - 1) * sample_variance / variance
H

28.720541753333343

In [106]:
t1 < H < t2

True

__Ответ: 1, гипотеза верна__