__Задача 1__

Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти ширину доверительного интервала для оценки математического ожидания `mu` с надёжностью 0.95, если выборочное среднее равно 80, а объём выборки равен 256.

In [15]:
import numpy as np
from scipy import stats

__Решение__

Известны следующие величины:

In [16]:
D = 16
std = D**0.5
p = 0.95
alpha = 1 - p
sm = 80
n = 256

Нужные нам квантили для нормального распределения найдём с помощью `scipy`:

In [17]:
t1 = stats.norm.ppf(alpha / 2)
t2 = stats.norm.ppf(1 - alpha / 2)
t1, t2
print('Ширина доверительного интервала равна:',round(t2 - t1, 8))

Ширина доверительного интервала равна: 3.91992797


__Задача 2__

Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:
```
202, 203, 199, 197, 195, 201, 200, 204, 194, 190
```
Известно, что их веса распределены нормально. Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%? Найдите P-значение для данного теста и укажите его в качестве ответа.

Определим известные нам из условия задачи значения:

In [18]:
samples = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])
mu_0 = 200
n = 10
alpha_0 = 0.01

Так как по условию задачи генеральная совокупность распределена нормально, но неизвестна дисперсия, то можно воспользоваться t-статистикой. Определим функцию для t-статистики:

In [19]:
def statistic(samples: np.ndarray) -> float:
    return (samples.mean() - mu_0) / (samples.std(ddof=1) / np.sqrt(n))

Проверим предположение продавца. Найдем квантили критической области и статистику по имеющейся выборке. 

In [20]:
t1 = stats.t.ppf(alpha_0 / 2, df=n - 1)
t2 = stats.t.ppf(1 - alpha_0 / 2, df=n - 1)

t1, t2

(-3.24983554401537, 3.2498355440153697)

In [21]:
S = statistic(samples)
S

-1.0651074037450896

Так как значение статитистики не лежит в критической области, то предположение продавца о том, что средний вес пачки печенья составляет 200 грамм, не противоречит данным выборки.

Теперь прикинем P-значение для этой выборки:

In [22]:
print('alpha\tresult')
print('-------------')

for alpha in np.linspace(0.31, 0.32, 20):
    t1 = stats.t.ppf(alpha / 2, df=n - 1)
    t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)
    
    print(round(alpha, 4), '\t', t1 <= S <= t2)

alpha	result
-------------
0.31 	 True
0.3105 	 True
0.3111 	 True
0.3116 	 True
0.3121 	 True
0.3126 	 True
0.3132 	 True
0.3137 	 True
0.3142 	 True
0.3147 	 False
0.3153 	 False
0.3158 	 False
0.3163 	 False
0.3168 	 False
0.3174 	 False
0.3179 	 False
0.3184 	 False
0.3189 	 False
0.3195 	 False
0.32 	 False


In [23]:
print('P-значение примерно равно:', round((0.3142+0.3147)/2, 4))

P-значение примерно равно: 0.3145


__Задача 3__

Дана выборка диаметров подшипников из примера 1 с занятия 5:
```
samples = [0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
           1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02  ]
```
Предполагая, что диаметры подшипников распределены нормально, проверьте гипотезу о том, что дисперсия случайной величины равна `0.0625` при уровне значимости `alpha = 0.05`. Что для этого нужно знать:
1. Альтернативная гипотеза двухсторонняя.
2. Статистика для теста: `H = (n - 1) * sample_variance / variance`, где `n` - число элементов в выборке, `sample_variance` - несмещённая оценка дисперсии, `variance` - утверждаемая нулевой гипотезой дисперсия.
3. Эта статистика в предположении верности нулевой гипотезы имеет распределение хи-квадрат с параметром `df = n - 1`. Её квантили можно найти с помощью функции `scipy.stats.chi2.ppf`.

В качестве ответа запишите 1, если нулевая гипотеза верна, и 0 иначе.

__Решение__

Сформулируем нулевую гипотезу $H_0$: дисперсия случайной величны диаметра подшипника равна 0.0625. Альтернативная гипотеза $H$: дисперсия случайной величны диаметра подшипника не равна 0.0625.

Статистика для теста: H = (n - 1) * sample_variance / variance, где n - число элементов в выборке, sample_variance - несмещённая оценка дисперсии, variance - утверждаемая нулевой гипотезой дисперсия.
Определим остальные величины:

In [24]:
variance = 0.0625
alpha = 0.05
samples = np.array([0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
           1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02])
n = samples.shape[0]

Определим функцию для статистики:

In [30]:
def statistic_H(samples: np.ndarray) -> float:
    return (n - 1) * samples.var(ddof=1) / variance

In [26]:
samples.std(ddof=1)

0.27936526343958135

Определим критическую область для нашей гипотезы:

In [27]:
t1 = stats.chi2.ppf(alpha/2, df=n - 1)
t2 = stats.chi2.ppf(1 - alpha/2, df=n - 1)
t1, t2

(11.688551922452438, 38.0756272503558)

Итак, критическая область значений для нашей гипотезы: $$\Omega_\alpha = (-\infty, 11.689) \cup (38.075, \infty)$$. Теперь вычислим статистику:

In [31]:
S = statistic_H(samples)
S

28.720541753333343

Значение статистики не попало в критическую область, нулевая гипотеза верна.

Ответ: 1