### Задание 1

Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти доверительный интервал для оценки математического ожидания `mu` с надёжностью 0.95 (доверительная информация), если выборочное среднее равно 80, а объём равен 256.

Из условия задачи дано:

- генеральная совокупность распределена нормально
- $\sigma = 16$
- $p = 0.95$
- $\alpha = 1 - p = 0.05$
- $\overline{X} = 80$
- $n = 256$

Поскольку $\sigma$ известна, то для расчета доверительного интервала для $\mu$ используем статистику $Z$ и считаем по следующей формуле:

<center>
    <div style="width: 350px;border:1px solid black;">
        $P \left( \overline{X} + t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \right) = p$
    </div>
</center>

In [1]:
from scipy import stats

In [2]:
sigma = 16
alpha = 0.05
mean = 80
n = 256

t1 = stats.norm.ppf(alpha / 2)
t2 = stats.norm.ppf(1 - alpha / 2)

(mean + t1 * (sigma / pow(n, 0.5)), mean + t2 * (sigma / pow(n, 0.5)))

(78.04003601545995, 81.95996398454005)

### Задание 2

Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:
```
202, 203, 199, 197, 195, 201, 200, 204, 194, 190
```
Известно, что их веса распределены нормально. 
1. Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%? 
2. Найдите P-значение для данного теста.

Из условия задачи дано:

- веса пачек печенья распределены нормально
- гипотеза $H_0$, что $\mu_0 = 200$
- $\sigma$ - неизвестна
- $\alpha = 0.01$
- выборка: 202, 203, 199, 197, 195, 201, 200, 204, 194, 190
- $n = 10$

Поскольку $\sigma$ неизвестна, то будем применять $t$ статистику.

#### 1.

In [3]:
import numpy as np

In [4]:
packs_weight = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])

In [5]:
n = 10
n == packs_weight.shape[0]

True

In [6]:
def t_statistic(packs_weight):
    return (packs_weight.mean() - 200) / (packs_weight.std(ddof=1) / np.sqrt(n))

In [7]:
alpha = 0.01

t1 = stats.t.ppf(alpha / 2, df=n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)

t1, t2

(-3.24983554401537, 3.2498355440153697)

In [8]:
S_t = t_statistic(packs_weight)
S_t

-1.0651074037450896

Значение статистики не попало в критическую область, значит, гипотеза $H_0$, что $\mu_0 = 200$ остаётся в силе.

#### 2.

Поскольку критическая область двухсторонняя, считаем P-значение по формуле:
$$P = 2 \cdot \min (P_l, P_r)$$

In [9]:
p_left = stats.t.cdf(S_t, df=n - 1)
p_right = 1 - stats.t.cdf(S_t, df=n - 1)

pvalue = 2 * min(p_left, p_right)

pvalue

0.31456660352472854

In [10]:
alpha < pvalue

True

Значение заданного в задаче уровня значимости $\alpha = 0.01$ меньше, чем получившееся P-значение, поэтому гипотеза $H_0$ принимается.

### Задание 3

Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм. Используя уровень значимости 0.025 и правостороннюю критическую область, проверить данную гипотезу при условии, что в выборке из 100 шариков средний диаметр оказался равным 17.5 мм, а дисперсия известна и равна 4 мм.

Из условия задачи дано:

- диаметры шариков распределены нормально
- критическая облать - правосторонняя
- гипотеза $H_0$, что $\mu_0 = 17$
- $D(X) = 4$
- $\alpha = 0.025$
- $\overline{X} = 17.5$
- $n = 100$

Поскольку дисперсия известна, то будем применять $Z$ статистику.

In [11]:
Z = (17.5 - 17) / (pow(4, 0.5) / pow(100, 0.5))
Z 

2.5

Поскольку критическая область правосторонняя, при расчете квантиля используем $1 - \alpha$:

In [12]:
alpha = 0.025
t_right = stats.norm.ppf(1 - alpha)
t_right

1.959963984540054

Значение статистики попало в критическую область, значит, гипотеза $H_0$, что $\mu_0 = 17$ не принимается.

Посчитаем P-значение по формуле для правосторонней области:
$$P_r = 1 - F_S(S)$$

In [13]:
p_right = 1 - stats.norm.cdf(Z)
p_right

0.006209665325776159

Значение заданного в задаче уровня значимости $\alpha = 0.025$ больше, чем получившееся P-значение, поэтому гипотеза $H_0$ не принимается.

### Задание 4

Дана выборка диаметров подшипников из примера 1 с занятия 5:
```
samples = [0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
           1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02]
```
Предполагая, что диаметры подшипников распределены нормально, проверьте гипотезу о том, что дисперсия случайной величины равна `0.0625` при уровне значимости `alpha = 0.05`. Что для этого нужно знать:
1. Альтернативная гипотеза двухсторонняя.
2. Статистика для теста: `H = (n - 1) * sample_variance / variance`, где `n` - число элементов в выборке, `sample_variance` - несмещённая оценка дисперсии, `variance` - утверждаемая нулевой гипотезой дисперсия.
3. Эта статистика в предположении верности нулевой гипотезы имеет распределение хи-квадрат с параметром `df = n - 1`. Её квантили можно найти с помощью функции `scipy.stats.chi2.ppf`.

Из условия задачи дано:

- диаметры подшипников распределены нормально
- альтернативная гипотеза - двусторонняя
- гипотеза $H_0$, что $D(X) = 0.0625$
- $\alpha = 0.05$
- статистика для теста: `H = (n - 1) * sample_variance / variance`, где `n` - число элементов в выборке, `sample_variance` - несмещённая оценка дисперсии, `variance` - утверждаемая нулевой гипотезой дисперсия.
- статистика в предположении верности нулевой гипотезы имеет распределение хи-квадрат с параметром `df = n - 1`. Её квантили можно найти с помощью функции `scipy.stats.chi2.ppf`

In [14]:
samples = np.array([0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
           1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02])

In [15]:
n = samples.shape[0]
n

24

In [16]:
variance = 0.0625
sample_variance = samples.var(ddof=1)
print(variance, sample_variance)

0.0625 0.07804495041666669


Определяем статистику по формуле заданной в условии задачи:

In [17]:
H = (n - 1) * sample_variance / variance
H

28.720541753333343

Поскольку альтернативная гипотеза по условию задачи - двухсторонняя, критическая область также будет двухсторонней. Для её построения определим квантили по функции заданной в условии задачи:

In [18]:
alpha = 0.05

t_left = stats.chi2.ppf(alpha / 2, df=n - 1)
t_right = stats.chi2.ppf(1 - alpha / 2, df=n - 1)

t_left, t_right

(11.688551922452438, 38.0756272503558)

Значение статистики H не попало в критическую область, значит, гипотеза $H_0$, что $D(X) = 0.0625$ принимается.