In [2]:
import pandas as pd
import itertools
import seaborn as sns
from matplotlib import pyplot as plt
import numpy as np
import collections
import warnings
warnings.filterwarnings('ignore')

Сначала проверим выборку на нормальность. Для этого применяем критерий Шапиро-Уилка:

- *Постановка задачи*: имеет место альтернатива
$$
\begin{align*}
    H_0: & X \sim N(\mu, \sigma^2), \\
    H_1: & H_0 \text{ неверна}.
\end{align*}
$$

- *Рассчет статистики*: $$W(X^n) = \dfrac{\left(\sum \limits_{i = 1}^n a_i X_{(i)}\right)^2}{\sum \limits_{i = 1}^n (X_i - \overline{X})^2}.$$

В нашем случае имеем (значения $a_i$ взяты из таблиц отсюда https://real-statistics.com/statistics-tables/shapiro-wilk-table$) имеем:

In [3]:
data = np.array([3, 22, 13, 6, 18, 5, 6, 10, 7, 15])

n = len(data)

sorted_data = np.sort(data)
print('Отсортированные по возрастанию данные: {}'.format(sorted_data))

mu = np.mean(data)
print('Среднее по выборке: {}'.format(mu))

coeffs = np.array([0.5739, 0.3291, 0.2141, 0.1224, 0.0399, -0.0399, -0.1224, -0.2141, -0.3291, -0.5739])

W = (np.sum(coeffs * sorted_data)**2)/(np.sum((data - mu)**2))
print('Значение статистики: {}'.format(W))

Отсортированные по возрастанию данные: [ 3  5  6  6  7 10 13 15 18 22]
Среднее по выборке: 10.5
Значение статистики: 0.9226972119605077


Для уровня значимости $\alpha = 0.05$ при $n = 10$ получаем значение нулевого распределения в $0.842$, значит можно считать выборку нормальной.

Перейдем теперь к оценке дисперсии. Для этого используем критерий $\chi^2$ в правостороннем случае.

- *Постановка задачи*: имеет место альтернатива:
$$
\begin{align*}
    H_0: & \sigma = 9, \\
    H_1: & \sigma > 9.
\end{align*}
$$

- *Рассчет статистики*: $$\chi^2(X^n) = \dfrac{S^2 (n-1)}{\sigma^2}$$

- *Нулевое распределение*: табличное из $\chi^2 (n-1)$, в нашем случае $n = 10$.

- *Уровень значимости*: оцениваем при правосторонней гипотезе следующим образом:
$$p(\chi^2) = 1 - F_{\chi^2 (n-1)}. $$

Сначала найдем значение статистики. Опять применим компьютер, благо уже все посчитано:

In [4]:
chi_sq = np.sum((data - mu)**2) / (9**2)
print('Значение статистики: {}'.format(chi_sq))

Значение статистики: 4.3765432098765435


In [7]:
import scipy.stats as st

chi_sq_0 = st.chi2(9)
print('Отсечка проходит по {}'.format(1 - chi_sq_0.cdf(chi_sq)))

Отсечка проходит по 0.8849297659664597


Заметич, что табличное значение нулевого распределения: 1.735 при уровне значимости $\alpha = 0.05$. Тогда можно с уверенностью говорить, что гипотеза отвергается.