# Практическая работа №3: Обработка выборочных данных. Нахождение интервальных оценок параметров распределения. Проверка статистической гипотезы о нормальном распределении

Выполнил студент гр. 1384 Степаненко Денис Владиславович.

## Цель работы

Получение практических навыков вычисления интервальных статистических оценок параметров распределения выборочных данных и проверки «справедливости» статистических гипотез.

## Основные теоретические положения

**Интервальная оценка** - статистическая оценка, которая задается двумя числами (начало и конец интервала где может находится истинное значение параметра $\theta$)

**Точность $\theta^*$** - значение $\delta$ статистическая оценка параметра $\theta^*$, которое удовлетворяет неравенству:

$$|\theta^*-\theta|<\delta$$

**Наддежность (доверительная вероятность) оценки** $\Theta^*$ - вероятность $\gamma$, для которой выполняется неравенство:

$\gamma = \mathbb{P}\{ \delta > |\Theta - \Theta^*| \} = \mathbb{P}\{\Theta^* - \delta < \Theta < \Theta^* + \delta \}$,

где $\left( \Theta^* - \delta;\Theta^* + \delta \right)$ - **доверительный интервал**.

Доверительный интервал бывает односторонним и двусторонним:

$ \mathbb{P}\{ \beta_1(\gamma) < \Theta < \beta_2(\gamma) \} = p$

$\mathbb{P}\{ \beta(\gamma) < \Theta \} = \gamma$ или $ \mathbb{P}\{ \beta(\gamma) > \Theta \} = \gamma$

**$p = 1-\gamma$ - уровень значимости**

**Нулевая гипотиза $H_0$** - выдвинутая (основная) гипотеза.
**Конкурирующая гипотеза $H_1$** - альтарнативная гипотеза, противоречащая $H_0$

**Ошибка первого рода** - отвергается верная нулевая гипотеза.

**Ошибка второго рода** - принимается неверная нулевая гипотеза.

**Уровень значимости $\alpha$** - вероятность совешить ошибку первого рода.

**$\beta$** - вероятность ошибки второго рода.

**Мощность критерия $1 - \beta$** - мощность критерия.

Для проверки стат. гипотез используются **критерии**, с помощью которых вычисляются **наблюденные** и **критические** значения случайных величин этих критериев. На основании этих значений выделяют **критическую область** и **область принятия нулевой гипотезы**.





## Постановка задачи

Для заданной надежности определить (на основании выборочных данных и результатов выполнения практической работы №2) границы доверительных интервалов для математического ожидания и среднеквадратичного отклонения случайной величины. Проверить гипотезу о нормальном распределении исследуемой случайной величины с помощью критерия Пирсона $\chi^2 $. Дать содержательную интерпретацию полученным результатам.

### Пункт 1.
Вычислить точность и доверительный интервал для математического ожидания при неизвестном среднеквадратичном отклонении при заданном объёме выборки для доверительной точности $\gamma \in \{0.95, 0.99\}$. Сделать выводы.

In [7]:
import numpy as np
from scipy.stats import t, chi, norm, chi2

x_s = 84.9101623
N = 95
S =  26.311086127598923
gamma = 0.95

In [8]:
df = N - 1
t_gamma = 1.986 # таблично, gamma = 0.95
t_gamma = t.ppf((1+gamma)/2, df)
left_bound = x_s - t_gamma*S/np.sqrt(N)
right_bound = x_s + t_gamma*S/np.sqrt(N)
print(f"Доверительный интервал мат. ожидания: ({round(left_bound,4)}; {round(right_bound,4)})")
print(f"Точность: {round(t_gamma*S/np.sqrt(N),4)}")

Доверительный интервал мат. ожидания: (79.5503; 90.27)
Точность: 5.3598


По использованным из прерыдущей практической работы значению выборочного среднего, выборочного СКО, объему выбоки и вычисленой квантили $t_{\gamma}$ при уровне надежности $\gamma = 0.95$ были вычислины доверительный интервал мат ожидания и точность интервала: (79.5503; 90.27) и 5.3598 соответственно.

Для их вычисления при неизвестном СКО был использован закон распределения Стьюдента, т.к. он не зависит от СКО (зависит только от объема выборки, степеней свободы, выборочного СКО и выборочного среднего, стат. оценки мат. ожидания).
Доверительный интервал представляется как: $$\left(\bar{x}_в - \frac{t_{\gamma}S}{\sqrt{N}}; \bar{x}_в + \frac{t_{\gamma}S}{\sqrt{N}}\right),$$

где $t_{\gamma}$ удовлетворяет условию:

$$\mathbb{P}\left(\left|\frac{\bar{x}_в - a}{S/\sqrt{N}}\right| < t_{\gamma}\right) = 2\int_0^{t_{\gamma}}s(t,N)dt = \gamma = 2S(t_\gamma,N) - 1$$

$$S(t_\gamma,N) = \frac{\gamma}{2}+\frac{1}{2}$$

отсюда можной найти квантиль:

$$t_\gamma = S^{-1} \left( \frac{1+\gamma}{2},N \right)$$.


### Пункт 2.
Для вычисления границ доверительного интервала для среднеквадратичного отклонения определить значение $q$ при заданных $\gamma$ и $n$. Построить доверительные интервалы, сделать выводы.

In [5]:
q = 0.147 # таблично, gamma = 0.95
left_bound = S * (1-q)
right_bound = S * (1+q)
print(f"Доверительный интервал СКО: ({round(left_bound,4)}; {round(right_bound,4)})")

Доверительный интервал СКО: (22.4434; 30.1788)


Для вычисления доверительного интервала СКО воспользуемся соотношением $\mathbb{P} = \left( |S-\sigma|<\delta \right) = \gamma$.

Преобразуем:

$$ S-\delta < \sigma < S+\delta$$

Чтобы определить надежность $\gamma$ проведем некоторые преобразования.
При замене $q=\frac{\delta}{S}$ его можно представить как:

$$ S(1-q) < \sigma < S(1+q),$$

где $q<1$


$$\frac{1}{S(1+q)}<\frac{1}{\sigma}<\frac{1}{S(1-q)}$$



$$\frac{\sqrt{N-1}}{S(1+q)}<\frac{\sqrt{N-1}}{\sigma}<\frac{\sqrt{N-1}}{S(1-q)}$$

Далее воспользуемся $\chi = \frac{S\sqrt{N-1}}{\sigma}$ и преобразуем интервал:

$$\frac{\sqrt{N-1}}{(1+q)}<\chi<\frac{\sqrt{N-1}}{(1-q)}$$

Чтобы вероятность выполнения неравенства равнялась заданной надежности, должно выполняться условие:

$$\int_{\frac{\sqrt{N-1}}{(1+q)}}^{\frac{\sqrt{N-1}}{(1-q)}}R(\chi,N)d\chi=\gamma$$

Значение $q$ было найдено с помощью таблицы по заданным значениям $\gamma$ и $N$. Далее доверительный интервал был посчитан с помощью третьего двойного неравнства.



### Пункт 3.
Проверить гипотезу о нормальности заданного распределения с помощью критерия $\chi^2$ (Пирсона). Для этого необходимо найти теоретические частоты и вычислить наблюдаемое значение критерия. Для удобства вычисления необходимо заполнить табл. 1.

In [20]:
x = np.array([50.4742,  67.4227,  84.3712, 101.3197, 118.2682, 135.2167, 152.1652])
m = np.array([0.2105, 0.2105, 0.1895, 0.1684, 0.1895, 0.0105, 0.0211])
n = np.array([20, 20, 18, 16, 18, 1, 2])
h = 16.94848642857143
intervals = np.array([[ 42.,      58.9485],
 [ 58.9485,  75.897 ],
 [ 75.897,   92.8455],
 [ 92.8455, 109.7939],
 [109.7939, 126.7424],
 [126.7424, 143.6909],
 [143.6909, 160.6394]])

# перерасчет интервалов
intervals[0] = np.array([-np.inf, intervals[0,1]])
intervals[-1] = np.array([intervals[-1,0], np.inf])

for interval in intervals:
  interval[0] = (interval[0] - x_s)/S
  interval[1] = (interval[1] - x_s)/S

# print(intervals)

# вычисление вероятностей попадания СВ в интервалы
p = np.zeros((len(intervals)))
for index, interval in enumerate(intervals):
  p[index] = norm.cdf(interval[1]) - norm.cdf(interval[0])
  # print(norm.cdf(interval[0])-1/2)
# print(p)

# вычисление значений теоритических частот
n_t = np.zeros((len(intervals)))
for i, p_i in enumerate(p):
  n_t[i] = N*p_i
# print(n_t)



Таблица 1

| i | $[x_i, x_{i+1})$ | $n_i$ | $p_i$ | $n_i'$ | $\left(n_i-n_i' \right)^2$ | $\frac{\left( n_i-n_i' \right) ^2}{n_i'}$ | $n_i^2$ | $\frac{n_i^2}{n_i'}$ |
|---|---|---|---|---|---|---|---|---|
| 1 | [$-\infty$, -0.9867) | 20 | 0.1619 | 15.3796 | 21.3485 | 1.3881 | 400 | 26.0086 |
| 2 | [-0.9867, -0.3426) | 20 | 0.2041 | 19.387 | 0.3757 | 0.0194 | 400 | 20.6323 |
| 3 | [-0.3426,  0.3016) | 18 | 0.2526 | 23.9928 | 35.9139 | 1.4969 | 324 | 13.504 |
| 4 | [0.3016, 0.9458) | 16 | 0.2093 | 19.8875 | 15.1126 | 0.7599 | 256 | 12.8724 |
| 5 | [0.9458, 1.5899) | 18 | 0.1162 | 11.04 | 48.4421 | 4.3879 | 324 | 29.3479 |
| 6 | [1.5899, 2.2341) | 1 | 0.0432 | 4.1029 | 9.6279 | 2.3466 | 1 | 0.2437 |
| 7 | [2.2341,    $+\infty$) | 2 | 0.0127 | 1.2102 | 0.6237 | 0.5154 | 4 | 3.3051 |
|   |$\sum$ | 95 | 1.0 | 95.0 | - | 10.9141 | - | 105.9141 |


### Пункт 4.
Доказать, что
$$\chi^2_{\textit{набл}} = \sum_{i = 1}^k\frac{n^2_i}{n'_i} - n.$$


Проконтролировать корректность вычисления $\chi^2_{\textit{набл}}$

$\chi^2_{\textit{набл}} = \sum_{i = 1}^k\frac{(n_i-n'_i)^2}{n'_i}=
\sum_{i = 1}^k\frac{(n_i^2-2n_in_i'+n_i^{'2})}{n'_i}=
\sum_{i = 1}^k\frac{n_i^2}{n'_i} -2 \sum_{i = 1}^k\frac{n_in_i'}{n'_i} + \sum_{i = 1}^k\frac{n_i^{'2}}{n'_i} =
\sum_{i = 1}^k\frac{n_i^2}{n'_i} -2 \sum_{i = 1}^k n_i + \sum_{i = 1}^k n'_i =
\sum_{i = 1}^k\frac{n_i^2}{n'_i} - 2n + n =
\sum_{i = 1}^k\frac{n^2_i}{n'_i} - n$

In [7]:
# контроль вычислений
if round(sum((n-n_t)**2/n_t),4) == round(sum(n**2/n_t)-sum(n),4):
  print("Вычисления верны!")

Вычисления верны!


### Пункт 5.
По заданному уровню значимости $\alpha = 0.05$ и числу степеней свободы $df$ найти критическую точку $\chi^2_{крит}$ и сравнить с наблюдаемым значением. Сделать выводы.

In [16]:
K = len(x)
alpha = 0.05
chi2_crit = 9.5 # табличные данные
chi2_crit = chi2.ppf(1-alpha, df=K-3)
chi2_observ = sum((n-n_t)**2/n_t)
print("Критическое:", round(chi2_crit,4))
print("Наблюдаемое:", round(chi2_observ,4))

if chi2_observ <= chi2_crit:
    print('Не отвергаем гипотезу H0')
else:
    print('Отвергем гипоетезу H0')


Критическое: 9.4877
Наблюдаемое: 10.9141
Отвергем гипоетезу H0


Были рассчитаны значения $\chi^2_{набл}$ и $\chi^2_{крит}$. Так как критическое значения распределения при уровне значимости 0.05 меньше наблюдаемого значения, то нулевая гипотеза отвергается. Таким образом, выборка не имеет нормального распределения.

Проведем аналогичные операции со второй выборкой.

In [19]:
x_s = 2.65840466
N = 95
S =  0.6927376631059887
gamma = 0.95

k = N - 1
t_gamma = 1.986 # таблично, gamma = 0.95
t_gamma = t.ppf((1+gamma)/2, k)
left_bound = x_s - t_gamma*S/np.sqrt(N)
right_bound = x_s + t_gamma*S/np.sqrt(N)
print(f"Доверительный интервал мат. ожидания: ({round(left_bound,4)}; {round(right_bound,4)})")
print(f"Точность: {round(t_gamma*S/np.sqrt(N),4)}")

q = 0.147 # таблично, gamma = 0.95
left_bound = S * (1-q)
right_bound = S * (1+q)
print(f"Доверительный интервал СКО: ({round(left_bound,4)}; {round(right_bound,4)})")


x = np.array([1.2143, 1.6429, 2.0714, 2.5,    2.9286, 3.3571, 3.7857])
m = np.array([0.1474, 0.0211, 0.0316, 0.0632, 0.6526, 0.0211, 0.0632])
n = np.array([14, 2, 3, 6, 62, 2, 6])
h = 0.42857142857142855
intervals = np.array([[1.    , 1.4286],
 [1.4286, 1.8571],
 [1.8571, 2.2857],
 [2.2857, 2.7143],
 [2.7143, 3.1429],
 [3.1429, 3.5714],
 [3.5714, 4.    ]])

# перерасчет интервалов
intervals[0] = np.array([-np.inf, intervals[0,1]])
intervals[-1] = np.array([intervals[-1,0], np.inf])

for interval in intervals:
  interval[0] = (interval[0] - x_s)/S
  interval[1] = (interval[1] - x_s)/S

# print(intervals)

# вычисление вероятностей попадания СВ в интервалы
p = np.zeros((len(intervals)))
for index, interval in enumerate(intervals):
  p[index] = norm.cdf(interval[1]) - norm.cdf(interval[0])
  # print(norm.cdf(interval[0])-1/2)
# print(p)

# вычисление значений теоритических частот
n_t = np.zeros((len(intervals)))
for i, p_i in enumerate(p):
  n_t[i] = N*p_i
# print(n_t)

# контроль вычислений
if round(sum((n-n_t)**2/n_t),4) == round(sum(n**2/n_t)-sum(n),4):
  print("Вычисления верны!")

K = len(x)
alpha = 0.05
chi2_crit = 9.5 # табличные данные
chi2_crit = chi2.ppf(1-alpha, df=K-3)
chi2_observ = sum((n-n_t)**2/n_t)
print("Критическое значение критерия Хи2:", round(chi2_crit,4))
print("Наблюдаемое значение критерия Хи2:", round(chi2_observ,4))

if chi2_observ <= chi2_crit:
    print('Не отвергаем гипотезу H0')
else:
    print('Отвергем гипоетезу H0')

Доверительный интервал мат. ожидания: (2.5173; 2.7995)
Точность: 0.1411
Доверительный интервал СКО: (0.5909; 0.7946)
Вычисления верны!
Критическое значение критерия Хи2: 9.4877
Наблюдаемое значение критерия Хи2: 145.6534
Отвергем гипоетезу H0


Таблица 2

| i | $[x_i, x_{i+1})$ | $n_i$ | $p_i$ | $n_i'$ | $\left(n_i-n_i' \right)^2$ | $\frac{\left( n_i-n_i' \right) ^2}{n_i'}$ | $n_i^2$ | $\frac{n_i^2}{n_i'}$ |
|---|---|---|---|---|---|---|---|---|
| 1 | [$-\infty$, -1.7753) | 14 | 0.0379 | 3.6029 | 108.0989 | 30.003 | 196 | 54.4 | 40.4 |
| 2 | [-1.7753, -1.1567) | 2 | 0.0858 | 8.1479 | 37.7967 | 4.6388 | 4 | 0.4909 | -1.5091 |
| 3 | [-1.1567, -0.538) | 3 | 0.1716 | 16.301 | 176.9169 | 10.8531 | 9 | 0.5521 | -2.4479 |
| 4 | [-0.538,   0.0807) | 6 | 0.2369 | 22.5029 | 272.3442 | 12.1027 | 36 | 1.5998 | -4.4002 |
| 5 | [0.0807, 0.6994) | 62 | 0.2257 | 21.4407 | 1645.0557 | 76.7258 | 3844 | 179.2851 | 117.2851 |
| 6 | [0.6994, 1.318 ) | 2 | 0.1484 | 14.0974 | 146.3471 | 10.3811 | 4 | 0.2837 | -1.7163 |
| 7 | [1.318, $+\infty$) | 6 | 0.0938 | 8.9072 | 8.4517 | 0.9489 | 36 | 4.0417 | -1.9583 |
|   |$\sum$ | 95 | 1.0 | 95.0 | - | 145.6534 | - | 240.6534 |



По данной выборке можно сделать аналогичные выводы: нулевая гипотеза отвергается. Только в этом случае по разнице между значениями наблюдаемого и критического видно, что рапределение очень не похоже на нормальное.

## Выводы
В ходе выполнения практической работы были получены практические навыки нахождения интервальных статистических оценок для параметров нормального распределения – математического ожидания и среднеквадратического отклонения.

Мы получили интервальную оценку математического ожидания генеральной совокупности с уровнем надежности 95%: $a \in \left(79.5503; 90.27\right)$ - для первой выборки, (2.5173; 2.7995) - для второй.

А также получили интервальную оценку среднеквадратического отклонения генеральной совокупности с уровнем надежности 95%:
$\sigma \in (22.4434; 30.1788)$ - для первой, (0.5909; 0.7946) - для второй.

Проверили гипотезу согласия с нормальным распределением с использованием критерия $\chi^2$ на уровне значимости $\alpha=0.05$. На основании произведённых расчётов и полученного и критического значений статистического критерия эта гипотеза была отвергнула в обеих выборках. Однако, во второй выборке, значения статистик значимо различались, что может говорить о почти полном отстувствии согласия с нормальным распределением.
