# 1 Задание

### Условие

Пусть $X_1, ..., X_16$ - случайная выборка с распределением $X_i \in N(a, 1)$

Будем проверять гипотезы: <br/>
$H_0: a = 0$ <br/>
$H_1: a = 2$ <br/>

Критерии проверки: <br/>
Если $\overline{X} \leq 1$, то принимаем $H_1$, иначе принимаем $H_2$

## Ошибка первого рода

Найдем ошибку первого рода: <br/>
$\overline{X} = \frac{1}{16} \sum_{i=1}^{16} X_i \in N(a, \frac{1}{16})$ <br/>

$P(ош\ 1\ рода) = P(\overline{X} > 1\ |\ \overline{X} \in N(0, \frac{1}{16})) = P(Y > 4\ |\ Y \in N(0, 1))$

Проверим по таблице для нормального распределения, с какой вероятностью $P(Y > 4\ |\ Y \in N(0, 1))$

$P(Y > 4\ |\ Y \in N(0, 1)) = 1 - \Phi(4) \approx 0$

Как можно видеть, при выбранном критерии на выборке из 16 величин вероятность ошибка первого рода почти нулевая

## Ошибка второго рода

Найдем ошибку второго рода: <br/>

$P(ош\ 2\ рода) = P(\overline{X} \leq 1\ |\ \overline{X} \in N(2, \frac{1}{16})) = P(Y \leq -4\ |\ Y \in N(0, 1))$

Аналогично предыдущему пункту

$P(Y \leq -4\ |\ Y \in N(0, 1)) = \Phi(-4) \approx 0$

Как можно видеть, при выбранном критерии на выборке из 16 величин вероятность ошибка второго рода тоже почти нулевая

# 2 Задание

## Пункт 1

Проверим, что значения из выборки соответствуют равномерному распределению на отрезке [0, 1]. Считаем данные:

In [84]:
import pandas

def P(r):
    low, high = r
    if low <= 0:
        low = 0.0
    if high >= 1:
        high = 1.0
    return high - low

df = pandas.read_excel('table.xlsx')
K = df.iloc[:, 10].dropna()
n = len(K)

Разобъем всю числовую ось на 10 групп

In [85]:
import math

ranges = []
low = -math.inf
for i in range(1, 10):
    high = round(i * 0.1, 2)
    ranges.append((low, high))
    low = high
ranges.append((low, math.inf))
    
range_to_num_values = {}
for r in ranges:
    range_to_num_values[r] = 0
    for v in K:
        if v >= r[0] and v < r[1]:
            range_to_num_values[r] += 1

print("Количество значений в промежутке:")
for r, num in range_to_num_values.items():
    print(f"{r} : {num}")

Количество значений в промежутке:
(-inf, 0.1) : 11
(0.1, 0.2) : 2
(0.2, 0.3) : 2
(0.3, 0.4) : 2
(0.4, 0.5) : 2
(0.5, 0.6) : 4
(0.6, 0.7) : 4
(0.7, 0.8) : 0
(0.8, 0.9) : 1
(0.9, inf) : 2


Найдем значение статистики

In [86]:
stat = 0
for r, num in range_to_num_values.items():
    stat += (num - n * P(r)) ** 2 / (n * P(r))
    
print(f"Значение статистики хи-квадрат: {stat}")

Значение статистики хи-квадрат: 28.0


Найдем $1 - a$ квантиль по таблице распределния хи квадрат при $a = 0.2$

Это будет число $z \approx 12.242$. Видно, что значение статистики $X^{2}_{30, 10} > z$, а значит отвергаем предположение о том, что значения равномерно распределены на отрезке [0, 1]

## Пункт 2

### Критерий хи-квадрат

Проверим с помощью критерия хи-квадрат гипотезу о том, что значения выборок имеют одинаковый закон распределения. Считаем данные:

In [87]:
import pandas

df = pandas.read_excel('table.xlsx')
K = df.iloc[:, 10].dropna()
M = df.iloc[:, 12].dropna()
n = len(K)
m = len(M)

Все значения из обоих выборок попадают в промежуток (-1, 1), так что разобъем этот промежуток на 10 групп и применим критерий хи-квадрат

In [88]:
import math

ranges = []
low = -1.0
delta = 0.2
for i in range(1, 10):
    high = round(low + delta, 2)
    ranges.append((low, high))
    low = high
ranges.append((low, 1.0))
    
K_range_to_num_values = {}
M_range_to_num_values = {}
for r in ranges:
    K_range_to_num_values[r] = 0
    M_range_to_num_values[r] = 0
    for v in K:
        if v >= r[0] and v < r[1]:
            K_range_to_num_values[r] += 1
    for v in M:
        if v >= r[0] and v < r[1]:
            M_range_to_num_values[r] += 1

print("Количество значений в промежутке:")
for r, num in K_range_to_num_values.items():
    print(f"{r} : {num} {M_range_to_num_values[r]}")

Количество значений в промежутке:
(-1.0, -0.8) : 2 2
(-0.8, -0.6) : 4 2
(-0.6, -0.4) : 1 8
(-0.4, -0.2) : 2 1
(-0.2, 0.0) : 2 2
(0.0, 0.2) : 2 2
(0.2, 0.4) : 4 4
(0.4, 0.6) : 6 5
(0.6, 0.8) : 4 1
(0.8, 1.0) : 3 3


Найдем значение статистики

In [89]:
stat = 0
for r in K_range_to_num_values.keys():
    vi = K_range_to_num_values[r]
    mi = M_range_to_num_values[r]
    s1 = (vi - (vi + mi) * n / (n + m)) ** 2 / ((vi + mi) * n / (n + m))
    s2 = (mi - (vi + mi) * m / (n + m)) ** 2 / ((vi + mi) * m / (n + m))
    stat += s1 + s2
    
print(f"Значение статистики хи-квадрат: {stat}")

Значение статистики хи-квадрат: 8.335353535353535


Найдем $1 - a$ квантиль по таблице распределния хи квадрат при $a = 0.2$

Это будет число $z \approx 12.242$. Видно, что значение статистики $X^{2}_{60, 10} < z$, а значит принимаем гипотезу о том, что значения имеют одинаковое распределение

### Критерий Вилкоксона

Проверим с помощью критерия Вилкоксона гипотезу о том, что значения выборок имеют одинаковый закон распределения

In [90]:
import pandas

df = pandas.read_excel('table.xlsx')
K = df.iloc[:, 10].dropna()
M = df.iloc[:, 12].dropna()
n = len(K)
m = len(M)

K = list(zip(K, [0 for _ in range(n)]))
M = list(zip(M, [1 for _ in range(n)]))
U = K + M
U = sorted(U, key=lambda t : t[0])

Найдем сумму рангов $W_{n, m}$ и посчитаем статистику Вилкоксона

In [91]:
W = 0
for i, t in enumerate(U):
    _, order = t
    if order == 0:
        W += i + 1

stat = (W - n * (n + m + 1) / 2) / ((n * m * (n + m + 1) / 12) ** 0.5)
    
print(f"Значение статистики Вилкоксона: {stat}")

Значение статистики Вилкоксона: 0.9166343759836704


Найдем $1 - \frac{a}{2}$ квантиль по таблице нормального распределения при $a = 0.2$

Это будет число $z \approx 1.3$. Видно, что значение статистики Вилкоксона меньше $z$, а значит принимаем гипотезу о том, что значения имеют одинаковое распределение