## ЛАБОРАТОРНАЯ РАБОТА №7.
## ТЕСТИРОВАНИЕ ГИПОТЕЗ О РАСПРЕДЛЕНИЯХ
#### по дисциплине «Математическая статистика»
Направление подготовки 01.03.02 Прикладная математика и информатика
Очной формы обучения

выполнил: студент группы Б9123-01.03.02ии

Иванов Матвей Олегович

принял: Деревягин Андрей Алексеевич

# Математическая часть

### Критерий Колмогорова

Критерий Колмогорова - Проверка гипотезы о том, что cлучайная выборка $X_1, …, X_n​$ \
c распределением F_x(x) происходит из заданного распределения $\hat{F}(x)$

статистика $D_n = \sqrt{n} \cdot sup_{x \in R} |\hat{F}(x) - F_x(x)|$ \
Асимптотическое распределение статистики $\sqrt{n}D_n$ при $n \to \infty$ задаётся функцией Колмогорова: \
$F_k(x) = \sum_{k=-\infty}^{+\infty} (-1)^k e^{-2k^2x^2} \cdot I(x > 0)$ \
p-значение $p = 1 - F_K(k)$



### Критерий Колмогорова-Смирнова

Критерий Колмогорова-Смирнова - гипотеза для проверки однородности двух выборок \
$X_1, X_2, \cdots, X_n$ с ф-ией распределения $F_X(x)$; $Y_1, Y_2, \cdots, Y_m$ с ф-ией распределения $F_Y(x)$ \
Статистика: $K=\sqrt{\frac{n+m}{nm}} \cdot \sup_{x \in R} |F_X(x) - F_Y(x)|$ \
p-значение: $p=1-F_K(k)$

### Тест Шапиро-Уилка
Тест Шапиро-Уилка — это проверка гипотез, которая применяется к выборке данных с нулевой
гипотезой о том, что выборка имеет нормальное распределение. В этом тесте высокое значение p
указывает на то, что набор данных имеет нормальное распределение, тогда как низкое значение p
указывает на то, что он не имеет нормального распределения.

# Практическая часть

In [43]:
# вводные
import numpy as np
import scipy.stats as stats

In [44]:
# Критерий Колмогорова
def kolmogorov_test(sample, cdf):
    n = len(sample)
    sample_sorted = np.sort(sample)

    y = np.arange(1, n + 1) / n  # ЭФР

    # Вычисляем статистику D_n = sup |F_n(x) - F(x)|
    D_n = np.max(np.abs(y - cdf(sample_sorted)))

    # Вычисляем p-значение через асимптотическое распределение Колмогорова
    sqrt_n_D = np.sqrt(n) * D_n
    p_value = 1 - kolmogorov_cdf(sqrt_n_D)

    return p_value


def kolmogorov_cdf(x, terms=100):
    if x <= 0:
        return 0.0
    total = 0.0
    for k in range(-terms, terms + 1):
        term = (-1) ** k * np.exp(-2 * k**2 * x**2)
        total += term
    return total

In [45]:
# 2. Критерий однородности двух выборок
def kolmogorov_smirnov_test(sample1, sample2):
    n = len(sample1)
    m = len(sample2)
    combined = np.concatenate([sample1, sample2])
    combined_sorted = np.sort(combined)

    ecdf1 = np.searchsorted(np.sort(sample1), combined_sorted, side="right") / n
    ecdf2 = np.searchsorted(np.sort(sample2), combined_sorted, side="right") / m

    K = np.sqrt((n * m) / (n + m)) * np.max(np.abs(ecdf1 - ecdf2))

    p_value = 0
    for k in range(1, 100):
        p_value += (-1) ** (k - 1) * np.exp(-2 * k**2 * K**2)
    p_value = 2 * p_value

    return p_value

In [46]:
# 3. Критерий хи-квадрат
def chi_square_test(sample, bins, cdf):
    # Разбиваем выборку на интервалы
    observed, _ = np.histogram(sample, bins=bins)
    n = len(sample)
    k = len(bins) - 1

    # Вычисляем ожидаемые частоты
    expected = []
    for i in range(k):
        p = cdf(bins[i + 1]) - cdf(bins[i])
        expected.append(n * p)
    expected = np.array(expected)

    chi2 = np.sum((observed - expected) ** 2 / expected)
    p_value = 1 - stats.chi2.cdf(chi2, df=k - 1)
    return p_value

№ 1 \
Напишите функцию, реализующую тестирование гипотезы о распределении случайной величины \
с помощью критерия Колмогорова. \
На вход функции подаются: 
- выборка
- предполагаемая в рамках нулевой гипотезы функция распределения.

Возвращает функция p-значение. Можно использовать библиотечную эмпирическую функцию распределения.

In [47]:
kolmogorov_test

<function __main__.kolmogorov_test(sample, cdf)>

№ 2 \
Напишите функцию, реализующую тестирование гипотезы о распределении с помощью критерия хи квадрат. \
На вход функции подаются: 
- выборка,
- разбиение числовой оси на интервалы,
- предполагаемая функция распределения.

Возвращает функция p-значение.

In [48]:
chi_square_test

<function __main__.chi_square_test(sample, bins, cdf)>

№ 3 \
Напишите функцию, реализующую тестирование гипотезы об однородности выборок. \
На вход функции подаются 2 выборки. \
Возвращает функция p-значение.

In [49]:
kolmogorov_smirnov_test

<function __main__.kolmogorov_smirnov_test(sample1, sample2)>

№ 4 \
Вычислите остаток от деления своего номера (6) в списке группы на 3. 
Это номер распределения: 
- 0) $\sqrt{}$ нормальное, 
- 1)   равномерное,
- 2)   биномиальное. 

Из распределения сгенерируйте 3 выборки.
Две с одинаковыми параметрами распределения, а третью с другими.

In [50]:
n = 50
np.random.seed(4232)
sample_1 = stats.norm.rvs(loc=0, scale=1, size=n)
sample_2 = stats.norm.rvs(loc=0, scale=1, size=n)
sample_3 = stats.norm.rvs(loc=2, scale=3, size=n)

№ 5 \
Проверьте гипотезы

№ 5.1 \
ваша выборка имеет то распределение, откуда она взялась \
(по Колмогорову для непрерывных распределений и по хи квадрат для дискретных); \
сверить результат с библиотечными тестами.

In [51]:
print("слева результат моей функции, справа результат функции из библиотеки")
my_p = kolmogorov_test(sample_1, lambda x: stats.norm.cdf(x, loc=0, scale=1))
scipy_p = stats.kstest(sample_1, "norm", args=(0, 1))[1]
print("непрерывные распределения, по Колмогорову")
print(my_p, scipy_p)

bins = np.linspace(np.min(sample_1), np.max(sample_1), 6)

my_p = chi_square_test(sample_1, bins, lambda x: stats.norm.cdf(x, loc=0, scale=1))

observed = np.histogram(sample_1, bins=bins)[0]
expected = len(sample_1) * np.diff(stats.norm.cdf(bins, loc=0, scale=1))
expected = expected * (sum(observed) / sum(expected))  # Нормализация

scipy_p = stats.chisquare(observed, f_exp=expected)[1]
print("дискретные распределения, хи квадрат")
print(my_p, scipy_p)

слева результат моей функции, справа результат функции из библиотеки
непрерывные распределения, по Колмогорову
0.4332185565026252 0.23304109054332622
дискретные распределения, хи квадрат
0.9202814431572397 0.9222682694288054


№ 5.2 \
ваша выборка имеет какое-то другое конкретное распределение (теми же критериями) \
сверить результат с библиотечными тестами.

In [52]:
print("слева результат моей функции, справа результат функции из библиотеки")
my_p = kolmogorov_test(sample_1, lambda x: stats.norm.cdf(x, loc=0.5, scale=1))
scipy_p = stats.kstest(sample_1, "norm", args=(0.5, 1))[1]
print("непрерывные распределения, по Колмогорову")
print(my_p, scipy_p)

bins = np.linspace(np.min(sample_1), np.max(sample_1), 6)

my_p = chi_square_test(sample_1, bins, lambda x: stats.norm.cdf(x, loc=0.5, scale=1))
observed = np.histogram(sample_1, bins=bins)[0]
expected = len(sample_1) * np.diff(stats.norm.cdf(bins, loc=0.5, scale=1))
expected = expected * (sum(observed) / sum(expected))  # Нормализация
scipy_p = stats.chisquare(observed, f_exp=expected)[1]
print("дискретные распределения, хи квадрат")
print(my_p, scipy_p)

слева результат моей функции, справа результат функции из библиотеки
непрерывные распределения, по Колмогорову
0.026569182238102007 0.022574126717365584
дискретные распределения, хи квадрат
0.024903817905698955 0.027318054911369006


№ 5.3 \
для каждой пары выборок гипотезу однородности \
сверить результат с библиотечными тестами.

In [53]:
print("слева результат моей функции, справа результат функции из библиотеки")

my_p = kolmogorov_smirnov_test(sample_1, sample_2)
scipy_p = stats.ks_2samp(sample_1, sample_2)[1]
print("выборки с одним и тем же распределением")
print(my_p, scipy_p)

my_p = kolmogorov_smirnov_test(sample_1, sample_3)
scipy_p = stats.ks_2samp(sample_1, sample_3)[1]
print("выборки с разными распределениями")
print(my_p, scipy_p)

my_p = kolmogorov_smirnov_test(sample_2, sample_3)
scipy_p = stats.ks_2samp(sample_2, sample_3)[1]
print("другие выборки с разными распределениями")
print(my_p, scipy_p)

слева результат моей функции, справа результат функции из библиотеки
выборки с одним и тем же распределением
0.8642827790506044 0.8692618870414056
выборки с разными распределениями
9.311431431566156e-07 4.929118631187453e-07
другие выборки с разными распределениями
0.00012504300754960976 9.909301386655972e-05


№ 5.4 \
нормальность распределения по критерию Шапиро-Вилка (библиотечный). 

In [None]:
p_1 = stats.shapiro(sample_1)[1]
p_2 = stats.shapiro(sample_2)[1]
p_3 = stats.shapiro(sample_3)[1]
print(p_1, p_2, p_3)

0.7383049250236408 0.2093654482517558 0.5365632053431899
