# Перевірка статистичної гіпотези про вигляд розподілу

Спостерігається вибірка $X_1,\dots,X_n$, де $\{X_i\}$ – незалежні однаково розподілені випадкові величини, які мають показниковий розподіл з параметром $\lambda$, тобто
 $F(u,\lambda)=\mathbb{P}(X_i\leq u)=1-e^{-u\lambda}, u\geq 0$

Перевірку статистичних гіпотез вести при рівні значимості $\gamma=0.05$. Кожне з
наступних чотирьох завдань виконувати для $n=1000$, $n=10\ 000$ та $n=100\ 000$.

Користуючись перетворенням $Y_i=F(X_i,\lambda), i=1,\dots,n$ перевіряти на рівномірність
випадкові величини ${Y_i}$ (<u>лише перші три завдання</u>).

In [46]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

## Завдання 1
За допомогою критерія Колмогорова перевірити гіпотези:

a) $H_0: X_i\sim F(u;1)$, коли насправді $X_i\sim F(u;1)$

b) $H_0: X_i\sim F(u;1)$, коли насправді $X_i\sim F(u;1.2)$

In [47]:
def ks_critical_value(n_trials, alpha):
    return stats.ksone.ppf(1-alpha/2, n_trials)

In [48]:
def exp_dist(n_trials, lambdda):
    return np.random.exponential(lambdda, n_trials)


In [49]:
def F(x):
    return 1 - np.exp(-x)

In [50]:
def ks_statistic(n_trials, lambdda):
    x_k = np.sort(exp_dist(n_trials, lambdda))
    d = 0.0
    for i in range(1,n_trials):
                d = np.max(
            [d, np.max([F(x_k[i]) - (i - 1) / n_trials, i / n_trials - F(x_k[i])])]
        )

    return d


In [None]:
lambda_ = [1, 1.2]
n_trials_ = [1000, 10000, 100000]
alpha = 0.05

for n_trials in n_trials_:
    for lam in lambda_:
        stat = ks_statistic(n_trials, lam)
        critical_value = ks_critical_value(n_trials, alpha)
        print(f"lambda = {lam}")
        print(f"Розмір вибірки = {n_trials}")
        print(f"Статистика = {stat} та Критичне значення = {critical_value}")
        if stat > critical_value:
            print("Приймаємо альтернативну гіпотезу")
        else:
            print("Приймаємо нульову гіпотезу")
    print()

lambda = 1
Розмір вибірки = 1000
Статистика = 0.03685875614974071 та Критичне значення = 0.04277658868221006
Приймаємо нульову гіпотезу
lambda = 1.2
Розмір вибірки = 1000
Статистика = 0.10066558958013172 та Критичне значення = 0.04277658868221006
Приймаємо альтернативну гіпотезу

lambda = 1
Розмір вибірки = 10000
Статистика = 0.013943817477904297 та Критичне значення = 0.013564231504551329
Приймаємо альтернативну гіпотезу
lambda = 1.2
Розмір вибірки = 10000
Статистика = 0.06655479282170718 та Критичне значення = 0.013564231504551329
Приймаємо альтернативну гіпотезу

lambda = 1
Розмір вибірки = 100000
Статистика = 0.003084569586419672 та Критичне значення = 0.004293023712782618
Приймаємо нульову гіпотезу
lambda = 1.2
Розмір вибірки = 100000
Статистика = 0.06938610993582561 та Критичне значення = 0.004293023712782618
Приймаємо альтернативну гіпотезу



## Завдання 2
За допомогою критерія $\chi^2$ перевірити гіпотези:

a) $H_0: X_i\sim F(u;1)$, коли насправді $X_i\sim F(u;1)$

b) $H_0: X_i\sim F(u;1)$, коли насправді $X_i\sim F(u;1.2)$

<u>*Зауваження*</u>: $r=30\cdot\frac{n}{1000}$

In [None]:



for n in n_trials:
    r = int(30 * n / 1000)  # Кількість інтервалів

    # Генеруємо вибірку для випадку (a) і (b)
    np.random.seed(42)
    sample_a = np.random.exponential(scale=1, size=n)       # Параметр λ = 1
    sample_b = np.random.exponential(scale=1/1.2, size=n)   # Параметр λ = 1.2

    # Визначаємо межі інтервалів (рівномірно за квантилями)
    bins = np.quantile(sample_a, np.linspace(0, 1, r + 1))

    # Обчислюємо частоти для випадку (a)
    observed_a, _ = np.histogram(sample_a, bins=bins)
    expected_a = n * np.diff(1 - np.exp(-bins))

    # Обчислюємо частоти для випадку (b)
    observed_b, _ = np.histogram(sample_b, bins=bins)
    expected_b = n * np.diff(1 - np.exp(-bins))

    # Обчислюємо значення критерію хі-квадрат
    chi2_stat_a = np.sum((observed_a - expected_a) ** 2 / expected_a)
    chi2_stat_b = np.sum((observed_b - expected_b) ** 2 / expected_b)

    # Критичне значення для рівня значущості 0.05 і r-1 ступенів свободи
    alpha = 0.05
    critical_value = stats.chi2.ppf(1 - alpha, df=r-1)

    if stat > critical_value:
        print("Приймаємо альтернативну гіпотезу")
    else:
        print("Приймаємо нульову гіпотезу")
    


(23.780544722399853, 47.06556237421979, 42.55696780429269)

## Завдання 3
За допомогою критерія пустих ящиків (асимптотична теорема) перевірити гіпотези:

a) $H_0: X_i\sim F(u;1)$, коли насправді $X_i\sim F(u;1)$

b) $H_0: X_i\sim F(u;1)$, коли насправді $X_i\sim F(u;1.2)$

<u>*Зауваження*</u>: $r=\frac{n}{2}$

## Завдання 4
За допомогою критерія однорідності Смирнова перевірити гіпотези

a) $H_0: (X_1^{(1)},\dots,X_n^{(1)})\sim F(u;1) \quad (X_1^{(2)},\dots,X_m^{(2)})\sim F(u;1)$ (саме так ці вибірки і генерувались);

b) $H_0: (X_1^{(1)},\dots,X_n^{(1)})\sim F(u;1) \quad (X_1^{(2)},\dots,X_m^{(2)})\sim F(u;1)$ (насправді $\overline{X}^{(1)}\sim F(u;1) \quad \overline{X}^{(2)}\sim F(u;1.2)$);

<u>*Зауваження*</u>: обрати $m=\frac{n}{2}$