# Задание 4.1


## Критерий согласия <b>$\chi^2$</b> (Хи-квадрат)

Пусть  $\vec{x}=(X_1, X_2, ..., X_n)$ - выобрка независимых одинаково распределённых случайных величин. <br>
$\nu_1$, $\nu_2$, ..., $\nu_N$ - частоты попадания выборочных данных в соответсвующие подмножества группировки $\epsilon_1$, $\epsilon_2$, ..., $\epsilon_N$ (в дискретном случае - в подмножества значений исследуемой случайной величины)<br>
$$\nu_j=\sum_{j=1}^{n}I(X_i=j), j=1,...,N$$ 

Тогда вектор $\nu = (\nu_1, \nu_2, ..., \nu_N) \sim M(n, p_1, p_2, ... , p_n)$, т.е. имеет полиномиальное распределение, где $\vec{p}=(p_1, p_2, ... , p_n)$ - вероятности попадания исследуемой случайной величины в соответсвующие подмножества группировки $\epsilon_1$, $\epsilon_2$, ..., $\epsilon_N$<br>

Простую гипотеза $H_0$ заключается в том, что $\underline{p} = \underline{\mathring{p}} = (\mathring{p_1}, \mathring{p_2}, ... , \mathring{p_N}) $ - заданый вероятностный вектор $(0<\mathring{p_j}<1, j=1,...,N; \space\mathring{p_1}+...+\mathring{p_N}=0)$<br>

Статистика критерия $\mathring{X_n^2}=\mathring{X_n^2}(\vec{x})=\mathring{X_n^2}(\nu)=\sum_{j=1}^{N}\frac{(\nu_j-n \mathring{p_j})^2}{n \mathring{p_j}}=\sum_{j=1}^{N}\frac{\nu_j^2}{n \mathring{p_j}}-n$ <br>
<br>
Если гипотеза $H_0$ справедлива, то поскольку относительная частота $\frac{\nu_j}{n}$ события $\{\xi = j\}$ является состаятельной оценкой его вероятности $\mathring{p_j}\space(j=1,...,N)$, то при больших объёмах выборки $n$ разности $|\frac{\nu_j}{n} - p_j|$ должны быть малы, следовательно значение статистики $\mathring{X_n^2}$ не должно быть слишком большим. Поэтому естесвтенно задать критическую область для гипотезы $H_0$ в виде $X_{1\alpha}=\{\vec{x}: \mathring{X_n^2}(\vec{x})>t_\alpha\}$, где $t_\alpha$ при заданном уровне значимости $\alpha$ должна быть выбранна из условия $P(\mathring{X_n^2} > t_\alpha | H_0)=\alpha$<br>
<br>
Поскольку для вычисление точное значение границы $t_\alpha$ требуется знать $L(t_\alpha|H_0)$, а точное распредение статистики при гипотезе $H_0$ неудобно для расчёта критерия, граничное значение находят из пределеного распределения (при $n \rightarrow \infty\space\space L(t_\alpha|H_0)\rightarrow \chi^2(N-1)$).<br>
То есть граница уровня значимости $\alpha$ - это есть ни что иное, как $1-\alpha$-квантиль распределения $\chi^2(N-1)$ <br>
<br>
К достоинствам данного критерия можно отнести тот факт, что его можно применять даже в том случае, когда данные имеют нечисловой характер. <br>
Одним из недостатков критерия является потеря некоторой информации о выборке при группировке слагаемых.<br>
Для уменьшения эффекта потери инфрмации чаще всего принимают $N\approx 5$ для мальеньких выборок и $N\approx 10,...,15$ для больших выборок. <br>
Наиболее оптимальное значение $N$ помогает заключить эвристическое правило Старджесса, которое говорит, что <br>
$$ N = 1 + \lfloor log_2 n \rfloor $$

Из всего выше сказанно следует заключить, что критерий согласия $\chi^2$ обычно применяется, когда $n\geq 50$, $\nu_j\geq5 \space \forall j$, и выглядит следующим обазом<br>

$$ H_0\space отвергается \space \space \Leftrightarrow \space\space \mathring{X_n^2}>квантиль\space уровня \space 1-\alpha \space распределения \space\chi^2(N-1) $$

### Зададим гипергеометрическое распределение $HG(200, 70, 10)$

In [1]:
import numpy as np
from scipy.stats import hypergeom

volumes = [5, 10, 100, 1000, 10**5]
count_samples = 5

N, M, n = (200, 70, 10)
hg = hypergeom(N, n, M)

np.random.seed(1000)
data = {v: np.array([hg.rvs(size=v) for _ in range(count_samples)]) for v in volumes}

### Применим критерий для простой гипотезы
Рассмотрим уровени значимости $\alpha = 0.1, \space 0.05 $<br> 
Гиптоза $H_0$ утверждает, что исследуемая случайная величина распределена как $HG(200,70,10)$.<br>
Правилом Старджесса в данном случае пользоваться не будем, так как значения полученных величин заключены в пределах от 0 до 10, то есть получить больше чем 11 интервалов не представляется возможным.

In [2]:
from scipy.stats import chi2
from math import ceil
from scipy.special import binom 

In [3]:
def compute_quntile(cdf, a, eps=0.001, max_range=30):
    x = np.arange(-1, max_range, eps)
    for xx in x:
        if cdf(xx)<a and cdf(xx+eps)>a:
            return xx+eps


In [4]:
def find_ps(boxes, hyposis):
    N, M, n = hyposis
    ans = np.empty(0)
    for i in boxes:
        p = binom(M, i) * binom(N-M, n-i) / binom(N, n)
        ans = np.append(ans, p)
    return ans

In [5]:
def find_nus(boxes, data):
    ans = np.empty(0)
    for i in boxes:
        nu = len(np.where(data==i)[0])
        ans = np.append(ans, nu)
    return ans

In [14]:
hyposis = (200, 70, 10)
for alpha in [0.1, 0.05]:
    print()
    print(f"                     УРОВЕНЬ ЗНАЧИМОСТИ {alpha}              ")
    print()
    for volume in volumes:
#         if volume<=10:
#             continue
        for choice in range(count_samples):
            N_boxes =  11
            boxes = range(0, 11)
            hyposis_ps = find_ps(boxes, hyposis)
            nus = find_nus(boxes, data[volume][choice])
            
            chi_stat = 0
            for j in range(len(nus)):
                chi_stat += (nus[j] - volume*hyposis_ps[j])**2 / (volume*hyposis_ps[j])
                
            q = compute_quntile(chi2(N_boxes-1).cdf, 1-alpha)
            if(chi_stat<q):
                answ = "H0 принимается"
            else:
                answ = "H0 отклоняется"
            print(f"{'n = '+str(volume)},",
                  f"Выборка №{choice+1},",
                  f"Значение статистики Пирсона = {chi_stat:.4}",
                  f"Квантиль {q:.4},",
                  answ)
        print("="*100)


                     УРОВЕНЬ ЗНАЧИМОСТИ 0.1              

n = 5, Выборка №1, Значение статистики Пирсона = 4.406 Квантиль 15.99, H0 принимается
n = 5, Выборка №2, Значение статистики Пирсона = 3.506 Квантиль 15.99, H0 принимается
n = 5, Выборка №3, Значение статистики Пирсона = 2.473 Квантиль 15.99, H0 принимается
n = 5, Выборка №4, Значение статистики Пирсона = 11.86 Квантиль 15.99, H0 принимается
n = 5, Выборка №5, Значение статистики Пирсона = 2.536 Квантиль 15.99, H0 принимается
n = 10, Выборка №1, Значение статистики Пирсона = 5.152 Квантиль 15.99, H0 принимается
n = 10, Выборка №2, Значение статистики Пирсона = 21.44 Квантиль 15.99, H0 отклоняется
n = 10, Выборка №3, Значение статистики Пирсона = 5.681 Квантиль 15.99, H0 принимается
n = 10, Выборка №4, Значение статистики Пирсона = 11.61 Квантиль 15.99, H0 принимается
n = 10, Выборка №5, Значение статистики Пирсона = 5.25 Квантиль 15.99, H0 принимается
n = 100, Выборка №1, Значение статистики Пирсона = 5.723 Квантиль 15.99, H0 

Как видно, критерий принял H0 для почти всех выборок для обоих уровней значимости.<br>
Теперь проверим как работает этот критерий для близкой, но заведомо неверной гипотезе H0. <br>
Пусть H0 утверждает, что исследуемая случайная величина распределена как $HG(190,70,10)$.<br>

In [16]:
hyposis = (190,70,10)
for alpha in [0.1, 0.05]:
    print()
    print(f"                     УРОВЕНЬ ЗНАЧИМОСТИ {alpha}              ")
    print()
    for volume in volumes:
#         if volume<=10:
#             continue
        for choice in range(count_samples):
            N_boxes =  11
            boxes = range(0, 11)
            hyposis_ps = find_ps(boxes, hyposis)
            nus = find_nus(boxes, data[volume][choice])
            
            chi_stat = 0
            for j in range(len(nus)):
                chi_stat += (nus[j] - volume*hyposis_ps[j])**2 / (volume*hyposis_ps[j])
                
            q = compute_quntile(chi2(N_boxes-1).cdf, 1-alpha)
            if(chi_stat<q):
                answ = "H0 принимается"
            else:
                answ = "H0 отклоняется"
            print(f"{'n = '+str(volume)},",
                  f"Выборка №{choice+1},",
                  f"Значение статистики Пирсона = {chi_stat:.4}",
                  f"Квантиль {q:.4},",
                  answ)
        print("="*100)


                     УРОВЕНЬ ЗНАЧИМОСТИ 0.1              

n = 5, Выборка №1, Значение статистики Пирсона = 3.9 Квантиль 15.99, H0 принимается
n = 5, Выборка №2, Значение статистики Пирсона = 4.29 Квантиль 15.99, H0 принимается
n = 5, Выборка №3, Значение статистики Пирсона = 2.995 Квантиль 15.99, H0 принимается
n = 5, Выборка №4, Значение статистики Пирсона = 9.322 Квантиль 15.99, H0 принимается
n = 5, Выборка №5, Значение статистики Пирсона = 2.743 Квантиль 15.99, H0 принимается
n = 10, Выборка №1, Значение статистики Пирсона = 3.645 Квантиль 15.99, H0 принимается
n = 10, Выборка №2, Значение статистики Пирсона = 27.63 Квантиль 15.99, H0 отклоняется
n = 10, Выборка №3, Значение статистики Пирсона = 7.596 Квантиль 15.99, H0 принимается
n = 10, Выборка №4, Значение статистики Пирсона = 11.33 Квантиль 15.99, H0 принимается
n = 10, Выборка №5, Значение статистики Пирсона = 5.238 Квантиль 15.99, H0 принимается
n = 100, Выборка №1, Значение статистики Пирсона = 4.952 Квантиль 15.99, H0 пр

Видно, что близкие по своей алтернативе гипотезы критерий отклоняет неверную гипотезу только при больших объёмах выборки.<br>
Это говорит о том, что при малых объёмах выборки критерий говорит лишь о приближённых значениях, близких к истинным.

## Критерий согласия <b>$\chi^2$</b> (Хи-квадрат) для сложной гипотезы

В общем случае сложные для полиномиального распределения, используемого в критерии <b>$\chi^2$</b>  гипотезы будут принимать следующий вид. <br><br>
$$H_0: \space \underline{p} = \underline{p}(\theta), \space \theta=(\theta_1, ... , \theta_r), \space \theta \in \Theta, \space r < N-1$$ <br>
Тогда по аналогии с предыдущим случаем можем получить статистику $\mathring{X_n^2}(\theta)=\sum_{j=1}^{N}\frac{(\nu_j-n p_j(\theta))^2}{n p_j(\theta)}$

Эта статистик зависит от неизвестного параметра, поэтому использовать непосредственно её нельзя. Для этого параметр $\theta$ заменяеют некоторой оценкой $\tilde{\theta}$ и получают в итоге статистику $\tilde{X_n^2} = X_n^2(\tilde{\theta})$. Однако узнать распределение $\tilde{X_n^2}$ при гипотезе $H_0$ представляется трудной задачей. Кроме того, величины $p_j(\tilde{\theta})$ представляют собой функции от наблюдений.<br>


Простую гипотеза $H_0$ заключается в том, что $\underline{p} = \underline{\mathring{p}} = (\mathring{p_1}, \mathring{p_2}, ... , \mathring{p_N}) $ - заданый вероятностный вектор $(0<\mathring{p_j}<1, j=1,...,N; \space\mathring{p_1}+...+\mathring{p_N}=0)$<br>
Р. Фишер в 1924 г. получил, предельное распределение статистики $\tilde{X_n^2}$, использующая оценку максимального правдоподобия 
$$\hat{\theta} = arg \underset{\theta}\max{\Pi_{j=1}^N(p_j(\theta))^{\nu_j}}\space,$$
или иначе оценка по видоизменённому методу минимизации $\chi^2$, является распределением $\chi^2(N-1-r)$<br>
$$L(\tilde{X_n^2}|H_0)\rightarrow \chi^2(N-1-r), \space \space n \rightarrow \infty$$ 
Тогда можно заключить, что критерий имеет вид:
$$ H_0\space отвергается \space \space \Leftrightarrow \space\space \mathring{X_n^2}>квантиль\space уровня \space 1-\alpha \spaceраспределения \space\chi^2(N-1-r) $$

Для упрощения задачи будем пользоваться оценкой параметра, найденной методом максимального правдоподобия

In [6]:
hyposis = [None, 70, 10]
for alpha in [0.1, 0.05]:
    print()
    print(f"                     УРОВЕНЬ ЗНАЧИМОСТИ {alpha}              ")
    print()
    for volume in volumes:
        for choice in range(count_samples):
            N_boxes =  11
            boxes = range(0, 11)
            hyposis[0] = int(hyposis[2]*hyposis[1]/np.mean(data[volume][choice]))
            hyposis_ps = find_ps(boxes, hyposis)
            nus = find_nus(boxes, data[volume][choice])
            chi_stat = 0
            for j in range(len(nus)):
                chi_stat += (nus[j] - volume*hyposis_ps[j])**2 / (volume*hyposis_ps[j])
                
            q = compute_quntile(chi2(N_boxes-2).cdf, 1-alpha)
            if(chi_stat<q):
                answ = "H0 принимается"
            else:
                answ = "H0 отклоняется"
            print(f"{'n = '+str(volume)},",
                  f"оцениваемый параметр = {hyposis[0]:},",
                  f"Выборка №{choice+1},",
                  f"Значение статистики Пирсона = {chi_stat:.4}",
                  f"Квантиль {q:.4},",
                  answ)
        print("="*100)


                     УРОВЕНЬ ЗНАЧИМОСТИ 0.1              

n = 5, оцениваемый параметр = 175, Выборка №1, Значение статистики Пирсона = 3.589 Квантиль 14.68, H0 принимается
n = 5, оцениваемый параметр = 250, Выборка №2, Значение статистики Пирсона = 2.173 Квантиль 14.68, H0 принимается
n = 5, оцениваемый параметр = 218, Выборка №3, Значение статистики Пирсона = 2.069 Квантиль 14.68, H0 принимается
n = 5, оцениваемый параметр = 166, Выборка №4, Значение статистики Пирсона = 6.076 Квантиль 14.68, H0 принимается
n = 5, оцениваемый параметр = 218, Выборка №5, Значение статистики Пирсона = 2.504 Квантиль 14.68, H0 принимается
n = 10, оцениваемый параметр = 170, Выборка №1, Значение статистики Пирсона = 2.273 Квантиль 14.68, H0 принимается
n = 10, оцениваемый параметр = 304, Выборка №2, Значение статистики Пирсона = 10.25 Квантиль 14.68, H0 принимается
n = 10, оцениваемый параметр = 250, Выборка №3, Значение статистики Пирсона = 3.934 Квантиль 14.68, H0 принимается
n = 10, оцениваемый парам

Показательным в этом примере является то, что оценка метода максимального правдоподобия даёт относительно точные результаты.<br>
То есть для маленьких выборор, где ещё довольно информации о распределении, эта оценка даёт хорошее приближение значения. <br>
Похожий результат был получен выше, когда наблюдалось поведение криетриея $\chi^2$ на малых объёмах выборки. <br> 
Показательным же явлется то, что при больших объёмах выборки критерий без погрешности оценвиает точное значение искомого параметра, что и наблюдается во 2-ой выборке с $10^5$ наблюдениями <br>

## Критерий согласия Колмогорова

Пусть  $\vec{x}=(X_1, X_2, ..., X_n)$ - выобрка независимых одинаково распределённых случайных величин из распределения $L(\xi)$, а искомая функция распределения $-$ это $F_\xi(x)$. <br>
Выдвинем гипотезу $H_0:\space \space F_\xi(x)=F(x)$. Тогда статистика критерия определяется формулой <br>
$$D_n (\vec{x}) = \underset{x\in \mathbb{R}}\sup{|\hat{F_n}(x) - F(x)|},$$
где $\hat{F_n}(x)$ - эмпирическая функция распределения.<br>
При каждом значении $x$ величина $\hat{F_n}(x)$ является оптимальной и состоятельной оценкой для $F(x)$, поэтому при больших n отличие $\hat{F_n}(x)$ от $F_\xi(x)$ будет не велико, а значит критерий будет определять отклонение гипотетической $F(x)$ от искомой $F_\xi(x)$.<br>
Поскольку большие значения статистики свидетельствуют о наиболее вероятном отклонении гипотизы от истины, то естесвтенно задать критическую область для гипотезы $H_0$ в виде $X_{1\alpha}=\{\vec{x}: D_n(\vec{x})>t_\alpha\}$, где $t_\alpha$ при заданном уровне значимости $\alpha$ должна быть расчитана на основании теоремы Колмогорова. То есть при больших $n$ (уже при $n\geq20$) можно положить $t_\alpha=\lambda_\alpha\space/\space\sqrt{n}$, где $\lambda_\alpha\space \space - \space$ квантиль распределения Колмогорова уровня $1-\alpha$.<br>
Тогда можно заключить, что критерий имеет вид: <br><br>
$$ H_0\space отвергается \space \space \Leftrightarrow \space\space \sqrt{n} \space D_n\geq1-\alpha-квантиль\spaceраспределения \space Колмогорова $$
<br>
Скорость сходимости статистики $\sqrt{n} D_n$ к распределению Колмогорова проядка $O(\frac{1}{n \sqrt{n}})$. Однако часто используют следующий вид статистики с поправкой Большева<br>
$$S_n = \frac{6 n D_n +1}{6\sqrt{n}},$$
которая тоже имеет распределение Колмогорова, но сходится к нему быстрее, подряка $O(\frac{1}{n^2})$.
Это позволяет использовать критерий при меньших объёмах выборки. В проверки гипотезы $H_0$ будем использовать статистику $S_n$
<br>
Тогда итоговый вид криетрия будет:<br>
$$ H_0\space отвергается \space \space \Leftrightarrow \space\space S_n\geq квантиль\space уровня \space 1-\alpha \spaceраспределения \space Колмогорова $$

### Зададим гамма-распределение $\Gamma(2, 1/2)$

In [16]:
import numpy as np
from scipy.stats import gamma

volumes = [5, 10, 100, 1000, 10**5]
count_samples = 5

a, th = 2, 1/2 
g = gamma(a, scale=1/th)

np.random.seed(1000)
data = {v: np.array([g.rvs(size=v) for _ in range(count_samples)]) for v in volumes}

### Применим критерий для простой гипотезы
Рассмотрим уровени значимости $\alpha = 0.1, \space 0.05 $<br> 
Гиптоза $H_0$ утверждает, что исследуемая случайная величина распределена как $\Gamma(2, 1/2)$.<br>

In [2]:
from scipy.special import kolmogorov

In [1]:
def compute_quntile(cdf, a, eps=0.001, min_range=-1, max_range=30):
    x = np.arange(min_range, max_range, eps)
    for xx in x:
        if cdf(xx)<a and cdf(xx+eps)>a:
            return xx+eps
    return compute_quntile(cdf, a, eps=eps, min_range=max_range, max_range=max_range+30)

def ecdf(x, data):
    return data[data<=x].size / data.size


In [6]:
hyposis = [2, 0.5]
F = gamma(hyposis[0], scale=1/hyposis[1]).cdf
for alpha in [0.1, 0.05]:
    print()
    print(f"                     УРОВЕНЬ ЗНАЧИМОСТИ {alpha}              ")
    print()
    for volume in volumes:
        for choice in range(count_samples):
            F_n = lambda x: ecdf(x, data[volume][choice])
            xx = np.arange(-1,16, 0.001)
            D_n = max(map(lambda x : abs(F_n(x) - F(x)), xx))
            S_n = np.sqrt(volume)*D_n+1/(6*np.sqrt(volume))
            K = lambda x: 1 - kolmogorov(x)
            q = compute_quntile(K, 1-alpha)
            if(S_n<q):
                answ = "H0 принимается"
            else:
                answ = "H0 отклоняется"


            print(f"{'n = '+str(volume)},",
                  f"Выборка №{choice+1},",
                  f"Значение статистики Sn = {S_n:.4}",
                  f"Квантиль {q:.4},",
                  answ)
        print("="*100)


                     УРОВЕНЬ ЗНАЧИМОСТИ 0.1              

n = 5, Выборка №1, Значение статистики Sn = 0.6904 Квантиль 1.224, H0 принимается
n = 5, Выборка №2, Значение статистики Sn = 0.8788 Квантиль 1.224, H0 принимается
n = 5, Выборка №3, Значение статистики Sn = 0.65 Квантиль 1.224, H0 принимается
n = 5, Выборка №4, Значение статистики Sn = 0.8443 Квантиль 1.224, H0 принимается
n = 5, Выборка №5, Значение статистики Sn = 0.8247 Квантиль 1.224, H0 принимается
n = 10, Выборка №1, Значение статистики Sn = 1.789 Квантиль 1.224, H0 отклоняется
n = 10, Выборка №2, Значение статистики Sn = 0.7956 Квантиль 1.224, H0 принимается
n = 10, Выборка №3, Значение статистики Sn = 0.8386 Квантиль 1.224, H0 принимается
n = 10, Выборка №4, Значение статистики Sn = 0.8299 Квантиль 1.224, H0 принимается
n = 10, Выборка №5, Значение статистики Sn = 1.203 Квантиль 1.224, H0 принимается
n = 100, Выборка №1, Значение статистики Sn = 1.387 Квантиль 1.224, H0 отклоняется
n = 100, Выборка №2, Значение статис

Результат является показательным, поскольку на этом примере видно, уровень значимости - это доля выборок, которые попавил в критическую область. Даже при большом объёме выборки возможность отклонить истинно верную гипотезу равна уровню значимости 

### Применим критерий для заранее неверной гипотезы

Рассмотрим уровени значимости $\alpha = 0.1, \space 0.05 $<br> 
Гиптоза $H_0$ утверждает, что исследуемая случайная величина распределена как $\Gamma(3, 1/2)$.<br>

In [22]:
hyposis = [3, 0.5]
F = gamma(hyposis[0], scale=1/hyposis[1]).cdf
for alpha in [0.1, 0.05]:
    print()
    print(f"                     УРОВЕНЬ ЗНАЧИМОСТИ {alpha}              ")
    print()
    for volume in volumes:
        for choice in range(count_samples):
            F_n = lambda x: ecdf(x, data[volume][choice])
            xx = np.arange(-1,16, 0.001)
            D_n = max(map(lambda x : abs(F_n(x) - F(x)), xx))
            S_n = volume**(0.5)*D_n+1/(6*volume**(0.5))
            K = lambda x: 1 - kolmogorov(x)
            q = compute_quntile(K, 1-alpha)
            if(S_n<q):
                answ = "H0 принимается"
            else:
                answ = "H0 отклоняется"

            print(f"{'n = '+str(volume)},",
                  f"Выборка №{choice+1},",
                  f"Значение статистики Sn = {S_n:.4}",
                  f"Квантиль {q:.4},",
                  answ)
        print("="*100)


                     УРОВЕНЬ ЗНАЧИМОСТИ 0.1              

n = 5, Выборка №1, Значение статистики Sn = 1.257 Квантиль 1.224, H0 отклоняется
n = 5, Выборка №2, Значение статистики Sn = 1.439 Квантиль 1.224, H0 отклоняется
n = 5, Выборка №3, Значение статистики Sn = 0.767 Квантиль 1.224, H0 принимается
n = 5, Выборка №4, Значение статистики Sn = 1.275 Квантиль 1.224, H0 отклоняется
n = 5, Выборка №5, Значение статистики Sn = 1.398 Квантиль 1.224, H0 отклоняется
n = 10, Выборка №1, Значение статистики Sn = 2.349 Квантиль 1.224, H0 отклоняется
n = 10, Выборка №2, Значение статистики Sn = 1.295 Квантиль 1.224, H0 отклоняется
n = 10, Выборка №3, Значение статистики Sn = 1.141 Квантиль 1.224, H0 принимается
n = 10, Выборка №4, Значение статистики Sn = 1.495 Квантиль 1.224, H0 отклоняется
n = 10, Выборка №5, Значение статистики Sn = 2.053 Квантиль 1.224, H0 отклоняется
n = 100, Выборка №1, Значение статистики Sn = 3.9 Квантиль 1.224, H0 отклоняется
n = 100, Выборка №2, Значение статистики Sn 

Примечательно то, что даже при малых размерах выборки, критерий начинает отклонять гиптоезы, что говорит о состяотельности данного метода.

## Критерий Колмогорова для сложной гипотезы

В случае сложной гипотезы идёт предположение на то, что функция распределения исследуемой случайно величины $\xi$ принадлежит какому-то параметрическому семейству, то есть $F_\xi(x) \in \mathcal{F}=\{F(x, \theta), \theta\in \mathcal{\Theta}\}$.<br>
Тогда $D_n = D_n (\vec{x}, \theta) = \underset{x\in \mathbb{R}}\sup{|\hat{F_n}(x) - F(x, \theta)|}$ $-$ тоже является некоторой параметрической зависимостью, а не статистикой от выборки.<br>
Пользуются следущей статистикой для построения критической области. <br>
$$\hat{D_n} (\vec{x}) = \underset{x\in \mathbb{R}}\sup{|\hat{F_n}(x) - F(x, \hat{\theta})|},$$
где $\hat{\theta}\space -$ оценка максимального правдоподобия. Однако теперь ассимптотическое распределение статистики $\hat{D_n}$ имеет отличный от Колмогорова вид. <br>
Для того, чтобы избежать этого можно разделить выборку на 2 части и по 1ой оценить параметр, а по 2ой проверять гипотезу.

Рассмотрим уровени значимости $\alpha = 0.1, \space 0.05 $<br> 
Гиптоза $H_0$ утверждает, что выборка иммеет распределение $\Gamma(2, \theta)$<br>
Оценка маскимального правдоподобия $\hat{\theta}=\frac{2}{\bar{x}}$, где $\bar{x} \space -$ выборочное среднее

In [20]:
hyposis = [2, None]
for alpha in [0.1, 0.05]:
    print()
    print(f"                     УРОВЕНЬ ЗНАЧИМОСТИ {alpha}              ")
    print()
    for volume in volumes:
        if volume < 10:
            continue
        for choice in range(count_samples):
            data_to_mle = data[volume][choice][:volume//2]
            data_to_h0 =data[volume][choice][volume//2:]
            x_sr = np.mean(data_to_mle)
            mle = hyposis[0] / x_sr
            hyposis[1] = mle
            F = gamma(hyposis[0], scale=1/hyposis[1]).cdf
            F_n = lambda x: ecdf(x, data_to_h0)
            xx = np.arange(-1,16, 0.001)
            D_n = max(map(lambda x : abs(F_n(x) - F(x)), xx))
            S_n = len(data_to_h0)**(0.5)*D_n+1/(6*len(data_to_h0)**(0.5))
            K = lambda x: 1 - kolmogorov(x)
            q = compute_quntile(K, 1-alpha)
            if(S_n<q):
                answ = "H0 принимается"
            else:
                answ = "H0 отклоняется"

            print(f"{'n = '+str(volume)},",
                  f"Выборка №{choice+1},",
                  f"ОМП = {mle:4}",
                  f"Значение статистики Sn = {S_n:.4}",
                  f"Квантиль {q:.4},",
                  answ)
        print("="*100)


                     УРОВЕНЬ ЗНАЧИМОСТИ 0.1              

n = 10, Выборка №1, ОМП = 1.211536386587555 Значение статистики Sn = 0.8207 Квантиль 1.224, H0 принимается
n = 10, Выборка №2, ОМП = 0.7211274737375505 Значение статистики Sn = 1.252 Квантиль 1.224, H0 отклоняется
n = 10, Выборка №3, ОМП = 0.3262028465785545 Значение статистики Sn = 1.368 Квантиль 1.224, H0 отклоняется
n = 10, Выборка №4, ОМП = 0.4422002840684584 Значение статистики Sn = 1.279 Квантиль 1.224, H0 отклоняется
n = 10, Выборка №5, ОМП = 0.778522987392111 Значение статистики Sn = 0.722 Квантиль 1.224, H0 принимается
n = 100, Выборка №1, ОМП = 0.5856850908274844 Значение статистики Sn = 0.4983 Квантиль 1.224, H0 принимается
n = 100, Выборка №2, ОМП = 0.46145134776080315 Значение статистики Sn = 0.9909 Квантиль 1.224, H0 принимается
n = 100, Выборка №3, ОМП = 0.4516488410030905 Значение статистики Sn = 0.7466 Квантиль 1.224, H0 принимается
n = 100, Выборка №4, ОМП = 0.584453961013945 Значение статистики Sn = 1.107 Кв

## Критерий однородности Смирнова

Пусть $X_1, X_2, ..., X_n$ - выборка размера $n$, $Y_1, Y_2, ..., Y_m$ - выборка размера $m$.<br>
Пусть $\hat{F_n}(x)$ и $\hat{F_m}(x)$ - соответсвующие эмпрические функции распределения.<br>
Критерий однородности Симрнова отвечает на вопрос, принадлежат ли две выборки одному распределению или нет.<br>
Для этого используется статистика 
$$D_{n,m} (\vec{x}) = \underset{x\in \mathbb{R}}\sup{|\hat{F_n}(x) - \hat{F_m}(x)|},$$
Тогда по Теореме Смирнова, которая утверждает, что $\underset{n,m\rightarrow \infty}{lim} P(\sqrt{{\frac{m n}{m+n}}}D_{n,m}\leq t)= K(t)$, то есть статистика $\sqrt{{\frac{m n}{m+n}}}D_{n,m}$ стреимтся к распределению Колмогорова при $n,m\rightarrow \infty$<br>
На основе этого и аналогичных рассуждений, как и с критерием согласия Колмогорова, итоговый вид критерия будет иметь вид<br>
$$ H_0\space отвергается \space \space \Leftrightarrow \space\space \sqrt{\frac{m n}{m+n}}D_{n,m}\geq квантиль\space уровня \space 1-\alpha \spaceраспределения \space Колмогорова $$

### Применим критерий однородности Смирнова для выборок из $\Gamma(2,1/2)$

Рассмотрим уровени значимости $\alpha = 0.1, \space 0.05 $<br> 
Гиптоза $H_0$ утверждает, что функции распределения двух выборок одинаковы<br>
Мы будем рассматривать рассматривать пары распределений из выборок одинавково объёма. В таком случае $n=m$ и критерий выглядит следующим образом.<br>
$$ H_0\space отвергается \space \space \Leftrightarrow \space\space \sqrt{\frac{n}{2}}D_{n,m}\geq квантиль\space уровня \space 1-\alpha \spaceраспределения \space Колмогорова $$

In [15]:
for alpha in [0.1, 0.05]:
    print()
    print(f"                     УРОВЕНЬ ЗНАЧИМОСТИ {alpha}              ")
    print()
    for volume in data:
        for i in range(len(data[volume])-1):
            for j in range(i+1, len(data[volume])):
                xx = np.arange(-1,11, 0.001)
                D_n_M = max(list(map(lambda x: abs(ecdf(x,data[volume][i])-ecdf(x,data[volume][j])), xx)))
                S_c = np.sqrt((volume/2)) * D_n_M
                K = lambda x: 1 - kolmogorov(x)
                q = compute_quntile(K, 1-alpha)
                if(S_c<q):
                    answ = "H0 принимается"
                else:
                    answ = "H0 отклоняется"
    
                print(f"{'n = '+str(volume)},",
                      f"Выборки №{i+1} и {j+1},",
                      f"Значение статистики = {S_c:.4}",
                      f"Квантиль {q:.4},",
                      answ)
            print("="*100)


                     УРОВЕНЬ ЗНАЧИМОСТИ 0.1              

n = 5, Выборки №1 и 2, Значение статистики = 0.6325 Квантиль 1.224, H0 принимается
n = 5, Выборки №1 и 3, Значение статистики = 0.6325 Квантиль 1.224, H0 принимается
n = 5, Выборки №1 и 4, Значение статистики = 0.6325 Квантиль 1.224, H0 принимается
n = 5, Выборки №1 и 5, Значение статистики = 0.6325 Квантиль 1.224, H0 принимается
n = 5, Выборки №2 и 3, Значение статистики = 0.6325 Квантиль 1.224, H0 принимается
n = 5, Выборки №2 и 4, Значение статистики = 0.9487 Квантиль 1.224, H0 принимается
n = 5, Выборки №2 и 5, Значение статистики = 0.6325 Квантиль 1.224, H0 принимается
n = 5, Выборки №3 и 4, Значение статистики = 0.6325 Квантиль 1.224, H0 принимается
n = 5, Выборки №3 и 5, Значение статистики = 0.6325 Квантиль 1.224, H0 принимается
n = 5, Выборки №4 и 5, Значение статистики = 0.9487 Квантиль 1.224, H0 принимается
n = 10, Выборки №1 и 2, Значение статистики = 0.8944 Квантиль 1.224, H0 принимается
n = 10, Выборки №1 и 3, Зн

n = 10, Выборки №3 и 4, Значение статистики = 0.8944 Квантиль 1.359, H0 принимается
n = 10, Выборки №3 и 5, Значение статистики = 1.118 Квантиль 1.359, H0 принимается
n = 10, Выборки №4 и 5, Значение статистики = 1.118 Квантиль 1.359, H0 принимается
n = 100, Выборки №1 и 2, Значение статистики = 1.626 Квантиль 1.359, H0 отклоняется
n = 100, Выборки №1 и 3, Значение статистики = 1.344 Квантиль 1.359, H0 принимается
n = 100, Выборки №1 и 4, Значение статистики = 0.8485 Квантиль 1.359, H0 принимается
n = 100, Выборки №1 и 5, Значение статистики = 0.9899 Квантиль 1.359, H0 принимается
n = 100, Выборки №2 и 3, Значение статистики = 0.7071 Квантиль 1.359, H0 принимается
n = 100, Выборки №2 и 4, Значение статистики = 1.414 Квантиль 1.359, H0 отклоняется
n = 100, Выборки №2 и 5, Значение статистики = 1.061 Квантиль 1.359, H0 принимается
n = 100, Выборки №3 и 4, Значение статистики = 1.273 Квантиль 1.359, H0 принимается
n = 100, Выборки №3 и 5, Значение статистики = 0.8485 Квантиль 1.359, H0 пр

# Задание 4.2

## Параметрические гипотезы. Критерий Неймонна-Пирсона.

### Теоретическое введение

В общем случае параметрические гипотезы строятся по следующему принципу. Пусть априори изветен вид распределения исследуемой случайной величины, то есть априори известно, что $F_\xi(x) \in \mathcal{F}=\{F(x, \theta), \theta\in \mathcal{\Theta}\}$.<br>
В общем случае параметрической гипотезой будет $H_0$, утверждающая, что $\theta \in \Theta_0$, где $\Theta_0 \subset \Theta$ против альтернативной $H_1$, утверждающей, что $\theta \in \Theta_1$, где $\Theta_1 \subset \Theta \backslash  \Theta _0$.<br>
Критерий - это правило, по которому случаную выборку стоит отнести к $H_0$ или $H_1$, поэтому он делает выборочное пространство $\mathfrak{X} $ на 2 непересекающися множества $\mathfrak{X}_0$ и $\mathfrak{X}_1$ соответсвенно, в каком-то соотношении. <br>
<br>
Ошибкой 1го рода называют отвержение нулевой гипотезы, когда она истинна, а ошибкой 2го рода - принятие нулевой гипотезы, когда она ложна. Таким образом, граница критической области может задаваться ошибками 1го или 2го рода, например, чтобы вероянность ошибки 1го рода была не больше, чем $\alpha$, то есть $P(\vec{x}\in{\mathfrak{X}_1}|H_0)\leq \alpha$. При таком построении говорят, что критерий имеет уровня значимости и подчёркивают это обозначая $\mathfrak{X}_1 = \mathfrak{X}_{1\alpha}$<br>
Естественно стримиться построить критерий так, чтобы минимизировать обе ошибки, однако при фиксированном объёме выборки невозможно сделать сумму вероятнотсей ошибок сколь угодно малой. Поэтому рациональным принципом построения ошибок является выбор из всех критических областей $\mathfrak{X}_{1\alpha}$ (при заданном уровне значимости $\alpha$) ту, у которой ошибка 2го рода минимальна.<br>
<br>
В параметрических гипотезах удобно рассматривать простой случай, когда нужно выбрать одну из двух гипотез: $H_0$, говоряющу, что параметр распределения равен $\theta_0$, и $H_1$, говоряющу, что параметр распределения равен $\theta_1$, где  $\theta_0, \space \theta_1 \in \Theta \space$ конкретные числа.<br>
<br>
Критерий Неймонна-Пирсона, заключается в том, чтобы сравнить отношение функций правдоподобия с неким числом, определяемым уровнем значимости $\alpha$.<br>
$$ l(\vec{x}) = \frac{L(\vec{x}, \theta_1)}{L(\vec{x}, \theta_0)},$$
где $\vec{x} =(x_1, ..., x_n ) \space-$ выборка, $L(\vec{x}, \theta_j) = \Pi_{i=1}^n f(x_i, \theta_j), \space j=0,1$<br>
Тогда критическая область будет задаваться условием $l(\vec{x})\geq c_\alpha$, где $c_\alpha$ должно быть выбрано в соотвествии с уровнем значимости.

В некоторых случая расчитать закон распределения $l(\vec{x})$ или $ln \space l(\vec{x})$ бывает сложно и затруднительно.<br>
На помощь приходит центральная предельная теорма. Обозначим за $S_n = \sum_{i=1}^n z_i$,  где  $z_i=ln\frac{f(x_i, \theta_1)}{f(x_i, \theta_0)}=ln\frac{f_1(x_i)}{f_0(x_i)}$, $i=1,...n$. Надо сказать, что $S_n$ - сумма независимых одинаково распределённых случайных величин. <br>
Тогда событие $\{l(\vec{x})\geq c\}$ можно записать в виде $\{S_n\geq c'=ln\space c\}$ <br>
Обозначим за $a_j = E_{\theta_j}[Z_1]$, $\space \sigma_j^2 = D_{\theta_j}[Z_1]$, $\space j=0,1$ (считая, что эти моменты существуют).<br>
Тогда при $n \rightarrow \infty$ на основании центральной предельной теоремы. <br>
$$\mathcal{L}_{\theta_j}(\frac{S_n - n \space a_j}{\sqrt{n}\sigma_j}) \sim \mathcal{N}(0, 1), \space\space\space j=0,1$$
<br>
Отсюда для больших выборок следует, что $\alpha=P(S_n\geq c'|H_0) = P(\frac{S_n - n \space a_0}{\sqrt{n}\sigma_0}\geq \frac{c' - n \space a_0}{\sqrt{n}\sigma_0}|H_0) $, то есть $\frac{c' - n \space a_0}{\sqrt{n}\sigma_0}$ - это квантиль уровня $1-\alpha$ стандартного нормельного распределения.<br>
Это можно записать как $\frac{c' - n \space a_0}{\sqrt{n}\sigma_0}=t_\alpha, \Phi(t_\alpha)=\alpha$, где $t_\alpha -$ искомый квантиль, $\Phi$ - функция Лапласса.<br>
Таким образом, можно заключить, что для больших выборок критерий может выглядеть как:<br>

$$ H_0\space отвергается \space \space \Leftrightarrow \space\space S_n\geq na_0 + t_\alpha \sigma_0 \sqrt{n}$$

Вопрос о выборе значений для $\theta_1$ и $\theta_2$ остаётся открытым, но решаемым. Так, например, для того, чтобы избавиться от зависимости от распределения выборку можно раздить на 2 части, по одной из которых оценить  $\theta_1$, а  $\theta_2$ взять с неким отклонением от  $\theta_1$.

## Критерий Неймонна-Пирсона для Гипергеометрического распределения

Пусть $\vec{x} = (x_1, x_2, ..., x_m)$ - выборка исследуемого распределения, заданного семейством $\mathcal{F}=\{HG(\theta, M, n), \theta\in \mathcal{\Theta}\}$, где $M,\space  n \space -$ известные параметры.<br>
Пусть есть простая гипотеза $H_0: \space \theta=\theta_0$, против альтернативной $H_1: \space \theta=\theta_1$, где $\theta_0<\theta_1$. <br>
Для начала воспользуемся известным приближением. Будем предпологать, что $\frac{M}{\theta} << 1$ и $n >> 1$, тогда гиепергеометрическое распределение приближается распределением Пуассона $\Pi(\frac{nM}{\theta}) $.<br>
Найдём распределение $ln \space l(\vec{x})$ и определим $c_\alpha$ для заданного уровня значимости<br><br>
$$ ln \space l(\vec{x}) = \sum_{i=1}^m\big(-\frac{nM}{\theta_1} + x_i \space ln \frac{nM}{\theta_1}- ln \space x_i! +\frac{nM}{\theta_0} - x_i \space ln \frac{nM}{\theta_0}+ ln \space x_i! \big) =$$
$$ = \sum_{i=1}^n\big(-\frac{nM}{\theta_1} + x_i \space ln \frac{nM}{\theta_1} +\frac{nM}{\theta_0} - x_i \space ln \frac{nM}{\theta_0} \big) = m n M\space ( \frac{1}{\theta_0} - \frac{1}{\theta_1}) + ln \frac{\theta_0}{\theta_1}\sum_{i=1}^n x_i \space \geq c_\alpha$$
<br>
$$\alpha = P( m n M\space ( \frac{1}{\theta_0} - \frac{1}{\theta_1}) + ln \frac{\theta_0}{\theta_1}\sum_{i=1}^n x_i \space \geq c_\alpha|H_0) = P(\sum_{i=1}^n x_i \leq \frac{c_\alpha -  m n M\space ( \frac{1}{\theta_0} - \frac{1}{\theta_1})}{ln \frac{\theta_0}{\theta_1}}|H_0)$$<br>
Тогда, вспомнив, что $\xi=\sum_{i=1}^n x_i$ (при верности гипотезы $H_0$) будет распределена как $\Pi(m\frac{nM}{\theta_0}) $.<br><br>
Значит, c надо выбирать равным $c_\alpha = t_\alpha ln \frac{\theta_0}{\theta_1} + m n M\space ( \frac{1}{\theta_0} - \frac{1}{\theta_1})$, где $t_{1-\alpha} \space -$ кваниль уровня $\alpha$ распределения $\Pi(m\frac{nM}{\theta_0})$.
<br>
Преобразуем итоговое неравенство:<br>
$$ m n M\space ( \frac{1}{\theta_0} - \frac{1}{\theta_1}) + ln \frac{\theta_0}{\theta_1}\sum_{i=1}^n x_i \geq c_\alpha = t_{1-\alpha} ln \frac{\theta_0}{\theta_1} + m n M\space ( \frac{1}{\theta_0} - \frac{1}{\theta_1})$$
<br>
$$ \sum_{i=1}^n x_i \leq t_{1-\alpha} $$
<br>
Имеем итоговый вид критерия:<br>
$$ H_0\space отвергается \space \space \Leftrightarrow \space\space \sum_{i=1}^n x_i \leq t_{1-\alpha},\spaceгде\space t_{1-\alpha} \space -\spaceкваниль\spaceуровня\space\alpha\spaceраспределения\space\Pi(m\frac{nM}{\theta_0})$$

Поскольку мы получили критерий, который имеет зависимость только от нулевой гипотезы, расчитаем также значение ошибки 2го рода, потому что нам важно её уменьшение с ростом выборки.<br>
$$1-\beta = P(ln \space l(\vec{x}) \leq c_\alpha|H_1) = P(\sum_{i=1}^n x_i \geq \frac{c_\alpha -  m n M\space ( \frac{1}{\theta_0} - \frac{1}{\theta_1})}{ln \frac{\theta_0}{\theta_1}}|H_1)$$<br>
Подставив значение $c_\alpha$ получим $\beta = P(\sum_{i=1}^n x_i  \geq t_{1-\alpha}|H_1)=1-F_\eta(t_{1-\alpha})$, где $\eta=\sum_{i=1}^n x_i \space \sim \space \Pi(m\frac{nM}{\theta_1})$. Тогда имеем, что<br><br> $$ \beta =1-F_\eta(t_{1-\alpha}) $$

### Зададим  гипергеометрическое распределение $HG(200, 70, 10)$

In [3]:
import numpy as np
from scipy.stats import hypergeom, poisson

volumes = [5, 10, 100, 1000, 10**5]
count_samples = 5

N, M, n = (200, 70, 10)
hg = hypergeom(N, n, M)

np.random.seed(1000)
data = {v: np.array([hg.rvs(size=v) for _ in range(count_samples)]) for v in volumes}

### Применим параметрический критерий для $HG(\theta, 70, 10)$
Рассмотрим уровени значимости $\alpha = 0.1, \space 0.05 $<br> 
Гиптоза $H_0$ утверждает, что исследуемая $\theta = 200$, в то время как гиптоза $H_1$ утверждает, что исследуемая $\theta = 300$

In [9]:
def compute_quntile(cdf, a, eps=0.001, min_range=-1, max_range=30):
    x = np.arange(min_range, max_range, eps)
    for xx in x:
        if cdf(xx)<a and cdf(xx+eps)>a:
            return xx+eps
    return compute_quntile(cdf, a, eps=eps*5, min_range=max_range, max_range=max_range*10)

def ecdf(x, data):
    return data[data<=x].size / data.size


In [8]:
hyposis = [[200, 300], 70, 10]
for alpha in [0.1, 0.05]:
    print()
    print(f"                     УРОВЕНЬ ЗНАЧИМОСТИ {alpha}              ")
    print()
    for volume in volumes:
#         if volume >1000:
#             continue
        for choice in range(count_samples):
            lamb = volume*hyposis[1]*hyposis[2]/hyposis[0][0]
            F_xi = poisson(lamb).cdf
            t = compute_quntile(F_xi, alpha, eps=0.1)
            summ = np.sum(data[volume][choice])
            if(summ>=t):
                answ = "H0 принимается"
            else:
                answ = "H0 отклоняется"
            lamb_eta = volume*hyposis[1]*hyposis[2]/hyposis[0][1]
            F_eta = poisson(lamb_eta).cdf
            beta = 1- F_eta(t)
            print(f"{'n = '+str(volume)},",
                  f"Выборка №{choice+1},",
                  f"Значение суммы = {summ}",
                  f"Квантиль {t:.4},",
                  f"Ошибка 2-го рода {beta:.4}",
                  answ)
        print("="*100)


                     УРОВЕНЬ ЗНАЧИМОСТИ 0.1              

n = 5, Выборка №1, Значение суммы = 20 Квантиль 12.1, Ошибка 2-го рода 0.386 H0 принимается
n = 5, Выборка №2, Значение суммы = 14 Квантиль 12.1, Ошибка 2-го рода 0.386 H0 принимается
n = 5, Выборка №3, Значение суммы = 16 Квантиль 12.1, Ошибка 2-го рода 0.386 H0 принимается
n = 5, Выборка №4, Значение суммы = 21 Квантиль 12.1, Ошибка 2-го рода 0.386 H0 принимается
n = 5, Выборка №5, Значение суммы = 16 Квантиль 12.1, Ошибка 2-го рода 0.386 H0 принимается
n = 10, Выборка №1, Значение суммы = 41 Квантиль 28.1, Ошибка 2-го рода 0.143 H0 принимается
n = 10, Выборка №2, Значение суммы = 23 Квантиль 28.1, Ошибка 2-го рода 0.143 H0 отклоняется
n = 10, Выборка №3, Значение суммы = 28 Квантиль 28.1, Ошибка 2-го рода 0.143 H0 отклоняется
n = 10, Выборка №4, Значение суммы = 36 Квантиль 28.1, Ошибка 2-го рода 0.143 H0 принимается
n = 10, Выборка №5, Значение суммы = 34 Квантиль 28.1, Ошибка 2-го рода 0.143 H0 принимается
n = 100, Выборк

## Критерий Неймонна-Пирсона для Гамма распределения

Пусть $\vec{x} = (x_1, x_2, ..., x_n)$ - выборка исследуемого распределения, заданного семейством $\mathcal{F}=\{\Gamma(\alpha, \theta), \theta\in \mathcal{\Theta}\}$, где $\alpha \space -$ известный параметр .<br>
Пусть есть простая гипотеза $H_0: \space \theta=\theta_0$, против альтернативной $H_1: \space \theta=\theta_1$, где $\theta_0<\theta_1$. <br>
Найдём распределение $ln \space l(\vec{x})$ и определим $c_\alpha$ для заданного уровня значимости<br>
$$ ln \space l(\vec{x}) = \sum_{i=1}^n\big((\alpha-1)ln\space x_i + \alpha \space ln\space \theta_1 - \theta_1 x_i - \Gamma(\alpha) - (\alpha-1)ln\space x_i - \alpha \space ln\space \theta_0 + \theta_0 x_i + \Gamma(\alpha) \big) =$$
$$ = \sum_{i=1}^n\big(\alpha \space ln\space \theta_1 - \theta_1 x_i - \alpha \space ln\space \theta_0 + \theta_0 x_i \big) = n \space ln \frac{\theta_1}{\theta_0} + (\theta_0-\theta_1)\sum_{i=1}^n x_i \space \geq c_\alpha$$
<br>
$$\alpha = P(n \space ln \frac{\theta_1}{\theta_0} + (\theta_0-\theta_1)\sum_{i=1}^n x_i \space \geq c_\alpha|H_0) = P(\sum_{i=1}^n x_i \leq \frac{c_\alpha - n\space\alpha\space ln \frac{\theta_1}{\theta_0}}{\theta_0-\theta_1}|H_0)$$
Тогда, вспомнив, что $\xi=\sum_{i=1}^n x_i$ (при верности гипотезы $H_0$) будет распределена как $\Gamma(n\alpha, \theta_0)$.<br><br>
Значит, c надо выбирать равным $c_\alpha = t_{1-\alpha} \space (\theta_0-\theta_1) + n\space\alpha\space ln \frac{\theta_1}{\theta_0}$, где $t_{1-\alpha} \space -$ кваниль уровня $\alpha$ распределения $\Gamma(n\space \alpha, \theta_0)$.
<br>
Преобразуем итоговое неравенство:<br>
$$ n \space ln \frac{\theta_1}{\theta_0} + (\theta_0-\theta_1)\sum_{i=1}^n x_i \space =ln \space l(\vec{x}) \geq c_\alpha=t_{1-\alpha} \space (\theta_0-\theta_1) + n\space\alpha\space ln \frac{\theta_1}{\theta_0}$$
<br>
$$ \sum_{i=1}^n x_i \leq t_{1-\alpha} $$
<br>
Имеем итоговый вид критерия:<br>
$$ H_0\space отвергается \space \space \Leftrightarrow \space\space \sum_{i=1}^n x_i \leq t_{1-\alpha},\spaceгде\space t_{1-\alpha} \space -\spaceкваниль\spaceуровня\space\alpha\spaceраспределения\space\Gamma(n\alpha, \theta_0)$$

Поскольку мы получили критерий, который имеет зависимость только от нулевой гипотезы, расчитаем также значение ошибки 2го рода, потому что нам важно её уменьшение с ростом выборки.<br>
$$1-\beta = P(ln \space l(\vec{x}) \leq c_\alpha|H_1) = P(\sum_{i=1}^n x_i \geq \frac{c_\alpha - n\space\alpha\space ln \frac{\theta_1}{\theta_0}}{\theta_0-\theta_1}|H_1)$$<br>
Подставив значение $c_\alpha$ получим $\beta = P(\sum_{i=1}^n x_i  \geq t_{1-\alpha}|H_1)=1-F_\eta(t_{1-\alpha})$, где $\eta=\sum_{i=1}^n x_i \space \sim \space \Gamma(n\space \alpha, \theta_1)$. Тогда имеем, что<br><br> $$ \beta =1-F_\eta(t_{1-\alpha}) $$

### Зададим гамма-распределение $\Gamma(2, 1/2)$

In [3]:
import numpy as np
from scipy.stats import gamma

volumes = [5, 10, 100, 1000, 10**5]
count_samples = 5

a, th = 2, 1/2 
g = gamma(a, scale=1/th)

np.random.seed(1000)
data = {v: np.array([g.rvs(size=v) for _ in range(count_samples)]) for v in volumes}

### Применим параметрический критерий для $\Gamma(2, \theta)$
Рассмотрим уровени значимости $\alpha = 0.1, \space 0.05 $<br> 
Гиптоза $H_0$ утверждает, что исследуемая $\theta = 15/31$, в то время как гиптоза $H_1$ утверждает, что исследуемая $\theta = 31/41$

In [15]:
def compute_quntile(cdf, a, eps=0.001, min_range=-1, max_range=30):
    x = np.arange(min_range, max_range, eps)
    for xx in x:
        if cdf(xx)<a and cdf(xx+eps)>a:
            return xx+eps
    return compute_quntile(cdf, a, eps=eps*5, min_range=max_range, max_range=max_range*10)

def ecdf(x, data):
    return data[data<=x].size / data.size


In [23]:
hyposis = [2, [15/31, 31/41]]
for alpha in [0.1, 0.05]:
    print()
    print(f"                     УРОВЕНЬ ЗНАЧИМОСТИ {alpha}              ")
    print()
    for volume in volumes:
#         if volume >1000:
#             continue
        for choice in range(count_samples):
            F_xi = gamma(volume*hyposis[0], scale=1/hyposis[1][0]).cdf
            t = compute_quntile(F_xi, alpha, eps=0.1)
            summ = np.sum(data[volume][choice])
            if(summ>=t):
                answ = "H0 принимается"
            else:
                answ = "H0 отклоняется"
            F_eta = gamma(volume*hyposis[0], scale=1/hyposis[1][1]).cdf
            beta = 1- F_eta(t)
            print(f"{'n = '+str(volume)},",
                  f"Выборка №{choice+1},",
                  f"Значение суммы = {summ:.4}",
                  f"Квантиль {t:.4},",
                  f"Ошибка 2-го рода {beta:.4}",
                  answ)
        print("="*100)


                     УРОВЕНЬ ЗНАЧИМОСТИ 0.1              

n = 5, Выборка №1, Значение суммы = 18.07 Квантиль 12.9, Ошибка 2-го рода 0.4891 H0 принимается
n = 5, Выборка №2, Значение суммы = 14.26 Квантиль 12.9, Ошибка 2-го рода 0.4891 H0 принимается
n = 5, Выборка №3, Значение суммы = 22.11 Квантиль 12.9, Ошибка 2-го рода 0.4891 H0 принимается
n = 5, Выборка №4, Значение суммы = 22.93 Квантиль 12.9, Ошибка 2-го рода 0.4891 H0 принимается
n = 5, Выборка №5, Значение суммы = 13.02 Квантиль 12.9, Ошибка 2-го рода 0.4891 H0 принимается
n = 10, Выборка №1, Значение суммы = 15.73 Квантиль 30.5, Ошибка 2-го рода 0.2339 H0 отклоняется
n = 10, Выборка №2, Значение суммы = 42.34 Квантиль 30.5, Ошибка 2-го рода 0.2339 H0 принимается
n = 10, Выборка №3, Значение суммы = 46.46 Квантиль 30.5, Ошибка 2-го рода 0.2339 H0 принимается
n = 10, Выборка №4, Значение суммы = 33.21 Квантиль 30.5, Ошибка 2-го рода 0.2339 H0 принимается
n = 10, Выборка №5, Значение суммы = 26.12 Квантиль 30.5, Ошибка 2-го ро

Как видно из примера, если значение одной из гипотез близко к истинному, то приниматься критерием будет именно она. Однако же на больших выборках, критерий начинает отклонять эту гипотезу, что позволяет более точно искать значение параметра.