# Задание 4.1


## Критерий согласия <b>$\chi^2$</b> (Хи-квадрат)

Пусть  $\vec{x}=(X_1, X_2, ..., X_n)$ - выобрка независимых одинаково распределённых случайных величин. <br>
$\nu_1$, $\nu_2$, ..., $\nu_N$ - частоты попадания выборочных данных в соответсвующие подмножества группировки $\epsilon_1$, $\epsilon_2$, ..., $\epsilon_N$ (в дискретном случае - в подмножества значений исследуемой случайной величины)<br>
$$\nu_j=\sum_{j=1}^{n}I(X_i=j), j=1,...,N$$ 

Тогда вектор $\nu = (\nu_1, \nu_2, ..., \nu_N) \sim M(n, p_1, p_2, ... , p_n)$, т.е. имеет полиномиальное распределение, где $\vec{p}=(p_1, p_2, ... , p_n)$ - вероятности попадания исследуемой случайной величины в соответсвующие подмножества группировки $\epsilon_1$, $\epsilon_2$, ..., $\epsilon_N$<br>

Простую гипотеза $H_0$ заключается в том, что $\underline{p} = \underline{\mathring{p}} = (\mathring{p_1}, \mathring{p_2}, ... , \mathring{p_N}) $ - заданый вероятностный вектор $(0<\mathring{p_j}<1, j=1,...,N; \space\mathring{p_1}+...+\mathring{p_N}=0)$<br>

Статистика критерия $\mathring{X_n^2}=\mathring{X_n^2}(\vec{x})=\mathring{X_n^2}(\nu)=\sum_{j=1}^{N}\frac{(\nu_j-n \mathring{p_j})^2}{n \mathring{p_j}}=\sum_{j=1}^{N}\frac{\nu_j^2}{n \mathring{p_j}}-n$ <br>
<br>
Если гипотеза $H_0$ справедлива, то поскольку относительная частота $\frac{\nu_j}{n}$ события $\{\xi = j\}$ является состаятельной оценкой его вероятности $\mathring{p_j}\space(j=1,...,N)$, то при больших объёмах выборки $n$ разности $|\frac{\nu_j}{n} - p_j|$ должны быть малы, следовательно значение статистики $\mathring{X_n^2}$ не должно быть слишком большим. Поэтому естесвтенно задать критическую область для гипотезы $H_0$ в виде $X_{1\alpha}=\{\vec{x}: \mathring{X_n^2}(\vec{x})>t_\alpha\}$, где $t_\alpha$ при заданном уровне значимости $\alpha$ должна быть выбранна из условия $P(\mathring{X_n^2} > t_\alpha | H_0)=\alpha$<br>
<br>
Поскольку для вычисление точное значение границы $t_\alpha$ требуется знать $L(t_\alpha|H_0)$, а точное распредение статистики при гипотезе $H_0$ неудобно для расчёта критерия, граничное значение находят из пределеного распределения (при $n \rightarrow \infty\space\space L(t_\alpha|H_0)\rightarrow \chi^2(N-1)$).<br>
То есть граница уровня значимости $\alpha$ - это есть ни что иное, как $1-\alpha$-квантиль распределения $\chi^2(N-1)$ <br>
<br>
К достоинствам данного критерия можно отнести тот факт, что его можно применять даже в том случае, когда данные имеют нечисловой характер. <br>
Одним из недостатков критерия является потеря некоторой информации о выборке при группировке слагаемых.<br>
Для уменьшения эффекта потери инфрмации чаще всего принимают $N\approx 5$ для мальеньких выборок и $N\approx 10,...,15$ для больших выборок. <br>
Наиболее оптимальное значение $N$ помогает заключить эвристическое правило Старджесса, которое говорит, что <br>
$$ N = 1 + \lfloor log_2 n \rfloor $$

Из всего выше сказанно следует заключить, что критерий согласия $\chi^2$ обычно применяется, когда $n\geq 50$, $\nu_j\geq5 \space \forall j$, и выглядит следующим обазом<br>

$$ H_0\space отвергается \space \space \Leftrightarrow \space\space \mathring{X_n^2}>квантиль\space уровня \space 1-\alpha \space распределения \space\chi^2(N-1) $$

### Зададим гипергеометрическое распределение $HG(200, 70, 10)$

In [1]:
import numpy as np
from scipy.stats import hypergeom

volumes = [5, 10, 100, 1000, 10**5]
count_samples = 5

N, M, n = (200, 70, 10)
hg = hypergeom(N, n, M)

np.random.seed(1000)
data = {v: np.array([hg.rvs(size=v) for _ in range(count_samples)]) for v in volumes}

### Применим критерий для простой гипотезы
Рассмотрим уровени значимости $\alpha = 0.1, \space 0.05 $<br> 
Гиптоза $H_0$ утверждает, что исследуемая случайная величина распределена как $HG(200,70,10)$.<br>
Правилом Старджесса в данном случае пользоваться не будем, так как значения полученных величин заключены в пределах от 0 до 10, то есть получить больше чем 11 интервалов не представляется возможным.

In [2]:
from scipy.stats import chi2
from math import ceil
from scipy.special import binom 

In [3]:
def compute_quntile(cdf, a, eps=0.001, max_range=30):
    x = np.arange(-1, max_range, eps)
    for xx in x:
        if cdf(xx)<a and cdf(xx+eps)>a:
            return xx+eps


In [4]:
def find_ps(boxes, hyposis):
    N, M, n = hyposis
    ans = np.empty(0)
    for i in boxes:
        p = binom(M, i) * binom(N-M, n-i) / binom(N, n)
        ans = np.append(ans, p)
    return ans

In [5]:
def find_nus(boxes, data):
    ans = np.empty(0)
    for i in boxes:
        nu = len(np.where(data==i)[0])
        ans = np.append(ans, nu)
    return ans

In [14]:
hyposis = (200, 70, 10)
for alpha in [0.1, 0.05]:
    print()
    print(f"                     УРОВЕНЬ ЗНАЧИМОСТИ {alpha}              ")
    print()
    for volume in volumes:
#         if volume<=10:
#             continue
        for choice in range(count_samples):
            N_boxes =  11
            boxes = range(0, 11)
            hyposis_ps = find_ps(boxes, hyposis)
            nus = find_nus(boxes, data[volume][choice])
            
            chi_stat = 0
            for j in range(len(nus)):
                chi_stat += (nus[j] - volume*hyposis_ps[j])**2 / (volume*hyposis_ps[j])
                
            q = compute_quntile(chi2(N_boxes-1).cdf, 1-alpha)
            if(chi_stat<q):
                answ = "H0 принимается"
            else:
                answ = "H0 отклоняется"
            print(f"{'n = '+str(volume)},",
                  f"Выборка №{choice+1},",
                  f"Значение статистики Пирсона = {chi_stat:.4}",
                  f"Квантиль {q:.4},",
                  answ)
        print("="*100)


                     УРОВЕНЬ ЗНАЧИМОСТИ 0.1              

n = 5, Выборка №1, Значение статистики Пирсона = 4.406 Квантиль 15.99, H0 принимается
n = 5, Выборка №2, Значение статистики Пирсона = 3.506 Квантиль 15.99, H0 принимается
n = 5, Выборка №3, Значение статистики Пирсона = 2.473 Квантиль 15.99, H0 принимается
n = 5, Выборка №4, Значение статистики Пирсона = 11.86 Квантиль 15.99, H0 принимается
n = 5, Выборка №5, Значение статистики Пирсона = 2.536 Квантиль 15.99, H0 принимается
n = 10, Выборка №1, Значение статистики Пирсона = 5.152 Квантиль 15.99, H0 принимается
n = 10, Выборка №2, Значение статистики Пирсона = 21.44 Квантиль 15.99, H0 отклоняется
n = 10, Выборка №3, Значение статистики Пирсона = 5.681 Квантиль 15.99, H0 принимается
n = 10, Выборка №4, Значение статистики Пирсона = 11.61 Квантиль 15.99, H0 принимается
n = 10, Выборка №5, Значение статистики Пирсона = 5.25 Квантиль 15.99, H0 принимается
n = 100, Выборка №1, Значение статистики Пирсона = 5.723 Квантиль 15.99, H0 

Как видно, критерий принял H0 для почти всех выборок для обоих уровней значимости.<br>
Теперь проверим как работает этот критерий для близкой, но заведомо неверной гипотезе H0. <br>
Пусть H0 утверждает, что исследуемая случайная величина распределена как $HG(190,70,10)$.<br>

In [16]:
hyposis = (190,70,10)
for alpha in [0.1, 0.05]:
    print()
    print(f"                     УРОВЕНЬ ЗНАЧИМОСТИ {alpha}              ")
    print()
    for volume in volumes:
#         if volume<=10:
#             continue
        for choice in range(count_samples):
            N_boxes =  11
            boxes = range(0, 11)
            hyposis_ps = find_ps(boxes, hyposis)
            nus = find_nus(boxes, data[volume][choice])
            
            chi_stat = 0
            for j in range(len(nus)):
                chi_stat += (nus[j] - volume*hyposis_ps[j])**2 / (volume*hyposis_ps[j])
                
            q = compute_quntile(chi2(N_boxes-1).cdf, 1-alpha)
            if(chi_stat<q):
                answ = "H0 принимается"
            else:
                answ = "H0 отклоняется"
            print(f"{'n = '+str(volume)},",
                  f"Выборка №{choice+1},",
                  f"Значение статистики Пирсона = {chi_stat:.4}",
                  f"Квантиль {q:.4},",
                  answ)
        print("="*100)


                     УРОВЕНЬ ЗНАЧИМОСТИ 0.1              

n = 5, Выборка №1, Значение статистики Пирсона = 3.9 Квантиль 15.99, H0 принимается
n = 5, Выборка №2, Значение статистики Пирсона = 4.29 Квантиль 15.99, H0 принимается
n = 5, Выборка №3, Значение статистики Пирсона = 2.995 Квантиль 15.99, H0 принимается
n = 5, Выборка №4, Значение статистики Пирсона = 9.322 Квантиль 15.99, H0 принимается
n = 5, Выборка №5, Значение статистики Пирсона = 2.743 Квантиль 15.99, H0 принимается
n = 10, Выборка №1, Значение статистики Пирсона = 3.645 Квантиль 15.99, H0 принимается
n = 10, Выборка №2, Значение статистики Пирсона = 27.63 Квантиль 15.99, H0 отклоняется
n = 10, Выборка №3, Значение статистики Пирсона = 7.596 Квантиль 15.99, H0 принимается
n = 10, Выборка №4, Значение статистики Пирсона = 11.33 Квантиль 15.99, H0 принимается
n = 10, Выборка №5, Значение статистики Пирсона = 5.238 Квантиль 15.99, H0 принимается
n = 100, Выборка №1, Значение статистики Пирсона = 4.952 Квантиль 15.99, H0 пр

Видно, что близкие по своей алтернативе гипотезы критерий отклоняет неверную гипотезу только при больших объёмах выборки.<br>
Это говорит о том, что при малых объёмах выборки критерий говорит лишь о приближённых значениях, близких к истинным.

## Критерий согласия <b>$\chi^2$</b> (Хи-квадрат) для сложной гипотезы

В общем случае сложные для полиномиального распределения, используемого в критерии <b>$\chi^2$</b>  гипотезы будут принимать следующий вид. <br><br>
$$H_0: \space \underline{p} = \underline{p}(\theta), \space \theta=(\theta_1, ... , \theta_r), \space \theta \in \Theta, \space r < N-1$$ <br>
Тогда по аналогии с предыдущим случаем можем получить статистику $\mathring{X_n^2}(\theta)=\sum_{j=1}^{N}\frac{(\nu_j-n p_j(\theta))^2}{n p_j(\theta)}$

Эта статистик зависит от неизвестного параметра, поэтому использовать непосредственно её нельзя. Для этого параметр $\theta$ заменяеют некоторой оценкой $\tilde{\theta}$ и получают в итоге статистику $\tilde{X_n^2} = X_n^2(\tilde{\theta})$. Однако узнать распределение $\tilde{X_n^2}$ при гипотезе $H_0$ представляется трудной задачей. Кроме того, величины $p_j(\tilde{\theta})$ представляют собой функции от наблюдений.<br>


Простую гипотеза $H_0$ заключается в том, что $\underline{p} = \underline{\mathring{p}} = (\mathring{p_1}, \mathring{p_2}, ... , \mathring{p_N}) $ - заданый вероятностный вектор $(0<\mathring{p_j}<1, j=1,...,N; \space\mathring{p_1}+...+\mathring{p_N}=0)$<br>
Р. Фишер в 1924 г. получил, предельное распределение статистики $\tilde{X_n^2}$, использующая оценку максимального правдоподобия 
$$\hat{\theta} = arg \underset{\theta}\max{\Pi_{j=1}^N(p_j(\theta))^{\nu_j}}\space,$$
или иначе оценка по видоизменённому методу минимизации $\chi^2$, является распределением $\chi^2(N-1-r)$<br>
$$L(\tilde{X_n^2}|H_0)\rightarrow \chi^2(N-1-r), \space \space n \rightarrow \infty$$ 
Тогда можно заключить, что критерий имеет вид:
$$ H_0\space отвергается \space \space \Leftrightarrow \space\space \mathring{X_n^2}>квантиль\space уровня \space 1-\alpha \spaceраспределения \space\chi^2(N-1-r) $$

Для упрощения задачи будем пользоваться оценкой параметра, найденной методом максимального правдоподобия

In [6]:
hyposis = [None, 70, 10]
for alpha in [0.1, 0.05]:
    print()
    print(f"                     УРОВЕНЬ ЗНАЧИМОСТИ {alpha}              ")
    print()
    for volume in volumes:
        for choice in range(count_samples):
            N_boxes =  11
            boxes = range(0, 11)
            hyposis[0] = int(hyposis[2]*hyposis[1]/np.mean(data[volume][choice]))
            hyposis_ps = find_ps(boxes, hyposis)
            nus = find_nus(boxes, data[volume][choice])
            chi_stat = 0
            for j in range(len(nus)):
                chi_stat += (nus[j] - volume*hyposis_ps[j])**2 / (volume*hyposis_ps[j])
                
            q = compute_quntile(chi2(N_boxes-2).cdf, 1-alpha)
            if(chi_stat<q):
                answ = "H0 принимается"
            else:
                answ = "H0 отклоняется"
            print(f"{'n = '+str(volume)},",
                  f"оцениваемый параметр = {hyposis[0]:},",
                  f"Выборка №{choice+1},",
                  f"Значение статистики Пирсона = {chi_stat:.4}",
                  f"Квантиль {q:.4},",
                  answ)
        print("="*100)


                     УРОВЕНЬ ЗНАЧИМОСТИ 0.1              

n = 5, оцениваемый параметр = 175, Выборка №1, Значение статистики Пирсона = 3.589 Квантиль 14.68, H0 принимается
n = 5, оцениваемый параметр = 250, Выборка №2, Значение статистики Пирсона = 2.173 Квантиль 14.68, H0 принимается
n = 5, оцениваемый параметр = 218, Выборка №3, Значение статистики Пирсона = 2.069 Квантиль 14.68, H0 принимается
n = 5, оцениваемый параметр = 166, Выборка №4, Значение статистики Пирсона = 6.076 Квантиль 14.68, H0 принимается
n = 5, оцениваемый параметр = 218, Выборка №5, Значение статистики Пирсона = 2.504 Квантиль 14.68, H0 принимается
n = 10, оцениваемый параметр = 170, Выборка №1, Значение статистики Пирсона = 2.273 Квантиль 14.68, H0 принимается
n = 10, оцениваемый параметр = 304, Выборка №2, Значение статистики Пирсона = 10.25 Квантиль 14.68, H0 принимается
n = 10, оцениваемый параметр = 250, Выборка №3, Значение статистики Пирсона = 3.934 Квантиль 14.68, H0 принимается
n = 10, оцениваемый парам

Показательным в этом примере является то, что оценка метода максимального правдоподобия даёт относительно точные результаты.<br>
То есть для маленьких выборор, где ещё довольно информации о распределении, эта оценка даёт хорошее приближение значения. <br>
Похожий результат был получен выше, когда наблюдалось поведение криетриея $\chi^2$ на малых объёмах выборки. <br> 
Показательным же явлется то, что при больших объёмах выборки критерий без погрешности оценвиает точное значение искомого параметра, что и наблюдается во 2-ой выборке с $10^5$ наблюдениями <br>

## Критерий согласия Колмогорова

Пусть  $\vec{x}=(X_1, X_2, ..., X_n)$ - выобрка независимых одинаково распределённых случайных величин из распределения $L(\xi)$, а искомая функция распределения $-$ это $F_\xi(x)$. <br>
Выдвинем гипотезу $H_0:\space \space F_\xi(x)=F(x)$. Тогда статистика критерия определяется формулой <br>
$$D_n (\vec{x}) = \underset{x\in \mathbb{R}}\sup{|\hat{F_n}(x) - F(x)|},$$
где $\hat{F_n}(x)$ - эмпирическая функция распределения.<br>
При каждом значении $x$ величина $\hat{F_n}(x)$ является оптимальной и состоятельной оценкой для $F(x)$, поэтому при больших n отличие $\hat{F_n}(x)$ от $F_\xi(x)$ будет не велико, а значит критерий будет определять отклонение гипотетической $F(x)$ от искомой $F_\xi(x)$.<br>
Поскольку большие значения статистики свидетельствуют о наиболее вероятном отклонении гипотизы от истины, то естесвтенно задать критическую область для гипотезы $H_0$ в виде $X_{1\alpha}=\{\vec{x}: D_n(\vec{x})>t_\alpha\}$, где $t_\alpha$ при заданном уровне значимости $\alpha$ должна быть расчитана на основании теоремы Колмогорова. То есть при больших $n$ (уже при $n\geq20$) можно положить $t_\alpha=\lambda_\alpha\space/\space\sqrt{n}$, где $\lambda_\alpha\space \space - \space$ квантиль распределения Колмогорова уровня $1-\alpha$.<br>
Тогда можно заключить, что критерий имеет вид: <br><br>
$$ H_0\space отвергается \space \space \Leftrightarrow \space\space \sqrt{n} \space D_n\geq1-\alpha-квантиль\spaceраспределения \space Колмогорова $$
<br>
Скорость сходимости статистики $\sqrt{n} D_n$ к распределению Колмогорова проядка $O(\frac{1}{n \sqrt{n}})$. Однако часто используют следующий вид статистики с поправкой Большева<br>
$$S_n = \frac{6 n D_n +1}{6\sqrt{n}},$$
которая тоже имеет распределение Колмогорова, но сходится к нему быстрее, подряка $O(\frac{1}{n^2})$.
Это позволяет использовать критерий при меньших объёмах выборки. В проверки гипотезы $H_0$ будем использовать статистику $S_n$
<br>
Тогда итоговый вид криетрия будет:<br>
$$ H_0\space отвергается \space \space \Leftrightarrow \space\space S_n\geq квантиль\space уровня \space 1-\alpha \spaceраспределения \space Колмогорова $$

### Зададим гамма-распределение $\Gamma(2, 1/2)$

In [16]:
import numpy as np
from scipy.stats import gamma

volumes = [5, 10, 100, 1000, 10**5]
count_samples = 5

a, th = 2, 1/2 
g = gamma(a, scale=1/th)

np.random.seed(1000)
data = {v: np.array([g.rvs(size=v) for _ in range(count_samples)]) for v in volumes}

### Применим критерий для простой гипотезы
Рассмотрим уровени значимости $\alpha = 0.1, \space 0.05 $<br> 
Гиптоза $H_0$ утверждает, что исследуемая случайная величина распределена как $\Gamma(2, 1/2)$.<br>

In [2]:
from scipy.special import kolmogorov

In [3]:
def compute_quntile(cdf, a, eps=0.001, max_range=30):
    x = np.arange(-1, max_range, eps)
    for xx in x:
        if cdf(xx)<a and cdf(xx+eps)>a:
            return xx+eps

def ecdf(x, data):
    return data[data<=x].size / data.size


In [6]:
hyposis = [2, 0.5]
F = gamma(hyposis[0], scale=1/hyposis[1]).cdf
for alpha in [0.1, 0.05]:
    print()
    print(f"                     УРОВЕНЬ ЗНАЧИМОСТИ {alpha}              ")
    print()
    for volume in volumes:
        for choice in range(count_samples):
            F_n = lambda x: ecdf(x, data[volume][choice])
            xx = np.arange(-1,16, 0.001)
            D_n = max(map(lambda x : abs(F_n(x) - F(x)), xx))
            S_n = np.sqrt(volume)*D_n+1/(6*np.sqrt(volume))
            K = lambda x: 1 - kolmogorov(x)
            q = compute_quntile(K, 1-alpha)
            if(S_n<q):
                answ = "H0 принимается"
            else:
                answ = "H0 отклоняется"


            print(f"{'n = '+str(volume)},",
                  f"Выборка №{choice+1},",
                  f"Значение статистики Sn = {S_n:.4}",
                  f"Квантиль {q:.4},",
                  answ)
        print("="*100)


                     УРОВЕНЬ ЗНАЧИМОСТИ 0.1              

n = 5, Выборка №1, Значение статистики Sn = 0.6904 Квантиль 1.224, H0 принимается
n = 5, Выборка №2, Значение статистики Sn = 0.8788 Квантиль 1.224, H0 принимается
n = 5, Выборка №3, Значение статистики Sn = 0.65 Квантиль 1.224, H0 принимается
n = 5, Выборка №4, Значение статистики Sn = 0.8443 Квантиль 1.224, H0 принимается
n = 5, Выборка №5, Значение статистики Sn = 0.8247 Квантиль 1.224, H0 принимается
n = 10, Выборка №1, Значение статистики Sn = 1.789 Квантиль 1.224, H0 отклоняется
n = 10, Выборка №2, Значение статистики Sn = 0.7956 Квантиль 1.224, H0 принимается
n = 10, Выборка №3, Значение статистики Sn = 0.8386 Квантиль 1.224, H0 принимается
n = 10, Выборка №4, Значение статистики Sn = 0.8299 Квантиль 1.224, H0 принимается
n = 10, Выборка №5, Значение статистики Sn = 1.203 Квантиль 1.224, H0 принимается
n = 100, Выборка №1, Значение статистики Sn = 1.387 Квантиль 1.224, H0 отклоняется
n = 100, Выборка №2, Значение статис

Результат является показательным, поскольку на этом примере видно, уровень значимости - это доля выборок, которые попавил в критическую область. Даже при большом объёме выборки возможность отклонить истинно верную гипотезу равна уровню значимости 

### Применим критерий для заранее неверной гипотезы

Рассмотрим уровени значимости $\alpha = 0.1, \space 0.05 $<br> 
Гиптоза $H_0$ утверждает, что исследуемая случайная величина распределена как $\Gamma(3, 1/2)$.<br>

In [22]:
hyposis = [3, 0.5]
F = gamma(hyposis[0], scale=1/hyposis[1]).cdf
for alpha in [0.1, 0.05]:
    print()
    print(f"                     УРОВЕНЬ ЗНАЧИМОСТИ {alpha}              ")
    print()
    for volume in volumes:
        for choice in range(count_samples):
            F_n = lambda x: ecdf(x, data[volume][choice])
            xx = np.arange(-1,16, 0.001)
            D_n = max(map(lambda x : abs(F_n(x) - F(x)), xx))
            S_n = volume**(0.5)*D_n+1/(6*volume**(0.5))
            K = lambda x: 1 - kolmogorov(x)
            q = compute_quntile(K, 1-alpha)
            if(S_n<q):
                answ = "H0 принимается"
            else:
                answ = "H0 отклоняется"

            print(f"{'n = '+str(volume)},",
                  f"Выборка №{choice+1},",
                  f"Значение статистики Sn = {S_n:.4}",
                  f"Квантиль {q:.4},",
                  answ)
        print("="*100)


                     УРОВЕНЬ ЗНАЧИМОСТИ 0.1              

n = 5, Выборка №1, Значение статистики Sn = 1.257 Квантиль 1.224, H0 отклоняется
n = 5, Выборка №2, Значение статистики Sn = 1.439 Квантиль 1.224, H0 отклоняется
n = 5, Выборка №3, Значение статистики Sn = 0.767 Квантиль 1.224, H0 принимается
n = 5, Выборка №4, Значение статистики Sn = 1.275 Квантиль 1.224, H0 отклоняется
n = 5, Выборка №5, Значение статистики Sn = 1.398 Квантиль 1.224, H0 отклоняется
n = 10, Выборка №1, Значение статистики Sn = 2.349 Квантиль 1.224, H0 отклоняется
n = 10, Выборка №2, Значение статистики Sn = 1.295 Квантиль 1.224, H0 отклоняется
n = 10, Выборка №3, Значение статистики Sn = 1.141 Квантиль 1.224, H0 принимается
n = 10, Выборка №4, Значение статистики Sn = 1.495 Квантиль 1.224, H0 отклоняется
n = 10, Выборка №5, Значение статистики Sn = 2.053 Квантиль 1.224, H0 отклоняется
n = 100, Выборка №1, Значение статистики Sn = 3.9 Квантиль 1.224, H0 отклоняется
n = 100, Выборка №2, Значение статистики Sn 

Примечательно то, что даже при малых размерах выборки, критерий начинает отклонять гиптоезы, что говорит о состяотельности данного метода.

## Критерий Колмогорова для сложной гипотезы

В случае сложной гипотезы идёт предположение на то, что функция распределения исследуемой случайно величины $\xi$ принадлежит какому-то параметрическому семейству, то есть $F_\xi(x) \in \mathcal{F}=\{F(x, \theta), \theta\in \mathcal{\Theta}\}$.<br>
Тогда $D_n = D_n (\vec{x}, \theta) = \underset{x\in \mathbb{R}}\sup{|\hat{F_n}(x) - F(x, \theta)|}$ $-$ тоже является некоторой параметрической зависимостью, а не статистикой от выборки.<br>
Пользуются следущей статистикой для построения критической области. <br>
$$\hat{D_n} (\vec{x}) = \underset{x\in \mathbb{R}}\sup{|\hat{F_n}(x) - F(x, \hat{\theta})|},$$
где $\hat{\theta}\space -$ оценка максимального правдоподобия. Однако теперь ассимптотическое распределение статистики $\hat{D_n}$ имеет отличный от Колмогорова вид. <br>
Для того, чтобы избежать этого можно разделить выборку на 2 части и по 1ой оценить параметр, а по 2ой проверять гипотезу.

Рассмотрим уровени значимости $\alpha = 0.1, \space 0.05 $<br> 
Гиптоза $H_0$ утверждает, что выборка иммеет распределение $\Gamma(2, \theta)$<br>
Оценка маскимального правдоподобия $\hat{\theta}=\frac{2}{\bar{x}}$, где $\bar{x} \space -$ выборочное среднее

In [20]:
hyposis = [2, None]
for alpha in [0.1, 0.05]:
    print()
    print(f"                     УРОВЕНЬ ЗНАЧИМОСТИ {alpha}              ")
    print()
    for volume in volumes:
        if volume < 10:
            continue
        for choice in range(count_samples):
            data_to_mle = data[volume][choice][:volume//2]
            data_to_h0 =data[volume][choice][volume//2:]
            x_sr = np.mean(data_to_mle)
            mle = hyposis[0] / x_sr
            hyposis[1] = mle
            F = gamma(hyposis[0], scale=1/hyposis[1]).cdf
            F_n = lambda x: ecdf(x, data_to_h0)
            xx = np.arange(-1,16, 0.001)
            D_n = max(map(lambda x : abs(F_n(x) - F(x)), xx))
            S_n = len(data_to_h0)**(0.5)*D_n+1/(6*len(data_to_h0)**(0.5))
            K = lambda x: 1 - kolmogorov(x)
            q = compute_quntile(K, 1-alpha)
            if(S_n<q):
                answ = "H0 принимается"
            else:
                answ = "H0 отклоняется"

            print(f"{'n = '+str(volume)},",
                  f"Выборка №{choice+1},",
                  f"ОМП = {mle:4}",
                  f"Значение статистики Sn = {S_n:.4}",
                  f"Квантиль {q:.4},",
                  answ)
        print("="*100)


                     УРОВЕНЬ ЗНАЧИМОСТИ 0.1              

n = 10, Выборка №1, ОМП = 1.211536386587555 Значение статистики Sn = 0.8207 Квантиль 1.224, H0 принимается
n = 10, Выборка №2, ОМП = 0.7211274737375505 Значение статистики Sn = 1.252 Квантиль 1.224, H0 отклоняется
n = 10, Выборка №3, ОМП = 0.3262028465785545 Значение статистики Sn = 1.368 Квантиль 1.224, H0 отклоняется
n = 10, Выборка №4, ОМП = 0.4422002840684584 Значение статистики Sn = 1.279 Квантиль 1.224, H0 отклоняется
n = 10, Выборка №5, ОМП = 0.778522987392111 Значение статистики Sn = 0.722 Квантиль 1.224, H0 принимается
n = 100, Выборка №1, ОМП = 0.5856850908274844 Значение статистики Sn = 0.4983 Квантиль 1.224, H0 принимается
n = 100, Выборка №2, ОМП = 0.46145134776080315 Значение статистики Sn = 0.9909 Квантиль 1.224, H0 принимается
n = 100, Выборка №3, ОМП = 0.4516488410030905 Значение статистики Sn = 0.7466 Квантиль 1.224, H0 принимается
n = 100, Выборка №4, ОМП = 0.584453961013945 Значение статистики Sn = 1.107 Кв

## Критерий однородности Смирнова

Пусть $X_1, X_2, ..., X_n$ - выборка размера $n$, $Y_1, Y_2, ..., Y_m$ - выборка размера $m$.<br>
Пусть $\hat{F_n}(x)$ и $\hat{F_m}(x)$ - соответсвующие эмпрические функции распределения.<br>
Критерий однородности Симрнова отвечает на вопрос, принадлежат ли две выборки одному распределению или нет.<br>
Для этого используется статистика 
$$D_{n,m} (\vec{x}) = \underset{x\in \mathbb{R}}\sup{|\hat{F_n}(x) - \hat{F_m}(x)|},$$
Тогда по Теореме Смирнова, которая утверждает, что $\underset{n,m\rightarrow \infty}{lim} P(\sqrt{{\frac{m n}{m+n}}}D_{n,m}\leq t)= K(t)$, то есть статистика $\sqrt{{\frac{m n}{m+n}}}D_{n,m}$ стреимтся к распределению Колмогорова при $n,m\rightarrow \infty$<br>
На основе этого и аналогичных рассуждений, как и с критерием согласия Колмогорова, итоговый вид критерия будет иметь вид<br>
$$ H_0\space отвергается \space \space \Leftrightarrow \space\space \sqrt{\frac{m n}{m+n}}D_{n,m}\geq квантиль\space уровня \space 1-\alpha \spaceраспределения \space Колмогорова $$

### Применим критерий однородности Смирнова для выборок из $\Gamma(2,1/2)$

Рассмотрим уровени значимости $\alpha = 0.1, \space 0.05 $<br> 
Гиптоза $H_0$ утверждает, что функции распределения двух выборок одинаковы<br>
Мы будем рассматривать рассматривать пары распределений из выборок одинавково объёма. В таком случае $n=m$ и критерий выглядит следующим образом.<br>
$$ H_0\space отвергается \space \space \Leftrightarrow \space\space \sqrt{\frac{n}{2}}D_{n,m}\geq квантиль\space уровня \space 1-\alpha \spaceраспределения \space Колмогорова $$

In [15]:
for alpha in [0.1, 0.05]:
    print()
    print(f"                     УРОВЕНЬ ЗНАЧИМОСТИ {alpha}              ")
    print()
    for volume in data:
        for i in range(len(data[volume])-1):
            for j in range(i+1, len(data[volume])):
                xx = np.arange(-1,11, 0.001)
                D_n_M = max(list(map(lambda x: abs(ecdf(x,data[volume][i])-ecdf(x,data[volume][j])), xx)))
                S_c = np.sqrt((volume/2)) * D_n_M
                K = lambda x: 1 - kolmogorov(x)
                q = compute_quntile(K, 1-alpha)
                if(S_c<q):
                    answ = "H0 принимается"
                else:
                    answ = "H0 отклоняется"
    
                print(f"{'n = '+str(volume)},",
                      f"Выборки №{i+1} и {j+1},",
                      f"Значение статистики = {S_c:.4}",
                      f"Квантиль {q:.4},",
                      answ)
            print("="*100)


                     УРОВЕНЬ ЗНАЧИМОСТИ 0.1              

n = 5, Выборки №1 и 2, Значение статистики = 0.6325 Квантиль 1.224, H0 принимается
n = 5, Выборки №1 и 3, Значение статистики = 0.6325 Квантиль 1.224, H0 принимается
n = 5, Выборки №1 и 4, Значение статистики = 0.6325 Квантиль 1.224, H0 принимается
n = 5, Выборки №1 и 5, Значение статистики = 0.6325 Квантиль 1.224, H0 принимается
n = 5, Выборки №2 и 3, Значение статистики = 0.6325 Квантиль 1.224, H0 принимается
n = 5, Выборки №2 и 4, Значение статистики = 0.9487 Квантиль 1.224, H0 принимается
n = 5, Выборки №2 и 5, Значение статистики = 0.6325 Квантиль 1.224, H0 принимается
n = 5, Выборки №3 и 4, Значение статистики = 0.6325 Квантиль 1.224, H0 принимается
n = 5, Выборки №3 и 5, Значение статистики = 0.6325 Квантиль 1.224, H0 принимается
n = 5, Выборки №4 и 5, Значение статистики = 0.9487 Квантиль 1.224, H0 принимается
n = 10, Выборки №1 и 2, Значение статистики = 0.8944 Квантиль 1.224, H0 принимается
n = 10, Выборки №1 и 3, Зн

n = 10, Выборки №3 и 4, Значение статистики = 0.8944 Квантиль 1.359, H0 принимается
n = 10, Выборки №3 и 5, Значение статистики = 1.118 Квантиль 1.359, H0 принимается
n = 10, Выборки №4 и 5, Значение статистики = 1.118 Квантиль 1.359, H0 принимается
n = 100, Выборки №1 и 2, Значение статистики = 1.626 Квантиль 1.359, H0 отклоняется
n = 100, Выборки №1 и 3, Значение статистики = 1.344 Квантиль 1.359, H0 принимается
n = 100, Выборки №1 и 4, Значение статистики = 0.8485 Квантиль 1.359, H0 принимается
n = 100, Выборки №1 и 5, Значение статистики = 0.9899 Квантиль 1.359, H0 принимается
n = 100, Выборки №2 и 3, Значение статистики = 0.7071 Квантиль 1.359, H0 принимается
n = 100, Выборки №2 и 4, Значение статистики = 1.414 Квантиль 1.359, H0 отклоняется
n = 100, Выборки №2 и 5, Значение статистики = 1.061 Квантиль 1.359, H0 принимается
n = 100, Выборки №3 и 4, Значение статистики = 1.273 Квантиль 1.359, H0 принимается
n = 100, Выборки №3 и 5, Значение статистики = 0.8485 Квантиль 1.359, H0 пр

# Задание 4.2

## Гипергеометрическое распределение

### Теоретическое построение оценок

Рассмотрим задачу оценки численности замкнутой популяции животных.
Тогда будем считать, что в какой-то момент времени  $M$ животных были помечены бирками, и в настоящий момент имеется $m$ выборок по $n$ наблюдейний в каждом.<br>
$x_1, x_2, ... , x_m \sim HG(\theta, M, n)$, где $\theta$ - неизвестная численность популяции. <br>
Найдём оценку методом моментов. <br>
Статистика $T(\vec{X}) = \bar{x}$ является смещённой оценокой для $\theta$, так как $E[T]=E[x_1]=\frac{M n}{\theta}$ <br>
По методу моментов оценкой неизвесного параметра будет $\hat{\theta}=\frac{M n}{\bar{x}}$. Эта оценка является состоятельной. <br><br>

Теперь найдём оценку для численности популяции методом максимального правдоподобия. <br>
Для этого предположим, что $\frac{M}{\theta} << 1$ и $n >> 1$, тогда гиепергеометрическое распределение приближается распределением Пуассона $\Pi(\frac{nM}{\theta}) $. [1]<br>
Логарифмическая функция правдоподобия будет иметь вид: <br>
$ln(L(\vec{X}, \theta)) = \sum_{i=1}^{m}ln(\frac{exp\{-\frac{nM}{\theta}\}(\frac{nM}{\theta})^{x_i}}{x_i!})= -m\frac{nM}{\theta}-ln(\theta)\sum_{i=1}^{m}x_i  + ln(nM)\sum_{i=1}^{m}x_i - \sum_{i=1}^{m}ln(x_i!)$<br><br>
Найдём максимум этой функции:<br>
$$\frac{\partial ln L}{\partial \theta} = 0$$
$$m \frac{nM}{\hat\theta^2}-\frac{1}{\hat\theta}\sum_{i=1}^{m}x_i=0 \space \space \Leftrightarrow \space\space 
nM = \hat\theta\frac{1}{m}\sum_{i=1}^{m}x_i \space \space \Leftrightarrow \space\space \hat{\theta}=\frac{nM}{\bar{x}}$$<br>
Оценка методом максимального правдоподобия точно такой же, как и оценка методом моментов. <br>

<br>
Стоит отметить, что исходная модель не является регулярной, однако после приближения распределением Пуассона, регулярность появилась. <br>
Продолжим исследавать модель и найдём эффективную оценку и параметрическую функцию, которую она оценивает. <br>
$$V = \frac{\partial ln L}{\partial \theta} = m \frac{nM}{\theta^2}-\frac{1}{\theta}\sum_{i=1}^{m}x_i \space \space \Leftrightarrow \space\space \frac{\theta}{m nM} V = \frac{1}{\theta} - \frac{\bar{x}}{nM} $$<br>
Таким образом, $T(\vec{X}) = \frac{\bar{x}}{nM}$ является эффективной оценкой для $\frac{1}{\theta}$ <br>


[1] https://stats.stackexchange.com/questions/73159/verification-of-poisson-approximation-to-hypergeometric-distribution

### Проверка оценок на данных

In [3]:
for volume in volumes:
    for choice in range(count_samples):
        print(f"{'n = '+str(volume):>10},",
              f"Выборка №{choice+1}, выборочное среднее = {int(n*M/np.mean(data[volume][choice])):},")
    print()

     n = 5, Выборка №1, выборочное среднее = 175,
     n = 5, Выборка №2, выборочное среднее = 250,
     n = 5, Выборка №3, выборочное среднее = 218,
     n = 5, Выборка №4, выборочное среднее = 166,
     n = 5, Выборка №5, выборочное среднее = 218,

    n = 10, Выборка №1, выборочное среднее = 170,
    n = 10, Выборка №2, выборочное среднее = 304,
    n = 10, Выборка №3, выборочное среднее = 250,
    n = 10, Выборка №4, выборочное среднее = 194,
    n = 10, Выборка №5, выборочное среднее = 205,

   n = 100, Выборка №1, выборочное среднее = 194,
   n = 100, Выборка №2, выборочное среднее = 212,
   n = 100, Выборка №3, выборочное среднее = 183,
   n = 100, Выборка №4, выборочное среднее = 203,
   n = 100, Выборка №5, выборочное среднее = 185,

  n = 1000, Выборка №1, выборочное среднее = 199,
  n = 1000, Выборка №2, выборочное среднее = 201,
  n = 1000, Выборка №3, выборочное среднее = 205,
  n = 1000, Выборка №4, выборочное среднее = 198,
  n = 1000, Выборка №5, выборочное среднее = 19

## Гамма распределение

### Теоретическое построение оценок

В реальной ситуации интерес представляет выяспенение обоих параметров гамма распределения. Сформулируем задачу. <br>
$x_1, x_2, ... , x_n \sim \Gamma(\theta_1, \theta_2)$, где $\vec{\theta} = (\theta_1, \theta_2)$ - неизвестные параметры. <br>
Напишем систему уравнений по методу момнтов.<br>
$$\begin{cases} \frac{\hat{\theta_1}}{\hat{\theta_2}} = \bar{x} \\ \frac{\hat{\theta_1}}{\hat{\theta_2}^2} = s^2 \end{cases} \space \space \Leftrightarrow \space\space  \begin{cases}  \hat{\theta_1}= \frac{\bar{x}^2}{s^2}  \\ \hat{\theta_2} =  \frac{\bar{x}}{s^2} \end{cases},  $$
где $\bar{x}$ - выборочное среднее, $s^2$ - несмещённая выборочная дисперсия. <br>
Полученные оценки являются состоятельными. Вопрос об их смещённости остаётся открытым. <br>
Проверим эту оценку на данных.

In [11]:
for volume in volumes:
    for choice in range(count_samples):
        x_sr = np.mean(data[volume][choice])
        x_d = np.var(data[volume][choice], ddof=1)
        print(f"{'n = '+str(volume):>10},",
              f"Выборка №{choice+1}, первый параметр = {x_sr**2 / x_d:.3},"
              f"второй параметр = {x_sr / x_d:.4}")
    print()

     n = 5, Выборка №1, первый параметр = 6.4,второй параметр = 1.772
     n = 5, Выборка №2, первый параметр = 3.04,второй параметр = 1.067
     n = 5, Выборка №3, первый параметр = 2.63,второй параметр = 0.5953
     n = 5, Выборка №4, первый параметр = 1.53,второй параметр = 0.3335
     n = 5, Выборка №5, первый параметр = 2.36,второй параметр = 0.9055

    n = 10, Выборка №1, первый параметр = 1.71,второй параметр = 1.089
    n = 10, Выборка №2, первый параметр = 1.3,второй параметр = 0.3063
    n = 10, Выборка №3, первый параметр = 2.45,второй параметр = 0.5282
    n = 10, Выборка №4, первый параметр = 2.29,второй параметр = 0.6905
    n = 10, Выборка №5, первый параметр = 5.39,второй параметр = 2.065

   n = 100, Выборка №1, первый параметр = 1.93,второй параметр = 0.5827
   n = 100, Выборка №2, первый параметр = 2.87,второй параметр = 0.627
   n = 100, Выборка №3, первый параметр = 2.09,второй параметр = 0.4722
   n = 100, Выборка №4, первый параметр = 2.02,второй параметр = 0.55

Видна явная состоятельность оценки

Теперь попробуем найти оценки для гамма распределения с 2-мя неизвестными параметрами методом максимального правдоподобия.<br>
Логарифмическая функция правдоподобия будет иметь вид: <br>
$ln(L(\vec{X}, \vec{\theta})) = \sum_{i=1}^{n}((\theta_1-1)ln(x_i) + \theta_1 ln(\theta_2) - \theta_2 x_i - ln(\Gamma(\theta_1))) = (\theta_1-1)\sum_{i=1}^{n}ln(x_i) + n \theta_1 ln(\theta_2) - \theta_2 \sum_{i=1}^{n}x_i - n\space 
ln(\Gamma(\theta_1))$<br>
Отметим несколько фактов. Заметим, что модель является регулярной и экспоненциальной. <br>
Достаточными статистиками: <br>
<ul>
 <li>Для $\theta_1$ ялвяется $T_1(\vec{X}) = \sum_{i=1}^{n}ln(x_i)$ </li>
 <li>Для $\theta_2$ является $T_1(\vec{X}) = \sum_{i=1}^{n}x_i$ </li>
</ul>
Составим систему урванений для метода максимального правдоподобия. <br>
$$\begin{cases} \frac{\partial ln L}{\partial \theta_1} = 0 \\ \frac{\partial ln L}{\partial \theta_2} = 0 \end{cases} \space \space \Leftrightarrow \space\space  \begin{cases} \sum_{i=1}^{n}ln(x_i) + n \space ln(\theta_2) - n \space \psi(\theta_1) = 0  \\ n \theta_1 \frac{1}{\theta_2} - \sum_{i=1}^{n}x_i = 0 \end{cases} \space \space \Leftrightarrow \space\space  \begin{cases}  \theta_2 =  \frac{\theta_1}{\bar{X}}\\ \overline{ln(X)} + ln(\theta_1) - ln(\bar{X}) -  \psi(\theta_1) = 0 \end{cases}  , $$
где $\psi(\theta_1) = (ln(\Gamma(\theta_1))'$ - диагамма, $\bar{X} = \frac{1}{n}\sum_{i=1}^{n}x_i$, $\overline{ln(X)} = \frac{1}{n}\sum_{i=1}^{n}ln(x_i)$ <br>
Второе уравнение является трансцендентным уравнением и поэтому можно решить только численными методами. <br>
Проверим оценку на данных.

In [18]:
from scipy.optimize import bisect
from scipy.special import digamma
for volume in volumes:
    for choice in range(count_samples):
        x_sr = np.mean(data[volume][choice])
        x_ln_sr = np.mean(np.log(data[volume][choice]))
        eq = lambda theta: x_ln_sr + np.log(theta) - np.log(x_sr) - digamma(theta)
        theta_1 = bisect(eq, 1, 10)
        theta_2 = theta_1 / x_sr
        print(f"{'n = '+str(volume):>10},",
              f"Выборка №{choice+1}, первый параметр = {theta_1:.3},"
              f"второй параметр = {theta_2:.3}")
    print()

     n = 5, Выборка №1, первый параметр = 6.58,второй параметр = 1.82
     n = 5, Выборка №2, первый параметр = 4.0,второй параметр = 1.4
     n = 5, Выборка №3, первый параметр = 2.75,второй параметр = 0.621
     n = 5, Выборка №4, первый параметр = 2.83,второй параметр = 0.618
     n = 5, Выборка №5, первый параметр = 3.33,второй параметр = 1.28

    n = 10, Выборка №1, первый параметр = 1.92,второй параметр = 1.22
    n = 10, Выборка №2, первый параметр = 1.45,второй параметр = 0.343
    n = 10, Выборка №3, первый параметр = 2.49,второй параметр = 0.536
    n = 10, Выборка №4, первый параметр = 1.82,второй параметр = 0.547
    n = 10, Выборка №5, первый параметр = 5.23,второй параметр = 2.0

   n = 100, Выборка №1, первый параметр = 2.0,второй параметр = 0.603
   n = 100, Выборка №2, первый параметр = 2.54,второй параметр = 0.555
   n = 100, Выборка №3, первый параметр = 1.85,второй параметр = 0.417
   n = 100, Выборка №4, первый параметр = 2.26,второй параметр = 0.622
   n = 100, В

Видна явная состоятельность оценки

Продолжим исследование гамма распределения.<br>
Теперь будем искать эффективную оценку для первого параметра распределения при известном втором.<br>
$x_1, x_2, ... , x_n \sim \Gamma(\theta, \lambda)$, $\theta$ - неизвестный параметр <br>
$$V(\vec{X}, \theta)=\frac{\partial ln L}{\partial \theta} =  \sum_{i=1}^{n}ln(x_i) + n \space ln(\lambda) - n \space \psi(\theta) \space \space \Leftrightarrow \space\space  \frac{1}{n}V(\vec{X}, \theta) = \frac{1}{n}\sum_{i=1}^{n}ln(x_i) + ln(\lambda) - \psi(\theta)$$ 
Таким образом эффективной оценкой для $\psi(\theta)$ является статистика $T(\vec{X}) = \frac{1}{n}\sum_{i=1}^{n}ln(x_i) + ln(\lambda) $, которая является фунцией от достаточной статистики, то есть оценка $\widehat{\psi(\theta)}$ будет отпимальной.
Обратная диагамма функция находится только численными методами.

Наконец будем искать эффективную оценку для второго параметра распределения при известном первом.<br>
$x_1, x_2, ... , x_n \sim \Gamma(\lambda, \theta)$, $\theta$ - неизвестный параметр <br>
$$V(\vec{X}, \theta)=\frac{\partial ln L}{\partial \theta} =   n \lambda \frac{1}{\theta} - \sum_{i=1}^{n}x_i \space \space \Leftrightarrow \space\space  \frac{1}{n \lambda}V(\vec{X}, \theta) = \frac{1}{\theta} - \frac{1}{n \lambda} \sum_{i=1}^{n}x_i$$ 
Таким образом эффективной оценкой для $\psi(\theta)$ является статистика $T(\vec{X}) = \frac{1}{n \lambda} \sum_{i=1}^{n}x_i $, которая является фунцией от достаточной статистики, то есть оценка $\frac{1}{\hat{\theta}}$ будет отпимальной.<br>
Найдём оптимальную несмещённую оценку для $\hat{\theta}$. Для этого найдём смещение для $T_0(\vec{X})= \frac{n \lambda}{\sum_{i=1}^{n}x_i }$. Воспмним, что $\sum_{i=1}^{n}x_i \sim \Gamma(n\lambda, \theta) $ <br>
$$E[T_0] = \int_{0}^{+\infty} \frac{n\lambda}{x} \frac{x^{n\lambda-1}\theta^{n\lambda} e^{-x\theta}}{\Gamma(n\lambda)} dx = \frac{n\lambda \theta^{n\lambda}}{\Gamma(n\lambda)} \int_{0}^{+\infty} (\frac{z}{\theta})^{n\lambda-2} e^{-z} \frac{dz}{\theta} = \theta  \frac{n\lambda}{\Gamma(n\lambda)} \Gamma(n\lambda - 1) = \theta  \frac{n\lambda}{n\lambda-1}$$
Тогда несмещённой оптимальной оценкой будет $T(\vec{X})=\frac{n\lambda-1}{n\lambda}  \frac{n \lambda}{\sum_{i=1}^{n}x_i } =  \frac{n \lambda -1 }{\sum_{i=1}^{n}x_i } $ <br>
Посмотрим, как ведёт себя эта оценка на смоделированных данных

In [21]:
for volume in volumes:
    for choice in range(count_samples):
        x_s = np.sum(data[volume][choice])
        theta =  (volume*a - 1) / x_s
        print(f"{'n = '+str(volume):>10},",
              f"Выборка №{choice+1}, искомый параметр = {theta:.3}")
    print()

     n = 5, Выборка №1, искомый параметр = 0.498
     n = 5, Выборка №2, искомый параметр = 0.631
     n = 5, Выборка №3, искомый параметр = 0.407
     n = 5, Выборка №4, искомый параметр = 0.393
     n = 5, Выборка №5, искомый параметр = 0.691

    n = 10, Выборка №1, искомый параметр = 1.21
    n = 10, Выборка №2, искомый параметр = 0.449
    n = 10, Выборка №3, искомый параметр = 0.409
    n = 10, Выборка №4, искомый параметр = 0.572
    n = 10, Выборка №5, искомый параметр = 0.727

   n = 100, Выборка №1, искомый параметр = 0.6
   n = 100, Выборка №2, искомый параметр = 0.435
   n = 100, Выборка №3, искомый параметр = 0.449
   n = 100, Выборка №4, искомый параметр = 0.548
   n = 100, Выборка №5, искомый параметр = 0.528

  n = 1000, Выборка №1, искомый параметр = 0.512
  n = 1000, Выборка №2, искомый параметр = 0.499
  n = 1000, Выборка №3, искомый параметр = 0.493
  n = 1000, Выборка №4, искомый параметр = 0.49
  n = 1000, Выборка №5, искомый параметр = 0.511

n = 100000, Выборка 

Видно, что даже при малых выборках значение близко к истинному