# Гипергеометрическое распределение

### Зададим гипергеометрическое распределение $HG(200, 70, 10)$

In [6]:
import numpy as np
from scipy.stats import hypergeom

volumes = [5, 10, 100, 1000, 10**5]
count_samples = 5

N, M, n = (200, 70, 10)
hg = hypergeom(N, n, M)

np.random.seed(1000)
data = {v: np.array([hg.rvs(size=v) for _ in range(count_samples)]) for v in volumes}

### Свойства выборочного среднего и выборочной дисперсии.

Пусть $X_1$, $X_2$, ..., $X_n$ - независимые одинаково распределённые случайные величины. <br>
$\bar{X} = \frac{1}{n} \sum_{i=1}^{n}X_i$ - выборочное среднее, $S_n^2 = \frac{1}{n} \sum_{i=1}^{n}(X_i - \bar{X})^2$ - выборочная дисперсия <br>
<br>
Тогда $E[\bar{X}] = E[\frac{1}{n} \sum_{i=1}^{n}X_i] = \frac{1}{n} \sum_{i=1}^{n}E[X_i] = \frac{1}{n} \sum_{i=1}^{n}E[X_1] = \frac{n}{n} E[X_1] = E[X_1]$ <br>
Что является несмещённой оценкой матожидания исследуемого распределения. <br><br>
Поскольку $S_n^2$ оценивает дисперсию исследуемого распределения, то можно рассмотреть выборочную дисперсию для
величины $Y_i= X_i - E[X_1], i=1...n$<br>
Тогда $E[Y_i]= E[\bar{Y}] = 0$, $D[X_i] = D[Y_i] = E[Y_i^2]$. <br>
$ S_n^2 = \frac{1}{n} \sum_{i=1}^{n}(Y_i - \bar{Y})^2 =  \frac{1}{n} \sum_{i=1}^{n} Y_i^2 - \frac{2}{n} \sum_{i=1}^{n} Y_i \bar{Y} + \frac{1}{n} \sum_{i=1}^{n} \bar{Y}^2 = \frac{1}{n} \sum_{i=1}^{n} Y_i^2 - 2 \bar{Y} \frac{1}{n}\sum_{i=1}^{n} Y_i   + \bar{Y}^2 = \frac{1}{n} \sum_{i=1}^{n} Y_i^2 - 2 \bar{Y}^2 + \bar{Y}^2 =$ <br> $ = \frac{1}{n} \sum_{i=1}^{n} Y_i^2 - \bar{Y}^2  $ <br>
$E[S_n^2] = \frac{1}{n} \sum_{i=1}^{n}E[Y_i^2] - E[\bar{Y}^2] = D[Y_1] - E[\bar{Y}^2] $ <br>
Заметим, что $E[Y_i Y_j] = 0$ для $i\neq j$, так как случайные величины являются независимыми <br>
$ E[\bar{Y}^2] = \frac{1}{n^2} E[(\sum_{i=1}^{n}Y_i)^2] = \frac{1}{n^2} \sum_{i=1}^{n} E[Y_i^2] + \sum_{i\neq j} E[Y_i Y_j] = 
\frac{1}{n} E[Y_1^2] = \frac{1}{n} D[Y_1] $ <br> 
Имеем:  $E[S_n^2] =  D[Y_1] - \frac{1}{n} D[Y_1] = \frac{n-1}{n} D[Y_1] $ <br><br>
Эта оценка является состоятельной, но смещённой.
<br><br>
Несмещённой состоятельной оценкой выборочной дисперсии будет  $S^2 = \frac{n}{n-1} S_n^2 = \frac{1}{n-1} \sum_{i=1}^{n}(Y_i - \bar{Y})^2 $

### Подсчёт выборочного среднего и выборочной дисперсии

Отметим, что для $\xi \sim HG (200, 70, 10)$: <br>
$E[\xi] = 3.5  $ <br>
$D[\xi] = \frac{1729}{796} \approx 2.17211  $

In [50]:
for volume in volumes:
    for choice in range(count_samples):
        print(f"{'n = '+str(volume):>10},",
              f"Выборка №{choice+1}, выборочное среднее = {np.mean(data[volume][choice]):.3},",
              f"выборочная дисперсия = {np.var(data[volume][choice]):.3},",
              f"несмещённая выборочная дисперсия = {np.var(data[volume][choice], ddof=1):.4}")
    print()

     n = 5, Выборка №1, выборочное среднее = 4.0, выборочная дисперсия = 1.2, несмещённая выборочная дисперсия = 1.5
     n = 5, Выборка №2, выборочное среднее = 2.8, выборочная дисперсия = 0.56, несмещённая выборочная дисперсия = 0.7
     n = 5, Выборка №3, выборочное среднее = 3.2, выборочная дисперсия = 1.36, несмещённая выборочная дисперсия = 1.7
     n = 5, Выборка №4, выборочное среднее = 4.2, выборочная дисперсия = 2.16, несмещённая выборочная дисперсия = 2.7
     n = 5, Выборка №5, выборочное среднее = 3.2, выборочная дисперсия = 0.56, несмещённая выборочная дисперсия = 0.7

    n = 10, Выборка №1, выборочное среднее = 4.1, выборочная дисперсия = 2.09, несмещённая выборочная дисперсия = 2.322
    n = 10, Выборка №2, выборочное среднее = 2.3, выборочная дисперсия = 2.21, несмещённая выборочная дисперсия = 2.456
    n = 10, Выборка №3, выборочное среднее = 2.8, выборочная дисперсия = 2.16, несмещённая выборочная дисперсия = 2.4
    n = 10, Выборка №4, выборочное среднее = 3.6, вы

Как видно из при увеличении n значения оценок сходятся к истинным значениям параметров

# Гамма распределение

### Зададим гамма распределение $Г(2, 1/2)$

In [54]:
import numpy as np
from scipy.stats import gamma

volumes = [5, 10, 100, 1000, 10**5]
count_samples = 5

a, th = 2, 1/2 
g = gamma(a, scale=1/th)

np.random.seed(1000)
data = {v: np.array([g.rvs(size=v) for _ in range(count_samples)]) for v in volumes}

### Подсчёт выборочного среднего и выборочной дисперсии

Отметим, что для $\xi \sim Г(2, 1/2)$: <br>
$E[\xi] = 4  $ <br>
$D[\xi] = 8  $

In [55]:
for volume in volumes:
    for choice in range(count_samples):
        print(f"{'n = '+str(volume):>10},",
              f"Выборка №{choice+1}, выборочное среднее = {np.mean(data[volume][choice]):.3},",
              f"выборочная дисперсия = {np.var(data[volume][choice]):.3},",
              f"несмещённая выборочная дисперсия = {np.var(data[volume][choice], ddof=1):.4}")
    print()

     n = 5, Выборка №1, выборочное среднее = 3.61, выборочная дисперсия = 1.63, несмещённая выборочная дисперсия = 2.039
     n = 5, Выборка №2, выборочное среднее = 2.85, выборочная дисперсия = 2.14, несмещённая выборочная дисперсия = 2.672
     n = 5, Выборка №3, выборочное среднее = 4.42, выборочная дисперсия = 5.94, несмещённая выборочная дисперсия = 7.429
     n = 5, Выборка №4, выборочное среднее = 4.59, выборочная дисперсия = 11.0, несмещённая выборочная дисперсия = 13.75
     n = 5, Выборка №5, выборочное среднее = 2.6, выборочная дисперсия = 2.3, несмещённая выборочная дисперсия = 2.876

    n = 10, Выборка №1, выборочное среднее = 1.57, выборочная дисперсия = 1.3, несмещённая выборочная дисперсия = 1.445
    n = 10, Выборка №2, выборочное среднее = 4.23, выборочная дисперсия = 12.4, несмещённая выборочная дисперсия = 13.82
    n = 10, Выборка №3, выборочное среднее = 4.65, выборочная дисперсия = 7.92, несмещённая выборочная дисперсия = 8.796
    n = 10, Выборка №4, выборочное

Как видно из при увеличении n значения оценок сходятся к истинным значениям параметров