In [1]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import rcParams
import math
from IPython.display import display, Math
import scipy.stats as st
rcParams.update({'font.size': 12})

### Вариант 9

Пусть $$x_1, ..., x_n \sim Bin(m, p)$$

+ Покажите, что параметр 𝑝 попадает в доверительный интервал с нужной вероятностью.
+ Исследуйте зависимость ширины доверительного интервала для параметра распределения 𝑝 от объема выборки.

точечная оценка: $$\widehat{p}_n = \frac{\overline{x}}{m}$$

доверительный интервал уровня доверия 0.95:

Так как имеем n независимых одинаково распределенных случайных величин, и дисперсия распределения неизвестна, то выполняется:

$$\sqrt{n}\frac{\overline{x} - mp}{\tilde{s}_n} \rightarrow T_{n-1}$$


$$P(-t_{0.975}^{n-1} \leq \sqrt{n}\frac{\overline{x} - mp}{\tilde{s}_n} \leq t_{0.975}^{n-1}) \geq 0.95$$

$$P(-t_{0.975}^{n-1} \leq \sqrt{n} m \frac{\frac{\overline{x}}{m} - p}{\tilde{s}_n} \leq t_{0.975}^{n-1}) \geq 0.95$$


откуда можем найти границы доверительного интервала для нашей оценки параметра p:

$$[\frac{\overline{x}}{m} - t_{0.975} \frac{\tilde{s}_n}{m\sqrt{n}};\frac{\overline{x}}{m} + t_{0.975} \frac{\tilde{s}_n}{m\sqrt{n}}]$$


Для того, чтобы показать, что параметр 𝑝 попадает в доверительный интервал с нужной вероятностью, буду выбирать по 200 раз выборки из n элементов(n=50) из биномиального распределения с параметрами m и p, подсчитывать границы доверительного интервала и проверять, попадает ли параметр в этот отрезок. 

In [2]:
def calc_CI(m, p, n, eps):
    t_q = st.t.ppf(q=eps, df=n-1)
    sample = np.random.binomial(m, p, size = n)
    var_notbiased = np.var(sample, ddof=1)
    point_est = np.mean(sample)/m
    CI_left = point_est - t_q * (var_notbiased / (m * math.sqrt(n)))
    CI_right = point_est + t_q * (var_notbiased / (m * math.sqrt(n)))
    return CI_left, CI_right

In [3]:
k = 1000
n = 100
params = [[20, 0.3,  0.975], [30, 0.3,  0.975], [30, 0.5,  0.975], [30, 0.7, 0.975], [30, 0.3,  0.975]]

for i, par in enumerate(params):
    m, p, eps = par
    CIs_true = []
    for _ in range(k):
        CI_left, CI_right = calc_CI(m, p, n, eps)
        CIs_true.append(CI_left<= p <= CI_right)
    res = sum(CIs_true)/len(CIs_true)
    print(f'{i}: CI = [{CI_left},{CI_right}]; параметр попадает в {res*100} % случаях, p:{p}, m:{m}')

0: CI = [0.26312776262817944,0.33487223737182065]; параметр попадает в 100.0 % случаях, p:0.3, m:20
1: CI = [0.25639578951372477,0.3362708771529419]; параметр попадает в 100.0 % случаях, p:0.3, m:30
2: CI = [0.4444984238092518,0.5281682428574149]; параметр попадает в 100.0 % случаях, p:0.5, m:30
3: CI = [0.6587122114942628,0.7419544551724039]; параметр попадает в 100.0 % случаях, p:0.7, m:30
4: CI = [0.25352948917164175,0.3424705108283582]; параметр попадает в 100.0 % случаях, p:0.3, m:30


+ Исследуйте зависимость ширины доверительного интервала для параметра распределения 𝑝 от объема выборки.

Покажу на примере 95% доверительных интервалов для выборок из распределения с параметром m=100 и p=0.7, увеличивая n

In [4]:
m = 100
p = 0.7
eps = 0.975
for n in [5, 10, 50, 100, 300, 500, 1000, 10000]:
    CI_left, CI_right = calc_CI(m, p, n, eps)
    print(f'n: {n}, CI = [{CI_left},{CI_right}], длина интервала: {CI_right-CI_left}')

n: 5, CI = [0.525141952192197,0.7908580478078029], длина интервала: 0.26571609561560594
n: 10, CI = [0.5328245404839491,0.8731754595160508], длина интервала: 0.3403509190321017
n: 50, CI = [0.6478706456264135,0.7573293543735865], длина интервала: 0.109458708747173
n: 100, CI = [0.6577308933423833,0.7370691066576165], длина интервала: 0.07933821331523316
n: 300, CI = [0.6732999231252922,0.7213667435413745], длина интервала: 0.048066820416082345
n: 500, CI = [0.6786331871903849,0.7198868128096151], длина интервала: 0.04125362561923018
n: 1000, CI = [0.6844193830508828,0.7105606169491171], длина интервала: 0.026141233898234306
n: 10000, CI = [0.6955619623040523,0.7038620376959477], длина интервала: 0.008300075391895367


Как можно заметить, с ростом выборки длин доверительного интервала уменьшается