# Доверительные интервалы. Нормальное распределение с неизвестным средним и известной дисперсией

**Задача.** Сравнить на выборках размера 50 для $\mathcal{N}(\theta,4)$ доверительные интервалы:
(1) теоретический, (2) на основе параметрического бутстрэпа, (3) на основе непараметрического бутстрэпа. Сам параметр $\theta$ сгенерировать из равномерного распределения на $[-5,5]$. 

In [1]:
import numpy as np # для генерации случайных величин и работы с массивами
from scipy import stats # чтобы считать квантили

In [2]:
np.random.seed(123) # фиксируем seed

In [3]:
# Фиксируем параметры задачи

n = 50 # размер выборки 
alpha = 0.05 # параметр ошибки

theta = np.random.uniform(-5,5) # неизвестное среднее нормального распределения
sigma = 2 # известная sigma нормального распределения

In [4]:
# Сгенерируем выборку из нужного распределения
sample = np.random.normal(theta, sigma, size=n)

In [5]:
print("Значение theta равно",theta)

Значение theta равно 1.9646918559786162


### Теоретический доверительный интервал

Напомним, что теоретический доверительный интервал вычисляется следующим образом: 

$$
\mathbb{P}\left( \bar{X} - \frac{c_{1-\frac{\alpha} 2} \sigma}{\sqrt{n}} < \mu < \bar{X} + \frac{c_{1-\frac{\alpha} 2}\sigma}{\sqrt{n}} \right) = 1-\alpha,
$$
где $c_{\alpha}$ — квантиль распределения $\mathcal{N}(0,1)$ уровня $\alpha$.

In [6]:
# Вычисляем теоретический доверительный интервал

CI_Theoretical = [np.mean(sample) - stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(n),
                  np.mean(sample) + stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(n)]

In [7]:
print("Теоретический доверительный интервал равен", CI_Theoretical)

Теоретический доверительный интервал равен [1.1210678915076362, 2.2297909509873786]


### Доверительный интервал на основе параметрического бутстрэпа

In [8]:
# Параметры для бутстрэпа
number_of_bootstrap_samples = 5 # количество бутстрэп-выборок
size_of_bootstrap_samples = 20 # размер бутстрэп-выборок

In [9]:
# Оцениваем неизвестный параметр theta 
mean = np.mean(sample) 

In [10]:
# Генерируем выборку из распределения N(sample_mean, sigma)
bootstrap_samples = np.random.normal(mean, sigma, size=[number_of_bootstrap_samples, size_of_bootstrap_samples]) 

In [11]:
bootstrap_samples

array([[-2.38915554e+00,  2.84044601e+00,  2.33077826e-01,
        -1.72941778e+00,  3.21071236e+00,  2.41678753e+00,
         5.82634813e+00,  1.93094480e+00,  5.27520832e+00,
         4.15216213e+00,  3.50294332e+00,  2.60796549e+00,
         1.92550874e+00,  1.28012758e+00,  2.19359582e-01,
         4.54802583e-01, -7.06685196e-02,  1.98836749e+00,
         2.24853355e+00,  3.41086502e+00],
       [ 4.21046524e+00,  5.89110938e+00,  1.20325052e+00,
         1.21126576e+00, -4.80849395e-01,  4.00179850e+00,
         2.72040957e+00,  5.36415985e+00,  3.06655743e+00,
         1.31205101e+00,  8.30908113e-01,  3.69887030e+00,
         1.54191459e+00,  1.36330164e+00,  4.84235890e+00,
         1.02241458e-01,  2.69854958e+00,  4.55831042e+00,
         1.61395007e-03,  2.59517343e+00],
       [-1.17797133e+00,  5.61969922e-01,  2.03510919e+00,
        -2.61349833e+00,  2.21251450e-01,  2.29026567e+00,
         9.00351897e-01,  6.83852547e-02,  3.55340788e+00,
         2.55106836e+00,  3.9

In [18]:
# Считаем среднее для каждой выборки 
bootstrap_estimates = np.apply_along_axis(np.mean, 1, bootstrap_samples)

In [13]:
# Вычисляем параметрический бутстрэп доверительный интервал
CI_Bootstrap_Parametric = [np.quantile(bootstrap_estimates, alpha/2),
                           np.quantile(bootstrap_estimates, 1 - alpha/2)]

In [14]:
print("Доверительный интервал на основе парметрического бустрэпа равен", CI_Bootstrap_Parametric)

Доверительный интервал на основе парметрического бустрэпа равен [1.399493046654126, 2.479680304445111]


### Доверительный интервал на основе непараметрического бутстрэпа

In [19]:
# Будем использовать те же параметры
bootstrap_samples_num = 5 # количество бутстрэп-выборок
bootstrap_samples_size = 20 # размер бутстрэп-выборок

In [20]:
# Генерируем выборку из распределения N(bootstrap_mean, sigma)
bootstrap_samples = np.random.choice(sample, size=[bootstrap_samples_num, bootstrap_samples_size]) 

In [21]:
# Считаем среднее для каждой выборки 
bootstrap_estimates = np.apply_along_axis(np.mean, 1, bootstrap_samples)

In [22]:
# Вычисляем непараметрический бутстрэп доверительный интервал
CI_Bootstrap_Nonparametric = [np.quantile(bootstrap_estimates, alpha/2),
                              np.quantile(bootstrap_estimates, 1 - alpha/2)]

In [23]:
print("Доверительный интервал на основе (непарметрического) бустрэпа равен", CI_Bootstrap_Nonparametric)

Доверительный интервал на основе (непарметрического) бустрэпа равен [1.2358234893998905, 1.901530517483673]


### Как сравнить полученные доверительные интервалы? 

Можно попробовать сравнить длину полученных доверительных интервалов. 
Будет ли длина хорошей оценкой качества интервалов?

In [25]:
print("Длина теоретического доверительного интервала: ", CI_Theoretical[1] - CI_Theoretical[0])
print("Длина доверительного интервала на основе парметрического бустрэпа: ",
                                                       CI_Bootstrap_Parametric[1] - CI_Bootstrap_Parametric[0])
print("Длина доверительного интервала на основе непарметрического бустрэпа: ",
                                                       CI_Bootstrap_Nonparametric[1] - CI_Bootstrap_Nonparametric[0])

Длина теоретического доверительного интервала:  1.1087230594797424
Длина доверительного интервала на основе парметрического бустрэпа:  1.080187257790985
Длина доверительного интервала на основе непарметрического бустрэпа:  0.6657070280837825


Проверим, с какой частотой истинное значение параметра попадает в данные доверительные интервалы

In [26]:
N_samples = 10000 # количество "экспериентов" по вычислению доверительных интервалов

theoretical = np.zeros(N_samples) # здесь будем хранить результаты для теоретического доверительного интервала
parametric_bootstrap = np.zeros(N_samples) # здесь будем хранить результаты для параметрического бутстрэпа 
nonparametric_bootstrap = np.zeros(N_samples) # здесь будем хранить результаты для непараметрического бутстрэпа 

In [27]:
# Вычисляем теоретический доверительный интервал

def Theoretical(sample, alpha):
    n = len(sample)
    mean = np.mean(sample)
    return [mean - stats.norm.ppf(1 - alpha/2) * sigma / np.sqrt(n),
            mean + stats.norm.ppf(1 - alpha/2) * sigma / np.sqrt(n)]

In [28]:
# Вычисляем доверительный интервал на основе параметрического бутстрэпа

def Parametric_bootstrap(sample, alpha, number_of_bootstrap_samples, size_of_bootstrap_samples):
    n = len(sample)
    mean = np.mean(sample)
    bootstrap_samples = np.random.normal(mean, sigma, size=[number_of_bootstrap_samples,
                                                                      size_of_bootstrap_samples]) 
    bootstrap_estimates = np.apply_along_axis(np.mean, 1, bootstrap_samples)
    return [np.quantile(bootstrap_estimates, alpha/2), np.quantile(bootstrap_estimates, 1 - alpha/2)]

In [29]:
# Вычисляем доверительный интервал на основе непараметрического бутстрэпа

def Nonparametric_bootstrap(sample, alpha, number_of_bootstrap_samples, size_of_bootstrap_samples):
    bootstrap_samples = np.random.choice(sample, size=[number_of_bootstrap_samples, size_of_bootstrap_samples]) 
    bootstrap_estimates = np.apply_along_axis(np.mean, 1, bootstrap_samples)
    return [np.quantile(bootstrap_estimates, alpha/2), np.quantile(bootstrap_estimates, 1 - alpha/2)]

In [30]:
# Проведем N_samples экспериментов
for i in range(N_samples):
    sample = np.random.normal(theta, sigma, size=n)
    # теоретические интервалы
    CI_Theoretical = Theoretical(sample,alpha)
    theoretical[i] = (theta >= CI_Theoretical[0]) and (theta <= CI_Theoretical[1])
    
    CI_parametric_bootstrap = Parametric_bootstrap(sample,
                                                   alpha,
                                                   number_of_bootstrap_samples,
                                                   size_of_bootstrap_samples)
    parametric_bootstrap[i] = (theta >= CI_parametric_bootstrap[0]) and
                              (theta <= CI_parametric_bootstrap[1])
    
    CI_nonparametric_bootstrap = Nonparametric_bootstrap(sample,
                                                         alpha,
                                                         number_of_bootstrap_samples,
                                                         size_of_bootstrap_samples)
    nonparametric_bootstrap[i] = (theta >= CI_nonparametric_bootstrap[0]) and
                                 (theta <= CI_nonparametric_bootstrap[1])

In [31]:
print("Частота попадания истинного параметра в доверительный интервал:")
print("- для теоретического доверительного интервала ", np.mean(theoretical))
print("- для параметрического бутстрэп доверительного интервала ", np.mean(parametric_bootstrap))
print("- для непараметрического бутстрэп доверительного интервала ", np.mean(nonparametric_bootstrap))

Частота попадания истинного параметра в доверительный интервал:
- для теоретического доверительного интервала  0.9525
- для параметрического бутстрэп доверительного интервала  0.7763
- для непараметрического бутстрэп доверительного интервала  0.7771
