# Доверительные интервалы в нормальной модели

**Задача.** Сравнить на выборках размера 50 для $\mathcal{N}(\theta,4)$ доверительные интервалы:
(1) теоретический, (2) на основе параметрического бутстрэпа, (3) на основе непараметрического бутстрэпа. Сам параметр $\theta$ сгенерировать из равномерного распределения на $[-5,5]$. 

In [1]:
import numpy as np # для генерации случайных величин и работы с массивами
from scipy import stats # чтобы считать квантили

In [2]:
np.random.seed(21) # фиксируем seed

In [19]:
# Фиксируем параметры задачи

n = 50 # размер выборки 
alpha = 0.05 # параметр ошибки

theta = np.random.uniform(10, 20) # неизвестное среднее нормального распределения
sigma = np.random.uniform(1, 2) # известная sigma нормального распределения

In [20]:
# Сгенерируем выборку из нужного распределения
sample = np.random.normal(theta, sigma, size=n)

In [21]:
print("Значение theta равно",theta)

Значение theta равно 13.658679913753602


### Теоретический доверительный интервал

Напомним, что теоретический доверительный интервал вычисляется следующим образом: 

$$
\mathbb{P}\left( \bar{X} - \frac{c_{1-\alpha/2}\sigma}{\sqrt{n}} < \mu < \bar{X} + \frac{c_{1-\alpha/2}\sigma}{\sqrt{n}} \right) = 1-\alpha,
$$
где $c_{\alpha}$ — квантиль распределения $\mathcal{N}(0,1)$ уровня $\alpha$.

In [22]:
# Вычисляем теоретический доверительный интервал

CI_Theoretical = [np.mean(sample) - stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(n), np.mean(sample) + stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(n)]

In [23]:
print("Теоретический доверительный интервал равен", CI_Theoretical)

Теоретический доверительный интервал равен [13.208427030646757, 13.826800429965754]


### Доверительный интервал на основе параметрического бутстрэпа

In [24]:
# Параметры для бутстрэпа
number_of_bootstrap_samples = 10 # количество бутстрэп-выборок
size_of_bootstrap_samples = 20 # размер бутстрэп-выборок

In [25]:
# Оцениваем неизвестный параметр theta 
mean = np.mean(sample) 

In [26]:
# Генерируем выборку из распределения N(sample_mean, sigma)
bootstrap_samples = np.random.normal(mean,sigma,size=[number_of_bootstrap_samples,size_of_bootstrap_samples]) 

In [27]:
# Считаем среднее для каждой выборки 
bootstrap_estimates = np.apply_along_axis(np.mean, 1, bootstrap_samples)

In [28]:
# Вычисляем параметрический бутстрэп доверительный интервал
CI_Bootstrap_Parametric = [np.quantile(bootstrap_estimates,alpha/2), np.quantile(bootstrap_estimates,1-alpha/2)]

In [29]:
print("Доверительный интервал на основе парметрического бустрэпа равен", CI_Bootstrap_Parametric)

Доверительный интервал на основе парметрического бустрэпа равен [13.00726811007267, 13.99075063396252]


### Доверительный интервал на основе непараметрического бутстрэпа

In [30]:
# Будем использовать те же параметры
number_of_bootstrap_samples = 10 # количество бутстрэп-выборок
size_of_bootstrap_samples = 20 # размер бутстрэп-выборок

In [31]:
# Генерируем выборку из распределения N(bootstrap_mean, sigma)
bootstrap_samples = np.random.choice(sample,size=[number_of_bootstrap_samples,size_of_bootstrap_samples]) 

In [32]:
# Считаем среднее для каждой выборки 
bootstrap_estimates = np.apply_along_axis(np.mean, 1, bootstrap_samples)

In [33]:
# Вычисляем непараметрический бутстрэп доверительный интервал
CI_Bootstrap_Nonparametric = [np.quantile(bootstrap_estimates,alpha/2), np.quantile(bootstrap_estimates,1-alpha/2)]

In [34]:
print("Доверительный интервал на основе (непарметрического) бустрэпа равен", CI_Bootstrap_Nonparametric)

Доверительный интервал на основе (непарметрического) бустрэпа равен [13.283569103665679, 13.95791344100266]


### Как сравнить полученные доверительные интервалы? 

Можно попробовать сравнить длину полученных доверительных интервалов. 
Будет ли длина хорошей оценкой качества интервалов?

In [35]:
print("Длина теоретического доверительного интервала: ", CI_Theoretical[1]-CI_Theoretical[0])
print("Длина доверительного интервала на основе парметрического бустрэпа: ", CI_Bootstrap_Parametric[1]-CI_Bootstrap_Parametric[0])
print("Длина доверительного интервала на основе непарметрического бустрэпа: ", CI_Bootstrap_Nonparametric[1]-CI_Bootstrap_Nonparametric[0])

Длина теоретического доверительного интервала:  0.6183733993189975
Длина доверительного интервала на основе парметрического бустрэпа:  0.9834825238898492
Длина доверительного интервала на основе непарметрического бустрэпа:  0.6743443373369811


Проверим, с какой частотой истинное значение параметра попадает в данные доверительные интервалы

In [36]:
N_samples = 10000 # количество "экспериентов" по вычислению доверительных интервалов

theoretical = np.zeros(N_samples) # здесь будем хранить результаты для теоретического доверительного интервала
parametric_bootstrap = np.zeros(N_samples) # здесь будем хранить результаты для параметрического бутстрэпа 
nonparametric_bootstrap = np.zeros(N_samples) # здесь будем хранить результаты для непараметрического бутстрэпа 

In [37]:
# Вычисляем теоретический доверительный интервал

def Theoretical(sample,alpha):
    n = len(sample)
    mean = np.mean(sample)
    return [mean - stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(n), mean + stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(n)]

In [38]:
# Вычисляем доверительный интервал на основе параметрического бутстрэпа

def Parametric_bootstrap(sample,alpha,number_of_bootstrap_samples,size_of_bootstrap_samples):
    n = len(sample)
    mean = np.mean(sample)
    bootstrap_samples = np.random.normal(mean,sigma,size=[number_of_bootstrap_samples,size_of_bootstrap_samples]) 
    bootstrap_estimates = np.apply_along_axis(np.mean, 1, bootstrap_samples)
    return [np.quantile(bootstrap_estimates,alpha/2), np.quantile(bootstrap_estimates,1-alpha/2)]

In [39]:
# Вычисляем доверительный интервал на основе непараметрического бутстрэпа

def Nonparametric_bootstrap(sample,alpha,number_of_bootstrap_samples,size_of_bootstrap_samples):
    bootstrap_samples = np.random.choice(sample,size=[number_of_bootstrap_samples,size_of_bootstrap_samples]) 
    bootstrap_estimates = np.apply_along_axis(np.mean, 1, bootstrap_samples)
    return [np.quantile(bootstrap_estimates,alpha/2), np.quantile(bootstrap_estimates,1-alpha/2)]

In [54]:
# для расчета среднего интервала:
theoretical_delta = 0 
parametric_bootstrap_delta = 0
nonparametric_bootstrap_delta = 0
# Проведем N_samples экспериментов
for i in range(N_samples):
    sample = np.random.normal(theta, sigma, size=n)
    # теоретические интервалы
    CI_Theoretical = Theoretical(sample,alpha)
    theoretical[i] = (theta >= CI_Theoretical[0]) and (theta <= CI_Theoretical[1])
    theoretical_delta += CI_Theoretical[1] - CI_Theoretical[0]
    
    CI_parametric_bootstrap = Parametric_bootstrap(sample,alpha,number_of_bootstrap_samples,size_of_bootstrap_samples)
    parametric_bootstrap[i] = (theta >= CI_parametric_bootstrap[0]) and (theta <= CI_parametric_bootstrap[1])
    parametric_bootstrap_delta += CI_parametric_bootstrap[1] - CI_parametric_bootstrap[0]
    
    CI_nonparametric_bootstrap = Nonparametric_bootstrap(sample,alpha,number_of_bootstrap_samples,size_of_bootstrap_samples)
    nonparametric_bootstrap[i] = (theta >= CI_nonparametric_bootstrap[0]) and (theta <= CI_nonparametric_bootstrap[1])
    nonparametric_bootstrap_delta += (CI_nonparametric_bootstrap[1] - CI_nonparametric_bootstrap[0])
# оценка интеревалов
mean_theoretical_delta = theoretical_delta / N_samples
mean_parametric_bootstrap_delta = parametric_bootstrap_delta / N_samples
mean_nonparametric_bootstrap_delta = nonparametric_bootstrap_delta / N_samples

In [55]:
print("Частота попадания истинного параметра в доверительный интервал:")
print("- для теоретического доверительного интервала ", np.mean(theoretical))
print("- для параметрического бутстрэп доверительного интервала ", np.mean(parametric_bootstrap))
print("- для непараметрического бутстрэп доверительного интервала ", np.mean(nonparametric_bootstrap))
print("Cредняя длина доверительных интервалов:")
print("- для теоретического доверительного интервала ", mean_theoretical_delta)
print("- для параметрического бутстрэп доверительного интервала ", mean_parametric_bootstrap_delta)
print("- для непараметрического бутстрэп доверительного интервала ", mean_nonparametric_bootstrap_delta)

Частота попадания истинного параметра в доверительный интервал:
- для теоретического доверительного интервала  0.9448
- для параметрического бутстрэп доверительного интервала  0.9141
- для непараметрического бутстрэп доверительного интервала  0.9095
Cредняя длина доверительных интервалов:
- для теоретического доверительного интервала  0.6183733993190701
- для параметрического бутстрэп доверительного интервала  0.7038358285857201
- для непараметрического бутстрэп доверительного интервала  0.6951249877783993
