# Доверительные интервалы. Нормальное распределение с неизвестным средним и известной дисперсией

**Задача.** Сравнить на выборках размера 50 для $\mathcal{N}(\theta,1)$ доверительные интервалы:
(1) теоретический, (2) на основе параметрического бутстрэпа, (3) на основе непараметрического бутстрэпа. Сам параметр $\theta$ сгенерировать из равномерного распределения на $[-5,5]$. 

In [None]:
import numpy as np # для генерации случайных величин и работы с массивами
import scipy.stats # чтобы считать квантили

In [None]:
np.random.seed(123) # фиксируем seed

In [None]:
# Фиксируем параметры задачи

n = 50 # размер выборки 
alpha = 0.05 # параметр ошибки

theta = np.random.uniform(-5,5) # неизвестное среднее нормального распределения
sigma = 2 # известная дисперсия нормального распределения

In [None]:
# Сгенерируем выборку из нужного распределения
sample = np.random.normal(theta, sigma, size=n)

In [None]:
print("Значение theta равно",theta)

### Теоретический доверительный интервал

Напомним, что теоретический доверительный интервал вычисляется следующим образом: 

$$
\mathbb{P}\left( \bar{X} - \frac{c_{1-\alpha/2}\sigma}{\sqrt{n}} < \mu < \bar{X} + \frac{c_{1-\alpha/2}\sigma}{\sqrt{n}} \right) = 1-\alpha,
$$
где $c_{\alpha}$ — квантиль распределения $\mathcal{N}(0,1)$ уровня $\alpha$.

In [None]:
# Вычисляем теоретический доверительный интервал
CI_Theoretical = [np.mean(sample) - scipy.stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(n), np.mean(sample) + scipy.stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(n)]

In [None]:
print("Теоретический доверительный интервал равен", CI_Theoretical)

### Доверительный интервал на основе (параметрического) бутстрэпа

In [None]:
# Параметры для бутстрэпа
number_of_bootstrap_samples = 20 # количество бутстрэп-выборок
size_of_bootstrap_samples = 10 # размер бутстрэп-выборок

In [None]:
# Оцениваем неизвестный параметр theta 
sample_mean = np.mean(sample) 

In [None]:
# Генерируем выборку из распределения N(sample_mean, sigma)
bootstrap_samples = np.random.normal(sample_mean,sigma,size=[number_of_bootstrap_samples,size_of_bootstrap_samples]) 

In [None]:
# Считаем среднее для каждой выборки 
bootstrap_estimates = np.apply_along_axis(np.mean, 1, bootstrap_samples)

In [None]:
# Вычисляем параметрический бутстрэп доверительный интервал
CI_Bootstrap_Parametric = [np.quantile(bootstrap_estimates,alpha/2), np.quantile(bootstrap_estimates,1-alpha/2)]

In [None]:
print("Доверительный интервал на основе (парметрического) бустрэпа равен", CI_Bootstrap_Parametric)

### Доверительный интервал на основе (непараметрического) бутстрэпа

In [None]:
# Будем использовать те же параметры
number_of_bootstrap_samples = 20 # количество бутстрэп-выборок
size_of_bootstrap_samples = 10 # размер бутстрэп-выборок

In [None]:
# Генерируем выборку из распределения N(bootstrap_mean, sigma)
bootstrap_samples = np.random.choice(sample,size=[number_of_bootstrap_samples,size_of_bootstrap_samples]) 

In [None]:
# Считаем среднее для каждой выборки 
bootstrap_estimates = np.apply_along_axis(np.mean, 1, bootstrap_samples)

In [None]:
# Вычисляем непараметрический бутстрэп доверительный интервал
CI_Bootstrap_Nonparametric = [np.quantile(bootstrap_estimates,alpha/2), np.quantile(bootstrap_estimates,1-alpha/2)]

In [None]:
print("Доверительный интервал на основе (непарметрического) бустрэпа равен", CI_Bootstrap_Nonparametric)

### Как сравнить полученные доверительные интервалы? 

Можно попробовать сравнить длину полученных доверительных интервалов. 
Будет ли длина хорошей оценкой качества интервалов?

In [None]:
print("Длина теоретического доверительного интервала: ", CI_Theoretical[1]-CI_Theoretical[0])
print("Длина доверительного интервала на основе (парметрического) бустрэпа: ", CI_Bootstrap_Parametric[1]-CI_Bootstrap_Parametric[0])
print("Длина доверительного интервала на основе (непарметрического) бустрэпа: ", CI_Bootstrap_Nonparametric[1]-CI_Bootstrap_Nonparametric[0])

Проверим, с какой частотой истинное значение параметра попадает в данные доверительные интервалы

In [None]:
N_samples = 10000 # количество "экспериентов" по вычислению доверительных интервалов

theoretical = np.zeros(N_samples) # здесь будем хранить результаты для теоретического доверительного интервала
bootstrap_parametric = np.zeros(N_samples) # здесь будем хранить результаты для параметрического бутстрэпа 
bootstrap_nonparametric = np.zeros(N_samples) # здесь будем хранить результаты для непараметрического бутстрэпа 

In [None]:
def check_theoretical(sample, theta):
    CI_Theoretical = [np.mean(sample) - scipy.stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(np.size(sample)), np.mean(sample) + scipy.stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(np.size(sample))]
    return (theta >= CI_Theoretical[0]) and (theta <= CI_Theoretical[1])

In [None]:
def check_bootstrap_parametric(sample, theta):
    bootstrap_samples = np.random.normal(np.mean(sample),sigma,size=[number_of_bootstrap_samples,size_of_bootstrap_samples]) 
    bootstrap_estimates = np.apply_along_axis(np.mean, 1, bootstrap_samples)
    CI_Bootstrap_Parametric = [np.quantile(bootstrap_estimates,alpha/2), np.quantile(bootstrap_estimates,1-alpha/2)]
    return (theta >= CI_Bootstrap_Parametric[0]) and (theta <= CI_Bootstrap_Parametric[1])

In [None]:
def check_bootstrap_nonparametric(sample, theta):
    bootstrap_samples = np.random.choice(sample,size=[number_of_bootstrap_samples,size_of_bootstrap_samples]) 
    bootstrap_estimates = np.apply_along_axis(np.mean, 1, bootstrap_samples)
    CI_Bootstrap_Nonparametric = [np.quantile(bootstrap_estimates,alpha/2), np.quantile(bootstrap_estimates,1-alpha/2)]
    return (theta >= CI_Bootstrap_Nonparametric[0]) and (theta <= CI_Bootstrap_Nonparametric[1])

In [None]:
# Проведем N_samples экспериментов
for i in range(N_samples):
    sample = np.random.normal(theta, sigma, size=n)
    theoretical[i] = check_theoretical(sample, theta)
    bootstrap_parametric[i] = check_bootstrap_parametric(sample, theta)
    bootstrap_nonparametric[i] = check_bootstrap_nonparametric(sample, theta)

In [None]:
print("Частота попадания истинного параметра в доверительный интервал:")
print("- для теоретического доверительного интервала ", np.mean(theoretical))
print("- для параметрического бутстрэп доверительного интервала ", np.mean(bootstrap_parametric))
print("- для непараметрического бутстрэп доверительного интервала ", np.mean(bootstrap_nonparametric))