<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Доверительные-интервалы.-Нормальное-распределение-с-неизвестным-средним-и-известной-дисперсией" data-toc-modified-id="Доверительные-интервалы.-Нормальное-распределение-с-неизвестным-средним-и-известной-дисперсией-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Доверительные интервалы. Нормальное распределение с неизвестным средним и известной дисперсией</a></span><ul class="toc-item"><li><ul class="toc-item"><li><span><a href="#Теоретический-доверительный-интервал" data-toc-modified-id="Теоретический-доверительный-интервал-1.0.1"><span class="toc-item-num">1.0.1&nbsp;&nbsp;</span>Теоретический доверительный интервал</a></span></li><li><span><a href="#Доверительный-интервал-на-основе-параметрического-бутстрэпа" data-toc-modified-id="Доверительный-интервал-на-основе-параметрического-бутстрэпа-1.0.2"><span class="toc-item-num">1.0.2&nbsp;&nbsp;</span>Доверительный интервал на основе параметрического бутстрэпа</a></span></li><li><span><a href="#Доверительный-интервал-на-основе-непараметрического-бутстрэпа" data-toc-modified-id="Доверительный-интервал-на-основе-непараметрического-бутстрэпа-1.0.3"><span class="toc-item-num">1.0.3&nbsp;&nbsp;</span>Доверительный интервал на основе непараметрического бутстрэпа</a></span></li><li><span><a href="#Как-сравнить-полученные-доверительные-интервалы?" data-toc-modified-id="Как-сравнить-полученные-доверительные-интервалы?-1.0.4"><span class="toc-item-num">1.0.4&nbsp;&nbsp;</span>Как сравнить полученные доверительные интервалы?</a></span></li></ul></li></ul></li></ul></div>

# Доверительные интервалы. Нормальное распределение с неизвестным средним и известной дисперсией

**Задача.** Сравнить на выборках размера 50 для $\mathcal{N}(\theta,4)$ доверительные интервалы:
(1) теоретический, (2) на основе параметрического бутстрэпа, (3) на основе непараметрического бутстрэпа. Сам параметр $\theta$ сгенерировать из равномерного распределения на $[-5,5]$. 

In [1]:
import numpy as np # для генерации случайных величин и работы с массивами
from scipy import stats # чтобы считать квантили

In [2]:
np.random.seed(123) # фиксируем seed

In [3]:
# Фиксируем параметры задачи

n = 50 # размер выборки 
alpha = 0.05 # параметр ошибки

theta = np.random.uniform(-5,5) # неизвестное среднее нормального распределения
sigma = 2 # известная sigma нормального распределения

In [4]:
print("Значение theta равно",theta)

Значение theta равно 1.9646918559786162


In [5]:
# Сгенерируем выборку из нужного распределения
sample = np.random.normal(theta, sigma, size=n)

sample

array([ 6.04974423e-02,  4.73809737e-01,  5.44143212e+00,  2.77760005e+00,
        2.60890399e+00,  1.86165641e+00,  1.55628993e+00,  5.92338872e+00,
       -1.27390827e+00, -2.63236978e-01,  1.06981042e+00,  5.30149508e+00,
        1.67794691e+00,  7.26310055e-01,  4.25824913e-01,  3.11818390e+00,
        2.21774370e+00, -6.38286093e-01,  6.37954673e+00,  3.01017679e+00,
        2.89598137e+00,  3.41452231e+00,  4.95634491e+00,  3.45785304e+00,
       -2.37278654e-01, -8.55910552e-01,  4.69389222e-01, -5.04335563e-03,
        4.67554494e-01,  2.44542641e+00, -1.74658308e+00, -1.59421775e+00,
       -3.53575667e+00,  1.49637675e+00,  5.72729504e-01, -1.58357626e+00,
        6.68789438e+00,  2.03467802e+00,  1.27540848e+00,  5.14627272e-01,
        4.04390420e+00,  1.48123577e+00,  1.73888114e+00, -1.35669971e+00,
        1.99176895e+00,  2.63944010e+00,  1.11445903e-01,  2.51618667e+00,
        2.70639651e+00,  4.31330615e+00])

### Теоретический доверительный интервал

Напомним, что теоретический доверительный интервал вычисляется следующим образом: 

$$
\mathbb{P}\left( \bar{X} - \frac{c_{1-\alpha/2}\sigma}{\sqrt{n}} < \mu < \bar{X} + \frac{c_{1-\alpha/2}\sigma}{\sqrt{n}} \right) = 1-\alpha,
$$
где $c_{\alpha}$ — квантиль распределения $\mathcal{N}(0,1)$ уровня $\alpha$.

In [6]:
x_q = stats.norm.ppf(q=0.975)
x_q

1.959963984540054

In [7]:
stats.norm.ppf(q=0.025)

-1.9599639845400545

In [8]:
stats.norm.ppf(q=1/2)

0.0

In [9]:
# Вычисляем теоретический доверительный интервал

CI_Theoretical = [
    np.mean(sample) - stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(n), 
    np.mean(sample) + stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(n)]

print("Теоретический доверительный интервал равен", CI_Theoretical)

Теоретический доверительный интервал равен [1.1210678915076362, 2.2297909509873786]


In [10]:
# Вычисляем теоретический доверительный интервал

n=10000
CI_Theoretical = [
    np.mean(sample) - stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(n), 
    np.mean(sample) + stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(n)]

print("Теоретический доверительный интервал равен", CI_Theoretical)

Теоретический доверительный интервал равен [1.6362301415567062, 1.7146287009383085]


In [11]:
alpha=0.30
# Вычисляем теоретический доверительный интервал

CI_Theoretical = [
    np.mean(sample) - stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(n), 
    np.mean(sample) + stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(n)]

print("Теоретический доверительный интервал равен", CI_Theoretical)

Теоретический доверительный интервал равен [1.6547007534576317, 1.696158089037383]


In [12]:
print("Значение theta равно",theta)

Значение theta равно 1.9646918559786162


### Доверительный интервал на основе параметрического бутстрэпа

In [13]:
# Параметры для бутстрэпа
number_of_bootstrap_samples = 10 # количество бутстрэп-выборок
size_of_bootstrap_samples = 20 # размер бутстрэп-выборок

In [14]:
# Оцениваем неизвестный параметр theta 
mean = np.mean(sample) 

In [15]:
# Генерируем выборку из распределения N(sample_mean, sigma)
bootstrap_samples = np.random.normal(mean,sigma,
                                     size=[number_of_bootstrap_samples,
                                           size_of_bootstrap_samples]) 

In [16]:
# Считаем среднее для каждой выборки 
bootstrap_estimates = np.apply_along_axis(np.mean, 1, bootstrap_samples)

In [17]:
# Вычисляем параметрический бутстрэп доверительный интервал
CI_Bootstrap_Parametric = [
    np.quantile(bootstrap_estimates,alpha/2), 
    np.quantile(bootstrap_estimates,1-alpha/2)]

In [18]:
print("Доверительный интервал на основе парметрического бустрэпа равен", CI_Bootstrap_Parametric)

Доверительный интервал на основе парметрического бустрэпа равен [1.25758817433375, 1.9082231003559107]


### Доверительный интервал на основе непараметрического бутстрэпа

In [19]:
# Будем использовать те же параметры
number_of_bootstrap_samples = 10 # количество бутстрэп-выборок
size_of_bootstrap_samples = 20 # размер бутстрэп-выборок

In [20]:
# Генерируем выборку из распределения N(bootstrap_mean, sigma)
bootstrap_samples = np.random.choice(sample,
                        size=[number_of_bootstrap_samples,size_of_bootstrap_samples]) 

In [21]:
# Считаем среднее для каждой выборки 
bootstrap_estimates = np.apply_along_axis(np.mean, 1, bootstrap_samples)

In [22]:
# Вычисляем непараметрический бутстрэп доверительный интервал
CI_Bootstrap_Nonparametric = [
    np.quantile(bootstrap_estimates,alpha/2), 
    np.quantile(bootstrap_estimates,1-alpha/2)]

In [23]:
print("Доверительный интервал на основе (непарметрического) бустрэпа равен", CI_Bootstrap_Nonparametric)

Доверительный интервал на основе (непарметрического) бустрэпа равен [1.2140624664220405, 2.5162606355397874]


### Как сравнить полученные доверительные интервалы? 

Можно попробовать сравнить длину полученных доверительных интервалов. 
Будет ли длина хорошей оценкой качества интервалов?

In [24]:
print("Длина теоретического доверительного интервала: ", CI_Theoretical[1]-CI_Theoretical[0])
print("Длина доверительного интервала на основе парметрического бустрэпа: ", CI_Bootstrap_Parametric[1]-CI_Bootstrap_Parametric[0])
print("Длина доверительного интервала на основе непарметрического бустрэпа: ", CI_Bootstrap_Nonparametric[1]-CI_Bootstrap_Nonparametric[0])

Длина теоретического доверительного интервала:  0.0414573355797514
Длина доверительного интервала на основе парметрического бустрэпа:  0.6506349260221607
Длина доверительного интервала на основе непарметрического бустрэпа:  1.3021981691177469


Проверим, с какой частотой истинное значение параметра попадает в данные доверительные интервалы

In [25]:
N_samples = 10000 # количество "экспериентов" по вычислению доверительных интервалов

theoretical = np.zeros(N_samples) # здесь будем хранить результаты для теоретического доверительного интервала
parametric_bootstrap = np.zeros(N_samples) # здесь будем хранить результаты для параметрического бутстрэпа 
nonparametric_bootstrap = np.zeros(N_samples) # здесь будем хранить результаты для непараметрического бутстрэпа 

In [26]:
# Вычисляем теоретический доверительный интервал

def Theoretical(sample,alpha):
    n = len(sample)
    mean = np.mean(sample)
    return [
        mean - stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(n), 
        mean + stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(n)]

In [27]:
# Вычисляем доверительный интервал на основе параметрического бутстрэпа

def Parametric_bootstrap(sample,alpha,
                         number_of_bootstrap_samples,size_of_bootstrap_samples):
    n = len(sample)
    mean = np.mean(sample)
    bootstrap_samples = np.random.normal(mean,sigma,
            size=[number_of_bootstrap_samples,size_of_bootstrap_samples]) 
    bootstrap_estimates = np.apply_along_axis(np.mean, 1, bootstrap_samples)
    return [
        np.quantile(bootstrap_estimates,alpha/2), 
        np.quantile(bootstrap_estimates,1-alpha/2)]

In [28]:
# Вычисляем доверительный интервал на основе непараметрического бутстрэпа

def Nonparametric_bootstrap(sample,alpha,number_of_bootstrap_samples,size_of_bootstrap_samples):
    bootstrap_samples = np.random.choice(sample,size=[number_of_bootstrap_samples,size_of_bootstrap_samples]) 
    bootstrap_estimates = np.apply_along_axis(np.mean, 1, bootstrap_samples)
    return [np.quantile(bootstrap_estimates,alpha/2), np.quantile(bootstrap_estimates,1-alpha/2)]

In [29]:
# Проведем N_samples экспериментов
for i in range(N_samples):
    sample = np.random.normal(theta, sigma, size=n)
    # теоретические интервалы
    CI_Theoretical = Theoretical(sample,alpha)
    theoretical[i] = (theta >= CI_Theoretical[0]) and (theta <= CI_Theoretical[1])
    
    CI_parametric_bootstrap = Parametric_bootstrap(sample,alpha,number_of_bootstrap_samples,size_of_bootstrap_samples)
    parametric_bootstrap[i] = (theta >= CI_parametric_bootstrap[0]) and (theta <= CI_parametric_bootstrap[1])
    
    CI_nonparametric_bootstrap = Nonparametric_bootstrap(sample,alpha,number_of_bootstrap_samples,size_of_bootstrap_samples)
    nonparametric_bootstrap[i] = (theta >= CI_nonparametric_bootstrap[0]) and (theta <= CI_nonparametric_bootstrap[1])

In [30]:
print("Частота попадания истинного параметра в доверительный интервал:")
print("- для теоретического доверительного интервала ", np.mean(theoretical))
print("- для параметрического бутстрэп доверительного интервала ", np.mean(parametric_bootstrap))
print("- для непараметрического бутстрэп доверительного интервала ", np.mean(nonparametric_bootstrap))

Частота попадания истинного параметра в доверительный интервал:
- для теоретического доверительного интервала  0.6959
- для параметрического бутстрэп доверительного интервала  0.9674
- для непараметрического бутстрэп доверительного интервала  0.9657
