# Практика 2.7. Доверительные интервалы.
$\newcommand{\estSe}{\hat{\se}}$
$\newcommand{\ecdf}{\hat{F}}$
$\newcommand{\boldx}{\boldsymbol{x}}$
$\newcommand{\lp}{\left(}$
$\newcommand{\rp}{\right)}$
$\newcommand{\lf}{\left\{}$
$\newcommand{\rf}{\right\}}$
$\newcommand{\Normal}{\mathcal{N}}$
$\newcommand{\esttheta}{\hat{\theta}}$
$\newcommand{\angmean}[1]{\left\langle #1 \right\rangle}$
$\newcommand{\boldX}{\boldsymbol{X}}$
$\newcommand{\se}{\mathrm{se}}$
$\newcommand{\Var}{\mathbb{V}}$
$\newcommand{\Exp}{\mathbb{E}}$

In [29]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from scipy.stats import norm

1. Пусть $X_1, ..., X_n$ - выборка из распределения Бернулли с параметром $p$. $\hat p = \overline{X}$ - оценка параметра $p$. Постройте 95% доверительные интервалы для оценки p:
    * используя неравенство Чебышёва.
    * асимптотически нормальный доверительный интервал.

Решение: $\Exp \hat p = p$ (честно посчитаем мат. ожидание). Неравенство Чебышёва:
$$
P(\left|\hat p - \Exp \hat p\right| \ge \varepsilon) = P(\left|\hat p - p\right| \ge \varepsilon) \le \frac{\Var \hat p}{\varepsilon^2} = \alpha
$$
$\alpha = 0.05$ - вероятность того, что истинное значение не попадёт в д.и. Таким образом:
$$
\frac{\sqrt{\Var \hat p}}{\sqrt{\alpha}} = \frac{\se \left(\hat p\right)}{\sqrt{\alpha}} = \varepsilon
$$
Посчитаем дисперсию $\hat p$: $\Var \hat p = \frac{p(1 - p)}{n}$. Поскольку значение $p$ - неизвестно, лучшее, что можно сделать - подставить вместо $p$ его оценку:
$$
\hat{\Var} \hat p = \frac{\hat p(1 - \hat p)}{n}
$$
И получить, что $$\hat \varepsilon = \frac{\sqrt{\frac{\hat p(1 - \hat p)}{n}}}{\sqrt{\alpha}}$$
Подставив это в неравенство Чебышёва, получим:
$$
P(\left|\hat p - p\right| \ge \frac{\sqrt{\frac{\hat p(1 - \hat p)}{n}}}{\sqrt{\alpha}}) \le \alpha$$$$
P(\left|\hat p - p\right| < \frac{\sqrt{\frac{\hat p(1 - \hat p)}{n}}}{\sqrt{\alpha}}) \ge 1 - \alpha
$$
Тогда доверительный интервал выглядит так:
$$ \left|\hat p - p\right| < \frac{\sqrt{\frac{\hat p(1 - \hat p)}{n}}}{\sqrt{\alpha}}$$
$$ - \frac{\sqrt{\frac{\hat p(1 - \hat p)}{n}}}{\sqrt{\alpha}} < \hat p - p < \frac{\sqrt{\frac{\hat p(1 - \hat p)}{n}}}{\sqrt{\alpha}}$$
$$ \hat p - \frac{\sqrt{\frac{\hat p(1 - \hat p)}{n}}}{\sqrt{\alpha}} < p < \hat p + \frac{\sqrt{\frac{\hat p(1 - \hat p)}{n}}}{\sqrt{\alpha}}$$
Обратите внимание, д.и. строится именно для $p$, а не для $\hat p$ - мы пытаемся узнать, где находится настоящее значение, а не в какую точку попадёт её оценка по выборке.

Теперь построим асимптотически нормальный доверительный интервал. Рассмотрим следующее выражение:
$$ \frac{\hat p - p}{\se \left(\hat p\right)}$$
Можно показать, что при $n \to +\infty$ эта величина сходится к стандартному нормальному распределению:
$$ \frac{\hat p - p}{\se \left(\hat p\right)} \sim N(0, 1)$$
Для удобства введём $\xi \sim N(0, 1)$. Тогда $\forall x$:
$$P\left(\frac{\hat p - p}{\se \left(\hat p\right)} \le x\right) \approx 
P\left(\xi \le x\right) = \Phi(x)
$$
$$ \Phi(x) = \int\limits_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx$$
А теперь построим доверительный интервал:
$$ P\left(\left|\frac{\hat p - p}{\se \left(\hat p\right)}\right| \le x\right) \approx 
P\left(\left|\xi\right| \le x\right) = \Phi(x) - \Phi(-x) = 1 - \alpha$$
Т.е. значение лежит в промежутке от $-x$ до $x$ с вероятностью $1 - \alpha$.
Этот $x$ находится так:
$$ x = \Phi^{-1} \left(\frac{1 - \alpha}{2}\right)$$
Теперь можно записать доверительный интервал:
$$\left|\frac{\hat p - p}{\se \left(\hat p\right)}\right| \le \Phi^{-1} \left(\frac{1 - \alpha}{2}\right)$$
Проделав преобразования, подобно предыдущему пункту задачи, получим:
$$\hat p - \se \left(\hat p\right) \cdot \Phi^{-1} \left(\frac{1 - \alpha}{2}\right) \le p \le
\hat p + \se \left(\hat p\right) \cdot \Phi^{-1} \left(\frac{1 - \alpha}{2}\right) 
$$
Поскольку $\se \left(\hat p\right)$ зависит от неизвестного $p$, вместо $\se$ подставим $\estSe$:
$$\hat p - \sqrt{\frac{\hat p(1 - \hat p)}{n}} \cdot \Phi^{-1} \left(\frac{1 - \alpha}{2}\right) \le p \le
\hat p + \sqrt{\frac{\hat p(1 - \hat p)}{n}} \cdot \Phi^{-1} \left(\frac{1 - \alpha}{2}\right) 
$$
Это и есть асимптотически нормальный доверительный интервал.

2. Дана выборка из экспоненциального распределения с параметром $\lambda$ (Функция распределения: $F(x) = 1 - e^{-\lambda x}$ при $x > 0$, иначе $0$). Постройте $(1-\alpha)$ доверительный интервал для лямбда с помощью оценки $\hat \lambda = \frac{1}{\overline{X}}$. Используйте 3 подхода на основе бутстрепа. В ответе запишите границы. Попадает ли истинное значение в доверительные интервалы? Исходные данные:

In [41]:
alpha = 0.05
print(f'𝛼 = {alpha}')
lambda_param = 0.1
n = 10
B = 5
seed = 0
rnd = np.random.RandomState(seed)
sample = np.around(rnd.exponential(1 / lambda_param, n))
bootstrap_sample = rnd.choice(sample, (B, n), replace=True)
print(f'Выборка: {sample}')
print(f'Бутстрепные выборки:\n{bootstrap_sample}')

𝛼 = 0.05
Выборка: [ 8. 13.  9.  8.  6. 10.  6. 22. 33.  5.]
Бутстрепные выборки:
[[ 6. 22. 22. 33. 13. 10.  5. 33.  5.  6.]
 [ 8.  8.  8. 10.  8.  9.  8. 33. 13.  8.]
 [ 8.  8. 22.  8. 13.  5.  5.  8.  6. 22.]
 [ 8.  9. 22.  9.  8.  8.  6. 10. 10.  6.]
 [33.  6. 13.  6.  5. 33. 13. 13. 22.  5.]]


Решение: Бутстреп - приём, позволяющий оценить что-нибудь по выборке, не прибегая к сложным рассчётам. В данном случае бутстреп позволит не считать интегралы, чтобы оценить математическое ожидание и дисперсию $\hat \lambda$. 

Суть метода в следующем: настоящая функция распределения аппроксимируется эмпирической. Много раз производится выборка из эмпирической функции распределения, по каждой такой выборке (их называют бутстрепными) можно оценить то, что просят. Получится массив значений, с помощью которого можно оценить разброс значений и построить д.и.

Ещё раз то же самое в виде алгоритма:
- Посчитать значение функционала $\hat T$ от исходной выборки.
- Сгенерировать по выборке бутстрепные выборки.
- По каждой бутстрепной выборке посчитать $T_i$.
- Построить доверительный интервал, пользуясь одной из формул.

Подход первый - асимптотически нормальный д.и. Предположим, что оценка $\hat \lambda$ - асимптотически нормальная. Как и в первом задании, требуется оценить стандартное отклонение $\hat \lambda$. Вместо того, чтобы считать интегралы, сгенерируем бутстрепные выборки и получим значения: $\hat \lambda_1, \hat \lambda_2, ...$. Теперь стандартное отклонение $\hat \lambda$ оценим по формуле:
$$ \estSe \left(\hat \lambda\right) = \frac{1}{n} \sum\limits_{i=1}^{n} T_i$$
Для данного нам $\alpha$: $\Phi^{-1} \left(\frac{1 - \alpha}{2}\right) \approx 2$. Поэтому асимптотически нормальный доверительный интервал выглядит так:
$$\frac{1}{\overline{X}} - 2 \estSe \left(\hat \lambda\right) \le \lambda \le \frac{1}{\overline{X}} + 2 \estSe \left(\hat \lambda\right) $$

Второй подход - центральный доверительный интервал. По каждой бутстрепной выборке посчитаем оценки, получим из них массив. Из него выберем верхнюю и нижнюю $\frac{\alpha}{2}$ квантили, и запишем ответ по формуле:
$$2 \hat T - \hat F_{T*}^{-1}\left(1 - \frac{\alpha}{2}\right) \le \lambda \le 2 \hat T + \hat F_{T*}^{-1}\left(\frac{\alpha}{2}\right) $$

Здесь $\hat F_{T*}^{-1}\left(1 - \frac{\alpha}{2}\right)$ и $\hat F_{T*}^{-1}\left(\frac{\alpha}{2}\right)$ - квантили бутстрепных оценок.

Третий подход: квантильный доверительный интервал. Отличается от предыдущего формулой,
и тем, что оценку по исходной выборке считать не надо. Вот формула, где для квантилей
обозначения те же:
$$
\hat F_{T*}^{-1}\left(\frac{\alpha}{2} \right) \le \lambda \le 
                   \hat F_{T*}^{-1}\left(1 - \frac{\alpha}{2}\right)$$

Обратите внимание, что квантили поменялись местами.

Зачем 3 подхода? Если все 3 дали примерно одинаковый результат, значит всё хорошо. Если нет, то или данных мало, или ошибка где-то, или не повезло (seed плохой). Кроме того, может оказаться так, что оценка вовсе не асимптотически нормальная, тогда первый подход выдаст неизвестно что.

Решение в виде кода:

In [None]:
bootstrap_est_sample = np.power(np.mean(bootstrap_sample, axis=1), -1)  # бутстрепные оценки lambda

est_func = 1 / np.mean(sample)
estse_boot = bootstrap_est_sample.std()  # стандартное отклонение оценки
# асимптотически нормальный доверительный интервал
z_alpha = norm.ppf(
    1 - alpha / 2, loc=0.0, scale=1.0)  # 𝛼-квантиль нормального распределения
left_bound = est_func - z_alpha * estse_boot
right_bound = est_func + z_alpha * estse_boot
print(f'асимптотически нормальный интервал '
      f'для α = {alpha}: ({left_bound}; {right_bound})')

higher_quantile, lower_quantile = np.percentile(
        bootstrap_est_sample, np.array([alpha / 2, 1 - alpha / 2]) * 100)  # квантили оценки

left_bound = 2 * est_func - lower_quantile
right_bound = 2 * est_func - higher_quantile
print(f'центральный доверительный интервал для α = {alpha}: ({left_bound}; {right_bound})')

left_bound = higher_quantile
right_bound = lower_quantile
print(f'квантильный доверительный интервал для α = {alpha}: ({left_bound}; {right_bound})')