In [1]:
import scipy.stats as sts
import numpy as np

#### ***8.3. Понятие интервального оценивания параметров***

Оценка неизвестного параметра называется ***интервальной***, если она определяется двумя числами - концами интервала.

Задачу интервального оценивания можно сформулировать так: по данным выборки построить числовой интервал ($\tilde \theta_1, \tilde \theta_2$), относительно которого с заранее выбранной вероятностью $\gamma$ можно сказать, что внутри этого интервала находится точное значение оцениваемого параметра.
Интервал ($\tilde \theta_1, \tilde \theta_2$), накрывающий с вероятностью $\gamma$ истинное значение параметра $\theta$, называется ***доверительным интервалом***, а вероятность $\gamma$ - ***надежностью оценки*** или ***доверительной вероятностью.***

Доверительный интервал, ***симметричный относительно несмещенной точечной оценки*** $\tilde \theta$
$$ \notag
P\{\theta \in (\tilde \theta - \varepsilon, \tilde \theta + \varepsilon)\} =
    P\{|\theta - \tilde \theta| <\varepsilon \}=\gamma,
$$
где $\varepsilon>0$ - точность оценки.


##### ***8.4 Доверительные интервалы для параметров нормального распределения***

##### Доверительный интервал для математического ожидания при известной дисперсии

Пусть СВ $ \sim N(a, \sigma^2); \; \sigma\;-$ известна, доверительная вероятность (надежность) $\gamma - $ задана.

Пусть $x_1, x_2, ..., x_n$ - выборка, полученная в результате проведения $n$ независимых наблюдений за СВ $X$. Чтобы подчеркнуть случайных характер величин $x_1, x_2, ..., x_n$, перепишем их в виде $X_1, X_2, ..., X_n$, т.е. под $X_i$ будем понимать значение СВ $X$ в $i$-ом опыте. Случайные величины $X_1, X_2, ..., X_n - $  независимы, закон распределения совпадает с законом распределения СВ $X$ (т.е. $X_i \sim N(a, \sigma^2)$). А это значит, что $MX_1=MX_2=...=MX_n=MX=a, \; DX_1=DX_2=...=DX_n=DX.$

Выборочное среднее $\overline{X_в}=\overline{X}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i$ также будем распределено по нормлаьному закону. Параметры распределения $\overline{X}$ таковы:
$$\notag M\overline X = M\bigg(\frac{1}{n} \sum\limits_{i=1}^{n}X_i\bigg)=
    \frac{1}{n} M\bigg(\sum\limits_{i=1}^{n}X_i\bigg)=
     \frac{1}{n} \sum\limits_{i=1}^{n}MX_i=\frac{1}{n} \cdot n \cdot a = a$$
     
$$\notag D\overline X = D\bigg(\frac{1}{n} \sum\limits_{i=1}^{n}X_i\bigg)=
    \frac{1}{n^2} D\bigg(\sum\limits_{i=1}^{n}X_i\bigg)=
     \frac{1}{n^2} \sum\limits_{i=1}^{n}DX_i=\frac{1}{n^2} \cdot n \cdot DX = 
     \frac{\sigma^2}{n}$$
     
Таким образом, $\overline{X} \sim N(a, \frac{\sigma^2}{n}).$

$
X \sim N(a, \sigma), \{X_i\}_{i=1}^n: \; \forall i=\overline{1, n}\; X_i \sim N(a, \sigma), 
   \; \overline{X} = \frac{1}{n}\sum\limits_{i=1}^{n}X_i \Rightarrow
$
<ul>
    <li>$MX_i=MX=a, \; DX_i=DX=\sigma^2$
    </li>
    <li>
    $M\overline X = M\bigg(\frac{1}{n}\sum\limits_{i=1}^{n}X_i\bigg)=a, \;
    D\overline X = D\bigg(\frac{1}{n}\sum\limits_{i=1}^{n}X_i\bigg)=
        \frac{\sigma_X^2}{n} \Rightarrow \sigma_{\overline X} = 
    \frac{\sigma_X}{\sqrt n}$
    </li>    
    <li>$\overline X \sim N\big(a, \frac{\sigma}{\sqrt n}\big)$
    </li>
</ul>

$$\gamma = P(|\overline X - a|<\varepsilon) = 
    2\Phi_0\big(\frac{\varepsilon}{\sigma_{\overline x}}\big)=
    P\big(|\overline x -a|<\frac{t\cdot\sigma_{x}}{\sqrt n}\big) =
   2\Phi_0(t)$$   
 где $t = \frac{\varepsilon \sqrt{n}}{\sigma_x}, \; 
    t=\Phi_0^{-1}\big(\frac{\gamma}{2}\big)=\Phi^{-1}\big(\frac{\gamma+1}{2}\big)$
    
$$P\bigg(\overline X - \frac{t\cdot\sigma_{x}}{\sqrt n} \leq a \leq
    \overline X + \frac{t\cdot\sigma_{x}}{\sqrt n}  \bigg) = \gamma, \notag$$
где  доверительный интервал для $a = MX$ есть 
$\bigg(\overline X - \frac{t\cdot\sigma_{x}}{\sqrt n}, 
       \overline X + \frac{t\cdot\sigma_{x}}{\sqrt n}\bigg)$

***Пример*** Произведено 5 независимых наблюдений над СВ $X \sim N(a, 20)$. Результаты наблюдений таковы: $x_1=-25,\;x_2=34,\;x_3=-20,\;x_4=10,\;x_5=21$
Найти оценку для $a=MX$ и построить для него 95%-ый доверительный интервал.

In [6]:
import matplotlib.pyplot as plt

In [2]:
X = [-25, 34, -20, 10, 21]
gamma = 0.95
sigma = 20
X_mean = sum(X)/len(X)  # среднее арифметическое
t = round(sts.norm.ppf((gamma+1)/2), 4)  # вычисляем параметр t
epsilon = (t*sigma)/len(X)**0.5
interval = [round(i, 2) for i in [X_mean-epsilon, X_mean+epsilon]]
print(f'Неизвестный параметр a теоретического распределения находится на интервале от {interval[0]} до {interval[1]}')

Неизвестный параметр a теоретического распределения находится на интервале от -13.53 до 21.53


##### Доверительный интервал для математического ожидания при неизвестной дисперсии

Пусть СВ $X \sim N(a, \sigma), \sigma -$ неизвестна, $\gamma -$ задана. Найдем такое число $\epsilon$, чтобы выполнялось соотношения $$P(|\overline X - a|<\varepsilon)=\gamma.$$

Введем случайную величину $$T=\frac{\overline X-a}{\frac{S}{\sqrt n}},$$

где $S$ - исправленное среднее квадратическое отклонение СВ $X$, вычисленное по выборке:
$$S = \sqrt{\frac{1}{n-1}\cdot \sum\limits_{i=1}^{k}(x_i-\overline{x_в})^2}$$

СВ $T$ имеет распределение Стьюдента c $n-1$ степерью свободы. Плотность распределения имеет вид:
$$
f_T(t, n-1)=\frac{Г\big(\frac{n}{2}\big)}{\sqrt{\pi(n-1)Г\big(\frac{n-1}{2}\big)}}
    \cdot \bigg( 1+\frac{t^2}{n-1}\bigg)^{-\frac{n}{2}},
$$

где $Г(p)=\int\limits_0^{\infty}u^{p-1}\cdot e^{-u}du - $ гамма-функция; 
$f_T(t, n-1) -  $ четная функция.

$$P(|T|<t_\gamma)=\int\limits_{-t_\gamma}^{t_\gamma}f_T(t, n-1)dt=
    2\cdot\int\limits_{0}^{t_\gamma}f_T(t, n-1)dt=\gamma$$
    
$$P(|T|<t_\gamma)=\gamma,$$ где $t_\gamma=\frac{\varepsilon\cdot\sqrt{n}}{S}$.

$$\varepsilon = t_\gamma\cdot\frac{S}{\sqrt n}, \\
P\bigg(\overline X - t_\gamma\cdot\frac{S}{\sqrt n} \leq a \leq
    \overline X + t_\gamma\cdot\frac{S}{\sqrt n}  \bigg) = \gamma, \notag$$

***Пример*** Произведено 5 независимых наблюдений над СВ $X \sim N(a, \sigma)$. Результаты наблюдений таковы: $x_1=-25,\;x_2=34,\;x_3=-20,\;x_4=10,\;x_5=21$
Найти оценку для $a=MX$ и построить для него 95%-ый доверительный интервал.

In [7]:
X = np.array([-25, 34, -20, 10, 21])
n = len(X)
gamma = 0.95
X_mean = sum(X)/n   

t_gamma = sts.t(n-1).ppf((gamma+1)/2).round(2)
D = 1/(n-1)*sum([(x-X_mean)**2 for x in X])
X.var(ddof=1) == D                                      # True
S = D**(0.5)

epsilon = t_gamma*S*n**(-0.5)
interval = [round(i, 2) for i in (X_mean-epsilon, X_mean+epsilon)]

print(f'Неизвестный параметр MX=a теоретического распределения находится на интервале от {interval[0]} до {interval[1]}')

Неизвестный параметр MX=a теоретического распределения находится на интервале от -27.95 до 35.95
