# <font color = Crimson size = 6> <b>Интервальные оценки параметров распределения</b> </font>

In [1]:
import numpy as np

from scipy import stats

***
## <font color = DarkGreen size = 5> <b>Точечные и интервальные оценки</b> </font>

Для изучения генеральной совокупности объёма $N$ из неё производится выборка, состоящая из $n$ элементов, которая хорошо характеризует всю совокупность (свойство представительности). И на основании исследования этой выборочной совокупности мы с высокой достоверностью можем оценить генеральные характеристики. Чаще всего требуется выявить **закон распределения генеральной совокупности** и оценить его важнейшие числовые параметры, такие как **генеральная средняя** $\bar{X}$, **генеральная дисперсия** $\sigma^2$ и **среднее квадратическое отклонение** $\sigma$.

Очевидно, что для оценки этих параметров нужно вычислить соответствующие выборочные значения. Так, **выборочная средняя** $\bar{x_e}$ позволяет нам оценить **генеральную среднюю** $\bar{X}$, причём, оценить её *точечно*. $\bar{x_e}$ – это отдельно взятое, конкретное значение. Если из той же генеральной совокупности мы будем проводить многократные выборки, то в общем случае у нас будут получаться различные выборочные средние, и каждая из них представляет собой **точечную оценку** генерального значения $\bar{X}$.

Аналогично, **несмещённой точечной оценкой** генеральной дисперсии $\sigma^2$ является **несмещенная выборочная дисперсия** $S^2$, и соответственно, стандартного отклонения $\sigma$ – несмещенное стандартное отклонение $S$.

Недостаток точечных оценок состоит в том, что при небольшом объёме выборки, мы можем получать выборочные значения, которые далеки от истины. И в этих случаях логично потребовать, чтобы выборочная характеристика $\Theta_e$ (тета) отличалась от генерального значения $\Theta$ менее чем на некоторое положительное значение $\delta$ (дельта).

Значение $\delta$ называется <u>**точностью оценки**</u>: $|\Theta-\Theta_e|<\delta$

> Точность оценки также обозначают через $\epsilon$ (эпсилон)

Однако статистические методы не позволяют категорически утверждать, что оценка $\Theta_e$ удовлетворяет неравенству $|\Theta-\Theta_e|<\delta$; можно лишь говорить о вероятности $\gamma$, с которой это неравенство осуществляется.

<u>**Надежностью (доверительной вероятностью)**</u> оценки $\Theta$ по $\Theta_e$ называют вероятность $\gamma$, с которой осуществляется неравенство $|\Theta-\Theta_e|<\delta$: \
$P(|\Theta-\Theta_e|<\delta) = \gamma \\
P(-\delta<\Theta-\Theta_e<\delta) = \gamma \\
P(\Theta_e-\delta<\Theta<\Theta_e+\delta) = \gamma$

<u>**Доверительный интервал**</u> \
– интервал $(\Theta_e-\delta,\Theta_e+\delta)$, который покрывает неизвестный параметр с заданной надежностью $\gamma$.

Интервал $(\Theta_e-\delta,\Theta_e+\delta)$ имеет случайные концы (их называют **доверительными границами**). Действительно,
в разных выборках получаются различные значения $\Theta_e$. Следовательно, от выборки к выборке будут изменяться и концы доверительного интервала, т. е. доверительные границы сами являются случайными величинами — функциями от $x_1,x_2,\ldots,x_n$.\
Так как случайной величиной является не оцениваемый параметр $\Theta$, а доверительный интервал, то более правильно говорить
не о вероятности попадания $\Theta$ в доверительный интервал, а о вероятности того, что доверительный интервал покроет $\Theta$.

***
## <font color = DarkGreen size = 5> <b>Доверительный интервал для оценки математического ожидания нормально распределённой генеральной совокупности</b> </font>

***
### <font color = MediumBlue size = 4> <b>При известном $\sigma$</b> </font>

Пусть количественный признак $X$ генеральной совокупности распределен нормально, причем среднее квадратическое отклонение $\sigma$ этого распределения известно. Требуется оценить неизвестное математическое ожидание $a$ по выборочной средней $\bar{x}$. Поставим своей задачей найти доверительные интервалы, покрывающие параметр $a$ с надежностью $\gamma$.

Будем рассматривать выборочную среднюю $\bar{x}$ как случайную величину $\bar{X}$ ($\bar{x}$ изменяется от выборки к выборке) и выборочные значения признака $x_1,x_2,\ldots,x_n$ – как одинаково распределенные независимые случайные величины $X_1,X_2,\ldots,X_n$ (эти числа также изменяются от выборки к выборке). Другими словами, математическое ожидание каждой из этих величин равно $a$ и среднее квадратическое отклонение – $\sigma$.

Если случайная величина $X$ распределена нормально, то выборочная средняя $\bar{X}$, найденная по независимым наблюдениям, также распределена нормально (по центральной предельной теореме). \
Тогда параметры распределения $\bar{X}$: \
$M(\bar{X})=a$ – математическое ожидание (среднее арифметическое) \
$\displaystyle \sigma(\bar{X}) = se = \frac{\sigma}{\sqrt{n}}$ – стандартная ошибка.

Потребуем, чтобы выполнялось соотношение: $P(|\bar{X}-a|<\delta) = \gamma$, где $\gamma$ – заданная надежность.

Пользуясь формулой вычисления вероятности заданного отклонения $\displaystyle P(|X-a|<\delta) = 2\Phi\left(\frac{\delta}{\sigma}\right)$ и заменив $X$ на $\bar{X}$, $\sigma$ на $\displaystyle \sigma(\bar{X})=\frac{\sigma}{\sqrt{n}}$ получим 
$\displaystyle P(|\bar{X}-a|<\delta) = 2\Phi\left(\frac{\delta\sqrt{n}}{\sigma}\right) = 2\Phi(t)$, где 
$\displaystyle t = \frac{\delta\sqrt{n}}{\sigma}$ \
Найдя из последнего равенства $\displaystyle \delta = \frac{t\sigma}{\sqrt{n}} = t\cdot se$, можем написать
$\displaystyle P(|\bar{X}-a|<t\cdot se) = 2\Phi(t)$

Приняв во внимание, что вероятность $P$ задана и равна $\gamma$, окончательно имеем (чтобы получить рабочую
формулу, выборочную среднюю вновь обозначим через $\bar{x}$): \
$P(\bar{x} - t\cdot se < a < \bar{x} + t\cdot se) = 2\Phi(t) = \gamma$

**С надежностью $\gamma$ можно утверждать, что доверительный интервал $(\bar{x} - t\cdot se, \bar{x} + t\cdot se)$ покрывает неизвестный параметр $a$ с точностью оценки $\delta = t\cdot se$**

>Число $t$ определяется из равенства $2\Phi(t) = \gamma$, или $\displaystyle \Phi(t) = \frac{\gamma}{2}$. \
По таблице функции Лапласа находят аргумент $t$, которому соответствует значение функции Лапласа, равное $\displaystyle \frac{\gamma}{2}$.

<br><br>
___
Оценку $\displaystyle |\bar{x}-a|<\frac{t\sigma}{\sqrt{n}}$ называют **классической**.

Из формулы $\displaystyle \delta = \frac{t\sigma}{\sqrt{n}}$ , определяющей точность классической оценки, можно сделать следующие выводы:
1. При возрастании объема выборки $n$ число $\delta$ убывает и, следовательно, точность оценки увеличивается.

2. Увеличение надежности оценки $\gamma = 2\Phi(t)$ приводит к увеличению $t$ ($\Phi(t)$ – возрастающая функция), следовательно, и к возрастанию $\delta$. Т.е. увеличение надежности классической оценки влечет за собой уменьшение ее точности.
<br><br>
___
Если требуется оценить математическое ожидание с наперед заданной точностью $\delta$ и надежностью $\gamma$, то минимальный объем выборки, который обеспечит эту точность, находят по формуле: $\displaystyle n = \frac{t^2 \sigma^2}{\delta^2}$


In [2]:
# Вычисление значения функции Лапласа по известному t
t = 0.95
phi = -0.5 + stats.norm.cdf(t)
print(f'{phi = :.4f}')

# Нахождение t по известному значению функции Лапласа
phi = 0.95 / 2
t = stats.norm.ppf(phi+0.5)
print(f'{t = :.2f}')

# или
alpha = 0.05
t = stats.norm.ppf(1-alpha/2) # для двустороннего теста
print(f'{t = :.2f}')
t = stats.norm.ppf(1-alpha) # для одностороннего теста
print(f'{t = :.2f}')

phi = 0.3289
t = 1.96
t = 1.96
t = 1.64


In [3]:
n, sd, a0, a1 = 64, 4, 20, 18.5
se = sd/np.sqrt(n)
print(f'{se = }')
phi = 0.95 / 2
t = round(stats.norm.ppf(phi+0.5),4)
print(f'{t = }')

print(f'{a1-t*se:.2f} < a0 < {a1+t*se:.2f}')

se = 0.5
t = 1.96
17.52 < a0 < 19.48


***
### <font color = MediumBlue size = 4> <b>При неизвестном $\sigma$</b> </font>

Пусть количественный признак $X$ генеральной совокупности распределен нормально, причем среднее квадратическое отклонение $\sigma$ этого распределения неизвестно. Требуется оценить неизвестное математическое ожидание $a$ с помощью доверительных интервалов.

$\displaystyle P(\bar{X} - t_\gamma se < a < \bar{X} + t_\gamma se) = \gamma$

При этом $\displaystyle se = \frac{S}{\sqrt{n}}$, где \
$S$ – стандартное отклонение выборки, \
$n$ - количество элементов выборки.

Пользуясь **распределением Стьюдента**, мы нашли доверительный интервал $(\bar{X} - t_\gamma se, \bar{X} + t_\gamma se)$, покрывающий неизвестный параметр $a$ с надежностью $\gamma$.

> $t_\gamma$ можно найти в таблице значениям уровня значимости $\alpha = 1 - \gamma$ и числа степеней свободы $k = n-1$


##### <font color = SlateBlue size = 3> Пример </font>

Рассчитайте доверительный интервал основываясь на знании t-распределения для среднего значения температуры плавления ДНК у первого вида: $\bar{X} = 89.9$, $S = 11.3$, $n = 20$. Определите, в каком диапазоне находится 95 % наблюдений у соответствующего t-распределения.

In [4]:
a, sd, n, gamma = 89.9, 11.3, 20, 0.95
alpha = 1 - gamma

# степень свободы
df = n - 1

# ppf - Percent point function
# делим на два, так как по умолчанию функция считает для одного конца, а нам надо для двух
Tk = round(stats.t.ppf(1-alpha/2,df),2)
print(f'{Tk = }')

# стандартная ошибка
se = sd/np.sqrt(n)

# доверительный интервал 
interval = (a-Tk*se, a+Tk*se)
print('[%.2f; %.2f]' % interval)

Tk = 2.09
[84.62; 95.18]


***
## <font color = DarkGreen size = 5> <b>Доверительный интервал для оценки генеральной дисперсии и стандартного отклонения нормально распределённой генеральной совокупности</b> </font>

***
### <font color = MediumBlue size = 4> <b>Распределение хи-квадрат</b> </font>

Пусть количественный признак $X$ генеральной совокупности распределен нормально. Требуется оценить неизвестное генеральное 
среднее квадратическое отклонение $\sigma$ по несмещенному выборочному среднему квадратическому отклонению $S$. Поставим перед 
собой задачу найти доверительные интервалы, покрывающие параметр $\sigma$ с заданной надежностью $\gamma$. \

$\displaystyle \frac{(n-1)S^2}{\chi_{\alpha_1}^2} < \sigma^2 < \frac{(n-1)S^2}{\chi_{\alpha_2}^2}$, где \
$\chi^2$ – **распределение хи-квадрат**, \
$\chi_{\alpha_1}^2$ – критическое значение для $\displaystyle \alpha_1 = \frac{1-\gamma}{2}$ c $k = n-1$ степенями свободы, \
$\chi_{\alpha_2}^2$ – критическое значение для $\displaystyle \alpha_2 = \frac{1+\gamma}{2}$ c $k = n-1$ степенями свободы

Данный интервал с вероятностью $\gamma$ (надёжностью) накрывает истинное значение $\sigma^2$. И если из всех частей неравенства извлечь корни, то получим соответствующий интервал для оценки генерального стандартного отклонения: \
$\displaystyle \frac{\sqrt{(n-1)}S}{\chi_{\alpha_1}} < \sigma < \frac{\sqrt{(n-1)}S}{\chi_{\alpha_2}}$
<br><br>


При увеличении $n$ распределение хи-квадрат стремится к нормальному, и уже при $n>30$ можно использовать приближенную формулу:\
$\displaystyle \frac{\sqrt{2n}}{\sqrt{2n-3}+t_{\gamma}} \cdot S < \sigma < \frac{\sqrt{2n}}{\sqrt{2n-3}-t_{\gamma}} \cdot S$, где коэффициент доверия определяется из лапласовского соотношения $2\Phi(t_{\gamma})=\gamma$


##### <font color = SlateBlue size = 3> Пример </font>

По $n=10$ равноточным измерениям найдено исправленное среднее квадратическое отклонение $S=0.76$. Предполагая, что результаты измерений распределены нормально, построить доверительный интервал для оценки истинного значения $\sigma$ (генерального стандартного отклонения) с надёжностью $\gamma = 0.95$.

In [6]:
n, s, gamma = 10, 0.76, 0.95
df = n - 1
alpha1 = (1-gamma)/2
alpha2 = (1+gamma)/2

chi_a1 = round(stats.chi2.isf(alpha1, df),2)
print(f'{chi_a1 = }')
chi_a2 = round(stats.chi2.isf(alpha2, df),2)
print(f'{chi_a2 = }')

print(f'{np.sqrt(n-1)*s/np.sqrt(chi_a1):.2f} < sigma < {np.sqrt(n-1)*s/np.sqrt(chi_a2):.2f}')

chi_a1 = 19.02
chi_a2 = 2.7
0.52 < sigma < 1.39


С вероятностью $\gamma = 0.95$ можно утверждать, что данный интервал накроет генеральное стандартное отклонение $\sigma$.

***
### <font color = MediumBlue size = 4> <b>Построение симметричного интервала</b> </font>



***
## <font color = DarkGreen size = 5> <b>Доверительный интервал для оценки разности средних арифметических двух генеральных совокупностей</b> </font>

***
### <font color = MediumBlue size = 4> <b>При известных дисперсиях генеральных совокупностей</b> </font>

Пусть имеется две независимых случайных величины $X$ и $Y$. Эти случайные величины имеют распределения с неизвестными средними значениями $\mu_x$ и $\mu_y$. Дисперсии этих распределений известны и равны $\sigma_x^2$ и $\sigma_y^2$ соответственно. Из этих распределений получены две выборки размером $n$ и $m$.

Нас интересует разница генеральных средних значений этих распределений: $\mu_x - \mu_y$. Мы делаем предположение, что эта разница равна $\Delta = \mu_x - \mu_y$. От нас требуется дать точечную оценку для $\Delta$ и построить для нее двухсторонний доверительный интервал.

> Если $\Delta=0$, то мы предполагаем, что средние этих распределений совпадают.

> Вышеуказанные распределения не обязательно являются нормальными. Однако, требуется чтобы выполнялись условия применимости Центральной предельной теоремы.

Точечной оценкой для $\mu_x - \mu_y$ является разница между выборочными средними значениями, вычисленными на основании выборок из этих (независимых) распределений, т.е. $\bar{d} = \bar{x} - \bar{y}$. Это следует из свойства математического ожидания: $M(\bar{x} - \bar{y}) = M(\bar{x}) - M(\bar{y}) = \mu_x - \mu_y$

**Если разница $\bar{x} - \bar{y}$ не попадает в границы доверительного интервала, то у нас будет основание считать, что разница между генеральными средними значениями этих распределений не равна $\Delta$. \
А если $\bar{x} - \bar{y}$ попадает в границы доверительного интервала, то с вероятность $\gamma$ можно утверждать, что $\mu_x - \mu_y = \Delta$ .**
<br><br>


На основании свойств дисперсии имеем, что $\displaystyle D(\bar{x} - \bar{y}) = D(\bar{x}) + D(\bar{y}) = \frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}$

Т.к. распределение нормальное: \
$\displaystyle \Phi(t_к) = \frac{1-\alpha}{2}$, где 
$\alpha = 1 - \gamma$ – выбранный уровень значимости, 
$\Phi(t)$ – функция Лапласа

Тогда выражение для вычисления двухстороннего доверительного интервала для $\mu_x - \mu_y$: \
$\displaystyle \bar{d} - t \sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}}
< \mu_x - \mu_y <
\bar{d} + t \sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}}$

***
### <font color = MediumBlue size = 4> <b>При неизвестных дисперсиях генеральных совокупностей</b> </font>

Пусть имеется две независимых случайных величины $X$ и $Y$. Эти случайные величины имеют распределения с неизвестными средними значениями $\mu_x$ и $\mu_y$. Дисперсии этих распределений неизвестны, но равны между собой $\sigma^2$. Из этих распределений получены две выборки размером $n$ и $m$.

Нас интересует разница генеральных средних значений этих распределений: $\mu_x - \mu_y$. Мы делаем предположение, что эта разница равна $\Delta = \mu_x - \mu_y$. От нас требуется дать точечную оценку для $\Delta$ и построить для нее двухсторонний доверительный интервал.

> Если $\Delta=0$, то мы предполагаем, что средние этих распределений совпадают.

Точечной оценкой для $\mu_x - \mu_y$ является разница между выборочными средними значениями, вычисленными на основании выборок из этих (независимых) распределений, т.е. $\bar{d} = \bar{x} - \bar{y}$.

На основании свойств дисперсии имеем, что $\displaystyle D(\bar{x} - \bar{y}) = D(\bar{x}) + D(\bar{y}) = \frac{\sigma^2}{n} + \frac{\sigma^2}{m} = \sigma^2\left(\frac{1}{n} + \frac{1}{m}\right)$

Т.к. дисперсия $\sigma^2$ нам неизвестна, то вместо нее используем ее оценку, так называемую **объединенную оценку дисперсии** (pooled estimate of variance): \
$\displaystyle S_p^2 = \frac{(n-1)S_x^2 + (m-1)S_y^2}{n+m-2}$

В случае неизвестной дисперсии, случайная величина $\bar{d}$ имеет **распределение Стюдента** с $k=n+m-2$ степенями свободы.

Тогда выражение для вычисления двухстороннего доверительного интервала для $\mu_x - \mu_y$: \
$\displaystyle \bar{d} - t_{\gamma} S_p \sqrt{\frac{1}{n} + \frac{1}{m}}
< \mu_x - \mu_y <
\bar{d} + t_{\gamma} S_p \sqrt{\frac{1}{n} + \frac{1}{m}}$

***
## <font color = DarkGreen size = 5> <b>Интервальная оценка вероятности (биномиального распределения) по относительной частоте</b> </font>

Пусть производятся независимые испытания с неизвестной вероятностью $p$ появления события $A$ в каждом испытании.

В качестве точечной оценки неизвестной вероятности $p$ принимают относительную частоту \
$\displaystyle W = \frac{m}{n}$, где \
$m$ – число появления события $A$, \
$n$ – число испытаний.

***
### <font color = MediumBlue size = 4> <b>Если выборка достаточно большая и вероятность $p$ не очень близка к нулю и к единице</b> </font>

Вероятность того, что абсолютная величина отклонения не превысит положительного числа $\delta$: \
$\displaystyle P(|X-a|<\delta) = 2\Phi\left(\frac{\delta}{\sigma}\right)$, где \
$X$ — нормальная случайная величина с математическим ожиданием $M(X)=a$.

Если $n$ достаточно велико и вероятность $p$ не очень близка к нулю и к единице, то можно считать, что относительная частота распределена приближенно нормально, причем, $M(W)=p$. Тогда \
$\displaystyle P(|W-p|<\delta) = 2\Phi\left(\frac{\delta}{\sigma_W}\right) = 2\Phi\left(\frac{\delta\sqrt{n}}{\sqrt{pq}}\right) = 2\Phi(t) = \gamma$, где $\displaystyle t = \frac{\delta\sqrt{n}}{\sqrt{pq}}$

Отсюда $\displaystyle \delta = t\sqrt{\frac{pq}{n}}$ и следовательно $\displaystyle P\left(|W-p|<t\sqrt{\frac{pq}{n}}\right) = 2\Phi(t) = \gamma$
<br><br>

Искомый доверительный интервал $p_1 < p < p_2$, где $p_1$ и $p_2$ находят по формулам: \
$\displaystyle p_1 = \frac{n}{t^2+n} \left(w + \frac{t^2}{2n} - t \sqrt{ \frac{w(1-w)}{n} + \left(\frac{t}{2n}\right)^2}\right)$

$\displaystyle p_2 = \frac{n}{t^2+n} \left(w + \frac{t^2}{2n} + t \sqrt{ \frac{w(1-w)}{n} + \left(\frac{t}{2n}\right)^2}\right)$
<br><br>


**При больших значения $n$ (порядка сотен)** слагаемые $\displaystyle \frac{t^2}{2n}$ и $\displaystyle \left(\frac{t}{2n}\right)^2$ очень малы и множитель $\displaystyle \frac{n}{t^2+n} \approx 1$, поэтомуможно 
принять в качестве приближенных границ доверительного интервала:

$\displaystyle p_1 = w - t \sqrt{ \frac{w(1-w)}{n}}$ и $\displaystyle p_2 = w + t \sqrt{ \frac{w(1-w)}{n}}$

***
### <font color = MediumBlue size = 4> <b>Если выборка маленькая и/или вероятность $p$ близка к нулю или к единице</b> </font>

По формуле Бернулли (биноминальное рапределение): \
$P_n(X=k) = C^k_n\cdot p^k\cdot q^{n-k}$, где \
$k$ - число наступления события (дискретная величина из отрезка $[0,n]$)<br>
$n$ - число испытаний<br>
$p$ - вероятность наступления события $A$ в независимых испытаниях<br>
$q = 1 - p$

***
## <font color = DarkGreen size = 5> <b>Интервальная оценка разности долей</b> </font>

Пусть производятся независимые испытания с неизвестной вероятностью $p$ появления события $A$ в каждом испытании.

В качестве точечной оценки неизвестной вероятности $p$ принимают относительную частоту \
$\displaystyle W = \frac{m}{n}$, где \
$m$ – число появления события $A$, \
$n$ – число испытаний.
<br><br>

Стандартное отклонение: $\sigma = \sqrt{p(1-p)} = \sqrt{pq}$

Выборочная оценка доли имеет стандартную ошибку: $\displaystyle se = \frac{\sigma}{\sqrt{n}} = \sqrt{\frac{pq}{n}}$

Из центральной предельной теоремы следует, что при больших объемах выборок выборочная оценка доли стремится к нормальному распределению. Этим приближением мы пользуемся, когда $n \cdot p_e > 5$ и $n \cdot (1-p_e) > 5$. Это утверждение нарушается при маленьких объемах выборки и $p$ близких к 0 или 1.

$\displaystyle \Delta \pm z_{\frac{\alpha}{2}} \cdot S_{\Delta}$

$\displaystyle S_{\Delta} = \sqrt{p(1-p)\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}$, где 
$\displaystyle p = \frac{m_1+m_2}{n_1+n_2}$

##### <font color = SlateBlue size = 3> Пример </font>

В одной группе из 100 больных наблюдалось улучшение у 75, а в другой из 100 больных среди 69. Оценить с помощью доверительного интервала разность долей больных, у которых наблюдались улучшения.

In [7]:
n1, m1, n2, m2 = 100, 75, 100, 69
gamma = 0.95

In [8]:
alpha = 1 - gamma
z = stats.norm.ppf(1-alpha/2)
z

1.959963984540054

In [9]:
delta = m1/n1 - m2/n2

p = (m1+m2) / (n1+n1)
S = np.sqrt(p * (1-p) * (1/n1 + 1/n2))
S

0.06349803146555018

In [10]:
print(f'{delta-z*S:.4f} < p < {delta+z*S:.4f}')

-0.0645 < p < 0.1845


Т.к. интервал разности включает 0, то $H_0: p_1 = p_2$ принимаем на уровне 0.05. Нет оснований утверждать, что данные две доли статистически различны.