# Основы математической статистики
### Базовые понятия и методы проверки статистических гипотез

### Часть 4. Доверительные интервалы

### Содержание:

1. Описание данных:
    * Нормальное распределение, выборочные оценки.
    * Проврка гипотез: ошибки первого и второго рода.
    * Статистические критерии, критерии согласия.
    * Чувствительность критерия.
2. Параметрические критерии:
    * Дисперсионный анализ.
    * Критерий Стьюдента.
    * Связанные выборки.
    * Множественные сравнения.
3. Анализ качественных признаков:
    * Z-критерий.
    * Таблицы сопряженности: критерий $\chi^2$.
    * Точный критерий Фишера.
4. Доверительные интервалы:
    * Построение доверительных интервалов.
    * Проверка гипотез с помощью доверительных интервалов.
5. Непараметрические критерии:
    * Критерий Манна—Уитни.
    * Критерий Уилкоксона.

<br>

<hr>

<br>

### Введение

Все ранее сформулированные статистические методы были предназначены в основном для поиска различий между группами. Сначала формулировалась нулевая гипотеза, предполагающая равенство параметров распределений совокупностей, из которых случайным образом извлекались экспериментальные выборки, и при использовании статистических критериев выносился вердикт касательно данного предположения. Однако, принятие либо отклонение гипотезы &ndash; качественный результат, ничего не говорящей о величинах наблюдаемых различий. Количественная характеристика, с помощью которой в данном случае можно дополнить качественное суждение, называется **доверительным интервалом.**

### Доверительный интервал

**Доверительный интервал** &mdash; это тип интервальной оценки, рассчитываемой на основе статистики наблюдаемых данных. Доверительным называют интервал, который покрывает неизвестный параметр с заданной надёжностью.

Приведем пример. Известно, что в случае нормального распределения, истинное значение среднего с вероятностью в 95% находится на расстоянии не более двух стандартных отклонений от выборочного среднего случайно извлеченной из совокупности выборки. В этом случае промежуток длинной в четыре стандартных отклонения является 95%-ым доверительным интервалом для истинного среднего значения. Смысл доверительного интервала из этого примера достаточно ясен: неизвестно, чему равна некоторая величина, однако возможно указать интервал, в котором она находится с заданной вероятностью. 

Дадим формальное определение. Доверительным интервалом параметра $\theta$  распределения случайной величины $X$ с уровнем доверия $p$, порождённым выборкой $(x_{1},\ldots ,x_{n})$, называется интервал с границами $l(x_{1},\ldots ,x_{n})$ и $u(x_{1},\ldots ,x_{n})$, которые являются реализациями случайных величин $L(X_{1},\ldots ,X_{n})$ и $U(X_{1},\ldots ,X_{n})$, таких, что

$$\mathbb {P} (L\leqslant \theta \leqslant U)=p.$$

Граничные точки доверительного интервала $l$ и $u$ называются **доверительными пределами.** Толкование доверительного интервала, основанное на интуиции, будет следующим: если уровень доверия p велик (скажем, 0,95 или 0,99), то доверительный интервал почти наверняка содержит истинное значение $\theta$.

Более точное, хоть также не совсем строгое, толкование доверительного интервала с уровнем доверия, скажем, 95% состоит в следующем. Если провести очень большое количество независимых экспериментов с аналогичным построением доверительного интервала, то в 95% экспериментов доверительный интервал будет содержать оцениваемый параметр $\theta$ (то есть будет выполняться $L\leqslant \theta \leqslant U$), а в оставшихся 5% экспериментов доверительный интервал не будет содержать $\theta$.

Некоторые важные замечания:
* Следует понимать, что, например, уровень доверия 95% не означает, что для данного реализованного интервала существует 95% вероятность того, что параметр находится в интервале. Согласно строгой частотной интерпретации, как только интервал вычисляется, он либо покрывает значение параметра, либо нет; это уже не вопрос вероятности. Вероятность 95% относится к надежности процедуры оценки, а не к определенному расчетному интервалу.
* Уровень доверия 95% не означает, что 95% выборочных данных находятся в доверительном интервале.
* Доверительный интервал не является определенным диапазоном правдоподобных значений для параметра выборки, хотя его можно понимать как оценку правдоподобных значений параметра совокупности.

### Построение доверительных интервалов

Приступим к построению доверительного интервала для среднего значения $\mu$ совокупности, распределенной нормально. Из определения квантиля и свойств функции распределения можем получить вспомогательную формулу, которая нам пригодится в дальнейшем:

$$ \mathbb{P}\left(y_{\frac{1-\gamma}{2}}\leqslant Y\leqslant y_{\frac  {1+\gamma}{2}}\right) = \gamma,$$

где $Y$ &ndash; случайная величина из некоторого распределения, $y_{\frac{1\pm\gamma}{2}}$ &ndash; $\frac{1\pm\gamma}{2}$-квантиль этого распределения. Если принять $\gamma = 1 - \alpha$, получим другой вид формулы:

$$ \mathbb{P}\left(y_{\frac{\alpha}{2}}\leqslant Y\leqslant y_{1 - \frac{\alpha}{2}}\right) = 1 - \alpha.$$

Пусть $ X_{1},\ldots ,X_{n}\sim \mathrm {N} (\mu ,\sigma ^{2})$ &ndash; независимая выборка из нормального распределения. Вспомним статистику рассмотренного ранее одновыборочного критерия Стьюдента:

$$ t = \frac{\bar{X}-\mu}{\frac{s_{X}}{\sqrt{n}}}. $$

Как известно, $t$ &ndash; случайная величина, распределение которой симметрично относительно нуля. Перепишем ранее упомянутую
вспомогательную формулу, подставив в нее случайную величину $t\:$:

$$ \mathbb{P}\left(t_{\frac{\alpha}{2}}\leqslant \frac{\bar{X}-\mu}{\frac{s_{X}}{\sqrt{n}}} \leqslant t_{1 - \frac{\alpha}{2}}\right) = 1 - \alpha.$$

где $t_{\frac{\alpha}{2}}$ и $t_{1 - \frac{\alpha}{2}}$ &ndash; $\frac{\alpha}{2}$ и $\left(1 - \frac{\alpha}{2}\right)$-квантили распределения Стьюдента с $n-1$ степенями свободы соответственно. Используя свойство квантиля симметричного распределения $t_{1-\frac{\alpha}{2}} = -t_{\frac{\alpha}{2}}$, перепишем формулу:

$$ \mathbb{P}\left(t_{\frac{\alpha}{2}}\leqslant \frac{\bar{X}-\mu}{\frac{s_{X}}{\sqrt{n}}} \leqslant -t_{\frac{\alpha}{2}}\right) = 1 - \alpha.$$

Сделав небольшое преобразование неравенства внутри скобок, приходим к выражению для доверительного интервала истинного среднего значения:

$$\mathbb{P} \left(\bar{X} - t_{\frac{\alpha}{2}}\frac{s_{X}}{\sqrt{n}} \leqslant \mu \leqslant \bar{X} + t_{\frac{\alpha}{2}}\frac{s_{X}}{\sqrt{n}}\right) = 1 - \alpha.$$

Обычно при написании доверительных интервалов опускают символ вероятности:

$$ \bar{X} - t_{\frac{\alpha}{2}}\frac{s_{X}}{\sqrt{n}} \leqslant \mu \leqslant \bar{X} + t_{\frac{\alpha}{2}}\frac{s_{X}}{\sqrt{n}}, $$

с уровнем доверия $1 - \alpha$.

Формально, полученное выражение называется **доверительным интервалом для математического ожидания нормальной выборки при неизвестной дисперсии совокупности с уровнем доверия $1 -\mathbf{ \alpha}$.** Отсюда ясно, что должен существовать доверительный интервал для случая с известной дисперсией. Получается такой интервал из статистики одновыборочного Z-критерия для среднего, внимание на котором ранее не заострялось. Статистика данного критерия выглядит следующим образом: 

$$ Z = \frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}, $$

а соотвествующий доверительный интервал:

$$ \bar{X} - z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} \leqslant \mu \leqslant \bar{X} + z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}, $$

где $z_{\frac{\alpha}{2}}$ &ndash; $\frac{\alpha}{2}$-квантиль стандартного нормального распределения $N(0, 1)$, уровень доверия $1 - \alpha$.

После данных примеров становится понятен алгоритм построения доверительных интервалов, поэтому в дальнейшем не будем их выводить, а просто перечислим самые необходимые (однако, стоит отметить, что статистика ранее сформулированного двувыборочного критерия Стьюдента не является центрированной; для этого необходимо в числителе из разности выборочных средних вычесть разность истинных средних (которая равна нулю в случае справделивости нулевой гипотезы)).

Стоит отбратить внимание на то, что для записи доверительных интервалов иногда используют $\left(1 - \frac{\alpha}{2}\right)$-квантиль, а не $\frac{\alpha}{2}$-квантиль. В случаях симметричных распределений обе записи эквивалентны.

### Доверительные интервалы для параметров нормального распределения

Перечислим наиболее важные доверительные интервалы для параметров нормального распределения с уровнем доверия $1 - \alpha$:

**Доверительный интервал для математического ожидания нормальной выборки:**
* Случай известной дисперсии $z \sim N\:(0, 1)$: 
$$ \bar{X} - z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} \leqslant \mu \leqslant \bar{X} + z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}. $$

* Случай неизвестной дисперсии $t \sim t\:(n-1)$: 
$$ \bar{X} - t_{\frac{\alpha}{2}}\frac{s_{X}}{\sqrt{n}} \leqslant \mu \leqslant \bar{X} + t_{\frac{\alpha}{2}}\frac{s_{X}}{\sqrt{n}}. $$


**Доверительный интервал для разности математических ожиданий нормальной выборки:**
* Случай известной дисперсии $z \sim N\:(0, 1)$: 
$$ \left(\bar{X_1}-\bar{X_2}\right) - z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} \leqslant \mu_1 - \mu_2 \leqslant \left(\bar{X_1}-\bar{X_2}\right) + z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}. $$

* Случай неизвестной равной дисперсии $t \sim t\:(n_1 + n_2 - 2)$: 
$$ \left(\bar{X_1}-\bar{X_2}\right) - t_{\frac{\alpha}{2}}s_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}} \leqslant \mu_1 - \mu_2 \leqslant \left(\bar{X_1}-\bar{X_2}\right) + t_{\frac{\alpha}{2}}s_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}, $$
$$ s_{p} = \sqrt{\frac{\left(n_{1}-1\right)s_{X_{1}}^{2} + \left(n_{2}-1\right)s_{X_{2}}^{2}}{n_{1}+n_{2}-2}}. $$

* Случай неизвестной неравной дисперсии $t \sim t\:(\nu)$: 
$$ \left(\bar{X_1}-\bar{X_2}\right) - t_{\frac{\alpha}{2}}\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} \leqslant \mu_1 - \mu_2 \leqslant \left(\bar{X_1}-\bar{X_2}\right) + t_{\frac{\alpha}{2}}\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}, $$
$$\nu \approx \frac{\left(\frac{s_{1}^{2}}{n_{1}} + \frac{s_{2}^{2}}{n_{2}}\right)^2}{\frac{s_{1}^{4}}{n_{1}^{2}(n_1-1)} + \frac{s_{2}^{4}}{n_{2}^{2}(n_2 - 1)}}. $$


**Доверительный интервал для изменения среднего в повторном эксперименте:**
* Случай неизвестной дисперсии $t \sim t\:(n-1)$:
$$ \bar{X_D} - t_{\frac{\alpha}{2}}\frac{s_{D}}{\sqrt{n}} \leqslant d_0 \leqslant \bar{X_D} + t_{\frac{\alpha}{2}}\frac{s_{D}}{\sqrt{n}}. $$

**Доверительный интервал для дисперсии нормальной выборки:**
* Случай известного среднего $\chi \sim \chi\:(n)$:
$$ \frac{\sum_{i=1}^{n}\left(X_i - \mu\right)^2}{\chi_{1 - \frac{\alpha}{2}}^2} \leqslant \sigma^2 \leqslant \frac{\sum_{i=1}^{n}\left(X_i - \mu\right)^2}{\chi_{\frac{\alpha}{2}}^2}. $$

* Случай неизвестного среднего $\chi \sim \chi\:(n-1)$:
$$ \frac{\left(n-1\right)s_X^2}{\chi_{1 - \frac{\alpha}{2}}^2} \leqslant \sigma^2 \leqslant \frac{\left(n-1\right)s_X^2}{\chi_{\frac{\alpha}{2}}^2}. $$

### Доверительные интервалы для качественных признаков

Перечислим наиболее важные доверительные интервалы для долей (оценка качественных признаков) с уровнем доверия $1-\alpha$:

**Доверительный интервал для доли:**
* Условия применимости $ n\hat{p} > 5 $ и $ n\left(1-\hat{p}\right) > 5$, $z \sim N\:(0, 1)$:

$$\hat{p} - z_{\frac{\alpha}{2}}\sqrt{\frac{p \left(1-p\right)}{n}} \leqslant p_0 \leqslant \hat{p} + z_{\frac{\alpha}{2}}\sqrt{\frac{p \left(1-p\right)}{n}}.$$


**Доверительный интервал для разности долей:**
* Условия применимости $ n_i\hat{p_i} > 5 $ и $ n_i\left(1-\hat{p_i}\right) > 5$, $z \sim N\:(0, 1)$:

$$\left(\hat{p}_1 - \hat{p}_2\right) - z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}_1(1 - \hat{p}_1)}{n_1} + \frac{\hat{p}_2(1 - \hat{p}_2)}{n_2}} \leqslant p_1 - p_2 \leqslant \left(\hat{p}_1 - \hat{p}_2\right) + z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}_1(1 - \hat{p}_1)}{n_1} + \frac{\hat{p}_2(1 - \hat{p}_2)}{n_2}}.$$


**Доверительный интервал для изменения доли в повторном эксперименте:**
* Условия применимости $ n_i\hat{p_i} > 5 $ и $ n_i\left(1-\hat{p_i}\right) > 5$, $z \sim N\:(0, 1)$:

$$ \frac{f - g}{n} - z_{\frac{\alpha}{2}}\sqrt{\frac{f + g}{n^2} - \frac{(f - g)^2}{n^3}} <p_1 - p_2 <  \frac{f - g}{n} + z_{\frac{\alpha}{2}}\sqrt{\frac{f + g}{n^2} - \frac{(f - g)^2}{n^3}} $$

#### Пример

### Проверка гипотез с помощью доверительных интервалов

#### Пример

<br>

<br>

### Примечание

**Автор: Болгарин Максим. Физический факультет, МГУ, 2019г.**

Данной работой я хотел донести до начинающих программистов и аналитиков основы математической статистики на базовом и понятном для каждого уровне. Моей целью не было просто переписать информацию из учебников и интернет статей, а сгруппировать её в понятном и информативном виде.

Ссылка на мой github профиль: [перейти](https://github.com/maxbolgarin)

#### Источники:
1. [Wikipedia](https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0)
2. [Стентон Гланц - Медико-биологическая статистика](https://yadi.sk/i/6A1LLMU78QqNPg)
3. [Кобзарь А. И. - Прикладная математическая статистика](https://yadi.sk/i/GDGalzNXL0HsMA)
4. [MachineLearning](http://www.machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0_%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D1%85_%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7)