# Урок 6. Сравнение долей. Построение доверительного интервала

***
## Доверительный интервал для средних арифметических

Построение доверительных интервалов позволяет давать интервальную оценку для среднего генеральной совокупности.

средняя выборочная стремится к нормальному распределению с средним арифметическим, равным среднему арифметическому генеральной совокупности, откуда была взята выборка, и с дисперсией, равной дисперсии генеральной совокупности, деленой на объем выборки $\cfrac{\sigma}{\sqrt{n}}$.

Доверительный интервал можно представить таким образом:\
$1-\alpha = 0.95$, т.е. $\alpha = 0.05$

95% доверительный интервал означает, что в 95% случаев интервал покроет истинное математическое ожидание.

### Если $\sigma$ генеральной совокупности известна

$\bar{x} \pm z_{\frac{\alpha}{2}} \cdot \cfrac{\sigma}{\sqrt{n}}$

In [3]:
import scipy.stats as stats

alpha = 0.05
Zk = stats.norm.ppf(1-alpha/2)
Zk

1.959963984540054

### Если $\sigma$ генеральной совокупности неизвестна

$\bar{x} \pm t_{\frac{\alpha}{2}} \cdot \cfrac{S}{\sqrt{n}}$

In [6]:
import scipy.stats as stats

alpha = 0.05
k = 6

stats.t.ppf(1 - alpha/2, k)

2.4469118487916806

***
## Интервальная оценка для разности средних арифметических

$\Delta \pm t_{\frac{\alpha}{2}} \cdot \cfrac{S_{\Delta}}{\sqrt{n}}$, где $\Delta = \bar{X_1} - \bar{X_2}$

$D = \cfrac{D_1+D_2}{2}$, где $D_1, D_2$ - несмещенные дисперсии

$S_{\Delta} = \sqrt{\cfrac{D}{n_1}+\cfrac{D}{n_2}}$

$df = n_1 + n_2 - 2$

***
## Доверительный интервал для доли

$p \pm Z_{\frac{\alpha}{2}} \cdot se$, где $p = \cfrac{m}{n}$

### Для больших объемов выборок

Выборочная оценка для доли $p$ сродни среднему арифметическому $\mu = p$.

$\sigma = \sqrt{p(1-p)}$

Выборочная оценка по доли имеет стандартную ошибку: \
$se = \cfrac{\sigma}{\sqrt{n}} = \sqrt{\cfrac{p(1-p)}{n}}$

Из центральной предельной теоремы следует, что при больших объемах выборок выборочная оценка доли стремится к нормальному распределению. Этим приближением мы пользуемся, когда $n \cdot p > 5$ и $n \cdot (1-p) > 5$. Это утверждение нарушается при маленьких объемах выборки и $p$ близких к 0 или 1.

### Для маленьких объемов выборок

Используют биномиальное распределение (формула Бернулли): $C_{n}^{k} \cdot p^k \cdot q^{n-k}$ для расчета накопленной вероятности (сумма текущей и предыдущих вероятностей).

***
## Сравнение долей

$Z = \cfrac{p_1-p_2}{\sqrt{p(1-p)\left(\cfrac{1}{n_1}+\cfrac{1}{n_2}\right)}}$, где 
$p = \cfrac{m_1+m_2}{n_1+n_2}$
<br><br>

Величина Z – это величина, которая следует нормальному стандартному распределению, но выше вычисленная величина z немного отклоняется от нормального распределения, поэтому  при сравнении долей нам нужно воспользоваться поправкой Йейтса на непрерывность. Данная поправка сокращает отклонения от нормальности и z-критерий будем в итоге находить по формуле: \
$Z = \cfrac{|p_1-p_2|-\cfrac{1}{2}\left(\cfrac{1}{n_1}+\cfrac{1}{n_2}\right)}{\sqrt{p(1-p)\left(\cfrac{1}{n_1}+\cfrac{1}{n_2}\right)}}$, где 
$p = \cfrac{m_1+m_2}{n_1+n_2}$

***
## Интервал для разности долей

$\Delta \pm z_{\cfrac{\alpha}{2}} \cdot S_{\Delta}$, где $\Delta = p_1 - p_2$

$S_{\Delta} = \sqrt{p(1-p)\left(\cfrac{1}{n_1}+\cfrac{1}{n_2}\right)}$, где 
$p = \cfrac{m_1+m_2}{n_1+n_2}$