# Доверительные интервалы для среднего

$$D(X+Y)=E[(X+Y -E(X+Y))^2]=E[(X - E(X) + Y - E(Y))^2]=D(X) + D(Y) + E[(X-E(X))\cdot(Y-E(Y))]$$ <br/>
$$D(\bar{X}_n)=D(\frac{\sum_{i=1}^{n}}{n}) = \frac{n \cdot D(X)}{n^2}=\frac{D(x)}{n}$$
$$\text{So if } X\sim \mathcal{N}(\mu, \sigma)\text{, then confidence interval with parameter }\alpha:$$<br/>
$$\mathcal{P}(\bar{X}-\mathcal{z}_{1-\frac{\alpha}{2}}\sqrt{\frac{D(X)}{n}}\leq\mu\leq\bar{X}+
\mathcal{z}_{1-\frac{\alpha}{2}}\sqrt{\frac{D(X)}{n}}) = 1-\alpha$$

## Task 1
Пусть $X\sim F(x)$ — случайная величина с произвольным распределением, неизвестным математическим ожиданием $\mathbb{E}X$ и известной дисперсией $\mathbb{D}X$. Как выглядит доверительный интервал для $\mathbb{E}X$ с приближённым уровнем доверия $100(1-\alpha)100$

## Answer
$\bar{X}\pm\mathcal{z}_{1-\frac{\alpha}{2}}\cdot\sqrt{\frac{D(X)}{n}}$

## Task 2
Для 61 большого города в Англии и Уэльсе известны средняя годовая смертность на 100000 населения (по данным 1958–1964) и концентрация кальция в питьевой воде (в частях на миллион). Чем выше концентрация кальция, тем жёстче вода. Города дополнительно поделены на северные и южные.<br/>
**water.txt**<br/>
Постройте 95% доверительный интервал для средней годовой смертности в больших городах. Чему равна его нижняя граница? Округлите ответ до 4 знаков после десятичной точки.

In [128]:
import numpy as np
import pandas as pnd
from scipy import stats

water = pnd.read_csv('water.txt', delimiter='\t')
water.head()

Unnamed: 0,location,town,mortality,hardness
0,South,Bath,1247,105
1,North,Birkenhead,1668,17
2,South,Birmingham,1466,5
3,North,Blackburn,1800,14
4,North,Blackpool,1609,18


In [129]:
mortality_mean=water['mortality'].mean()
mortality_std =water['mortality'].std()
print('mean: {}\nstd: {}'.format(mortality_mean, mortality_std))

mean: 1524.1475409836066
std: 187.6687539314571


In [130]:
alpha = 0.05
n = water['mortality'].size
print('lbound: {:.4f}\nubound: {:.4f}'.format(
    mortality_mean+stats.t.ppf(alpha/2, n - 1)*mortality_std/np.sqrt(n),
    mortality_mean+stats.t.ppf(1-alpha/2, n - 1)*mortality_std/np.sqrt(n)
    )
)

lbound: 1476.0833
ubound: 1572.2117


## Task 3
На данных из предыдущего вопроса постройте 95% доверительный интервал для средней годовой смертности по всем южным городам. Чему равна его верхняя граница? Округлите ответ до 4 знаков после десятичной точки.

In [131]:
mortality_mean_south = water[water['location']=='South']['mortality'].mean()
mortality_std_south = water[water['location']=='South']['mortality'].std()
print('mean: {}\nstd: {}'.format(mortality_mean_south, mortality_std_south))

mean: 1376.8076923076924
std: 140.26917529686108


In [132]:
alpha = 0.05
n_south = water[water['location']=='South']['mortality'].size
print('lbound: {:.4f}\nubound: {:.4f}'.format(
    mortality_mean_south + stats.t.ppf(alpha/2, n_south - 1)*mortality_std_south/np.sqrt(n_south),
    mortality_mean_south + stats.t.ppf(1-alpha/2, n_south - 1)*mortality_std_south/np.sqrt(n_south)
    )
)

lbound: 1320.1517
ubound: 1433.4636


## Task 4
На тех же данных постройте 95% доверительный интервал для средней годовой смертности по всем северным городам. Пересекается ли этот интервал с предыдущим? Как вы думаете, какой из этого можно сделать вывод?

In [133]:
mortality_mean_north = water[water['location']=='North']['mortality'].mean()
mortality_std_north = water[water['location']=='North']['mortality'].std()
print('mean: {:.2f}\nstd: {:.2f}'.format(mortality_mean_north, mortality_std_north))

mean: 1633.60
std: 136.94


In [134]:
alpha = 0.05
n_north = water[water['location']=='North']['mortality'].size
print('lbound: {:.4f}\nubound: {:.4f}'.format(
    mortality_mean_north + stats.t.ppf(alpha/2, n_north - 1)*mortality_std_north/np.sqrt(n_north),
    mortality_mean_north + stats.t.ppf(1-alpha/2, n_north - 1)*mortality_std_north/np.sqrt(n_north)
    )
)

lbound: 1586.5605
ubound: 1680.6395


## Answer
Интервалы не пересекаются $\rightarrow$ смертность на севере и юге различается

## Task 5
Пересекаются ли 95% доверительные интервалы для средней жёсткости воды в северных и южных городах?

In [135]:
hardness_mean_north = water[water['location']=='North']['hardness'].mean()
hardness_std_north = water[water['location']=='North']['hardness'].std()

hardness_mean_south = water[water['location']=='South']['hardness'].mean()
hardness_std_south = water[water['location']=='South']['hardness'].std()

print('North\nmean: {:.2f}\nstd: {:.2f}\nSouth\nmean: {:.2f}\nstd: {:.2f}'.format(
    hardness_mean_north, 
    hardness_std_north,
    hardness_mean_south,
    hardness_std_south
    )
)

North
mean: 30.40
std: 26.13
South
mean: 69.77
std: 40.36


In [136]:
alpha = 0.05
print('North\nlbound: {:.4f}\nubound: {:.4f}\nSouth\nlbound: {:.4f}\nubound: {:.4f}'.format(
    hardness_mean_north + stats.norm.ppf(alpha/2) * hardness_std_north / np.sqrt(n_north),
    hardness_mean_north + stats.norm.ppf(1-alpha/2) * hardness_std_north / np.sqrt(n_north),
    hardness_mean_south + stats.norm.ppf(alpha/2) * hardness_std_south / np.sqrt(n_south),
    hardness_mean_south + stats.norm.ppf(1-alpha/2) * hardness_std_south / np.sqrt(n_south)
    )
)

North
lbound: 21.7418
ubound: 39.0582
South
lbound: 54.2554
ubound: 85.2831


## Answer
Не пересекаются

## Task 6
Вспомним формулу доверительного интервала для среднего нормально распределённой случайной величины с дисперсией $\sigma^2$:<br/>
$$\bar{X}\pm\mathcal{z}_{1-\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}$$
При $\sigma=1$ какой нужен объём выборки, чтобы на уровне доверия 95% оценить среднее с точностью $\pm0.1$?

In [137]:
(stats.norm.ppf(1-0.05/2)/0.1)**2

384.14588206941244

## Answer 
$n=385\ge384.15$

## Task 7
Объём выборки, необходимый для построения доверительного интервала заданной ширины:
* Увеличивается с уменьшением требуемой ширины
* Уменьшается с ростом $\alpha$
* Увеличивается с ростом дисперсии $\sigma^2$