<h3 style="color:#2E8B57">Задача № 1</h3>

Пусть $X\sim F(x)$ — случайная величина с произвольным распределением, неизвестным математическим ожиданием $\mathbb{E}X$ и известной дисперсией $\mathbb{D}X$. Как выглядит доверительный интервал для $\mathbb{E}X$ с приближённым уровнем доверия $100(1-\alpha)$%?

<h4 align='center'>Решение:</h4>

* $\large \bar{X}_n \pm z_{1-\frac{\alpha}{2}} \sqrt{\frac{\mathbb{D}X}{n}}$ ✔️

* $\large \bar{X}_n \pm z_{1-\alpha} \sqrt{\frac{\mathbb{D}X}{n}}$ 

* $\large \bar{X}_n \pm z_{1-\frac{\alpha}{2}} \frac{\mathbb{D}X}{\sqrt{n}}$ 

* $\large \bar{X}_n \pm t_{n-1, 1-\frac{\alpha}{2}} \sqrt{\frac{\mathbb{D}X}{n}}$ 

<h3 style="color:#2E8B57">Задача № 2</h3>

Для 61 большого города в Англии и Уэльсе известны средняя годовая смертность на 100000 населения (по данным 1958–1964) и концентрация кальция в питьевой воде (в частях на миллион). Чем выше концентрация кальция, тем жёстче вода. Города дополнительно поделены на северные и южные.

Постройте 95% доверительный интервал для средней годовой смертности в больших городах. Чему равна его нижняя граница? Округлите ответ до 4 знаков после десятичной точки. 

**Будьте осторожны при использовании метода std()!** Дело в том, что у объекта numpy он по умолчанию вычисляется как $\sqrt{\frac1{n}\sum\limits_{i=1}^n\left(X_i-\bar{X}\right)^2}$

а у объекта pandas — как

$\sqrt{\frac1{n-1}\sum\limits_{i=1}^n\left(X_i-\bar{X}\right)^2}$ 

Нас интересует только второй вариант, несмещённая оценка стандартного отклонения.

Чтобы не думать всё время о том, правильно ли вычисляется в вашем случае std(), можно всегда использовать std(ddof=1) (ddof — difference in degrees of freedom), тогда нормировка всегда будет на n-1.

<h4 align='center'>Решение:</h4>

In [21]:
import pandas as pd
from scipy import stats
from statsmodels.stats.weightstats import _zconfint_generic, _tconfint_generic

In [2]:
data = pd.read_csv('water.txt', sep='\t')
data.head()

Unnamed: 0,location,town,mortality,hardness
0,South,Bath,1247,105
1,North,Birkenhead,1668,17
2,South,Birmingham,1466,5
3,North,Blackburn,1800,14
4,North,Blackpool,1609,18


In [53]:
_tconfint_generic(data['mortality'].mean(), 
                  data['mortality'].std(ddof=1) / np.sqrt(len(data)),
                  len(data) - 1, 0.05, 'two-sided')

(1476.0833413552848, 1572.2117406119285)

Определими точность

In [94]:
proc = 0.95
df = n - 1
alpha = (1 - proc) / 2
t = stats.t.ppf(1 - alpha, df)

(t * data['mortality'].std(ddof=1)) / np.sqrt(len(data))

50.29227393985549

<h3 style="color:#2E8B57">Задача № 3</h3>

На данных из предыдущего вопроса постройте 95% доверительный интервал для средней годовой смертности по всем южным городам. Чему равна его верхняя граница? Округлите ответ до 4 знаков после десятичной точки.

<h4 align='center'>Решение:</h4>

In [12]:
_tconfint_generic(data[data.location == 'South'].mortality.mean(), 
                  data[data.location == 'South'].mortality.std(ddof=1) / np.sqrt(len(data[data.location == 'South'])), 
                  len(data[data.location == 'South']) - 1, 0.05, 'two-sided')

(1320.1517462936238, 1433.463638321761)

<h3 style="color:#2E8B57">Задача № 4</h3>

На тех же данных постройте 95% доверительный интервал для средней годовой смертности по всем северным городам. Пересекается ли этот интервал с предыдущим? Как вы думаете, какой из этого можно сделать вывод? 

<h4 align='center'>Решение:</h4>

In [13]:
_tconfint_generic(data[data.location == 'North'].mortality.mean(), 
                  data[data.location == 'North'].mortality.std(ddof=1) / np.sqrt(len(data[data.location == 'North'])), 
                  len(data[data.location == 'North']) - 1, 0.05, 'two-sided')

(1586.5605251961385, 1680.6394748038613)

* Интервалы не пересекаются; похоже, средняя смертность на севере и на юге одинаковая

* Интервалы пересекаются; похоже, средняя смертность на севере и на юге одинаковая

* Интервалы не пересекаются; видимо, средняя смертность на севере и на юге существенно разная ✔️

* Интервалы пересекаются; видимо, средняя смертность на севере и на юге существенно разная    

<h3 style="color:#2E8B57">Задача № 5</h3>

Пересекаются ли 95% доверительные интервалы для средней жёсткости воды в северных и южных городах?

<h4 align='center'>Решение:</h4>

In [17]:
_tconfint_generic(data[data.location == 'North'].hardness.mean(), 
                  data[data.location == 'North'].hardness.std(ddof=1) / np.sqrt(len(data[data.location == 'North'])), 
                  len(data[data.location == 'North']) - 1, 0.05, 'two-sided')

(21.42248728572426, 39.37751271427574)

In [54]:
_tconfint_generic(data[data.location == 'South'].hardness.mean(), 
                  data[data.location == 'South'].hardness.std(ddof=1) / np.sqrt(len(data[data.location == 'South'])), 
                  len(data[data.location == 'South']) - 1, 0.05, 'two-sided')

(53.467198692036106, 86.07126284642544)

<h3 style="color:#2E8B57">Задача № 6</h3>

Вспомним формулу доверительного интервала для среднего нормально распределённой случайной величины с дисперсией $\sigma^2$:

$$\bar{X}_n\pm z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}$$
 

При $\sigma=1$ какой нужен объём выборки, чтобы на уровне доверия 95% оценить среднее с точностью $\pm0.1$?

<h4 align='center'>Решение:</h4>

In [80]:
np.ceil((stats.norm.ppf(1-0.05/2) / 0.1)**2)

385.0

<h3 style="color:#2E8B57">Задача № 7</h3>

Объём выборки, необходимый для построения доверительного интервала заданной ширины:

<h4 align='center'>Решение:</h4>

* увеличивается с ростом дисперсии выборки ✔️

* увеличивается с увеличением требуемой ширины. margin of error (±0.1) - это и есть параметр, который задаёт ширину интервала.

* уменьшается с ростом $\alpha$ ✔️

* увеличивается с уменьшением требуемой ширины ✔️

* увеличивается с ростом $\alpha$

* уменьшается с ростом дисперсии выборки  

In [108]:
# Опыты, для ответа на вопрос

# 95%
p = 0.95
# так как у нас двухсторонний интервал, сделаем вычисление
alpha = (1-p)/2
# isf - Inverse survival function (inverse of sf) 

np.ceil((stats.norm().isf(alpha) ** 2 * 1**2) / 0.1**2)

385.0