Для 61 большого города в Англии и Уэльсе известны средняя годовая смертность на 100000 населения (по данным 1958–1964) и концентрация кальция в питьевой воде (в частях на миллион). Чем выше концентрация кальция, тем жёстче вода. Города дополнительно поделены на северные и южные.

Постройте 95% доверительный интервал для средней годовой смертности в больших городах. Чему равна его нижняя граница? Округлите ответ до 4 знаков после десятичной точки. 

Будьте осторожны при использовании метода std()! Дело в том, что у объекта numpy он по умолчанию вычисляется как 
$\sqrt{\frac{1}{n}\sum_{i=1}^n\left(X_{i} - \overline{X}\right)^{2}}$,

а у объекта pandas — как
$\sqrt{\frac{1}{n-1}\sum_{i=1}^n\left(X_{i} - \overline{X}\right)^{2}}$.

Нас интересует только второй вариант, несмещённая оценка стандартного отклонения.

Чтобы не думать всё время о том, правильно ли вычисляется в вашем случае std(), можно всегда использовать std(ddof=1) (ddof — difference in degrees of freedom), тогда нормировка всегда будет на n-1.

In [1]:
import numpy as np
import pandas as pd
from statsmodels.stats.weightstats import _zconfint_generic, _tconfint_generic
from scipy import stats

In [2]:
df = pd.read_table('water.txt')
df.head()

Unnamed: 0,location,town,mortality,hardness
0,South,Bath,1247,105
1,North,Birkenhead,1668,17
2,South,Birmingham,1466,5
3,North,Blackburn,1800,14
4,North,Blackpool,1609,18


In [3]:
mort = df['mortality']

In [4]:
mort_mean = mort.mean()

In [5]:
mort_mean_std = mort.std(ddof=1)/np.sqrt(len(mort))

In [6]:
_tconfint_generic(mort_mean, mort_mean_std, len(mort) - 1, 0.05, 'two-sided')

(1476.0833413552848, 1572.2117406119285)

На данных из предыдущего вопроса постройте 95% доверительный интервал для средней годовой смертности по всем южным городам. Чему равна его верхняя граница? Округлите ответ до 4 знаков после десятичной точки.

In [7]:
df_s = df[df['location'] == 'South']
df_s.head()

Unnamed: 0,location,town,mortality,hardness
0,South,Bath,1247,105
2,South,Birmingham,1466,5
7,South,Bournemouth,1299,78
9,South,Brighton,1359,84
10,South,Bristol,1392,73


In [8]:
mort_s = df_s['mortality']

In [9]:
mort_mean_s = mort_s.mean()

In [10]:
mort_mean_std_s = mort_s.std(ddof=1)/np.sqrt(len(mort_s))

In [11]:
_tconfint_generic(mort_mean_s, mort_mean_std_s, len(mort_s) - 1, 0.05, 'two-sided')

(1320.1517462936238, 1433.463638321761)

На тех же данных постройте 95% доверительный интервал для средней годовой смертности по всем северным городам. Пересекается ли этот интервал с предыдущим? Как вы думаете, какой из этого можно сделать вывод?

In [12]:
df_n = df[df['location'] == 'North']
df_n.head()

Unnamed: 0,location,town,mortality,hardness
1,North,Birkenhead,1668,17
3,North,Blackburn,1800,14
4,North,Blackpool,1609,18
5,North,Bolton,1558,10
6,North,Bootle,1807,15


In [13]:
mort_n = df_n['mortality']

In [14]:
mort_mean_n = mort_n.mean()

In [15]:
mort_mean_std_n = mort_n.std(ddof=1)/np.sqrt(len(mort_n))

In [16]:
_tconfint_generic(mort_mean_n, mort_mean_std_n, len(mort_n) - 1, 0.05, 'two-sided')

(1586.5605251961385, 1680.6394748038613)

На тех же данных постройте 95% доверительный интервал для средней годовой смертности по всем северным городам. Пересекается ли этот интервал с предыдущим? Как вы думаете, какой из этого можно сделать вывод?

In [17]:
hard_n = df_s['hardness']
hard_s = df_n['hardness']

In [18]:
hard_mean_n = hard_n.mean()
hard_mean_s = hard_s.mean()

In [19]:
hard_mean_std_n = hard_n.std(ddof=1)/np.sqrt(len(hard_n))
hard_mean_std_s = hard_s.std(ddof=1)/np.sqrt(len(hard_s))

In [20]:
_tconfint_generic(hard_mean_n, hard_mean_std_n, len(hard_n) - 1, 0.05, 'two-sided')

(53.467198692036106, 86.07126284642544)

In [21]:
_tconfint_generic(hard_mean_s, hard_mean_std_s, len(hard_s) - 1, 0.05, 'two-sided')

(21.42248728572426, 39.37751271427574)

Вспомним формулу доверительного интервала для среднего нормально распределённой случайной величины с дисперсией $σ^{2}$:

$\overline{X}_{n}\pm z_{1-\frac{α}{2}}\frac{σ}{\sqrt{n}}$
 

При $σ=1$
σ=1 какой нужен объём выборки, чтобы на уровне доверия 95% оценить среднее с точностью ±0.1?

In [22]:
n_samples = int(np.ceil((stats.norm.ppf(1-0.05/2) / 0.1)**2))
n_samples

385