## Доверительные интервалы для среднего

Для 61 большого города в Англии и Уэльсе известны средняя годовая смертность на 100000 населения (по данным 1958–1964) и концентрация кальция в питьевой воде (в частях на миллион). Чем выше концентрация кальция, тем жёстче вода. Города дополнительно поделены на северные и южные.

water.txt

In [6]:
import numpy as np
import pandas as pd

from statsmodels.stats.weightstats import _tconfint_generic

In [3]:
df = pd.read_csv('water.txt', sep='\t')
df.head()

Unnamed: 0,location,town,mortality,hardness
0,South,Bath,1247,105
1,North,Birkenhead,1668,17
2,South,Birmingham,1466,5
3,North,Blackburn,1800,14
4,North,Blackpool,1609,18


### Question 2

Постройте 95% доверительный интервал для средней годовой смертности в больших городах. Чему равна его нижняя граница? Округлите ответ до 4 знаков после десятичной точки.

**Будьте осторожны при использовании метода std()!** Дело в том, что у объекта numpy он по умолчанию вычисляется как 
$$\sqrt{\frac1{n}\sum_{i=1}^n\left(X_i-\bar{X}\right)^2}$$

а у объекта pandas — как

$$\sqrt{\frac1{n-1}\sum_{i=1}^n\left(X_i-\bar{X}\right)^2}$$

Нас интересует только второй вариант, несмещённая оценка стандартного отклонения.

Чтобы не думать всё время о том, правильно ли вычисляется в вашем случае std(), можно всегда использовать std(ddof=1) (ddof — difference in degrees of freedom), тогда нормировка всегда будет на n-1.

In [4]:
mortality = df.loc[:, 'mortality']

In [5]:
mortality_std = mortality.std(ddof=1)
mortality_mean = mortality.mean()

In [8]:
confidence_interval = _tconfint_generic(mean = mortality_mean, 
                                        std_mean = mortality_std/np.sqrt(len(mortality)), 
                                        dof = len(mortality) - 1,
                                        alpha=0.05, 
                                        alternative='two-sided')

print "95% confidence interval, mortality - all cities:" , confidence_interval

95% confidence interval, mortality - all cities: (1476.0833413552848, 1572.2117406119285)


In [9]:
print "answer: ", '%.4f'% confidence_interval[0]

answer:  1476.0833


### Question 3

На данных из предыдущего вопроса постройте 95% доверительный интервал для средней годовой смертности по всем южным городам. Чему равна его верхняя граница? Округлите ответ до 4 знаков после десятичной точки.

In [10]:
mortality_south = df.loc[df['location'] == 'South', 'mortality']

In [11]:
mortality_std = mortality_south.std(ddof=1)
mortality_mean = mortality_south.mean()

In [12]:
confidence_interval = _tconfint_generic(mean = mortality_mean, 
                                        std_mean = mortality_std/np.sqrt(len(mortality_south)), 
                                        dof = len(mortality_south) - 1, 
                                        alpha=0.05, 
                                        alternative='two-sided')

print "95% confidence interval, mortality - south cities:", confidence_interval

95% confidence interval, mortality - south cities: (1320.1517462936238, 1433.463638321761)


In [13]:
print "answer: ", '%.4f'% confidence_interval[1]

answer:  1433.4636


### Question 4

На тех же данных постройте 95% доверительный интервал для средней годовой смертности по всем северным городам. Пересекается ли этот интервал с предыдущим? Как вы думаете, какой из этого можно сделать вывод?

In [14]:
mortality_north = df.loc[df['location'] == 'North', 'mortality']

In [15]:
mortality_std = mortality_north.std(ddof=1)
mortality_mean = mortality_north.mean()

In [16]:
confidence_interval = _tconfint_generic(mean = mortality_mean, 
                                        std_mean = mortality_std/np.sqrt(len(mortality_north)), 
                                        dof = len(mortality_north) - 1, 
                                        alpha=0.05, 
                                        alternative='two-sided')

print "95% confidence interval, mortality - north cities:", confidence_interval

95% confidence interval, mortality - north cities: (1586.5605251961385, 1680.6394748038613)


In [17]:
print "answer: Интервалы не пересекаются; видимо, средняя смертность на севере и на юге существенно разная"

answer: Интервалы не пересекаются; видимо, средняя смертность на севере и на юге существенно разная


### Question 5

Пересекаются ли 95% доверительные интервалы для средней жёсткости воды в северных и южных городах?

In [18]:
hardness_south = df.loc[df['location'] == 'South', 'hardness']
hardness_north = df.loc[df['location'] == 'North', 'hardness']

In [19]:
hardness_std = hardness_south.std(ddof=1)
hardness_mean = hardness_south.mean()

confidence_interval = _tconfint_generic(mean = hardness_mean, 
                                        std_mean = hardness_std/np.sqrt(len(hardness_south)), 
                                        dof = len(hardness_south) - 1,
                                        alpha=0.05, 
                                        alternative='two-sided')

print "95% confidence interval, hardness - south cities:", confidence_interval

95% confidence interval, hardness - south cities: (53.467198692036106, 86.071262846425441)


In [20]:
hardness_std = hardness_north.std(ddof=1)
hardness_mean = hardness_north.mean()

confidence_interval = _tconfint_generic(mean = hardness_mean, 
                                        std_mean = hardness_std/np.sqrt(len(hardness_north)), 
                                        dof = len(hardness_north) - 1, 
                                        alpha=0.05, 
                                        alternative='two-sided')

print "95% confidence interval, hardness - north cities:", confidence_interval

95% confidence interval, hardness - north cities: (21.422487285724259, 39.377512714275738)


In [21]:
print "answer: не пересекаются"

answer: не пересекаются
