# Доверительный интервал для среднего

Для 61 большого города в Англии и Уэльсе известны средняя годовая смертность на 100000 населения (по данным 1958–1964) и концентрация кальция в питьевой воде (в частях на миллион). Чем выше концентрация кальция, тем жёстче вода. Города дополнительно поделены на северные и южные.
<br><br>
Необхдимо построить 95% доверительный интервал для средней годовой смертности в больших городах.

In [41]:
import pandas as pd
import numpy as np
from statsmodels.stats.weightstats import _tconfint_generic

In [52]:
data=pd.read_csv('data\water.txt', sep='\t')
n=100000

In [6]:
data.head()

Unnamed: 0,location,town,mortality,hardness
0,South,Bath,1247,105
1,North,Birkenhead,1668,17
2,South,Birmingham,1466,5
3,North,Blackburn,1800,14
4,North,Blackpool,1609,18


Так как математическое ожидание и дисперсия вычисляются эмпирически по выборке, то для построения доверительного интервала нужно использовать функцию __tconfint_generic_.

In [42]:
sample_mean=data.mortality.mean()
sample_std=data.mortality.std(ddof=1)/np.sqrt(data.shape[0])
edges=_tconfint_generic(sample_mean,sample_std,data.shape[0]-1,0.05,'two-sided')

In [43]:
print('95-процентный доверительный интервал для среднегодовой смертности: [%.4f,%.4f]'%edges)

95-процентный доверительный интервал для среднегодовой смертности: [1476.0833,1572.2117]


Теперь построим 95% доверительный интервал для среднегодовой смертности по южным городам.

In [44]:
south_mean=data[data.location=='South'].mortality.mean()
south_std=data[data.location=='South'].mortality.std(ddof=1)/np.sqrt(data[data.location=='South'].shape[0])
south_edges=_tconfint_generic(south_mean,south_std,data[data.location=='South'].shape[0]-1,0.05,'two-sided')

In [45]:
print('95-процентный доверительный интервал для среднегодовой смертности по южным городам: [%.4f,%.4f]'%south_edges)

95-процентный доверительный интервал для среднегодовой смертности по южным городам: [1320.1517,1433.4636]


Теперь проведем анализ для северных городов.

In [46]:
north_mean=data[data.location=='North'].mortality.mean()
north_std=data[data.location=='North'].mortality.std(ddof=1)/np.sqrt(data[data.location=='North'].shape[0])
north_edges=_tconfint_generic(north_mean,north_std,data[data.location=='North'].shape[0]-1,0.05,'two-sided')

In [47]:
print('95-процентный доверительный интервал для среднегодовой смертности по северным городам: [%.4f,%.4f]'%north_edges)

95-процентный доверительный интервал для среднегодовой смертности по северным городам: [1586.5605,1680.6395]


Как видно по результатам, интервалы для южных и северных городов не пересекаются, что позволяет утверждать, что среднегодовая смертность на севере выше, чем на юге.

Проверим, пересекаются ли 95% интервалы для средней жесткости воды по северным и южным городам.

In [48]:
south_water_mean=data[data.location=='South'].hardness.mean()
south_water_std=data[data.location=='South'].hardness.std(ddof=1)/np.sqrt(data[data.location=='South'].shape[0])
south_water_edges=_tconfint_generic(south_water_mean,south_water_std,data[data.location=='South'].shape[0]-1,0.05,'two-sided')
print('95-процентный доверительный интервал для средней жесткости воды по южным городам: [%.4f,%.4f]'%south_water_edges)

95-процентный доверительный интервал для средней жесткости воды по южным городам: [53.4672,86.0713]


In [49]:
north_water_mean=data[data.location=='North'].hardness.mean()
north_water_std=data[data.location=='North'].hardness.std(ddof=1)/np.sqrt(data[data.location=='North'].shape[0])
north_water_edges=_tconfint_generic(north_water_mean,north_water_std,data[data.location=='North'].shape[0]-1,0.05,'two-sided')
print('95-процентный доверительный интервал для средней жесткости воды по северным городам: [%.4f,%.4f]'%north_water_edges)

95-процентный доверительный интервал для средней жесткости воды по северным городам: [21.4225,39.3775]
