## Доверительные интервалы <br> Проверка статистических гипотез


In [32]:
import pandas as pd
from statsmodels.stats.weightstats import _tconfint_generic
%matplotlib inline

В файле water.txt представлено 61 наблюдение. Каждое наблюдение – город в 
Англии и Уэльсе. Города дополнительно поделены на северные и южные. Для 
каждого города известны средняя годовая смертность на 100000 населения (по 
данным 1958–1964) и концентрация кальция в питьевой воде (в частях на 
миллион). Чем выше концентрация кальция, тем жёстче вода.

In [33]:
df = pd.read_csv('water.txt', delimiter="	")
df.head()

Unnamed: 0,locatio,tow,mortalit,hardness
0,Sout,Bat,124,105
1,Nort,Birkenhea,166,17
2,Sout,Birmingha,146,5
3,Nort,Blackbur,180,14
4,Nort,Blackpoo,160,18


In [34]:
north_cities_df = df[df['locatio'] == 'Nort']
print("Описательные статистики для северных городов:")
print(north_cities_df.describe())

Описательные статистики для северных городов:
         mortalit   hardness
count   35.000000  35.000000
mean   162.857143  30.400000
std     13.760863  26.134494
min    137.000000   6.000000
25%    155.000000  12.500000
50%    163.000000  17.000000
75%    171.500000  44.000000
max    198.000000  94.000000


In [35]:
south_cities_df = df[df['locatio'] == 'Sout']
print("Описательные статистики для южных городов:")
print(south_cities_df.describe())

Описательные статистики для южных городов:
         mortalit    hardness
count   26.000000   26.000000
mean   137.076923   69.769231
std     14.053962   40.360682
min    109.000000    5.000000
25%    125.250000   40.250000
50%    135.500000   75.500000
75%    148.000000   99.750000
max    162.000000  138.000000


In [36]:
print(f"Средняя смертность в северных городах: {north_cities_df['mortalit'].mean()}")
print(f"Средняя концентрация кальция в северных городах: {north_cities_df['hardness'].mean()}")

Средняя смертность в северных городах: 162.85714285714286
Средняя концентрация кальция в северных городах: 30.4


In [37]:
print(f"Средняя смертность в южных городах: {south_cities_df['mortalit'].mean()}")
print(f"Средняя концентрация кальция в южных городах: {south_cities_df['hardness'].mean()}")

Средняя смертность в южных городах: 137.07692307692307
Средняя концентрация кальция в южных городах: 69.76923076923077


Среднее значение смертности в северных городах выше чем в южных. <br>
Среднее значение концентрации кальция в южных городах выше чем в северных.

Постройте 95% доверительные интервалы для средней годовой смертности по 
всем южным и северным городам. Отличаются ли границы интервалов? 

In [38]:
north_cities_mean = north_cities_df["mortalit"].mean()

north_cities_std = north_cities_df["mortalit"].std()

result = tuple(float(x) for x in _tconfint_generic(north_cities_mean, north_cities_std, north_cities_df.shape[0] - 1, 0.05, "two-sided"))

print(f'95% доверительный интервал для средней смертности в северных городах: {result}')

95% доверительный интервал для средней смертности в северных городах: (134.89170502252813, 190.8225806917576)


In [40]:
south_cities_mean = south_cities_df["mortalit"].mean()

south_cities_std = south_cities_df["mortalit"].std()

result = tuple(float(x) for x in _tconfint_generic(south_cities_mean, south_cities_std, south_cities_df.shape[0] - 1, 0.05, "two-sided"))

print(f'95% доверительный интервал для средней смертности в южных городах: {result}')

95% доверительный интервал для средней смертности в южных городах: (108.1322466467511, 166.02159950709503)


Границы интервалов отличаются.

Постройте 95% доверительные интервалы для средней концентрации кальция в 
питьевой воде для южных и северных городов. Отличаются ли границы 
интервалов? 

In [41]:
north_cities_mean = north_cities_df["hardness"].mean()

north_cities_std = north_cities_df["hardness"].std()

result = tuple(float(x) for x in _tconfint_generic(north_cities_mean, north_cities_std, north_cities_df.shape[0] - 1, 0.05, "two-sided"))

print(f'95% доверительный интервал для средней концентрации кальция в северных городах: {result}')

95% доверительный интервал для средней концентрации кальция в северных городах: (-22.711681471446482, 83.51168147144648)


In [42]:
south_cities_mean = south_cities_df["hardness"].mean()

south_cities_std = south_cities_df["hardness"].std()

result = tuple(float(x) for x in _tconfint_generic(south_cities_mean, south_cities_std, south_cities_df.shape[0] - 1, 0.05, "two-sided"))

print(f'95% доверительный интервал для средней концентрации кальция в южных городах: {result}')

95% доверительный интервал для средней концентрации кальция в южных городах: (-13.355148903600366, 152.8936104420619)


Границы интервалов отличаются.

4) Выводы: <br>
Смертность в северных городах выше чем в южных. <br>
Концентрация кальция в южных городах выше чем в северных.