# Practice

## Доверительные интервалы для среднего

In [1]:
import pandas as pd
import numpy as np

## Task 2 

Для 61 большого города в Англии и Уэльсе известны средняя годовая смертность на 100000 населения (по данным 1958–1964) и концентрация кальция в питьевой воде (в частях на миллион). Чем выше концентрация кальция, тем жёстче вода. Города дополнительно поделены на северные и южные.

Постройте 95% доверительный интервал для средней годовой смертности в больших городах. Чему равна его нижняя граница? Округлите ответ до 4 знаков после десятичной точки.

In [3]:
data = pd.read_csv('water.txt', sep = '\t')
data.head()

Unnamed: 0,location,town,mortality,hardness
0,South,Bath,1247,105
1,North,Birkenhead,1668,17
2,South,Birmingham,1466,5
3,North,Blackburn,1800,14
4,North,Blackpool,1609,18


In [12]:
mortality_mean = data['mortality'].mean()
mortality_std_mean = data['mortality'].std(ddof=1)/np.sqrt(data.shape[0])

print('Mortality Mean = {}\nMortality Mean STD = {}'.format(round(mortality_mean, 2), round(mortality_std_mean, 2)))

Mortality Mean = 1524.15
Mortality Mean STD = 24.03


**t-интервал**

$$\bar{X}_n \pm t_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}}$$

In [22]:
from statsmodels.stats.weightstats import _tconfint_generic

t_int = _tconfint_generic(mortality_mean, mortality_std_mean, data.shape[0] - 1, 0.05, 'two-sided')

print ("Mortality Mean 95% confidence interval is", t_int)

print('The answer is', round(t_int[0], 4))

Mortality Mean 95% confidence interval is (1476.0833413552848, 1572.2117406119285)
The answer is 1476.0833


### Task 3 

На данных из предыдущего вопроса постройте 95% доверительный интервал для средней годовой смертности по всем южным городам. Чему равна его верхняя граница? Округлите ответ до 4 знаков после десятичной точки.

In [29]:
south_mort = data[(data['location'] == 'South')]['mortality']

south_t_int = _tconfint_generic(south_mort.mean(), 
                                south_mort.std(ddof=1)/np.sqrt(len(south_mort)), 
                                len(south_mort) - 1, 0.05, 'two-sided')

print('The answer is', round(south_t_int[1], 4))

The answer is 1433.4636


### Task 4

На тех же данных постройте 95% доверительный интервал для средней годовой смертности по всем северным городам. Пересекается ли этот интервал с предыдущим? Как вы думаете, какой из этого можно сделать вывод?

In [32]:
north_mort = data[(data['location'] == 'North')]['mortality']

north_t_int = _tconfint_generic(north_mort.mean(), 
                                north_mort.std(ddof=1)/np.sqrt(len(north_mort)), 
                                len(north_mort) - 1, 0.05, 'two-sided')

In [33]:
print('Mortality in South Regions: {}\nMortality in North Regions: {}'.format(south_t_int, north_t_int))

Mortality in South Regions: (1320.1517462936238, 1433.463638321761)
Mortality in North Regions: (1586.5605251961385, 1680.6394748038613)


### Task 5

Пересекаются ли 95% доверительные интервалы для средней жёсткости воды в северных и южных городах?

In [34]:
def int_calc(x):
    return _tconfint_generic(x.mean(), 
                                x.std(ddof=1)/np.sqrt(len(x)), 
                                len(x) - 1, 0.05, 'two-sided')

In [35]:
south_water = data[(data['location'] == 'South')]['hardness']
north_water = data[(data['location'] == 'North')]['hardness']

print('Hardness in South Regions: {}\nHardness in North Regions: {}'.format(int_calc(south_water), int_calc(north_water)))

Hardness in South Regions: (53.467198692036106, 86.071262846425441)
Hardness in North Regions: (21.422487285724259, 39.377512714275738)


### Task 6

Вспомним формулу доверительного интервала для среднего нормально распределённой случайной величины с дисперсией $\sigma^2$:

$$\bar{X}_n \pm z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}$$

При $\sigma$ = 1 какой нужен объём выборки, чтобы на уровне доверия 95% оценить среднее с точностью ±0.1?

In [40]:
from scipy import stats

print('Answer is', np.ceil((stats.norm.ppf(1-0.05/2) / 0.1)**2))

Answer is 385.0


## Доверительные интервалы для долей

### Task 2-3

Большая часть млекопитающих неспособны во взрослом возрасте переваривать лактозу, содержащуюся в молоке. У людей за расщепление лактозы отвечает фермент лактаза, кодируемый геном LCT. У людей с вариантом 13910T этого гена лактаза продолжает функционировать на протяжении всей жизни. Распределение этого варианта гена сильно варьируется в различных генетических популяциях.

Из 50 исследованных представителей народа майя вариант 13910T был обнаружен у одного. Постройте нормальный 95% доверительный интервал для доли носителей варианта 13910T в популяции майя. Чему равна его нижняя граница? Округлите ответ до 4 знаков после десятичной точки.

In [41]:
from statsmodels.stats.proportion import proportion_confint

In [57]:
print('Normal Lowest Boundary is', round(proportion_confint(1, 50, alpha = .05, method = 'normal')[0], 4))
print('Wilson Lowest Boundary is', round(proportion_confint(1, 50, alpha = .05, method = 'wilson')[0], 4))

Normal Lowest Boundary is -0.0188
Wilson Lowest Boundary is 0.0035


### Task 6

Пусть в популяции майя действительно 2% носителей варианта 13910T, как в выборке, которую мы исследовали. Какой объём выборки нужен, чтобы с помощью нормального интервала оценить долю носителей гена 13910T с точностью ±0.01 на уровне доверия 95%?

In [48]:
from statsmodels.stats.proportion import samplesize_confint_proportion

In [51]:
print('Sample Size Needed is', np.ceil(samplesize_confint_proportion(.02, 0.01)))

Sample Size Needed is 753.0
