# 9. Confidence intervals for the mean

In [2]:
import numpy as np
import pandas as pd
import scipy.stats as sps
import matplotlib.pyplot as plt 
from statsmodels.stats.weightstats import _zconfint_generic, _tconfint_generic
import math
%matplotlib inline

### z-интервал

Допустим, нам откуда-то известно, дисперсия $\sigma^2 = 100^2$. Построим доверительные интервалы для средних вида $$\bar{X}_n \pm z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}.$$

**Интервальная оценка для измерения скорости света**

In [3]:
df = pd.read_excel('speed_of_light.xlsx')
mean = 299000 + df.speed.mean()
print("95% доверительный интервал для среднего", _zconfint_generic(mean, 100/math.sqrt(len(df)), 0.05, 'two-sided'))

95% доверительный интервал для среднего (299832.80036015465, 299871.9996398454)


**Интервальная оценка для определения удельной теплоты угля с известной дисперсией $\sigma^2 = 0.1^2$**

In [6]:
df_gross_calorificdaily = pd.DataFrame({'gr_cal': [23.870, 23.730, 23.712, 23.760, 23.640, 23.850, 23.840, 23.860,
                                                   23.940, 23.830, 23.877, 23.700, 23.796, 23.727, 23.778, 23.740,
                                                   23.890, 23.780, 23.678, 23.771, 23.860, 23.690, 23.800]})
mean = df_gross_calorificdaily.gr_cal.mean()
print("95% доверительный интервал для среднего", _zconfint_generic(mean, 0.1/math.sqrt(len(df_gross_calorificdaily)),
                                                                   0.05, 'two-sided'))

95% доверительный интервал для среднего (23.746914534514712, 23.82865068287658)


### t-интервал

Вместо гипотетической теоретической дисперсии $\sigma^2$, которую мы на самом деле в данном случае не знаем, используем выборочные дисперсии, и построим доверительные интервалы вида $$\bar{X}_n \pm t_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}}.$$

**Интервальная оценка для определения удельной теплоты угля с неизвестной дисперсией**

In [7]:
df_gross_calorificdaily = pd.DataFrame({'gr_cal': [30.990, 31.030, 31.060, 30.921, 30.920, 30.990, 31.024, 30.929,
                                                   31.050, 30.991, 31.208, 30.830, 31.330, 30.810, 31.060, 30.800,
                                                   31.091, 31.170, 31.026, 31.020, 30.880, 31.125]})
mean = df_gross_calorificdaily.gr_cal.mean()
std = df_gross_calorificdaily.gr_cal.std()
print("95% доверительный интервал для среднего", _tconfint_generic(mean, std, len(df_gross_calorificdaily) - 1,
                                                                         0.05, 'two-sided'))

95% доверительный интервал для среднего (30.74248973541113, 31.280692082770667)


### Bootstrap

**Интервальная оценка для времени между сбоями**

In [3]:
df_time = pd.read_excel('inter_failure_times.xlsx')
mean = df_time.time.mean()
std = df_time.time.std()

In [4]:
mean

656.8814814814815

In [7]:
n = 1000;
bootstrap_t = []
for _ in range(n):
    bootstrap_time = df_time.sample(len(df_time), replace=True);
    t = (bootstrap_time.time.mean() - mean) * math.sqrt(len(df_time)) / bootstrap_time.time.std();
    bootstrap_t.append(t)

bootstrap_t = pd.DataFrame(bootstrap_t, columns=['time'])
c_l = bootstrap_t.time.quantile(0.05);
c_u = bootstrap_t.time.quantile(0.95);
print(c_l, c_u)
lhs = mean + c_l * std / math.sqrt(len(df_time));
rhs = mean + c_u * std / math.sqrt(len(df_time));

print("90%% доверительный интервал для среднего (%.2f, %.2f)" % (lhs, rhs))

-3.2193951197194246 1.9312384455895528
90% доверительный интервал для среднего (369.47, 829.30)


### Выборки большого объёма

**Наблюдение за распадом полония**

In [18]:
count = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]
frequency = [57, 203, 383, 525, 532, 408, 273, 139, 45, 27, 10, 4, 0, 1, 1]

df_alpha_particle = []
for count, frequency in zip(count, frequency):
    df_alpha_particle.extend([count] * frequency)

In [19]:
mean = np.mean(df_alpha_particle)
std = np.std(df_alpha_particle)
print("95% доверительный интервал для среднего", _zconfint_generic(mean, std/math.sqrt(len(df_alpha_particle)),
                                                                   0.02, 'two-sided'))

95% доверительный интервал для среднего (3.783987262392841, 3.959110897116361)
