# 9. Confidence intervals for the mean

In [1]:
import numpy as np
import pandas as pd
import scipy.stats as sps
import matplotlib.pyplot as plt 
from statsmodels.stats.weightstats import _zconfint_generic, _tconfint_generic
import math
%matplotlib inline

# 1. [# 10] Известно, что разливочная машина наполняет винные бутылки объёмом вина, которое соответствует распределению $N(\mu, \sigma^2)$, при $\sigma$ = 5 (мл). В выборке из 16 бутылок было обнаружено ср.x = 743 (мл). Постройте 95% доверительный интервал для μ.

In [2]:
mean = 743
print("95% доверительный интервал для среднего", _zconfint_generic(mean, 5/math.sqrt(16), 0.05, 'two-sided'))

95% доверительный интервал для среднего (740.5500450193249, 745.4499549806751)


# 2. [# 10] Вам предоставляется набор данных, который можно рассматривать как реализацию обычной случайной выборки. Размер набора данных равен 34, среднее значение равно 3.54, а стандартное отклонение выборки равно 0.13. Постройте 98% доверительный интервал для неизвестного математического ожидания μ.


In [3]:
mean = 3.54
std = 0.13
print("95% доверительный интервал для среднего", _tconfint_generic(mean, std, 5/math.sqrt(34), 0.02, 'two-sided'))

95% доверительный интервал для среднего (-3.6419051512995875, 10.721905151299588)


# 3. [# 25] Во время зимних Олимпийских игр 2002 года в Солт-Лейк-Сити в газетной статье упоминалось о предполагаемом преимуществе конькобежцев в беге на 1500 метров, если они стартуют на внешней дорожке. В беге на 1500 м у мужчин было 24 забега. Данные приведены в таблице speed_skating.xlsx. Состав забега, номер гонки, выбор полосы определяется честной лотереей. Как следствие лотереи и того факта, что на фактическую разницу во времени «внутренняя полоса минус внешняя полоса» влияет множество различных факторов, предположение о нормальном распределении разницы оправдано. Цифры в последнем столбце можно рассматривать как реализацию из $N(\delta, \sigma^2)$, где $\delta$ – ожидаемое преимущество на внешней полосе движения. Постройте 95% доверительный интервал для $\delta$. 
# 2. Постройте 95% доверительный интервал для $\delta$, используя bootstrap.

In [13]:
df = pd.read_excel('speed_skating.xlsx')
mean = df.difference.mean()
std = df.difference.std()
print("95% доверительный интервал для среднего", _tconfint_generic(mean, std, len(df) - 1, 0.05, 'two-sided'))

95% доверительный интервал для среднего (-2.875906466489447, 4.518515162141621)


In [15]:
n = 1000;
bootstrap_d = []
for _ in range(n):
    bootstrap_difference = df.sample(len(df), replace=True);
    t = (bootstrap_difference.difference.mean() - mean) * math.sqrt(len(df)) / bootstrap_difference.difference.std();
    bootstrap_d.append(t)

bootstrap_d = pd.DataFrame(bootstrap_d, columns=['time'])
c_l = bootstrap_d.time.quantile(0.025);
c_u = bootstrap_d.time.quantile(0.975);
print(c_l, c_u)
lhs = mean + c_l * std / math.sqrt(len(df));
rhs = mean + c_u * std / math.sqrt(len(df));

print("95%% доверительный интервал для среднего (%.2f, %.2f)" % (lhs, rhs))

-1.9836619161733566 2.290420462573125
95% доверительный интервал для среднего (0.08, 1.67)


# 4. [# 15] Для количества альфа-частиц постройте 98% доверительный интервал, используя bootstrap.

In [17]:
count = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]
frequency = [57, 203, 383, 525, 532, 408, 273, 139, 45, 27, 10, 4, 0, 1, 1]

df_alpha_particle = []
for c, f in zip(count, frequency):
    df_alpha_particle.extend([c] * f)
    
df_alpha_particle = pd.DataFrame(df_alpha_particle, columns=['alpha'])

mean = df_alpha_particle.alpha.mean()
std = df_alpha_particle.alpha.std()

n = 1000
bootstrap_a = []
for _ in range(n):
    bootstrap_alpha = df_alpha_particle.sample(len(df_alpha_particle), replace=True)
    t = (bootstrap_alpha['alpha'].mean() - mean) * np.sqrt(len(df_alpha_particle)) / bootstrap_alpha['alpha'].std()
    bootstrap_a.append(t)

bootstrap_t = pd.DataFrame(bootstrap_a, columns=['alpha'])
c_l = bootstrap_t['alpha'].quantile(0.01)
c_u = bootstrap_t['alpha'].quantile(0.99)

lhs = mean + c_l * std / math.sqrt(len(df_alpha_particle))
rhs = mean + c_u * std / math.sqrt(len(df_alpha_particle))

print("98%% доверительный интервал для среднего (%.2f, %.2f)" % (lhs, rhs))

98% доверительный интервал для среднего (3.78, 3.95)
