In [104]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as st
import math

plt.style.use('ggplot')

# Часть №1. Доверительный интервал для          математического ожидания

In [105]:
n= 20
mu=5
sigma = 10
x=st.norm.rvs(size=n, loc = mu,scale = sigma)


## Известная дисперсия

Используем нормальное распределение 

In [106]:
x_mean = np.mean(x)
x_var = np.var(x, ddof = 1 ) #исправл дисп

In [107]:
alpha = 0.05



conf_l = x_mean + st.norm.ppf(alpha/2)* sigma /np.sqrt(n)
conf_r = x_mean + st.norm.ppf(1-alpha/2)* sigma /np.sqrt(n)
print('{}% conf interval for E[x1] is [{}, {}]'. format( (1-alpha)* 100,conf_l,conf_r))

95.0% conf interval for E[x1] is [-2.924353471022897, 5.8408719347429185]


## Неизвестная дисперсия


Используем t - распределение Стьюдента

In [108]:
sigma_est = np.sqrt(x_var)

t_conf_l= x_mean + st.t.ppf(alpha/2, df= n-1)* sigma_est /np.sqrt(n)
t_conf_r= x_mean + st.t.ppf(1-alpha/2, df= n-1)* sigma_est /np.sqrt(n)

print('{}% t - conf interval for E[x1] is [{}, {}]'. format( (1-alpha)* 100,t_conf_l,t_conf_r))

95.0% t - conf interval for E[x1] is [-2.7514981003753345, 5.668016564095356]


# Часть №2. Доверительный интервал для           дисперсии

По лемме Фишера знаем, что

$$\frac{\hat{\sigma^2}}{\sigma^2}(n-1) \sim \chi^2_{n-1}$$

In [109]:
alpha = 0.05 


sigma_conf_l = x_var * (n-1) / st.chi2.ppf(1- alpha/2, df= n-1)
sigma_conf_r = x_var * (n-1) / st.chi2.ppf(alpha/2, df= n-1)
print('{}% t - conf interval for D[x1] is [{}, {}]'. format( (1-alpha)* 100,sigma_conf_l,sigma_conf_r))

95.0% t - conf interval for D[x1] is [46.793243154613954, 172.60024411841079]


# Часть №3. Эксперименты с доверительными интервалами

In [110]:
# Сгенерируем m выборок и посмотрим долю случаев,
# когда истинное значение параметра mu попадает
# в реализацию (1-a)*100 доверительного интервала
# при неизвестной дисперсии

In [111]:
print('{}% t - conf interval for E[x1] is [{}, {}]'. format( (1-alpha)* 100,t_conf_l,t_conf_r))

95.0% t - conf interval for E[x1] is [-2.7514981003753345, 5.668016564095356]


In [112]:
m = 1000

x_vec = [st.norm.rvs(size= n,loc = mu,scale = sigma) for i in range(m)]
cnt = 0

for i in range(m):
    x_i_mean = np.mean(x_vec[i])
    x_i_var = np.var(x_vec[i],ddof=1)
    
    t_left= st.t.ppf(alpha/2, df= n-1)
    t_right= st.t.ppf(1-alpha/2, df=n-1)
    
    conf_l= x_i_mean + t_left * np.sqrt(x_i_var) / np.sqrt(n)
    conf_r= x_i_mean + t_right * np.sqrt(x_i_var) / np.sqrt(n)
    
    #print([conf_l,x_i_mean, conf_r])
    if conf_l <= mu <= conf_r :
        cnt = cnt+1
    
print(cnt/m)


0.95


Видим, что в среднем такин интервалы накрывают истиннрое значение матож с частотой равной уровеню доверия

# Часть №4. Доверительный интервал для          разности математических ожиданий

In [113]:
n_x = 20
n_y = 30
mu_x = 5
mu_y = 10
sigma_x = 2
sigma_y = 2


x= st.norm.rvs(size = n_x,loc= mu_x,scale = sigma_x)
y= st.norm.rvs(size = n_y,loc= mu_y,scale = sigma_y)

In [114]:
x_mean = np.mean(x)
y_mean = np.mean(y)
x_var = np.var(x,ddof=1)
y_var = np.var(y,ddof=1)

Построим 95% дов интервал для разницы матож

Дисперсии известны

In [115]:
alpha = 0.05
conf_l = (x_mean - y_mean) + st.norm.ppf(alpha/2)*np.sqrt( (sigma_x**2) /n_x + (sigma_y**2) /n_y)
conf_r = (x_mean - y_mean) + st.norm.ppf(1-alpha/2)*np.sqrt( (sigma_x**2) /n_x + (sigma_y**2) /n_y)
print('{}% z - conf interval for mu_x - mu_y is [{}, {}]'. format( (1-alpha)* 100,conf_l,conf_r))

95.0% z - conf interval for mu_x - mu_y is [-6.453063209714108, -4.189891741561763]


In [116]:
print('mu_x - mu_y = ', mu_x - mu_y)

mu_x - mu_y =  -5


Дисперсии неизвестны, но равны

In [117]:
alpha = 0.05

sigma_0 = np.sqrt(((n_x-1)*x_var +(n_y-1)*y_var)  / (n_x + n_y -2))

conf_l = (x_mean - y_mean) + \
            st.t.ppf(alpha/2, df = n_x + n_y - 2)* \
                sigma_0 * np.sqrt(1/n_x + 1/n_y)
conf_r = (x_mean - y_mean) + \
                st.t.ppf(1-alpha/2, df= n_x + n_y - 2)*  \
                    sigma_0 * np.sqrt(1/n_x + 1/n_y)
print('{}% t - conf interval for mu_x - mu_y is [{}, {}]'. format( (1-alpha)* 100,conf_l,conf_r))

95.0% t - conf interval for mu_x - mu_y is [-6.750498441390954, -3.8924565098849166]


## Дисперсии неизвестны и не равны 


In [118]:

n_x = 20
n_y = 30
mu_x = 5
mu_y = 10
sigma_x = 4
sigma_y = 2


x= st.norm.rvs(size = n_x,loc= mu_x,scale = sigma_x)
y= st.norm.rvs(size = n_y,loc= mu_y,scale = sigma_y)

In [119]:
x_mean = np.mean(x)
y_mean = np.mean(y)
x_var = np.var(x,ddof=1)
y_var = np.var(y,ddof=1)

In [120]:
alpha = 0.05

alpha = 0.05
conf_l = (x_mean - y_mean) + st.t.ppf(alpha/2, df = n_x + n_y - 2)*np.sqrt( (x_var) /n_x + (y_var) /n_y)
conf_r = (x_mean - y_mean) + st.t.ppf(1-alpha/2, df = n_x + n_y - 2)*np.sqrt( (x_var**2) /n_x + (y_var) /n_y)
print('{}% chi2-conf interval for mu_x - mu_y is [{}, {}]'. format( (1-alpha)* 100,conf_l,conf_r))

95.0% chi2-conf interval for mu_x - mu_y is [-7.06921321554819, -1.3106043998414352]


Проверим такой метод на большом числе наблюдений

In [121]:
m = 10000

x_vec = [st.norm.rvs(size= n_x,loc = mu_x,scale = sigma_x) for i in range(m)]
y_vec = [st.norm.rvs(size= n_y,loc = mu_y,scale = sigma_y) for i in range(m)]

cnt = 0

for i in range(m):
    x_i_mean = np.mean(x_vec[i])
    x_i_var = np.var(x_vec[i],ddof=1)
    y_i_mean = np.mean(y_vec[i])
    y_i_var = np.var(y_vec[i],ddof=1)
    
    
    
    t_left= st.t.ppf(alpha/2, df= n_x+n_y-2)
    t_right= st.t.ppf(1-alpha/2, df=n_x+n_y-2)
    
    conf_l= (x_i_mean- y_i_mean)+ t_left * \
                    np.sqrt( (x_var) /n_x + (y_var) /n_y)
    conf_r=  (x_i_mean- y_i_mean) + t_right * \
                    np.sqrt( (x_var) /n_x + (y_var) /n_y)
    #print([conf_l,x_i_mean, conf_r])
    if conf_l <= mu_x-mu_y <= conf_r :
        cnt = cnt+1
    
print(cnt/m)


0.8873


Видим, что резульатт неудовлетворителен  
Доля испытаний, в которых доверительный интервал накрыл разность матожиданий далека от уровня доверия

# Часть №5. Доверительный интервал для           отношения дисперсий

Известно, что

$$\gamma = \frac{\hat{\sigma^2_x}}{\sigma^2_x} :  \frac{\hat{\sigma^2_y}}{\sigma^2_y}   \sim F_{n_x-1, {n_y-1}}$$

In [122]:
gamma = x_var / x_var

F_lower = st.f.ppf(alpha / 2, dfn = n_y - 1, dfd = n_x - 1)
F_upper = st.f.ppf(1-alpha / 2, dfn = n_y - 1, dfd = n_x - 1)

conf_l = x_var / y_var * F_lower
conf_r = x_var / y_var * F_upper

print('{}% F - conf interval for sigma_x / sigma/y is [{}, {}]'. format( (1-alpha)* 100,conf_l,conf_r))

95.0% F - conf interval for sigma_x / sigma/y is [1.126908263084553, 6.039542976349904]


In [123]:
print('sigma_x / sigma_y = ', sigma_x / sigma_y)

sigma_x / sigma_y =  2.0


# Задания

## Задание 1 

In [124]:
# 1. Имеется реализация выборки (1, 2, 5, 3, 0, -2) из
#    нормального распределения с математическим ожиданием 3
#    и дисперсией 2. Найдите реализацию 80%-го доверительного
#    интервала для:
#    1)     математического ожидания при известной дисперсии
#    2)     математического ожидания при неизвестной дисперсии
#    3)     дисперсии

In [125]:
x = [1, 2, 5, 3, 0, -2]

mu_x = 3
sigma_x = np.sqrt(2)
sigma_est = np.sqrt(np.var(x, ddof= 1))

alpha = 0.2

In [126]:
conf_l = np.mean(x) + st.norm.ppf(alpha/2)*sigma_x/np.sqrt(len(x))
conf_r = np.mean(x) + st.norm.ppf(1-alpha/2)*sigma_x/np.sqrt(len(x))

print('{}% z-интервал для mu [{} {}]'.format((1-alpha)*100, conf_l,conf_r))

80.0% z-интервал для mu [0.7600958586524386 2.2399041413475613]


In [127]:
conf_l = np.mean(x) + st.t.ppf(alpha/2, df = len(x) - 1)*sigma_est/np.sqrt(len(x))
conf_r = np.mean(x) + st.t.ppf(1-alpha/2,df = len(x) - 1)*sigma_est/np.sqrt(len(x))

print('{}% t-интервал для mu [{} {}]'.format((1-alpha)*100, conf_l,conf_r))

80.0% t-интервал для mu [0.036466662482512735 2.9635333375174877]


In [128]:

sigma_conf_l = (sigma_est**2) * (len(x)-1) / st.chi2.ppf(1- alpha/2, df= len(x)-1)
sigma_conf_r = (sigma_est**2) * (len(x)-1) / st.chi2.ppf(alpha/2, df= len(x)-1)
print('{}% chi2-conf interval for D[x1] is [{}, {}]'. format( (1-alpha)* 100,sigma_conf_l,sigma_conf_r))

80.0% chi2-conf interval for D[x1] is [3.1938999672802884, 18.319476919225032]


-2 в выборке - это нетипичное значение, оно не попадает в интерал +- 3 сигмы от матожидания, поэтому доверительные интерваты получились плохие  
Если такое значение из выборки убрать, то ДИ накроют параметры

## Задание 2

In [129]:
# 2. Напишите функции, позволяющие рассчитывать, для
#    выборок из нормального распределения, доверительные
#    интервалы заданного уровня для:
#    1)     математического ожидания при известной дисперсии
#    2)     математического ожидания при неизвестной дисперсии
#    3)     дисперсии

In [130]:
def z_conf(x, sigma_x,alpha = 0.05):
    conf_l = np.mean(x) + st.norm.ppf(alpha/2)*sigma_x/np.sqrt(len(x))
    conf_r = np.mean(x) + st.norm.ppf(1-alpha/2)*sigma_x/np.sqrt(len(x))

    print('{}% z-интервал для mu [{} {}]'.format((1-alpha)*100, conf_l,conf_r))

In [131]:
def t_conf(x, alpha = 0.05):
    sigma_est= np.sqrt(np.var(x,ddof=1))
    conf_l = np.mean(x) + st.t.ppf(alpha/2, df = len(x) - 1)*sigma_est/np.sqrt(len(x))
    conf_r = np.mean(x) + st.t.ppf(1-alpha/2,df = len(x) - 1)*sigma_est/np.sqrt(len(x))

    print('{}% t-интервал для mu [{} {}]'.format((1-alpha)*100, conf_l,conf_r))

In [132]:
def var_conf(x, alpha = 0.05):
    sigma_est= np.sqrt(np.var(x,ddof=1))
    sigma_conf_l = (sigma_est**2) * (len(x)-1) / st.chi2.ppf(1- alpha/2, df= len(x)-1)
    sigma_conf_r = (sigma_est**2) * (len(x)-1) / st.chi2.ppf(alpha/2, df= len(x)-1)
    print('{}% chi2-conf interval for D[x1] is [{}, {}]'. format( (1-alpha)* 100,sigma_conf_l,sigma_conf_r))

In [133]:
## Задание 3

In [134]:
z_conf(x,sigma_x,alpha)
t_conf(x,alpha)
var_conf(x,alpha)

80.0% z-интервал для mu [0.7600958586524386 2.2399041413475613]
80.0% t-интервал для mu [0.036466662482512735 2.9635333375174877]
80.0% chi2-conf interval for D[x1] is [3.1938999672802884, 18.319476919225032]


## Задание 4

In [None]:
# 4. Имеется реализация выборки (1, 2, 5, 3, 0, -2) из
#    нормального распределения с математическим ожиданием 3
#    и дисперсией 5. Кроме того, имеется реализация другой
#    выборки (-2, 0, 3, 8, 1) с математическим ожиданием 2
#    и дисперсей 5. Найдите реализации 80%-х доверительных
#    интервалов для:
#    1)     разницы математических ожиданий при известных дисперсиях
#    2)     разницы математических ожиданий при неизвестных,
#           но равных дисперсиях

In [141]:
x =[1, 2, 5, 3, 0, -2]
y= [-2, 0, 3, 8, 1]

n_x = len(x)
n_y = len(y)

mu_x = 3
sigma_x = np.sqrt(5)
mu_y = 2
sigma_y = np.sqrt(5)
alpha=0.2

In [142]:
mean_x = np.mean(x)
mean_y = np.mean(y)
sigma_x_est = np.sqrt(np.var(x,ddof =1 ))
sigma_y_est = np.sqrt(np.var(y,ddof =1 ))


In [146]:
conf_l = (mean_x - mean_y) + st.norm.ppf(alpha/2)*np.sqrt( (sigma_x**2) /n_x + (sigma_y**2) /n_y)
conf_r = (mean_x - mean_y) + st.norm.ppf(1-alpha/2)*np.sqrt( (sigma_x**2) /n_x + (sigma_y**2) /n_y)
print('{}% z-conf interval for mu_x-mu_y is [{}, {}]'. format( (1-alpha)* 100,conf_l,conf_r))

80.0% z-conf interval for mu_x-mu_y is [-2.235229022667612, 1.2352290226676124]


In [147]:


sigma_0 = np.sqrt(((n_x-1)*(sigma_x_est**2) +(n_y-1)*(sigma_y_est**2))  / (n_x + n_y -2))

conf_l = (mean_x - mean_y) + \
            st.t.ppf(alpha/2, df = n_x + n_y - 2)* \
                sigma_0 * np.sqrt(1/n_x + 1/n_y)
conf_r = (mean_x - mean_y) + \
                st.t.ppf(1-alpha/2, df= n_x + n_y - 2)*  \
                    sigma_0 * np.sqrt(1/n_x + 1/n_y)
print('{}% t - conf interval for mu_x - mu_y is [{}, {}]'. format( (1-alpha)* 100,conf_l,conf_r))

80.0% t - conf interval for mu_x - mu_y is [-3.1112574470644985, 2.1112574470644985]


## Задание 5

In [149]:
# 5. Имеется реализации выборок (1, 2, 5, 3, 0, -2) и
#    (-2, 0, 3, 8, 1). Найдите реализацию 80%-го доверительного
#    интервала для отношения дисперсий.

In [150]:
gamma = sigma_x_est**2 / sigma_y_est**2

F_lower = st.f.ppf(alpha / 2, dfn = n_y - 1, dfd = n_x - 1)
F_upper = st.f.ppf(1-alpha / 2, dfn = n_y - 1, dfd = n_x - 1)

conf_l =  sigma_x_est**2 / sigma_y_est**2 * F_lower
conf_r =  sigma_x_est**2 / sigma_y_est**2 * F_upper

print('{}% F - conf interval for sigma_x / sigma/y is [{}, {}]'. format( (1-alpha)* 100,conf_l,conf_r))

80.0% F - conf interval for sigma_x / sigma/y is [0.10045392147494862, 1.4323557137000922]


## Задание 6

In [152]:
# 6. Повторите задания №4 и №5 используя самостоятельно
#    запрограммированные для общего случая функции, то
#    есть по аналогии с заданием №2

In [156]:
def z_conf_diff(x,y,sigma_x,sigma_y,alpha):
    n_x = len(x)
    n_y = len(y)
    
    mean_x = np.mean(x)
    mean_y = np.mean(y)
    sigma_x_est = np.sqrt(np.var(x,ddof =1 ))
    sigma_y_est = np.sqrt(np.var(y,ddof =1 ))
    conf_l = (mean_x - mean_y) + st.norm.ppf(alpha/2)*np.sqrt( (sigma_x**2) /n_x + (sigma_y**2) /n_y)
    conf_r = (mean_x - mean_y) + st.norm.ppf(1-alpha/2)*np.sqrt( (sigma_x**2) /n_x + (sigma_y**2) /n_y)
    print('{}% z-conf interval for mu_x-mu_y is [{}, {}]'. format( (1-alpha)* 100,conf_l,conf_r))

In [157]:
def t_conf_diff(x,y,alpha):
    n_x = len(x)
    n_y = len(y)
    
    mean_x = np.mean(x)
    mean_y = np.mean(y)
    sigma_x_est = np.sqrt(np.var(x,ddof =1 ))
    sigma_y_est = np.sqrt(np.var(y,ddof =1 ))
    

    sigma_0 = np.sqrt(((n_x-1)*(sigma_x_est**2) +(n_y-1)*(sigma_y_est**2))  / (n_x + n_y -2))

    conf_l = (mean_x - mean_y) + \
                st.t.ppf(alpha/2, df = n_x + n_y - 2)* \
                    sigma_0 * np.sqrt(1/n_x + 1/n_y)
    conf_r = (mean_x - mean_y) + \
                    st.t.ppf(1-alpha/2, df= n_x + n_y - 2)*  \
                        sigma_0 * np.sqrt(1/n_x + 1/n_y)
    print('{}% t - conf interval for mu_x - mu_y is [{}, {}]'. format( (1-alpha)* 100,conf_l,conf_r))

In [158]:
def z_conf_disp(x,y,alpha):
    n_x = len(x)
    n_y = len(y)
    
    mean_x = np.mean(x)
    mean_y = np.mean(y)
    sigma_x_est = np.sqrt(np.var(x,ddof =1 ))
    sigma_y_est = np.sqrt(np.var(y,ddof =1 ))
    gamma = sigma_x_est**2 / sigma_y_est**2

    F_lower = st.f.ppf(alpha / 2, dfn = n_y - 1, dfd = n_x - 1)
    F_upper = st.f.ppf(1-alpha / 2, dfn = n_y - 1, dfd = n_x - 1)

    conf_l =  sigma_x_est**2 / sigma_y_est**2 * F_lower
    conf_r =  sigma_x_est**2 / sigma_y_est**2 * F_upper

    print('{}% F - conf interval for sigma_x / sigma/y is [{}, {}]'. format( (1-alpha)* 100,conf_l,conf_r))

In [160]:
z_conf_diff(x,y,sigma_x,sigma_y,alpha)
t_conf_diff(x,y,alpha)
z_conf_disp(x,y,alpha)

80.0% z-conf interval for mu_x-mu_y is [-2.235229022667612, 1.2352290226676124]
80.0% t - conf interval for mu_x - mu_y is [-3.1112574470644985, 2.1112574470644985]
80.0% F - conf interval for sigma_x / sigma/y is [0.10045392147494862, 1.4323557137000922]
