### Модуль 3. Доверительные интервалы. Стратифицированные выборки

In [37]:
import numpy as np
import warnings
from scipy import stats
warnings.filterwarnings('ignore')

#### Задача 1

Найдите мат.ожидание и дисперсию смеси из трех нормально распределенных случайных величин.

Параметры смеси:  
w1=0.3; a1=3; σ12=1 

w2=0.6; a2=2; σ22=4 

w3=0.1; a3=5; σ32=0.01 

In [25]:
def stratified_avg(weights, avgs):
    weighted_list = [weight*avg for (weight,avg) in zip(weights, avgs)]
    return np.sum(weighted_list)

def stratified_variance(weights, avgs, variances):
    expected = stratified_avg(weights, avgs)
    weighted_list = [weight*(variance + (avg-expected)**2) for (weight,avg, variance)\
                     in zip(weights, avgs, variances)]
    return np.sum(weighted_list)

w1, w2, w3 = 0.3, 0.6, 0.1
a1, a2, a3 = 3, 2, 5
s12, s22, s32 = 1, 4, 0.01

mu = (w1*a1 + w2*a2 + w3*a3)
print('Мат. ожидание смеси:', mu)
print('Мат. ожидание смеси (stratified_avg):', stratified_avg([0.3, 0.6, 0.1], [3,2,5]))

var = w1*((a1-mu)**2+s12) + w2*((a2-mu)**2+s22) + w3*((a3-mu)**2+s32)
print('Дисперсия смеси:', var)
print('Дисперсия смеси (stratified_variance):', stratified_variance([0.3, 0.6, 0.1], [3,2,5],[1,4,0.01]))

Мат. ожидание смеси: 2.5999999999999996
Мат. ожидание смеси (stratified_avg): 2.5999999999999996
Дисперсия смеси: 3.5409999999999995
Дисперсия смеси (stratified_variance): 3.5409999999999995


#### Задача 2

Предположим, что необходимо оценить число свободных мест в больницах. Все больницы разбили на 2 страты по числу коек-мест. Доля страты 1 составила 40%, страты 2 - 60%.

Из каждой страты были получены выборки числа свободных мест объемом 10 каждая:

страта 1: 282, 226, 188, 327, 344, 304, 414, 224, 335, 270

страта 2: 417,  851,  742, 1217, 1160,  993,  864,  852, 1286,  988

Найдите оценку среднего числа свободных мест в больницах, а также оценку дисперсии числа свободных мест




In [24]:
strat1 = [282, 226, 188, 327, 344, 304, 414, 224, 335, 270]
strat2 = [417,  851,  742, 1217, 1160,  993,  864,  852, 1286,  988]
w1 = 0.4
w2 = 0.6

mean1 = np.mean(strat1)
mean2 = np.mean(strat2)
mean_strat = mean1*w1 + mean2*w2

var1 = np.var(strat1)
var2 = np.var(strat2)
D = (w1 * var1 + w2 * var2) + (w1 * (mean_strat - mean1)**2 + w2 * (mean_strat-mean2)**2)

print('Среднее число свободных мест: ', mean_strat)
print('Оценки дисперсии числа свободных мест:', D)

Среднее число свободных мест:  678.76
Оценки дисперсии числа свободных мест: 136721.6624


#### Задача 3

Генеральная совокупность представляет собой смесь двух распределений: первое составляет 25% исходной генеральной совокупности, имеет дисперсию 4, второе - 75%,  дисперсию 6.25. Какими следует выбрать объемы выборок из данных страт так, чтобы оценка мат.ожидания исходной генеральной совокупности имела наименьшую дисперсию, если общий объем выборки должен равняться 100?

In [36]:
def sample_num(n, weights, variances):
    weighted_sum = np.sum(weight * (variance)**(1/2) for (weight,variance) in zip(weights, variances))
    weighted_list = [n * weight * variance**(1/2) / weighted_sum for (weight,variance) in zip(weights, variances)]
    weighted_int_list = [round(x) for x in weighted_list]
    return weighted_int_list

sample_num(100, [0.25, 0.75], [4, 6.25])

[21, 79]

#### Задача 4

На основе продолжительных наблюдений за весом Х г. пакетов с орешками, заполняемых автоматически, установлено, что среднее квадратическое отклонение веса пакетов равно 10г. Средний вес 100 наудачу выбранных пакетов оказался равным 249 г. Укажите доверительный интервал для среднего веса пакетов, построенный с доверительной вероятностью 0.9. Предполагается, что распределение веса пакетиков подчиняется нормальному закону распределения.

In [49]:
sigma = 10
mean = 249
n = 100
p = 0.9
alpha = 0.1

# Квантили
quart = 1 - alpha/2
u1 =stats.norm.ppf(quart)
u2 = -stats.norm.ppf(quart)

# Левая часть
left = mean - u1
# Правая часть
right = mean + u1
print('Левая часть: {left:.3f}, Правая часть: {right:.3f}'.format(left=left, right=right))

Левая часть: 247.355, Правая часть: 250.645


#### Задача 5

Постройте 95%-доверительный интервал для дисперсии σ2  ошибок измерений, если  предполагается, что ошибки измерений подчиняются нормальному закону с мат.ожиданием a=0 и неизвестной дисперсией σ2. 

In [59]:
listec = [0.55, -0.52, 0.9, -0.91, -0.5, -0.05, -0.06, -0.34, -1.88,\
          -0.53, 0.74, -0.24, -0.5, -0.72, 1.59, 0.97, -0.71, -1.01, 1.79, 0.71]
alfa= 0.05
S2 = sum([x**2 for x in listec])/len(listec)
n = len(listec)

#Квантиль 1-alfa/2
k1 = stats.chi2.ppf((1-alfa/2), (n))
#Квантиль 1-alfa
k2 = stats.chi2.ppf((alfa/2), (n))
#Левая часть
left = (n*S2/k1)
#Правая часть
right = ((n)*S2/k2)

print('Левая граница: {left:.3f}, Правая граница: {right:.3f}'.format(left=left, right=right))

Левая граница: 0.482, Правая граница: 1.718


#### Задача 6

Большая партия изделий может содержать некоторую долю дефектных. Поставщик утверждает, что эта доля составляет 5%, покупатель  предполагает, что доля дефектных изделий равна 10%.

По предложенной выборке постройте 95%-й приближенный доверительный интервал  для доли брака в партии  и ответьте на вопрос: с большей степенью уверенности можно утверждать, что доля брака  в партии больше 5%? (G - доля брака больше 5%, L - в противном случае)

In [55]:
listec = [1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1]

In [57]:
tetta = sum(listec) / len(listec)
S2 = (sum([((x-tetta)**2) for x in listec])/(len(listec)))**(1/2)
alfa = 0.05
n = len(listec)
#Квантиль 1-alfa/2
u1 = stats.norm.ppf((1-alfa/2))
#Квантиль alfa/2
u2 = stats.norm.ppf(alfa/2)
#Левая часть
left = (tetta - u1*S2/n**(1/2))
#Правая часть
right = (tetta + u1*S2/n**(1/2))

print('Левая граница: {left:.3f}, Правая граница: {right:.3f}'.format(left=left, right=right))

Левая граница: 0.139, Правая граница: 0.205
