In [1]:
# Мы уже знаем, что имея выборку, мы можем посчитать следующие показатели:
# ● выборочное среднее (меру ожидаемого, типичного значения );
# ● выборочное стандартное отклонение (меру разброса между значениями );
# ● выборочную пропорцию (долю объектов или субъектов в выборке с определенным свойством, 
# например, долю покупателей, предпочитающих определенную модель машины).
# Однако эти оценки не являются нашим основным предметом интереса. 

# На самом деле нас интересуют параметры генеральной совокупности: 
#    ● истинное среднее μ («мю»), 
#    ● истинное стандартное отклонение σ («сигма») и 
#    ● истинная пропорция P.

import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from itertools import combinations
from scipy.stats import ttest_ind
from collections import Counter
from scipy.stats import norm
import matplotlib.pyplot as plt

# 3.4
# Аккумуляторный завод производит батарейки, срок службы которых имеет стандартное отклонение 2.4 месяца. 
# Средний срок службы батареек в случайной выборке из 64 штук составил 12.35 месяца. 
# Необходимо построить 90 %-ный доверительный интервал для истинного среднего срока службы производимой 
# батарейки и ответить на вопросы заданий ниже.

# 1.96 is used because the 95% confidence interval has only 2.5% on each side. 
# The probability for a 𝑧 score below −1.96 is 2.5%, and similarly for a 𝑧 score above +1.96; 
# added together this is 5%. 1.64 would be correct for a 90% confidence interval, 
# as the two sides (5% each) add up to 10%.

minu = 12.35 - 1.65 * 2.4 / math.sqrt(64)
maxu = 12.35 + 1.65 * 2.4 / math.sqrt(64)
print(str(round(minu,3)) + " - " + str(round(maxu,3)))

11.855 - 12.845


In [2]:
# 3.7
# Управляющий супермаркета хочет оценить, сколько денег покупатели тратят за один поход в супермаркет в среднем.
# На основании ранее собранных данных известно, что расходы одного покупателя распределены 
# приблизительно нормально. Управляющий взял случайную выборку из 15 покупателей и выяснил, 
# что их средние расходы равны  рублей, а выборочное стандартное отклонение равно  рублей.


In [3]:
from scipy.stats import norm
from scipy.stats import t
import math

# В обоих случаях:

# ● первый аргумент функции — уровень значимости alpha;
# ● второй — выборочное отклонение s или sigma ;
# ● третий — размер выборки n;
# ● четвертый — среднее значение выборки.

def confidence_interval_norm(alpha, sigma, n, mean):
    value = -norm.ppf(alpha / 2) * sigma / math.sqrt(n)
    return round(mean - value), round(mean + value)

def confidence_interval_t(alpha, s, n, mean):
    value = t.ppf(alpha / 2, n - 1) * s / math.sqrt(n)
    return mean - value, mean + value

def confidence_interval_t_round(alpha, s, n, mean):
    value = t.ppf(alpha / 2, n - 1) * s / math.sqrt(n)
    return round(mean - value), round(mean + value)

In [4]:
# 3.7.4
# confidence level, alpha (level of significance) 90% - 0.1, 95% - 0.05, 99% - 0.01
# confidence level, Z * alpha / 2 - 90% - 1.645, 95% - 1.96, 99% - 2.575
print(confidence_interval_t_round(0.1,  400, 15, 2000))
print(confidence_interval_t_round(0.05, 400, 15, 2000))
print(confidence_interval_t_round(0.01, 400, 15, 2000))

(2182.0, 1818.0)
(2222.0, 1778.0)
(2307.0, 1693.0)


In [5]:
# 3.7.7
print(confidence_interval_norm(0.01, 1150, 250, 3540))

(3353.0, 3727.0)


In [9]:
# 3.7.8
x = np.array([1.2, 0.2, 1.6, 1.9, -0.4, 0.5, 1.4, 1.7, 2.5, 1.3])
m = x.mean() 
s = np.std(x, ddof=1)
print("m - {m}, s - {s}".format(x = x, m = m, s = s))
u = confidence_interval_t(0.05, s, 10, m)
print(round(u[0],2), round(u[1], 2))

m - 1.19, s - 0.8621033709609435
1.81 0.57


In [13]:
# 3.8.1
# 189 / 100 = 132 / x
x = 132 * 100 / 189
print(round(x/100,3))

0.698


In [15]:
# 3.8.2
umax = 0.698 + 1.65 * math.sqrt(0.698 * (1 - 0.698)/189)
umin = 0.698 - 1.65 * math.sqrt(0.698 * (1 - 0.698)/189)
print(round(umax,3), round(umin, 3))

0.753 0.643


In [17]:
# 3.9.1
alpha = 0.07
value = -norm.ppf(alpha/2)
print(round(value, 2)) 

1.81


In [20]:
# 3.9.2.1
# Доверительный интервал для среднего u нормально распределённой величины X, на выборке размером n = 10, 
# если sigma известна, на 99% уровне доверия
alpha = 0.01
value = -norm.ppf(alpha/2)
print(round(value, 2))

2.575829303548901


In [22]:
# 3.9.2.2
# Доверительный интервал для среднего u нормально распределённой величины X, на выборке размером n = 10, 
# если sigma неизвестна, на 99% уровне доверия
value = t.ppf((1 + 0.99)/ 2, 10-1)
print(round(value, 2)) 

3.25


In [25]:
# 3.9.2.3
# Доверительный интервал для среднего u, на выборке размером n = 100, sigma неизвестна, на 95% уровне доверия
value = t.ppf((1 + 0.95)/ 2, 100 - 1)
print(round(value, 2)) 

1.98


In [33]:
# 3.9.2.4
# Доверительный интервал для пропорции p, на выборке размером n = 100, на 95% уровне доверия
alpha = 0.05
value = -norm.ppf(alpha/2)
print(round(value, 2))

-100.96
1.96
