### Доверительные интервалы на Python

Управляющий супермаркета хочет оценить, сколько денег покупатели тратят за один поход в супермаркет в среднем. На основании ранее собранных данных известно, что расходы одного покупателя распределены приблизительно нормально. Управляющий взял случайную выборку из 15 покупателей и выяснил, что их средние расходы равны 2000 рублей, а выборочное стандартное отклонение равно 400 рублей.

выражение в формуле доверительного интервала, указанное после знака ± называется пределом погрешности. Предел погрешности можно также найти с помощью Python.

Для случая с известным значением σ предел погрешности и его интервалы 

z(alpha/2) * sigma/sqrt(n)

можно найти, используя функцию confidence_interval_norm():

In [1]:
from scipy.stats import norm
import math

def confidence_interval_norm(alpha, sigma, n, mean):
    value = -norm.ppf(alpha/2)*sigma/math.sqrt(n)
    return mean - value, mean + value

Для случая с sigma неизвестным предел погрешности 

t(alpha/2)(k) * s/sqrt(n)

 находится через confidence_interval_t():

In [2]:
from scipy.stats import t
import math

def confidence_interval_t(alpha, s, n, mean):
    value = t.ppf(alpha/2, n-1)*s/math.sqrt(n)
    return mean - value, mean + value

В обоих случаях:

        первый аргумент функции — уровень значимости alpha;
        второй — выборочное отклонение s или sigma;
        третий — размер выборки n;
        четвертый — среднее значение выборки.


Управляющий хочет посчитать 95 %-ный доверительный интервал для истинного среднего значения расходов одного покупателя. 

In [3]:
alpha = 0.01 #99$
# alpha = 0.05 #95%
# alpha = 0.1 #90%
n = 15
mean = 2000
s = 400

confidence_interval_t(alpha, s, n, mean)

(2307.446995559917, 1692.553004440083)

Данный ответ является пределом погрешности в интервале которого лежит истинное значение

Чиновника интересует сумма подоходного налога, выплачиваемого домохозяйствами за год. На случайной выборке из 250 домохозяйств был посчитан средний размер выплаченного налога, и он составил $3540.  

Также на основании ранее предоставленных данных из налоговой инспекции известно истинное стандартное отклонение величины подоходного налога, равное $1150.
Необходимо найти 99% доверительный интервал для истинного среднего значения налоговых выплат за год.

In [4]:
import numpy as np
mean = 3540
n = 250
sigma = 1150
alpha = 0.01

confidence_interval_norm(alpha, sigma, n, mean)

(3352.6537883505453, 3727.3462116494547)

In [31]:
X = np.array([1.2, 0.2, 1.6, 1.9, -0.4, 0.5, 1.4, 1.7, 2.5, 1.3])
mean = X.mean()
print(mean)
n = len(X)
print(n)
sigma = X.std()
print(sigma)
alpha = 0.05

value1, value2 = confidence_interval_norm(alpha, sigma, n, mean)
print(round(value1, 2))
print(round(value2, 2))

1.19
10
0.8178630692236935
0.68
1.7


In [5]:
import pandas as pd
df = pd.DataFrame({'g':[1.2,0.2,1.6,1.9,-0.4,0.5,1.4,1.7,2.5,1.3]})
alpha = 0.05
sigma = df.std()
n = len(df)
mean = df.mean()
value1, value2 = confidence_interval_t(alpha, sigma, n, mean)
print(round(value1, 2))
print(round(value2, 2))

g    1.81
dtype: float64
g    0.57
dtype: float64


Как найти доверительный интервал для пропорции p?

Помним, что согласно центральной предельной теореме при большой случайной выборке выборочная пропорция распределена приблизительно нормально. Также мы знаем, что если из нормальной величины (в данном случае p) вычесть ее среднее и поделить на стандартное отклонение (в данном случае это корень из p(1-p), поделенного на n), мы получаем стандартную нормальную величину .

Исходя из этого, можем получить формулу доверительного интервала для выборочной пропорции: 

p' ~ N(p, sqrt((p*(1-p))/n))

(p' - p)/sqrt((p*(1-p))/n) ~ Z ~ N(0,1)
 
p = p' +- z*(alpha/2)*sqrt((p'*(1-p'))/n)

#### Находим z-критическое и t-критическое

Найти значение любого z-критического можно самостоятельно в Python, используя функцию norm.ppf(). Импортируем необходимую для этого библиотеку: 

In [6]:
from scipy.stats import norm 

Самый простой способ — найти и получить ответ как = -norm.ppf(α/2).

Например, если уровень доверия 1 - α равен 97 %, значит α/2 = 0.015. Тогда мы найдем z(α/2) как = -norm.ppf(0.015), то есть 2.17.

In [7]:
alpha = 0.03
value = -norm.ppf(alpha/2)
print(value) # 2.17

2.1700903775845606


Функция norm.ppf(x) возвращает значение z крит, левее (ниже) которого лежит доля x левого хвоста стандартного нормального распределения. Выражение norm.ppf(α/2) вернёт - z(α/2), то есть значение z крит, ниже которого α/2 всех значений стандартного нормального распределения. Это число отрицательное, мы берем его со знаком минус, чтобы получить z(α/2).

Также можно находить значения t-критического t(α/2)(k) при помощи функции t.ppf(p, k). Первый аргумент — уровень доверия p=1-α, а второй — количество степеней свободы k, рассчитываемое как n-1.

Например, если нужно построить 95%-ный доверительный интервал для среднего с использованием выборки размером в 100 наблюдений, когда sigma неизвестна, то t(α/2)(k) можно найти через:

In [8]:
# 0.95 - доверительный интервал, 100-1 число степеней свободы
# для двустороннего t-теста
value = t.ppf((1 + 0.95)/2, 100-1)
print(value) # 1.98

1.9842169515086827


Найдите z-критическое для интервала с уровнем доверия 93 %. Укажите с точностью до 2 знаков после разделительной точки.

In [10]:
alpha = 0.07
value = -norm.ppf(alpha/2)
print(round(value,2))

1.81


Найдите критические значения для следующих доверительных интервалов (ответ укажите с точностью до двух знаков после разделительной точки):

1. Доверительный интервал для среднего mu нормально распределённой величины X, на выборке размером n=10, если σ известна, на 99 % уровне доверия

In [14]:
alpha = 0.01
value = -norm.ppf(alpha/2)
print(round(value,2))

2.58


2. Доверительный интервал для среднего mu нормально распределённой величины X, на выборке размером n=10, если неизвестна, на 99% уровне доверия


In [15]:
value = t.ppf((1 + 0.99)/2, 10-1)
print(round(value,2))

3.25


3. Доверительный интервал для среднего mu, на выборке размером n=100, sigma неизвестна, на 95% уровне доверия

In [16]:
value = t.ppf((1 + 0.95)/2, 100-1)
print(round(value,2))

1.98


4. Доверительный интервал для пропорции p, на выборке размером n=100, на 95% уровне доверия 

In [17]:
alpha = 0.05
value = -norm.ppf(alpha/2)
print(round(value,2))

1.96
