# STAT&BASIC-2. Доверительные интервалы

Для случая с известным значением σ предел погрешности и его интервалы 

$ z(\frac{\alpha }{2})\times\frac{\sigma }{\sqrt{n}} $

можно найти, используя функцию `confidence_interval_norm()`

In [3]:
from scipy.stats import norm
import math

def confidence_interval_norm(alpha, sigma, n, mean):
    value = -norm.ppf(alpha / 2) * sigma / math.sqrt(n)
    return mean - value, mean + value

Для случая с неизвестным $\sigma$ предел погрешности

$ t(\frac{\alpha }{2})(k)\times\frac{s }{\sqrt{n}} $

находится через `confidence_interval_t()`

In [36]:
from scipy.stats import t
import math

def confidence_interval_t(alpha, s, n, mean):
    value = t.ppf(alpha / 2, n - 1) * s / math.sqrt(n)
    return mean - value, mean + value

В обоих случаях:

- первый аргумент функции — уровень значимости $\alpha$;
- второй — выборочное отклонение $s$ или $\sigma$;
- третий — размер выборки $n$;
- четвертый — среднее значение выборки.

Выборочное отклонение $s$ считается по формуле

$ \sqrt{ \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 } $

где $ \bar{x} $ обозначает **выборочное среднее**, $n$ - размер выборки

## Задача №1

Управляющий супермаркета хочет оценить, сколько денег покупатели тратят за один поход в супермаркет в среднем. На основании ранее собранных данных известно, что расходы одного покупателя распределены приблизительно нормально. Управляющий взял случайную выборку из 15 покупателей и выяснил, что их средние расходы равны $2000$ рублей, а выборочное стандартное отклонение равно $400$ рублей.
Давайте поможем управляющему, решив несколько задачек с помощью *Python*.
Для решения этих задач мы будем использовать модуль *stats* библиотеки *scipy*.

In [17]:
confidence_interval_t(0.1, 400, 15, 2000) # На 90% уровне доверия

(2181.907328622996, 1818.092671377004, -181.9073286229958)

In [14]:
confidence_interval_t(0.05, 400, 15, 2000) # На 95% уровне доверия

(2221.5126166258565, 1778.4873833741433)

In [15]:
confidence_interval_t(0.01, 400, 15, 2000) # На 99% уровне доверия

(2307.446995559917, 1692.553004440083)

## Задача №2

Чиновника интересует сумма подоходного налога, выплачиваемого домохозяйствами за год. На случайной выборке из 250 домохозяйств был посчитан средний размер выплаченного налога, и он составил 3540 USD. Также на основании ранее предоставленных данных из налоговой инспекции известно истинное стандартное отклонение величины подоходного налога, равное 1150 USD.

Необходимо найти 99% доверительный интервал для истинного среднего значения налоговых выплат за год.

In [18]:
confidence_interval_norm(0.01, 1150, 250, 3540) # На 99% уровне доверия

(3352.6537883505453, 3727.3462116494547)

## Задача №3

Ниже представлена случайная выборка значений величины $X$, распределенной нормально.

|   0 |   1 |   2 |   3 |    4 |   5 |   6 |   7 |   8 |   9 |
|----:|----:|----:|----:|-----:|----:|----:|----:|----:|----:|
| 1.2 | 0.2 | 1.6 | 1.9 | -0.4 | 0.5 | 1.4 | 1.7 | 2.5 | 1.3 |

Необходимо построить доверительный интервал для истинного среднего значения $\mu$.

In [24]:
import numpy as np

In [27]:
x = np.array([1.2, 0.2, 1.6, 1.9, -0.4, 0.5, 1.4, 1.7, 2.5, 1.3])

In [40]:
def print_range(r):
    a, b = r
    print(f'({a:.2f}, {b:.2f})')

Вычислите необходимые выборочные статистики и найдите 95%-ный доверительный интервал для $\mu$.

In [55]:
mu = x.mean()
sigma = x.std()
n = x.shape[0]

# s = np.sqrt(((x - x.mean())**2).sum() / (n - 1) )
s = x.std(ddof=1)

answer = confidence_interval_t(0.05, s, n, mu)
print_range(answer)

(1.81, 0.57)


## Доверительный интервал для пропорции $p$?

Помним, что согласно центральной предельной теореме при большой случайной выборке выборочная пропорция распределена приблизительно нормально. Также мы знаем, что если из нормальной величины (в данном случае $p$) вычесть ее среднее и поделить на стандартное отклонение (в данном случае это корень из $p(1-p)$, поделенного на $n$), мы получаем стандартную нормальную величину $Z$.

Исходя из этого, можем получить формулу доверительного интервала для выборочной пропорции:

$ \hat{p} \approx N\left ( p, \sqrt{\frac{p(1-p)}{n}} \right )$

$ \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} \approx Z \sim N(0,1) $

$ p = \hat{p} \pm z_{\frac{\alpha }{2}} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} $

## Задача №1

Чтобы оценить удовлетворенность клиентов сети отелей, менеджер взял случайную выборку из $189$ комментариев, оставленных посетителями на онлайн-платформе по бронированию, и провел анализ их содержания. Выяснилось, что $132$ комментария были положительными, остальные — негативными.
Давайте поможем менеджеру ответить на несколько вопросов!

Чему равна выборочная пропорция положительных комментариев?

In [81]:
p = 132 / 189

print(f'p={p:.3f}')

p=0.698


Найдите 90%-ный доверительный интервал для истинной пропорции положительных комментариев.

In [82]:
n = 189
z = -norm.ppf((1 - 0.90)/2)

v = z * np.sqrt(p * (1-p) / n)
p_true = (p-v, p+v)

p_true

(0.6435017501091355, 0.7533236467162613)

## Находим *z*-критическое и *t*-критическое

Найти значение любого $z$-критического можно самостоятельно в *Python*, используя функцию `norm.ppf()`.

In [56]:
from scipy.stats import norm 

Самый простой способ — найти и получить ответ как = `-norm.ppf(α/2)`.

Например, если уровень доверия $1 - \alpha$ равен 97%, значит $\frac{\alpha}{2} = 0.015$. Тогда мы найдем $z_\frac{\alpha}{2}$ как `-norm.ppf(0.015)`, то есть $2.17$.

In [57]:
alpha = 0.03
value = -norm.ppf(alpha/2)
print(value) # 2.17

2.1700903775845606


Функция `norm.ppf(x)` возвращает значение $z_{крит}$, левее (ниже) которого лежит доля $x$ левого хвоста стандартного нормального распределения. Выражение `norm.ppf(α/2)` вернёт $-z_\frac{\alpha}{2}$, то есть значение $z_{крит}$, ниже которого $\frac{\alpha}{2}$ всех значений стандартного нормального распределения. Это число отрицательное, мы берем его со знаком минус, чтобы получить $z_\frac{\alpha}{2}$.

In [59]:
from scipy.stats import t

Также можно находить значения $t$-критического $t_\frac{\alpha}{2}(k)$ при помощи функции `t.ppf(p, k)`. Первый аргумент — уровень доверия $p=1-\alpha$, а второй — количество степеней свободы $k$, рассчитываемое как $n-1$.

Например, если нужно построить 95%-ный доверительный интервал для среднего с использованием выборки размером в $100$ наблюдений, когда $\sigma$ неизвестна, то $t_\frac{\alpha}{2}(k)$ можно найти через:

In [60]:
# 0.95 - доверительный интервал, 100-1 число степеней свободы
# для двустороннего t-теста
value = -t.ppf((1 - 0.95)/2, 100-1)
print(value) # 1.98

1.9842169515086827


## Задание 1

Найдите $z$-критическое для интервала с уровнем доверия 93%.

In [64]:
p = 1 - 0.93
value = -norm.ppf(p/2)

print(f'{value:.2f}')

1.81


## Задание 2

Найдите критические значения для следующих доверительных интервалов:

1. Доверительный интервал для среднего $\mu$ нормально распределённой величины $X$, на выборке размером $n=10$, если $\sigma$ известна, на 99% уровне доверия

In [76]:
sigma = np.random.randint(0, 100)
x = np.random.normal(0, sigma, size=10)

p = 1 - 0.99
value = -norm.ppf(p/2)
print(f'{value:.2f}')

2.58


2. Доверительный интервал для среднего $\mu$ нормально распределённой величины $X$, на выборке размером $n=10$, если $\sigma$ неизвестна, на 99% уровне доверия

In [77]:
n = 10
value = t.ppf((1 + 0.99)/2, n-1)
print(f'{value:.2f}')

3.25


3. Доверительный интервал для среднего $mu$, на выборке размером $n=100$, $\sigma$ неизвестна, на 95% уровне доверия

In [78]:
n = 100
value = t.ppf((1 + 0.95)/2, n-1)
print(f'{value:.2f}')

1.98


4. Доверительный интервал для пропорции $p$, на выборке размером $n=100$, на 95% уровне доверия 

In [88]:
n = 100
value = -norm.ppf((1 - 0.95)/2)
print(f'{value:.2f}')

1.96
