# 6. Анализ результатов A/B-тестирования: доверительные интервалы

Существует два способа оценки параметров генеральной совокупности:

⭐ Точечные оценки.
⭐ Интервальные оценки.

Интервальные оценки — это ещё один способ оценки параметров генеральной совокупности, при использовании которого ответ даётся не в виде одного числа, а в виде интервала. 

Поиск интервальной оценки заключается в построении доверительного интервала. 

Доверительный интервал — интервал, который с заданной надёжностью покрывает значение неизвестного параметра. 

Например, если вам говорят, что построен 90 %-ый доверительный интервал для среднего роста и имеет вид: (170, 179), то это означает, что с надёжностью в 90 % истинный средний рост (его математическое ожидание) лежит в пределах от 170 см до 179 см. То есть с вероятностью в 90 % ожидается (в среднем), что любой человек из рассматриваемой генеральной совокупности имеет рост от 170 до 179 см.

Доверительные интервалы бывают двусторонними, левосторонними и правосторонними (как гипотезы). Мы с вами будем рассматривать только построение двусторонних доверительных интервалов, так как они являются наиболее популярными.

Любой двусторонний доверительный интервал обладает следующей структурой:

Параметр = Выборочная оценка ± Предел погрешности

## ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ СРЕДНЕГО ПРИ ИЗВЕСТНОМ ИСТИННОМ СТАНДАРТНОМ ОТКЛОНЕНИИ

Задача

Была опрошена случайная выборка из 36 жителей региона об их затратах на продукты питания за последний месяц. Выборочное среднее оказалось равным 16 100 рублей.
Допустим, откуда-то известно, что истинное стандартное отклонение расходов равно 12 000 рублей.
Нам нужно построить доверительный интервал для истинных средних расходов жителя данного региона на продукты питания в месяц. Интервал должен определять истинное значение с надежностью в 95 %.

По условию задачи у нас есть выборка размером n=36 человек. Далее, просуммировав затраты жителей региона и поделив на их количество, было получено выборочное среднее X mean = 16100 рублей. Ещё нам дано значение истинного (НЕ выборочного) стандартного отклонения сигма=12000 рублей. То есть в среднем разброс затрат составляет 12 000 рублей. Ещё нам сказали, что рассчитанный нами интервал должен быть надёжным с уровнем надёжности в гамма=0.95.  

Под уровнем надёжности понимается вероятность того, что истинное значение параметра окажется в построенном интервале. А под уровнем значимости — вероятность того, что построенный доверительный интервал «промахнётся» и не захватит истинное значение параметра.

Таким образом, Zкрит — это значение, которое отсекает критическую область нормального распределения. 

Значение z-критического мы можем найти при помощи специальных таблиц, библиотек Python или калькулятора. Он поможет нам выяснить, что приблизительно равно 1.96.

In [16]:
n = 36 # размер выборки
x_mean = 16100 # выборочное среднее
sigma = 12000 # истинное стандартное отклонение
gamma = 0.95 # уровень надёжности
alpha = 1 - gamma # уровень значимости

Найти значение z-критического для любого уровня значимости можно при помощи функции norm.ppf() из модуля scipy.stats. По специфическим причинам реализации функция возвращает не совсем z-критическое, а его отрицательный модуль, поэтому мы берём его со знаком минус.

In [32]:
from scipy.stats import norm
z_crit = -norm.ppf(alpha/2) # z критическое
print(z_crit)

1.959963984540054


In [4]:
eps = z_crit * sigma/(n ** 0.5) #погрешность
lower_bound = x_mean - eps # левая (нижняя) граница
upper_bound = x_mean + eps # правая (верхняя) граница
confidence_interval = (round(lower_bound), round(upper_bound)) # создаём кортеж из округлённых границ интервала
print('Доверительный интервал: {}'.format(confidence_interval)) # выводим результат

Доверительный интервал: (12180, 20020)


In [33]:
n = 36 # размер выборки
x_mean = 16100 # выборочное среднее
sigma = 12000 # истинное стандартное отклонение
gamma = 0.95 # уровень надёжности
alpha = 1 - gamma # уровень значимости

def dovinterval(n, z_crit, x_mean, sigma):
    eps = z_crit * sigma/(n ** 0.5) #погрешность
    lower_bound = x_mean - eps # левая (нижняя) граница
    upper_bound = x_mean + eps # правая (верхняя) граница
    confidence_interval = (round(lower_bound), round(upper_bound)) # создаём кортеж из округлённых границ интервала
    return confidence_interval

print(dovinterval(36, 1.96, 16100, 12000))

(12180, 20020)


Полученный результат интерпретируется следующим образом: мы на 95 % уверены, что истинные расходы жителей на продукты питания лежат в интервале от 12 180 рублей до 20 020 рублей. 

⚡ Важно! Доверительный интервал не даёт нам 100 % результата. Всегда есть шанс, что мы промахнулись и не захватили истинного значения. Этот шанс как раз равен уровню значимости .
То есть в нашем примере существует 5 %-ый шанс, что истинное среднее расходов вовсе не лежит в интервале от 12 180 до 20 020. Существует вероятность, что математическое ожидание на самом деле равно 5 000 рублей или 25 000 рублей. Но такая вероятность составляет менее 5 %, и это нас устраивает.

In [3]:
# импорт библиотек для работы с данными

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [39]:
#задание

n_1 = 64 # размер выборки
x_mean_1 = 12.35 # выборочное среднее
sigma_1 = 2.4 # истинное стандартное отклонение
gamma_1 = 0.90 # уровень надёжности
alpha_1 = 1 - gamma_1 # уровень значимости

In [40]:
from scipy.stats import norm
z_crit_1 = -norm.ppf(alpha_1/2) # z критическое
print(z_crit_1)

1.6448536269514729


In [43]:
eps_1 = z_crit_1 * sigma_1/(n_1 ** 0.5) #погрешность
lower_bound_1 = x_mean_1 - eps_1 # левая (нижняя) граница
upper_bound_1 = x_mean_1 + eps_1 # правая (верхняя) граница
confidence_interval_1 = ((lower_bound_1), (upper_bound_1)) # создаём кортеж из округлённых границ интерва
print(confidence_interval_1)

(11.856543911914558, 12.843456088085441)


In [45]:
n = 64 # размер выборки
x_mean = 12.35 # выборочное среднее
sigma = 2.4 # истинное стандартное отклонение
gamma = 0.90 # уровень надёжности
alpha = 1 - gamma # уровень значимости

z_crit = -norm.ppf(alpha/2) # z критическое
print(z_crit)


1.6448536269514729


In [51]:
def dovinterval(n, x_mean, sigma, z_crit):
    eps = z_crit * sigma/(n ** 0.5) #погрешность
    lower_bound = x_mean - eps # левая (нижняя) граница
    upper_bound = x_mean + eps # правая (верхняя) граница
    confidence_interval = (round((lower_bound), 2), round((upper_bound), 2)) # создаём кортеж из округлённых границ интерва
    return confidence_interval

print(dovinterval(64, 12.35, 2.4, 1.64))

(11.86, 12.84)


### ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ СРЕДНЕГО ПРИ НЕИЗВЕСТНОМ СТАНДАРТНОМ ОТКЛОНЕНИИ

В реальной жизни нам приходится заменять значение сигма значением выборочного стандартного отклонения, которое мы можем посчитать на основании выборки.

Когда мы заменяем константу на случайную величину, точность всей конструкции явно становится меньше. Вероятно, итоговая величина будет похожа на нормальное распределение, но будет обладать бОльшим разбросом.

Такая случайная величина хорошо описывается распределением Стьюдента, или Т-распределением. 

Распределение Стьюдента — это целое семейство родственников стандартного нормального распределения.

Управляющий супермаркета хочет оценить, сколько денег покупатели тратят за один поход в супермаркет в среднем. На основании ранее собранных данных известно, что расходы одного покупателя распределены приблизительно нормально. Управляющий взял случайную выборку из 15 покупателей и выяснил, что их средние расходы равны 2 000 рублей, а выборочное стандартное отклонение равно 400 рублей.

Для оценки управляющий хочет построить доверительный интервал с надёжностью в 95 %.

Давайте поможем управляющему, решив несколько задачек с помощью Python.

Итак, зададим необходимые для решения задачи переменные:

In [None]:
n = 15 # размер выборки
k = n - 1 # число степеней свободы
x_mean = 2000 # выборочное среднее
x_std = 400 # выборочное стандартное отклонение
gamma = 0.95 # уровень надёжности
alpha = 1 - gamma # уровень значимости