## Z критическое

По условию задачи у нас есть выборка размером n=36 человек. Далее, просуммировав затраты жителей региона и поделив на их количество, было получено выборочное среднее Xmean=16100  рублей. Ещё нам дано значение истинного (НЕ выборочного) стандартного отклонения sigma = 12000 рублей. То есть в среднем разброс затрат составляет 12 000 рублей. Ещё нам сказали, что рассчитанный нами интервал должен быть надёжным с уровнем надёжности gamma = 0.95.  

In [36]:
n = 36 # размер выборки
x_mean = 16100 # выборочное среднее
sigma = 12000 # истинное стандартное отклонение
gamma = 0.95 # уровень надёжности
alpha = 1 - gamma # уровень значимости

Найти значение z-критического для любого уровня значимости можно при помощи функции norm.ppf() из модуля scipy.stats

In [37]:
from scipy.stats import norm
z_crit = -norm.ppf(alpha/2) # z-критическое
print(z_crit)
# 1.959963984540054

1.959963984540054


Итак, теперь у нас есть всё, чтобы построить доверительный интервал. Напишем функцию z_mean_conf_interval(), которая будет принимать на вход:<br>
<br>
mean — выборочное среднее;<br>
sigma — истинное стандартное отклонение;<br>
n — размер выборки;<br>
gamma — уровень надёжности.<br>
Функция будет вычислять нижнюю и верхнюю границы по формуле и возвращать их в виде кортежа.<br>
<br>
Округлим результат до целого и выведем на экран:<br>

In [38]:
def z_mean_conf_interval(x_mean, sigma, n, gamma=0.95):  
    alpha = 1 - gamma  # уровень значимости
    z_crit = -norm.ppf(alpha/2)  # z-критическое
    eps = z_crit * sigma/(n ** 0.5) # погрешность
    lower_bound = x_mean - eps  # левая (нижняя) граница
    upper_bound = x_mean + eps  # правая (верхняя) граница
    # возвращаем кортеж из границ интервала
    return lower_bound, upper_bound

# строим доверительный интервал для среднего при известном СКО
lower_bound, upper_bound = z_mean_conf_interval(x_mean, sigma, n) # !!! тут еще можут быть gamma в параметрах, если задана. по умолчанию она = 0.95

# выводим результат
print('Доверительный интервал: {}'.format((round(lower_bound), round(upper_bound))))

# Доверительный интервал: (12180, 20020)

Доверительный интервал: (12180, 20020)


Полученный результат интерпретируется следующим образом: мы на 95 % уверены, что истинные расходы жителей на продукты питания лежат в интервале от 12 180 рублей до 20 020 рублей. 

Чтобы построить доверительный интервал для среднего при известном стандартном отклонении, можно использовать функцию norm.interval() из модуля norm библиотеки scipy. В неё нужно нужно передать следующие параметры:<br>
<br>
confidence — уровень надёжности ;<br>
loc — центр интервала (выборочное среднее);<br>
scale — погрешность (стандартное отклонение, нормированное на ).<br>
Пример вызова функции:<br>

In [39]:
# строим доверительный интервал
lower, upper = norm.interval(gamma, loc=x_mean, scale=sigma / n**0.5)
print('Доверительный интервал: {}'.format((round(lower), round(upper))))
# Доверительный интервал: (12180, 20020)

Доверительный интервал: (12180, 20020)


## Задачи

Аккумуляторный завод производит батарейки, срок службы которых имеет истинное стандартное отклонение в 2.4 месяца. Средний срок службы батареек в случайной выборке из 64 штук составил 12.35 месяца. Необходимо построить 90 %-ный доверительный интервал для истинного среднего срока службы производимой батарейки и ответить на вопросы заданий ниже.

In [40]:
n = 64 # размер выборки
x_mean = 12.35 # выборочное среднее
sigma = 2.4 # истинное стандартное отклонение
gamma = 0.9 # уровень надёжности
#alpha = 1 - gamma # уровень значимости

z-критическое можно определить с помощью функции norm.ppf(alpha/2), умножив результат на -1. alpha — уровень значимости (1-gamma = 1-0.9 = 0.1).

In [41]:
z_crit = -norm.ppf(alpha/2) # z-критическое
print(round(z_crit,2))

1.96


In [42]:
# строим доверительный интервал для среднего при известном СКО
lower_bound, upper_bound = z_mean_conf_interval(x_mean, sigma, n, gamma)

# выводим результат
print('Доверительный интервал: {}'.format((round(lower_bound,2), round(upper_bound,2))))

Доверительный интервал: (11.86, 12.84)


# ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ СРЕДНЕГО ПРИ НЕИЗВЕСТНОМ СТАНДАРТНОМ ОТКЛОНЕНИИ



Управляющий супермаркета хочет оценить, сколько денег покупатели тратят за один поход в супермаркет в среднем. На основании ранее собранных данных известно, что расходы одного покупателя распределены приблизительно нормально. Управляющий взял случайную выборку из 15 покупателей и выяснил, что их средние расходы равны 2 000 рублей, а выборочное стандартное отклонение равно 400 рублей.

Для оценки управляющий хочет построить доверительный интервал с надёжностью в 95 %.

In [43]:
n = 15 # размер выборки
k = n - 1 # число степеней свободы
x_mean = 2000 # выборочное среднее
x_std = 400 # выборочное стандартное отклонение
gamma = 0.95 # уровень надёжности
alpha = 1 - gamma # уровень значимости

Найти значение t-критического для любого уровня значимости можно, используя функцию t.ppf() из модуля scipy.stats. Для этого в функцию передаётся интересующий уровень значимости () и число степеней свободы (). Аналогично z-критическому функция возвращает отрицательный модуль t-критического, поэтому мы берём его со знаком минус:

In [44]:
from scipy.stats import t
t_crit = -t.ppf(alpha/2, k) # t-критическое
print(t_crit)
# 2.1447866879169273

2.1447866879169273


Примечание. Интересен тот факт, что значение t-критического при том же уровне надёжности чуть выше, чем значение z-критического, например , а вот  . Благодаря этому доверительный интервал при неизвестном стандартном отклонении гарантировано будет шире, чем при известном, если . 

Теперь составим доверительный интервал для истинного среднего. Давайте напишем функцию для вычисления доверительного интервала для среднего — t_mean_conf_interval(), модифицировав функцию для z-интервала согласно приведённым выше рассуждениям. Функция всё так же будет возвращать левую и нижнюю границу по формуле.

Округлим результат и выведем на экран:

In [45]:
def t_mean_conf_interval(x_mean, x_std, n, gamma=0.95):  
    alpha = 1 - gamma # уровень значимости
    t_crit = -t.ppf(alpha/2, k) # t-критическое
    eps = t_crit * x_std/(n ** 0.5) # погрешность
    lower_bound = x_mean - eps # левая (нижняя) граница
    upper_bound = x_mean + eps # правая (верхняя) граница
    # возвращаем кортеж из границ интервала
    return lower_bound, upper_bound

# cтроим доверительный интервал для среднего при неизвестном СКО
lower_bound, upper_bound = t_mean_conf_interval(x_mean, x_std, n)

# выводим результат
print('Доверительный интервал: {}'.format((round(lower_bound), round(upper_bound))))

# Доверительный интервал: (1778, 2222)

Доверительный интервал: (1778, 2222)


Чтобы построить доверительный интервал для среднего при известном стандартном отклонении, можно использовать функцию t.interval() из модуля t библиотеки scipy. В неё нужно передать следующие параметры:<br>
<br>
confidence — уровень надёжности ;<br>
df — количество степеней свободы для распределения Стьюдента;<br>
loc — центр интервала (выборочное среднее);<br>
scale — погрешность (стандартное отклонение, нормированное на корень из N.<br>
Пример вызова функции:<br>

In [46]:
# строим доверительный интервал для среднего при неизвестном СКО
lower, upper = t.interval(gamma, df=k, loc=x_mean, scale=x_std/(n ** 0.5))
print('Доверительный интервал: {}'.format((round(lower), round(upper))))
# Доверительный интервал: (1778, 2222)

Доверительный интервал: (1778, 2222)


Важно отметить, что при достаточной выборке (примерно более 30 наблюдений) распределение Стьюдента очень похоже на стандартное нормальное распределение. В этом случае можно использовать первую формулу (z-критическое) даже при неизвестном стандартном отклонении. Однако используя вторую формулу при оценке среднего, вы не ошибётесь.

Ещё один важный факт состоит в том, что обе формулы работают только при соблюдении двух условий:<br>
<br>
Выборка должна быть случайной.<br>
Выборка должна быть достаточно велика. Но есть исключение: если выборка маленькая, но сама величина распределена нормально, то выборочное среднее тоже будет распределено нормально. В таком случае мы можем пользоваться формулой доверительного интервала.

# ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ ПРОПОРЦИИ

Конверсия — это доля пользователей, совершивших целевое действие, по отношению к общей массе пользователей. 

In [47]:
import pandas as pd
ab_data = pd.read_csv('data/ab_data.zip')
ab_data.head()

Unnamed: 0,user_id,timestamp,group,converted
0,851104,2017-01-21,A,0
1,804228,2017-01-12,A,0
2,661590,2017-01-11,B,0
3,853541,2017-01-08,B,0
4,864975,2017-01-21,A,1


Для удобства создадим отдельные таблицы для каждой из групп пользователей:

In [48]:
# фильтруем данные группы А
a_data = ab_data[ab_data['group'] == 'A']
# фильтруем данные группы B
b_data = ab_data[ab_data['group'] == 'B']

Давайте на этот раз оформим расчёт в виде функции: объявим функцию proportion_conf_interval(). У данной функции будет три аргумента: x_p — выборочная пропорция, n — размер выборки и gamma — уровень надёжности (по умолчанию он равен 0.95). Функция будет возвращать кортеж из вычисленных границ доверительного интервала, умноженных на 100 % и округлённых до второго знака после запятой.

In [49]:
def proportion_conf_interval(x_p, n, gamma=0.95):  
    alpha = 1 - gamma # уровень значимости
    z_crit = -norm.ppf(alpha/2) # z-критическое
    eps = z_crit * (x_p * (1 - x_p) / n) ** 0.5 # погрешность
    lower_bound = x_p - eps # левая (нижняя) граница
    upper_bound = x_p + eps # правая (верхняя) граница
    # возвращаем кортеж из границ интервала
    return lower_bound, upper_bound

Теперь применим нашу функцию к данным группы А и группы B, результат умножим на 100 % и округлим до сотых:

In [50]:
# строим доверительный интервал для конверсии в группе А
lower_bound_a, upper_bound_a  = proportion_conf_interval(
    x_p=a_data['converted'].mean(), # выборочная пропорция
    n=a_data['user_id'].count() # размер выборки
)

# строим доверительный интервал для конверсии в группе B
lower_bound_b, upper_bound_b  = proportion_conf_interval(
    x_p=b_data['converted'].mean(), # выборочная пропорция
    n=b_data['user_id'].count() # размер выборки
)

# выводим результат
print('Доверительный интервал для конверсии в группе А: {}'.format((round(lower_bound_a * 100, 2), round(upper_bound_a * 100, 2))))
print('Доверительный интервал для конверсии в группе B: {}'.format((round(lower_bound_b * 100, 2), round(upper_bound_b * 100, 2))))

# Доверительный интервал для конверсии группы А: (11.86, 12.19)
# Доверительный интервал для конверсии группы B: (11.7, 12.03)

Доверительный интервал для конверсии в группе А: (11.86, 12.19)
Доверительный интервал для конверсии в группе B: (11.7, 12.03)


Вычисление доверительного интервала можно было реализовать с помощью библиотечных инструментов, например, функцией proportion.proportion_confint() из модуля stats библиотеки statsmodels. Функция принимает на вход следующие аргументы:<br>
<br>
count — количество успехов (в нашем случае это суммарное количество пользователей, выполнивших целевое действие);<br>
nobs — количество наблюдений;<br>
alpha — уровень значимости.<br>
Пример вызова функции:<br>

In [51]:
from statsmodels.stats import proportion

# вычисляем доверительный интервал для конверсии в группе A с уровнем доверия 0.95
lower_bound_a, upper_bound_a = proportion.proportion_confint(
    count=a_data['converted'].sum(),
    nobs=a_data['user_id'].count(),
    alpha=0.05
)

# вычисляем доверительный интервал для конверсии в группе B с уровнем доверия 0.95
lower_bound_b, upper_bound_b = proportion.proportion_confint(
    count=b_data['converted'].sum(),
    nobs=b_data['user_id'].count(),
    alpha=0.05
)
# выводим результат
print('Доверительный интервал для конверсии в группе А: {}'.format((round(lower_bound_a * 100, 2), round(upper_bound_a * 100, 2))))
print('Доверительный интервал для конверсии в группе B: {}'.format((round(lower_bound_b * 100, 2), round(upper_bound_b * 100, 2))))
# Доверительный интервал для конверсии в группе А: (11.86, 12.19)
# Доверительный интервал для конверсии в группе B: (11.7, 12.03)

Доверительный интервал для конверсии в группе А: (11.86, 12.19)
Доверительный интервал для конверсии в группе B: (11.7, 12.03)


✏️ Создадим функцию diff_proportion_conf_interval() со следующими аргументами: x_p — список из выборочных пропорций для групп А и B соответственно,  n — список из размеров выборки для групп А и B соответственно, и gamma — уровень надёжности (по умолчанию он равен 0.95). Функция будет возвращать кортеж из вычисленных границ доверительного интервала разницы конверсий, умноженных на 100 % и округлённых до второго знака после запятой.

In [52]:
def diff_proportion_conf_interval(x_p, n, gamma=0.95):
    alpha = 1 - gamma # уровень значимости
    diff = x_p[1] - x_p[0] # выборочная разница конверсий групп B и A
    z_crit = -norm.ppf(alpha/2) #z-критическое
    eps = z_crit * (x_p[0] * (1 - x_p[0])/n[0] + x_p[1] * (1 - x_p[1])/n[1]) ** 0.5 # погрешность
    lower_bound = diff - eps # левая (нижняя) граница
    upper_bound = diff + eps # правая (верхняя) граница
    # возвращаем кортеж из  границ интервала
    return lower_bound, upper_bound

In [53]:
# размеры выборок групп А и B
n = [a_data['user_id'].count(), b_data['user_id'].count()]
# выборочная пропорция групп A и B
x_p = [a_data['converted'].mean(), b_data['converted'].mean()]


# строим доверительный интервал для разности пропорций
lower_bound, upper_bound = diff_proportion_conf_interval(x_p=x_p, n=n)


# выводим результат
print('Доверительный интервал для разности конверсий: {}'.format((round(lower_bound*100, 2), round(upper_bound*100, 2))))

Доверительный интервал для разности конверсий: (-0.39, 0.08)


Итак, что можно сказать теперь? Построенный доверительный интервал с 95 %-ой надёжностью говорит нам, что разница в конверсии между вариантом B и вариантом А лежит в интервале от -0.39 % до 0.08 %. 

Отсюда можно сделать вывод, что статистической разницы в конверсии между вариантами А и B не существует, то есть они являются равнозначными по данной метрике.