In [3]:
import pandas as pd

# Доверительный интервал для среднего
при известном истинном стандартном отклонении

Была опрошена случайная выборка из 36 жителей региона об их затратах на продукты питания за последний месяц.

Выборочное среднее оказалось равным 16 100 рублей.

Допустим, откуда-то известно, что истинное стандартное отклонение расходов равно 12 000 рублей.

Нам нужно построить доверительный интервал для истинных средних расходов жителя данного региона на продукты 
питания в месяц. 

Интервал должен определять истинное значение с надежностью в 95 %.

In [4]:
n = 36  # размер выборки
x_mean = 16100  # выборочное среднее
sigma = 12000  # истинное стандартное отклонение
gamma = 0.95  # уровень надёжности
alpha = 1 - gamma  # уровень значимости


### Определение Z-критического

In [5]:
from scipy.stats import norm

z_crit = -norm.ppf(alpha / 2)  # z-критическое
print(z_crit)

1.959963984540054


Итак, теперь у нас есть всё, чтобы построить доверительный интервал. Напишем функцию z_mean_conf_interval()

In [6]:
def z_mean_conf_interval(x_mean, sigma, n, gamma=0.95):
    alpha = 1 - gamma  # уровень значимости
    z_crit = -norm.ppf(alpha / 2)  # z-критическое
    eps = z_crit * sigma / (n**0.5)  # погрешность
    lower_bound = x_mean - eps  # левая (нижняя) граница
    upper_bound = x_mean + eps  # правая (верхняя) граница
    # возвращаем кортеж из границ интервала
    return lower_bound, upper_bound


# строим доверительный интервал для среднего при известном СКО
lower_bound, upper_bound = z_mean_conf_interval(x_mean, sigma, n)

# выводим результат
print(f"Доверительный интервал: ({lower_bound:.0f}, {upper_bound:.0f})")

Доверительный интервал: (12180, 20020)


Чтобы построить доверительный интервал для среднего при известном стандартном отклонении, можно использовать функцию norm.interval() из модуля norm библиотеки scipy.

In [7]:
# строим доверительный интервал
lower, upper = norm.interval(gamma, loc=x_mean, scale=sigma / n**0.5)
print(f"Доверительный интервал: ({lower:.0f}, {upper:.0f})")

Доверительный интервал: (12180, 20020)


### Задание 6.5
Аккумуляторный завод производит батарейки, срок службы которых имеет истинное стандартное отклонение в 2.4 месяца. Средний срок службы батареек в случайной выборке из 64 штук составил 12.35 месяца. Необходимо построить 90 %-ный доверительный интервал для истинного среднего срока службы производимой батарейки и ответить на вопросы заданий ниже.

In [8]:
n = 64  # размер выборки
x_mean = 12.35  # выборочное среднее
sigma = 2.4  # истинное стандартное отклонение
gamma = 0.9  # уровень надёжности
alpha = 1 - gamma  # уровень значимости


In [9]:
z_crit = -norm.ppf(alpha / 2)  # z-критическое
print(f"Z-критическое: {z_crit:.2f}")

Z-критическое: 1.64


In [10]:
# строим доверительный интервал
lower, upper = norm.interval(gamma, loc=x_mean, scale=sigma / n**0.5)
print(f"Доверительный интервал: ({lower:.2f}, {upper:.2f})")

Доверительный интервал: (11.86, 12.84)


# Доверительный интервал для среднего
при неизвестном истинном стандартном отклонении

Управляющий супермаркета хочет оценить, сколько денег покупатели тратят за один поход в супермаркет в среднем. На основании ранее собранных данных известно, что расходы одного покупателя распределены приблизительно нормально. Управляющий взял случайную выборку из 15 покупателей и выяснил, что их средние расходы равны 2 000 рублей, а выборочное стандартное отклонение равно 400 рублей.

Для оценки управляющий хочет построить доверительный интервал с надёжностью в 95 %.

In [11]:
n = 15  # размер выборки
k = n - 1  # число степеней свободы
x_mean = 2000  # выборочное среднее
x_std = 400  # выборочное стандартное отклонение
gamma = 0.95  # уровень надёжности
alpha = 1 - gamma  # уровень значимости


Найти значение t-критического

In [12]:
from scipy.stats import t

t_crit = -t.ppf(alpha / 2, k)  # t-критическое
print(t_crit)


2.1447866879169273


Теперь составим доверительный интервал для истинного среднего. Давайте напишем функцию для вычисления доверительного интервала для среднего — t_mean_conf_interval()

In [13]:
def t_mean_conf_interval(x_mean, x_std, n, gamma=0.95):
    alpha = 1 - gamma  # уровень значимости
    t_crit = -t.ppf(alpha / 2, k)  # t-критическое
    eps = t_crit * x_std / (n**0.5)  # погрешность
    lower_bound = x_mean - eps  # левая (нижняя) граница
    upper_bound = x_mean + eps  # правая (верхняя) граница
    # возвращаем кортеж из границ интервала
    return lower_bound, upper_bound


# cтроим доверительный интервал для среднего при неизвестном СКО
lower_bound, upper_bound = t_mean_conf_interval(x_mean, x_std, n)

# выводим результат
print(f"Доверительный интервал: ({lower_bound:.0f}, {upper_bound:.0f})")

Доверительный интервал: (1778, 2222)


### Задание 6.6
Чиновника интересует сумма подоходного налога, выплачиваемого домохозяйствами за год. 
На случайной выборке из 25 домохозяйств был посчитан средний размер выплаченного налога, и он составил $ 3 540.

Также известно выборочное отклонение величины подоходного налога, равное $ 1 150.

Необходимо найти 90 %-ый доверительный интервал для истинного среднего значения налоговых выплат за год. Используйте формулу с t-критическим.

Укажите границы построенного доверительного интервала для истинного среднего. Ответ округлите до целого.

In [14]:
n = 25
x_mean = 3540
x_std = 1150
gamma = 0.9

In [15]:
lower_bound, upper_bound = t_mean_conf_interval(x_mean, x_std, n, gamma)
print(f"Доверительный интервал: ({lower_bound:.0f}, {upper_bound:.0f})")

Доверительный интервал: (3135, 3945)


# Доверительный интервал для пропорций

In [16]:
ab_data = pd.read_csv("data/ab_data.zip")
ab_data


Unnamed: 0,user_id,timestamp,group,converted
0,851104,2017-01-21,A,0
1,804228,2017-01-12,A,0
2,661590,2017-01-11,B,0
3,853541,2017-01-08,B,0
4,864975,2017-01-21,A,1
...,...,...,...,...
290477,751197,2017-01-03,A,0
290478,945152,2017-01-12,A,0
290479,734608,2017-01-22,A,0
290480,697314,2017-01-15,A,0


Для удобства создадим отдельные таблицы для каждой из групп пользователей:

In [17]:
a_data = ab_data[ab_data.group == "A"]
b_data = ab_data[ab_data.group == "B"]


In [18]:
a_data


Unnamed: 0,user_id,timestamp,group,converted
0,851104,2017-01-21,A,0
1,804228,2017-01-12,A,0
4,864975,2017-01-21,A,1
5,936923,2017-01-10,A,0
7,719014,2017-01-17,A,0
...,...,...,...,...
290475,718310,2017-01-21,A,0
290477,751197,2017-01-03,A,0
290478,945152,2017-01-12,A,0
290479,734608,2017-01-22,A,0


Оформим расчёт в виде функции: объявим функцию proportion_conf_interval(). У данной функции будет три аргумента: x_p — выборочная пропорция, n — размер выборки и gamma — уровень надёжности (по умолчанию он равен 0.95). Функция будет возвращать кортеж из вычисленных границ доверительного интервала, умноженных на 100 % и округлённых до второго знака после запятой.

In [19]:
def proportion_conf_interval(x_p, n, gamma=0.95):
    alpha = 1 - gamma  # уровень значимости
    z_crit = -norm.ppf(alpha / 2)  # z-критическое
    eps = z_crit * (x_p * (1 - x_p) / n) ** 0.5  # погрешность
    lower_bound = x_p - eps  # левая (нижняя) граница
    upper_bound = x_p + eps  # правая (верхняя) граница
    # возвращаем кортеж из границ интервала
    return lower_bound, upper_bound


Теперь применим нашу функцию к данным группы А и группы B, 
результат умножим на 100 % и округлим до сотых:

In [20]:
x_p = a_data["converted"].mean()  # выборочная пропорция
n = a_data["user_id"].count()  # размер выборки

# строим доверительный интервал для конверсии в группе А
lower_bound_a, upper_bound_a = proportion_conf_interval(x_p, n)
print(
    f"Доверительный интервал для группы А: ({lower_bound_a * 100:.2f}, {upper_bound_a * 100:.2f})"
)

Доверительный интервал для группы А: (11.86, 12.19)


In [21]:
x_p = b_data["converted"].mean()  # выборочная пропорция
n = b_data["user_id"].count()  # размер выборки

# строим доверительный интервал для конверсии в группе B
lower_bound_b, upper_bound_b = proportion_conf_interval(x_p, n)

print(
    f"Доверительный интервал для группы B: ({lower_bound_b * 100:.2f}, {upper_bound_b * 100:.2f})"
)


Доверительный интервал для группы B: (11.70, 12.03)


Вычисление доверительного интервала можно было реализовать с помощью библиотечных инструментов, например, функцией proportion.proportion_confint() из модуля stats библиотеки statsmodels. Функция принимает на вход следующие аргументы:

count — количество успехов (в нашем случае это суммарное количество пользователей, выполнивших целевое действие);

nobs — количество наблюдений;

alpha — уровень значимости.

In [22]:
from statsmodels.stats import proportion

# вычисляем доверительный интервал для конверсии в группе A с уровнем доверия 0.95
lower_bound_a, upper_bound_a = proportion.proportion_confint(
    count=a_data["converted"].sum(), nobs=a_data["user_id"].count(), alpha=0.05
)

# вычисляем доверительный интервал для конверсии в группе B с уровнем доверия 0.95
lower_bound_b, upper_bound_b = proportion.proportion_confint(
    count=b_data["converted"].sum(), nobs=b_data["user_id"].count(), alpha=0.05
)

print(
    f"Доверительный интервал конверсии для группы А: ({lower_bound_a * 100:.2f}, {upper_bound_a * 100:.2f})"
)

print(
    f"Доверительный интервал конверсии для группы B: ({lower_bound_b * 100:.2f}, {upper_bound_b * 100:.2f})"
)

Доверительный интервал конверсии для группы А: (11.86, 12.19)
Доверительный интервал конверсии для группы B: (11.70, 12.03)


Создадим функцию diff_proportion_conf_interval() со следующими аргументами: x_p — список из выборочных пропорций для групп А и B соответственно,  n — список из размеров выборки для групп А и B соответственно, и gamma — уровень надёжности (по умолчанию он равен 0.95). Функция будет возвращать кортеж из вычисленных границ доверительного интервала разницы конверсий, умноженных на 100 % и округлённых до второго знака после запятой.

In [23]:
def diff_proportion_conf_interval(x_p, n, gamma=0.95):
    alpha = 1 - gamma  # уровень значимости
    diff = x_p[1] - x_p[0]  # выборочная разница конверсий групп B и A
    z_crit = -norm.ppf(alpha / 2)  # z-критическое
    eps = (
        z_crit * (x_p[0] * (1 - x_p[0]) / n[0] +
                  x_p[1] * (1 - x_p[1]) / n[1]) ** 0.5
    )  # погрешность
    lower_bound = diff - eps  # левая (нижняя) граница
    upper_bound = diff + eps  # правая (верхняя) граница
    # возвращаем кортеж из  границ интервала
    return lower_bound, upper_bound


In [24]:
# размеры выборок групп А и B
n = [a_data["user_id"].count(), b_data["user_id"].count()]
# выборочная пропорция групп A и B
x_p = [a_data["converted"].mean(), b_data["converted"].mean()]


# строим доверительный интервал для разности пропорций
lower_bound, upper_bound = diff_proportion_conf_interval(x_p=x_p, n=n)


# выводим результат
print(
    f"Доверительный интервал для разности конверсий:({lower_bound * 100:.2f}, {upper_bound * 100:.2f})"
)


Доверительный интервал для разности конверсий:(-0.39, 0.08)


### Задание 6.9
Чтобы оценить удовлетворённость клиентов сети отелей, менеджер взял случайную выборку из 189 комментариев, оставленных посетителями на онлайн-платформе по бронированию, и провёл анализ их содержания. Выяснилось, что 132 комментария были положительными, остальные — негативными.
Давайте поможем менеджеру ответить на несколько вопросов!

In [25]:
n = 189
n_plus = 132
gamma = 0.9
alpha = 1 - gamma


In [26]:
print(f"Выборочная пропорция: {n_plus / n:.3f}")


Выборочная пропорция: 0.698


In [27]:
from statsmodels.stats import proportion

# вычисляем доверительный интервал для конверсии в группе A с уровнем доверия 0.95
lower_bound, upper_bound = proportion.proportion_confint(
    count=n_plus, nobs=n, alpha=alpha
)

print(
    f"Доверительный интервал конверсии для группы А: ({lower_bound * 100:.2f}, {upper_bound * 100:.2f})"
)


Доверительный интервал конверсии для группы А: (64.35, 75.33)


### Задание 6.10
Проводится A/B-тестирование вариантов отображения страницы корзины на сайте интернет-магазина. Есть два варианта отображения страницы: с товарными рекомендациями «Хиты продаж» и персональными, подобранными под интерес конкретно этого пользователя. Метрикой является конверсия действия «добавить в корзину товар из рекомендаций». Были собраны следующие данные:

Постройте 95 %-ый доверительный интервал разности полученных конверсий. Ответ приведите в процентах и округлите границы интервала до второго знака после запятой. При расчёте используйте z-критическое.

In [28]:
gamma = 0.95
alpha = 1 - gamma


In [29]:
matrix = pd.DataFrame({"n_plus": [45, 50], "n": [1000, 1000]}, index=["A", "B"])
matrix["conversion"] = matrix.n_plus / matrix.n
matrix

Unnamed: 0,n_plus,n,conversion
A,45,1000,0.045
B,50,1000,0.05


In [30]:
# размеры выборок групп А и B
n = matrix.n.to_list()
# выборочная пропорция групп A и B
x_p = matrix.conversion.to_list()


# строим доверительный интервал для разности пропорций
lower_bound, upper_bound = diff_proportion_conf_interval(x_p=x_p, n=n)


# выводим результат
print(
    f"Доверительный интервал для разности конверсий:({lower_bound * 100:.2f}, {upper_bound * 100:.2f})"
)


Доверительный интервал для разности конверсий:(-1.36, 2.36)
