In [1]:
from _shared import *

### Задача 1. Оценить необходимый размер групп

Допустим, мы хотим провести эксперимент, в который попадают клиенты, совершившие покупку во время эксперимента.

Метрика — средняя выручка с пользователя за время эксперимента;
Продолжительность — одна неделя;
Уровень значимости — 0.05;
Допустимая вероятность ошибки II рода — 0.1;
Ожидаемый эффект — 20 рублей.

Оцените необходимый размер групп по данным о покупках за неделю с 21 по 28 февраля.
Обратим внимание, что в выборку попадают события из полуинтервала [datetime(2022, 2, 21), datetime(2022, 2, 28)).

Для решения используйте данные из файла `2022-04-01T12_df_sales.csv`.

В качестве ответа введите необходимый размер групп, округлённый до целого числа десятков `round(x, -1)`.

In [2]:
df_sales = get_data_subset(
    df=read_from_database('2022-04-01T12_df_sales.csv', [1]), 
    begin_date='2022-02-21',
    end_date='2022-02-28',
    user_ids=None,
    columns=['date', 'price', 'user_id']
)
df_sales.head()

Unnamed: 0,date,price,user_id
63207,2022-02-21 10:02:02,3030,fcaa0f
63208,2022-02-21 10:04:43,2250,8d8445
63209,2022-02-21 10:05:40,780,e21af3
63210,2022-02-21 10:09:01,2880,e23104
63211,2022-02-21 10:11:20,1620,748932


In [3]:
df_sales['date'].agg(['min', 'max'])

min   2022-02-21 10:02:02
max   2022-02-27 21:59:54
Name: date, dtype: datetime64[ns]

In [4]:
df_sales['date'].astype('datetime64[D]').nunique()

7

In [5]:
metric = 'price' #Метрика — средняя выручка с пользователя за время эксперимента;
duration = 7 #days - Продолжительность — одна неделя;
alpha = 0.05 #Уровень значимости — 0.05;
beta = 0.1 #Допустимая вероятность ошибки II рода — 0.1;
epsilon = 20 #rub - Ожидаемый эффект — 20 рублей.

revenue_per_user = df_sales.groupby('user_id')[metric].sum()
metric_mean = revenue_per_user.mean()
metric_std = revenue_per_user.std(ddof=0)

required_event_number = get_sample_size_abs(epsilon, metric_std, alpha, beta)
res_1 = round(required_event_number, -1)
res_1

34570

In [6]:
# Solution:
def get_sample_size_abs(epsilon, std, alpha, beta):
    t_alpha = stats.norm.ppf(1 - alpha / 2, loc=0, scale=1)
    t_beta = stats.norm.ppf(1 - beta, loc=0, scale=1)
    z_scores_sum_squared = (t_alpha + t_beta) ** 2
    sample_size = int(
        np.ceil(
            z_scores_sum_squared * (2 * std ** 2) / (epsilon ** 2)
        )
    )
    return sample_size

begin_date = datetime(2022, 2, 21)
end_date = datetime(2022, 2, 28)
df_metrics = (
    df_sales
    [(df_sales['date'] >= begin_date) & (df_sales['date'] < end_date)]
    .groupby('user_id')[['price']].sum()
    .reset_index()  
)
std = df_metrics['price'].std()

sample_size = get_sample_size_abs(20, std, 0.05, 0.1)
print('answer:', round(sample_size, -1))

answer: 34570


In [7]:
events_per_user = df_sales['user_id'].value_counts().mean()

required_user_number = round(int(required_event_number / events_per_user) + 1, -1)
required_user_number

33880

### Задача 2. MDE

В прошлом задании получилось, что необходимый размер групп больше имеющихся данных за одну неделю.
Какой минимальный эффект мы можем отловить с теми же вероятностями ошибок на данных
с 21 по 28 февраля?

Ответ округлите до целого значения.


In [8]:
res_1, df_sales.shape[0]

(34570, 25347)

In [9]:
def get_minimal_determinable_effect(std, sample_size, alpha=0.05, beta=0.2):
    t_alpha = stats.norm.ppf(1 - alpha / 2, loc=0, scale=1)
    t_beta = stats.norm.ppf(1 - beta, loc=0, scale=1)
    
    disp_sum_sqrt = (2 * (std ** 2)) ** 0.5
    
    mde = (t_alpha + t_beta) * disp_sum_sqrt / np.sqrt(sample_size)

    return mde

In [10]:
res_2 = int(get_minimal_determinable_effect(metric_std, df_sales.shape[0] // 2, alpha, beta))
res_2

33

### Задача 3. Функция оценки размера выборки

Реализуйте функцию `estimate_sample_size`.

Обратите внимание:
1. Размер эффекта задаётся в процентах;
2. Для вычисления стандартного отклонения используйте функцию np.std с параметрами по умолчанию.
3. Не используйте агрегацию внутри функции.
4. Стандартное отклонение и значение среднего необходимо посчитать по полученному столбцу с метрикой.

In [11]:
import numpy as np
import pandas as pd
from scipy import stats

def get_sample_size_abs(epsilon, std, alpha, beta):
    t_alpha = stats.norm.ppf(1 - alpha / 2, loc=0, scale=1)
    t_beta = stats.norm.ppf(1 - beta, loc=0, scale=1)
    z_scores_sum_squared = (t_alpha + t_beta) ** 2
    sample_size = int(
        np.ceil(
            z_scores_sum_squared * (2 * std ** 2) / (epsilon ** 2)
        )
    )
    return sample_size

def get_sample_size_rel(mu, std, eff=0.01, alpha=0.05, beta=0.2):
    """Relative change."""
    return get_sample_size_abs(mu * eff / 100.0, std, alpha, beta)

def estimate_sample_size(metrics, effect, alpha, beta):
    """Оцениваем необходимый размер выборки для проверки гипотезы о равенстве средних.
    
    Для метрик, у которых для одного пользователя одно значение просто вычислите
    размер групп по формуле.
    Для метрик, у которых для одного пользователя несколько значений (например,
    response_time), вычислите необходимый объём данных и разделите его на среднее
    количество значений на одного пользователя.
    Пример, если в таблице metrics 1000 наблюдений и 100 уникальных пользователей,
    и для эксперимента нужно 302 наблюдения, то размер групп будет 31, тк в среднем на
    одного пользователя 10 наблюдений, то получится порядка 310 наблюдений в группе.

    :param metrics (pd.DataFrame): таблица со значениями метрик,
        содержит столбцы ['user_id', 'metric'].
    :param effect (float): размер эффекта в процентах.
        Пример, effect=3 означает, что ожидаем увеличение среднего на 3%.
    :param alpha (float): уровень значимости.
    :param beta (float): допустимая вероятность ошибки II рода.
    :return (int): минимально необходимый размер групп (количество пользователей)
    """
    col = metrics['metric']
    mu = np.mean(col)
    std = np.std(col)
    events_per_user = metrics['user_id'].value_counts().mean()
    
    min_sample_size = int(np.ceil(get_sample_size_rel(mu, std, effect, alpha, beta) / events_per_user))
    
    return min_sample_size

In [12]:
metrics = pd.DataFrame({
    'user_id': np.arange(100),
    'metric': np.linspace(500, 1490, 100)
})
effect, alpha, beta = 3, 0.05, 0.1
sample_size = estimate_sample_size(metrics, effect, alpha, beta)
# sample_size = 1966
sample_size

1966

In [13]:
metrics = pd.DataFrame({
    'user_id': np.arange(100) % 30,
    'metric': np.linspace(500, 1490, 100)
})
effect, alpha, beta = 3, 0.05, 0.1
sample_size = estimate_sample_size(metrics, effect, alpha, beta)
# sample_size = 590
sample_size

590

In [14]:
# Solution
import numpy as np
from scipy import stats


def estimate_sample_size(metrics, effect, alpha, beta):
    std = np.std(metrics['metric'].values)
    mean = np.mean(metrics['metric'].values)
    epsilon = effect / 100 * mean
    # отношение кол-ва уникальных пользователей к кол-ву наблюдений
    coef = metrics['user_id'].nunique() / len(metrics)
    t_alpha = stats.norm.ppf(1 - alpha / 2, loc=0, scale=1)
    t_beta = stats.norm.ppf(1 - beta, loc=0, scale=1)
    z_scores_sum_squared = (t_alpha + t_beta) ** 2
    sample_size = int(
        np.ceil(
            z_scores_sum_squared * (2 * std ** 2) / (epsilon ** 2) * coef
        )
    )
    return sample_size
