In [26]:
import numpy as np
import pandas as pd
from scipy.stats import norm

In [2]:
    """Оцениваем sample size для списка эффектов.

    df - pd.DataFrame, датафрейм с данными
    metric_name - str, название столбца с целевой метрикой
    effects - List[float], список ожидаемых эффектов. Например, [1.03] - увеличение на 3%
    alpha - float, ошибка первого рода
    beta - float, ошибка второго рода

    return - pd.DataFrame со столбцами ['effect', 'sample_size']    
    """

"Оцениваем sample size для списка эффектов.\n\ndf - pd.DataFrame, датафрейм с данными\nmetric_name - str, название столбца с целевой метрикой\neffects - List[float], список ожидаемых эффектов. Например, [1.03] - увеличение на 3%\nalpha - float, ошибка первого рода\nbeta - float, ошибка второго рода\n\nreturn - pd.DataFrame со столбцами ['effect', 'sample_size']    \n"

In [86]:
vals = np.random.choice([1,2],size = 3*1000) 
df = pd.DataFrame(vals.reshape(1000,3), columns=['a','b','c'])
alpha = 0.05
beta = 0.2
effects=[1.03,1.04,1.02,1.01]
metric_name = 'a' 
epsilon = effects[0]
df

Unnamed: 0,a,b,c
0,2,1,1
1,2,1,1
2,2,1,1
3,1,2,2
4,1,1,2
...,...,...,...
995,1,2,2
996,1,1,2
997,1,1,2
998,1,1,2


In [80]:
def estimate_sample_size(df, metric_name, effects, alpha=0.05, beta=0.2):
    results = list()
    mean = np.mean(df[metric_name].values)
    std = np.std(df[metric_name].values)

    for epsilon in effects:
        abs_effect = mean - mean* epsilon
        disp_sum = 2 * (std ** 2)

        f_alpha = abs(norm.ppf( alpha/2 , loc=0, scale=1))
        f_beta =  norm.ppf(1- beta , loc=0, scale=1)

        n = ((f_alpha+f_beta)**2) * disp_sum / (abs_effect ** 2 )
        n = int(np.ceil(n))
        results.append((epsilon, n))
        
    return pd.DataFrame.from_records(results,columns=['effect', 'sample_size'])

In [104]:
def get_sample_size(mu, std, eff=1.01, alpha=0.05, beta=0.2):
    t_alpha = abs(stats.norm.ppf(alpha / 2, loc=0, scale=1))
    t_beta = stats.norm.ppf(1 - beta, loc=0, scale=1)

    mu_diff_squared = (mu - mu * eff) ** 2
    z_scores_sum_squared = (t_alpha + t_beta) ** 2
    disp_sum = 2 * (std ** 2)
    sample_size = float(
        np.ceil(
            z_scores_sum_squared * disp_sum / mu_diff_squared
        )
    )
    return sample_size


def estimate_sample_size2(df, metric_name, effects, alpha=0.05, beta=0.2):
    """Оцениваем sample size для списка эффектов.
    df - pd.DataFrame, датафрейм с данными
    metric_name - str, название столбца с целевой метрикой
    effects - List[float], список ожидаемых эффектов. Например, [1.03] - увеличение на 3%
    alpha - float, ошибка первого рода
    beta - float, ошибка второго рода
    return - pd.DataFrame со столбцами ['effect', 'sample_size']    
    """
    metric_values = df[metric_name].values
    mu = metric_values.mean()
    std = metric_values.std()
    sample_sizes = [get_sample_size(mu, std, effect, alpha, beta) for effect in effects]
    res_df = pd.DataFrame({'effect': effects, 'sample_size': sample_sizes})
    return res_df

In [103]:
results = list()
mean = df[metric_name].values.mean()
std = df[metric_name].values.std()

for epsilon in effects:
    abs_effect = mean - mean* epsilon
    disp_sum_sqr = 2 * (std ** 2)

    t_alpha = norm.ppf( alpha/2 , loc=0, scale=1)
    t_beta =  norm.ppf(1- beta , loc=0, scale=1)

    n = ((t_alpha+t_beta)**2) * disp_sum_sqr / (abs_effect ** 2 )
    n = float(np.ceil(n))
    results.append((epsilon, n))
pd.DataFrame.from_records(results,columns=['effect', 'sample_size'])

Unnamed: 0,effect,sample_size
0,1.03,304.0
1,1.04,171.0
2,1.02,684.0
3,1.01,2734.0


In [101]:
%%time
a = estimate_sample_size(df, metric_name, effects, alpha=0.05, beta=0.2)
a

CPU times: user 3.67 ms, sys: 1.25 ms, total: 4.92 ms
Wall time: 3.88 ms


Unnamed: 0,effect,sample_size
0,1.03,1907
1,1.04,1073
2,1.02,4290
3,1.01,17157


In [102]:
%%time
a = estimate_sample_size2(df, metric_name, effects, alpha=0.05, beta=0.2)
a

CPU times: user 3.52 ms, sys: 786 µs, total: 4.31 ms
Wall time: 3.73 ms


Unnamed: 0,effect,sample_size
0,1.03,1907
1,1.04,1073
2,1.02,4290
3,1.01,17157
