In [3]:
import numpy as np
import pandas as pd
import datetime

In [None]:
    """Вычисляет значение метрики для списка пользователей в определённый период.
    
    df - pd.DataFrame, датафрейм с данными
    value_name - str, название столбца со значениями для вычисления целевой метрики
    user_id_name - str, название столбца с идентификаторами пользователей
    list_user_id - List[int], список идентификаторов пользователей, для которых нужно посчитать метрики
    date_name - str, название столбца с датами
    period - dict, словарь с датами начала и конца периода, за который нужно посчитать метрики.
        Пример, {'begin': '2020-01-01', 'end': '2020-01-08'}. Дата начала периода входит нужный
        полуинтервал, а дата окончание нет, то есть '2020-01-01' <= date < '2020-01-08'.
    metric_name - str, название полученной метрики

    return - pd.DataFrame, со столбцами [user_id_name, metric_name], кол-во строк должно быть равно
        кол-ву элементов в списке list_user_id.
    """

In [64]:
## income data sample
df = pd.DataFrame([[1,2,3, '2020-01-01'],[2,2,3,'2020-01-01'],[2,2,3,'2020-01-08'],
                   [1,3,3, '2020-01-10'],[2,1,3,'2020-01-10'],[2,2,3,'2020-01-10']], columns=['a','b','c','d'])
user_id_name = 'a'
list_user_id = [1,2,3,4]
date_name = 'd'
period = {'begin': '2020-01-01', 'end': '2020-01-09'}
metric_name = 'sum'
value_name = 'b'

In [65]:
datetime.datetime.strptime('2020-01-02', "%Y-%m-%d").date() > datetime.datetime.strptime('2020-01-01', "%Y-%m-%d").date()

True

In [66]:
def calculate_metric(
    df, value_name, user_id_name, list_user_id, date_name, period, metric_name
):
    # date mask
    df[date_name] = pd.to_datetime(df[date_name], format="%Y-%m-%d")
    df = df[(df[date_name] >= datetime.datetime.strptime(period['begin'], "%Y-%m-%d"))&
            (df[date_name] < datetime.datetime.strptime(period['end'], "%Y-%m-%d"))]
    
    # users mask
    df = df[df[user_id_name].isin(list_user_id)]
    
    # agg metric
    agg_df = df.groupby(user_id_name)[[value_name]].sum()\
    .rename(columns={value_name: metric_name})\
    .reset_index()
    
    full_agg_df = pd.merge(pd.DataFrame(list_user_id, columns=[user_id_name]), agg_df, on=user_id_name, how='outer')
    full_agg_df = full_agg_df.fillna(0)
    return full_agg_df

In [67]:
calculate_metric(
    df, value_name, user_id_name, list_user_id, date_name, period, metric_name
)

Unnamed: 0,a,sum
0,1,2.0
1,2,4.0
2,3,0.0
3,4,0.0


In [68]:
"""Вычисляет метрики во время пилота, коварианту и преобразованную метрику cuped.
    
    df - pd.DataFrame, датафрейм с данными
    value_name - str, название столбца со значениями для вычисления целевой метрики
    user_id_name - str, название столбца с идентификаторами пользователей
    list_user_id - List[int], список идентификаторов пользователей, для которых нужно посчитать метрики
    date_name - str, название столбца с датами
    periods - dict, словарь с датами начала и конца периода пилота и препилота.
        Пример, {
            'prepilot': {'begin': '2020-01-01', 'end': '2020-01-08'},
            'pilot': {'begin': '2020-01-08', 'end': '2020-01-15'}
        }.
        Дата начала периода входит в полуинтервал, а дата окончания нет,
        то есть '2020-01-01' <= date < '2020-01-08'.
    metric_name - str, название полученной метрики

    return - pd.DataFrame, со столбцами
        [user_id_name, metric_name, f'{metric_name}_prepilot', f'{metric_name}_cuped'],
        кол-во строк должно быть равно кол-ву элементов в списке list_user_id.
    """

"Вычисляет метрики во время пилота, коварианту и преобразованную метрику cuped.\n    \n    df - pd.DataFrame, датафрейм с данными\n    value_name - str, название столбца со значениями для вычисления целевой метрики\n    user_id_name - str, название столбца с идентификаторами пользователей\n    list_user_id - List[int], список идентификаторов пользователей, для которых нужно посчитать метрики\n    date_name - str, название столбца с датами\n    periods - dict, словарь с датами начала и конца периода пилота и препилота.\n        Пример, {\n            'prepilot': {'begin': '2020-01-01', 'end': '2020-01-08'},\n            'pilot': {'begin': '2020-01-08', 'end': '2020-01-15'}\n        }.\n        Дата начала периода входит в полуинтервал, а дата окончания нет,\n        то есть '2020-01-01' <= date < '2020-01-08'.\n    metric_name - str, название полученной метрики\n\n    return - pd.DataFrame, со столбцами\n        [user_id_name, metric_name, f'{metric_name}_prepilot', f'{metric_name}_cupe

In [69]:
periods={
            'prepilot': {'begin': '2020-01-01', 'end': '2020-01-09'},
            'pilot': {'begin': '2020-01-09', 'end': '2020-01-15'}
        }

In [72]:
def calculate_metric_cuped(
    df, value_name, user_id_name, list_user_id, date_name, periods, metric_name
):
    df_prepilot = calculate_metric(
        df, value_name, user_id_name, list_user_id, date_name,
        periods['prepilot'], metric_name
    ).rename(columns={metric_name: f'{metric_name}_prepilot'})
    df_pilot = calculate_metric(
        df, value_name, user_id_name, list_user_id, date_name,
        periods['pilot'], metric_name
    )
    df = pd.merge(
        df_prepilot,
        df_pilot,
        on=user_id_name
    )
    # CUPED
    target_values = df[metric_name].values
    covariate_values = df[f'{metric_name}_prepilot'].values
    covariance = np.cov(target_values, covariate_values)[0, 1]
    variance = covariate_values.var()
    theta = covariance / variance
    df[f'{metric_name}_cuped'] = (
        target_values - theta * covariate_values
    )
    return df

In [73]:
calculate_metric_cuped(
    df, value_name, user_id_name, list_user_id, date_name, periods, metric_name
)

Unnamed: 0,a,sum_prepilot,sum,sum_cuped
0,1,2.0,3.0,0.818182
1,2,4.0,3.0,-1.363636
2,3,0.0,0.0,0.0
3,4,0.0,0.0,0.0


In [77]:
df_prepilot = calculate_metric(
        df, value_name, user_id_name, list_user_id, date_name,
        periods['prepilot'], metric_name
    ).rename(columns={metric_name: f'{metric_name}_prepilot'})
df_pilot = calculate_metric(
        df, value_name, user_id_name, list_user_id, date_name,
        periods['pilot'], metric_name
    )
df = pd.merge(
        df_prepilot,
        df_pilot,
        on=user_id_name
    )
target_values = df[metric_name].values
covariate_values = df[f'{metric_name}_prepilot'].values
covariance = np.cov(target_values, covariate_values)[0, 1]
variance = covariate_values.var()
theta = covariance / variance

In [78]:
target_values

array([3., 3., 0., 0.])

In [79]:
covariate_values

array([2., 4., 0., 0.])

In [80]:
covariance

3.0

In [81]:
variance

2.75

In [82]:
theta

1.0909090909090908